Lingüística comparativa cuantitativa

La lingüística comparativa cuantitativa es el uso del análisis cuantitativo aplicado a la lingüística comparativa . Algunos ejemplos son los campos estadísticos de la lexicoestadística y la glotocronología , y la adopción de la filogenética de la biología.

Historia

Los métodos estadísticos se han utilizado con fines de análisis cuantitativo en lingüística comparada durante más de un siglo. Durante la década de 1950, surgió la lista Swadesh : un conjunto estandarizado de conceptos léxicos que se encuentran en la mayoría de las lenguas, en forma de palabras o frases, y que permiten comparar y contrastar empíricamente dos o más lenguas.

Probablemente el primer estudio cuantitativo de lingüística histórica publicado fue el de Sapir en 1916 ^[1] , mientras que Kroeber y Chretien en 1937 ^[2] investigaron nueve lenguas indoeuropeas (IE) utilizando 74 características morfológicas y fonológicas (ampliadas en 1939 con la inclusión del hitita). Ross ^[3] en 1950 llevó a cabo una investigación sobre la base teórica de tales estudios. Swadesh, utilizando listas de palabras, desarrolló la lexicoestadística y la glotocronología en una serie de artículos ^[4] publicados a principios de la década de 1950, pero estos métodos fueron ampliamente criticados ^[5] aunque algunos de los críticos fueron vistos como injustificados por otros académicos. Embleton publicó un libro sobre "Estadísticas en lingüística histórica" en 1986 que revisó el trabajo previo y amplió el método glotocronológico. Dyen, Kruskal y Black llevaron a cabo un estudio del método lexicoestadístico en una gran base de datos de IE en 1992. ^[6]

Durante la década de 1990, hubo un renovado interés en el tema, basado en la aplicación de métodos de filogenética computacional y cladística . Tales proyectos a menudo involucraron la colaboración de académicos lingüísticos y colegas con experiencia en ciencias de la información y/o antropología biológica . Estos proyectos a menudo buscaban llegar a un árbol filogenético óptimo (o red), para representar una hipótesis sobre la ascendencia evolutiva y quizás sus contactos lingüísticos. Entre los pioneros en estos métodos se encuentran los fundadores de CPHL: filogenética computacional en lingüística histórica (proyecto CPHL): Donald Ringe , Tandy Warnow , Luay Nakhleh y Steven N. Evans .

A mediados de los años 1990, un grupo de la Universidad de Pensilvania computarizó el método comparativo y utilizó una base de datos de lenguas antiguas diferente con 20 lenguas antiguas. ^[7] En el campo biológico, se desarrollaron varios programas de software que podrían tener aplicación en la lingüística histórica. En particular, un grupo de la Universidad de Auckland desarrolló un método que proporcionaba fechas controvertidamente antiguas para las lenguas antiguas. ^[8] En agosto de 1999 se celebró una conferencia sobre "Profundidad temporal en la lingüística histórica" en la que se discutieron muchas aplicaciones de los métodos cuantitativos. ^[9] Posteriormente, se han publicado muchos artículos sobre estudios de varios grupos lingüísticos, así como comparaciones de los métodos.

En 2003, la publicación por los antropólogos Russell Gray y Quentin Atkinson de un breve estudio sobre las lenguas indoeuropeas en Nature generó una mayor atención de los medios . Gray y Atkinson intentaron cuantificar, en un sentido probabilístico, la edad y el parentesco de las lenguas indoeuropeas modernas y, en ocasiones, de las protolenguas anteriores.

Las actas de una influyente conferencia de 2004, Métodos filogenéticos y prehistoria de las lenguas, se publicaron en 2006, editadas por Peter Forster y Colin Renfrew .

Familias lingüísticas estudiadas

Se han realizado análisis filogenéticos computacionales para:

Lenguas indoeuropeas : Bouckaert (2012) ^[10]
Lenguas urálicas : Honkola (2013) ^[11]
Lenguas turcas : Hruschka (2014) ^[12]
Lenguas dravídicas : Kolipakam (2018) ^[13]
Lenguas austroasiáticas : Sidwell (2015) ^[14]
Lenguas austronesias : Gray (2009) ^[15]
Lenguas pama-nyungan : Bowern y Atkinson (2012), ^[16] Bouckaert, Bowern y Atkinson (2018) ^[17]
Lenguas bantúes : Currie (2013), ^[18] Grollemund (2015) ^[19]
Lenguas semíticas : cocina (2009) ^[20]
Lenguas dené-yeniseianas : Sicoli y Holton (2014) ^[21]
Lenguas uto-aztecas : Wheeler y Whiteley (2014) ^[22]
Lenguas mayas : Atkinson (2006) ^[23]
Lenguas arahuacas : Walker y Ribeiro (2011) ^[24]
Lenguas tupí-guaraníes : Michael (2015) ^[25]
Lenguas sino-tibetanas : Zhang et al. (2019), ^[26] Sagart et al. (2019) ^[27]

Fondo

El método estándar para evaluar las relaciones lingüísticas ha sido el método comparativo . Sin embargo, tiene una serie de limitaciones. No todo el material lingüístico es adecuado como entrada y existen problemas con los niveles lingüísticos en los que opera el método. Las lenguas reconstruidas están idealizadas y diferentes investigadores pueden producir diferentes resultados. Los árboles genealógicos de las lenguas se utilizan a menudo junto con el método y los "préstamos" deben excluirse de los datos, lo que es difícil cuando el préstamo se produce dentro de una familia. A menudo se afirma que el método está limitado en la profundidad temporal en la que puede operar. El método es difícil de aplicar y no hay una prueba independiente. ^[28] Por lo tanto, se han buscado métodos alternativos que tengan un método formalizado, cuantifiquen las relaciones y puedan probarse.

Un objetivo de la lingüística histórica comparativa es identificar casos de parentesco genético entre lenguas. ^[29] Los pasos del análisis cuantitativo son (i) idear un procedimiento basado en fundamentos teóricos, en un modelo particular o en la experiencia pasada, etc. (ii) verificar el procedimiento aplicándolo a algunos datos donde existe un gran cuerpo de opinión lingüística para comparación (esto puede llevar a una revisión del procedimiento de la etapa (i) o, en el extremo, a su abandono total) (iii) aplicar el procedimiento a datos donde las opiniones lingüísticas aún no se han producido, aún no se han establecido firmemente o tal vez incluso están en conflicto. ^[30]

La aplicación de métodos filogenéticos a los idiomas es un proceso de varias etapas: (a) la etapa de codificación: pasar de los idiomas reales a alguna expresión de las relaciones entre ellos en forma de datos numéricos o de estado, de modo que esos datos puedan usarse como entrada para los métodos filogenéticos; (b) la etapa de representación: aplicar métodos filogenéticos para extraer de esos datos numéricos y/o de estado una señal que se convierte en alguna forma útil de representación, generalmente gráficas bidimensionales como árboles o redes, que sintetizan y "colapsan" lo que a menudo son relaciones multidimensionales altamente complejas en la señal; (c) la etapa de interpretación: evaluar esas representaciones de árboles y redes para extraer de ellas lo que realmente significan para los idiomas reales y sus relaciones a través del tiempo. ^[31]

Tipos de árboles y redes

Un resultado de un análisis lingüístico histórico cuantitativo es normalmente un árbol o un diagrama de red. Esto permite una visualización resumida de los datos de salida pero no es el resultado completo. Un árbol es un gráfico acíclico conectado , que consta de un conjunto de vértices (también conocidos como "nodos") y un conjunto de aristas ("ramas") cada una de las cuales conecta un par de vértices. ^[32] Un nodo interno representa un ancestro lingüístico en un árbol o red filogenética. Cada lengua está representada por un camino, los caminos muestran los diferentes estados a medida que evoluciona. Solo hay un camino entre cada par de vértices. Los árboles sin raíz trazan la relación entre los datos de entrada sin suposiciones sobre su descendencia. Un árbol con raíz identifica explícitamente un ancestro común, a menudo especificando una dirección de evolución o incluyendo un "grupo externo" que se sabe que solo está distantemente relacionado con el conjunto de lenguas que se están clasificando. La mayoría de los árboles son binarios, es decir, un padre tiene dos hijos. Siempre se puede producir un árbol, aunque no siempre sea apropiado. Un tipo diferente de árbol es el que solo se basa en similitudes / diferencias lingüísticas. En este caso, los nodos internos del gráfico no representan ancestros, sino que se introducen para representar el conflicto entre las diferentes divisiones ("biparticiones") en el análisis de datos. La "distancia fenética" es la suma de los pesos (a menudo representados como longitudes) a lo largo del camino entre idiomas. A veces se hace una suposición adicional de que estos nodos internos sí representan ancestros.

Cuando los idiomas convergen, generalmente con la adopción de palabras ("préstamo"), un modelo de red es más apropiado. Habrá bordes adicionales para reflejar la doble ascendencia de un idioma. Estos bordes serán bidireccionales si ambos idiomas toman prestado uno del otro. Un árbol es, por lo tanto, una red simple, sin embargo, hay muchos otros tipos de redes. Una red filogenética es una en la que los taxones están representados por nodos y sus relaciones evolutivas están representadas por ramas. ^[33] Otro tipo es el basado en divisiones, y es una generalización combinatoria del árbol dividido. Un conjunto dado de divisiones puede tener más de una representación, por lo que los nodos internos pueden no ser ancestros y son solo una representación "implícita" de la historia evolutiva a diferencia de la representación "explícita" de las redes filogenéticas. En una red dividida, la distancia frenética es la del camino más corto entre dos idiomas. Otro tipo es la red reticular que muestra incompatibilidades (debidas, por ejemplo, al contacto) ya que las reticulaciones y sus nodos internos representan ancestros. Una red también puede construirse agregando bordes de contacto a un árbol. El último tipo principal es la red de consenso formada a partir de árboles. Estos árboles pueden ser el resultado de un análisis bootstrap o de muestras de una distribución posterior.

Cambio de idioma

Los idiomas cambian continuamente, pero no suelen hacerlo a un ritmo constante ^[34] , y su efecto acumulativo produce divisiones en dialectos, idiomas y familias lingüísticas. En general, se cree que la morfología cambia más lentamente y la fonología más rápidamente. A medida que se producen cambios, quedan cada vez menos pruebas de la lengua original. Por último, puede perderse cualquier prueba de parentesco. Los cambios de un tipo pueden no afectar a otros tipos; por ejemplo, los cambios de sonido no afectan a la cognacidad. A diferencia de la biología, no se puede suponer que todos los idiomas tengan un origen común y es necesario establecer el parentesco. En los modelos, a menudo se supone, por simplicidad, que los caracteres cambian de forma independiente, pero puede que no sea así. Además de los préstamos, también puede haber cambios semánticos y polimorfismo.

Entrada de análisis

Datos

El análisis puede realizarse sobre los "caracteres" de las lenguas o sobre las "distancias" de las mismas. En el primer caso, la entrada a una clasificación de lenguas generalmente toma la forma de una matriz de datos donde las filas corresponden a las diversas lenguas que se analizan y las columnas corresponden a diferentes características o caracteres mediante los cuales se puede describir cada lengua. Estas características son de dos tipos: cognados o datos tipológicos. Los caracteres pueden tomar una o más formas (homoplasia) y pueden ser léxicos, morfológicos o fonológicos. Los cognados son morfemas (léxicos o gramaticales) o construcciones más grandes. Los caracteres tipológicos pueden provenir de cualquier parte de la gramática o el léxico. Si hay lagunas en los datos, estas deben codificarse.

Además de la base de datos original de datos (no filtrados), en muchos estudios se forman subconjuntos para propósitos particulares (datos filtrados).

En lexicoestadística, las características son los significados de las palabras o, más bien, los espacios semánticos. Por lo tanto, las entradas de la matriz son una serie de glosas. Tal como lo ideó originalmente Swadesh, se debía elegir la palabra más común para un espacio, lo que puede resultar difícil y subjetivo debido al cambio semántico. Los métodos posteriores pueden permitir que se incorpore más de un significado.

Restricciones

Algunos métodos permiten establecer restricciones sobre la geografía del contacto lingüístico (aislamiento por distancia) y sobre los tiempos de división de los subgrupos.

Bases de datos

Swadesh publicó originalmente una lista de 200 palabras, pero luego la refinó hasta convertirla en una de 100 palabras. ^[35] Una base de datos de lenguas IE de uso común es la de Dyen, Kruskal y Black, que contiene datos de 95 lenguas, aunque se sabe que la original contiene algunos errores. Además de los datos en bruto, también contiene juicios de cognación. Estos están disponibles en línea. ^[36] La base de datos de Ringe, Warnow y Taylor tiene información sobre 24 lenguas IE, con 22 caracteres fonológicos, 15 caracteres morfológicos y 333 caracteres léxicos. Gray y Atkinson utilizaron una base de datos de 87 lenguas con 2449 elementos léxicos, basada en el conjunto de Dyen con la adición de tres lenguas antiguas. Incorporaron los juicios de cognación de varios eruditos. Se han elaborado otras bases de datos para familias de lenguas africanas, australianas y andinas, entre otras.

La codificación de los datos puede realizarse en forma binaria o en forma multiestado. La primera se utiliza a menudo, pero da lugar a un sesgo. Se ha afirmado que existe un factor de escala constante entre los dos métodos de codificación y que se puede tener en cuenta este factor. Sin embargo, otro estudio sugiere que la topología puede cambiar ^[37].

Listas de palabras

Las ranuras de palabras se eligen para que sean lo más libres posible de la cultura y de los préstamos. Las listas originales de Swadesh son las más utilizadas, pero se han ideado muchas otras para fines particulares. A menudo, estas son más cortas que la lista de 100 elementos preferida por Swadesh. Kessler ha escrito un libro sobre "La importancia de las listas de palabras" ^[38], mientras que McMahon y McMahon llevaron a cabo estudios sobre los efectos de la reconstructabilidad y la capacidad de retención. ^[28] Se ha estudiado el efecto de aumentar el número de ranuras y se ha encontrado una ley de rendimientos decrecientes, con aproximadamente 80 como número satisfactorio. ^[39] Sin embargo, algunos estudios han utilizado menos de la mitad de este número.

Generalmente, cada conjunto de cognados se representa como un carácter diferente, pero las diferencias entre palabras también se pueden medir como una medida de distancia mediante cambios de sonido. Las distancias también se pueden medir letra por letra.

Características morfológicas

Tradicionalmente, se ha considerado que estos rasgos son más importantes que los léxicos, por lo que algunos estudios han otorgado un peso adicional a este tipo de características. Por ejemplo, estas características se incluyeron en la base de datos de IE de Ringe, Warnow y Taylor, pero otros estudios las han omitido.

Características tipológicas

Entre estos rasgos se encuentran las constantes glotalizadas, los sistemas tonales, la alineación acusativa en los sustantivos, el número dual, la correspondencia entre el número de caso, el orden de objeto y verbo y los pronombres en primera persona del singular. Estos rasgos se incluirán en la base de datos WALS, aunque todavía no está muy poblada en muchos idiomas. ^[40]

Modelos probabilísticos

Algunos métodos de análisis incorporan un modelo estadístico de la evolución del lenguaje y utilizan las propiedades del modelo para estimar la historia de la evolución. Los modelos estadísticos también se utilizan para simular datos con fines de prueba. Se puede utilizar un proceso estocástico para describir cómo evoluciona un conjunto de caracteres dentro de un lenguaje. La probabilidad con la que un carácter cambiará puede depender de la rama, pero no todos los caracteres evolucionan juntos, ni la tasa es idéntica en todas las ramas. A menudo se supone que cada carácter evoluciona de forma independiente, pero no siempre es así. Dentro de un modelo también se pueden modelar el préstamo y el desarrollo paralelo (homoplasia), así como los polimorfismos.

Efectos del azar

^{Las semejanzas aleatorias producen un nivel de ruido contra el cual se debe encontrar la señal de relación requerida. Ringe [41]} realizó un estudio sobre los efectos del azar en el método de comparación de masas . Éste demostró que las semejanzas aleatorias eran fundamentales para la técnica y que las conclusiones de Greenberg no podían justificarse, aunque el procedimiento matemático utilizado por Ringe fue posteriormente criticado.

Con bases de datos pequeñas los errores de muestreo pueden ser importantes.

En algunos casos, con una base de datos grande y una búsqueda exhaustiva de todos los árboles o redes posibles no es factible debido a limitaciones de tiempo de ejecución. Por lo tanto, existe la posibilidad de que no se encuentre la solución óptima mediante métodos de búsqueda heurística en el espacio de soluciones.

Detección de endeudamiento

Los préstamos pueden afectar gravemente la topología de un árbol, por lo que se realizan esfuerzos para excluirlos. Sin embargo, a veces aún existen préstamos no detectados. McMahon y McMahon ^[42] demostraron que alrededor del 5 % de los préstamos pueden afectar la topología, mientras que el 10 % tiene efectos significativos. En las redes, los préstamos producen reticulaciones. Minett y Wang ^[43] examinaron formas de detectar préstamos automáticamente.

Citas divididas

La datación de las divisiones lingüísticas se puede determinar si se conoce cómo evolucionan los caracteres a lo largo de cada rama de un árbol. La suposición más simple es que todos los caracteres evolucionan a una tasa constante con el tiempo y que esto es independiente de la rama del árbol. Esta fue la suposición hecha en glotocronología. Sin embargo, los estudios pronto mostraron que había variación entre idiomas, algunos probablemente debidos a la presencia de préstamos no reconocidos. ^[44] Un mejor enfoque es permitir la variación de la tasa, y la distribución gamma se utiliza generalmente debido a su conveniencia matemática. También se han realizado estudios que muestran que la tasa de reemplazo de caracteres depende de la frecuencia de uso. ^[45] El préstamo generalizado puede sesgar las estimaciones del tiempo de divergencia al hacer que los idiomas parezcan más similares y, por lo tanto, más recientes. Sin embargo, esto también hace que la longitud de la rama del ancestro sea más larga, de modo que la raíz no se ve afectada. ^[46]

Este aspecto es la parte más controvertida de la lingüística comparativa cuantitativa.

Tipos de análisis

Es necesario comprender cómo funciona un método de clasificación de idiomas para determinar sus supuestos y limitaciones. Puede que solo sea válido en determinadas condiciones o que sea adecuado para bases de datos pequeñas. Los métodos difieren en sus requisitos de datos, su complejidad y su tiempo de ejecución. Los métodos también difieren en sus criterios de optimización.

Modelos basados en personajes

Máxima parsimonia y máxima compatibilidad

Estos dos métodos son similares, pero el objetivo del método de máxima parsimonia es encontrar el árbol (o red) en el que se produce el número mínimo de cambios evolutivos. En algunas implementaciones, se pueden asignar pesos a los caracteres y, en ese caso, el objetivo es minimizar la suma ponderada total de los cambios. El análisis produce árboles sin raíz, a menos que se utilice un grupo externo o caracteres dirigidos. Se utilizan heurísticas para encontrar el mejor árbol, pero no se garantiza la optimización. El método se suele implementar utilizando los programas PAUP o TNT.

La compatibilidad máxima también utiliza caracteres, con el objetivo de encontrar el árbol en el que evoluciona el número máximo de caracteres sin homoplasia. Nuevamente, los caracteres pueden ponderarse y, cuando esto ocurre, el objetivo es maximizar la suma de los pesos de los caracteres compatibles. También produce árboles sin raíz a menos que se incorpore información adicional. No hay heurísticas disponibles que sean precisas con bases de datos grandes. Este método solo ha sido utilizado por el grupo de Ringe. ^[47]

En estos dos métodos, a menudo se encuentran varios árboles con la misma puntuación, por lo que la práctica habitual es encontrar un árbol de consenso mediante un algoritmo. Un consenso mayoritario tiene biparticiones en más de la mitad de los árboles de entrada, mientras que un consenso voraz agrega biparticiones al árbol mayoritario. El árbol de consenso estricto es el menos resuelto y contiene aquellas divisiones que están en todos los árboles.

Se utiliza el bootstrapping (una estrategia de remuestreo estadístico) para proporcionar valores de soporte de las ramas. La técnica selecciona aleatoriamente caracteres de la matriz de datos de entrada y luego se utiliza el mismo análisis. El valor de soporte es la fracción de las ejecuciones con esa bipartición en el árbol observado. Sin embargo, el bootstrapping requiere mucho tiempo.

Máxima verosimilitud y análisis bayesiano

Ambos métodos utilizan modelos de evolución explícitos. El método de máxima verosimilitud optimiza la probabilidad de producir los datos observados, mientras que el análisis bayesiano estima la probabilidad de cada árbol y, por lo tanto, produce una distribución de probabilidad. Se realiza un recorrido aleatorio a través del "espacio del árbol modelo". Ambos tardan un tiempo indeterminado en ejecutarse y la detención puede ser arbitraria, por lo que la decisión es un problema. Sin embargo, ambos producen información de apoyo para cada rama.

Los supuestos de estos métodos son evidentes y verificables. La complejidad del modelo se puede aumentar si es necesario. Los parámetros del modelo se calculan directamente a partir de los datos de entrada, por lo que se evitan los supuestos sobre la tasa evolutiva.

Redes filogenéticas perfectas

Este método produce una red filogenética explícita que tiene un árbol subyacente con aristas de contacto adicionales. Los caracteres pueden tomarse prestados, pero evolucionan sin homoplasia. Para producir dichas redes, se ha utilizado un algoritmo de teoría de grafos ^{[48] .}

El método de Gray y Atkinson

Los datos léxicos de entrada se codifican en forma binaria, con un carácter para cada estado del carácter multiestado original. El método permite la homoplasia y las restricciones en los tiempos de división. Se utiliza un método de análisis basado en la probabilidad, con la evolución expresada como una matriz de velocidad. La ganancia y la pérdida cognadas se modelan con una distribución gamma para permitir la variación de la velocidad y con suavizado de la velocidad. Debido a la gran cantidad de árboles posibles con muchos idiomas, se utiliza la inferencia bayesiana para buscar el árbol óptimo. Un algoritmo de Monte Carlo de cadena de Markov ^[49] genera una muestra de árboles como una aproximación a la distribución de probabilidad posterior. Se puede proporcionar un resumen de esta distribución como un árbol de consenso voraz o una red con valores de soporte. El método también proporciona estimaciones de fecha.

El método es preciso cuando los caracteres originales son binarios y evolucionan de forma idéntica e independiente entre sí según un modelo de tasas entre sitios con tasas distribuidas en gamma; las fechas son precisas cuando la tasa de cambio es constante. Comprender el rendimiento del método cuando los caracteres originales son multiestado es más complicado, ya que la codificación binaria produce caracteres que no son independientes, mientras que el método supone independencia.

El método de Nicholls y Gray

Este método ^[50] es una consecuencia del de Gray y Atkinson. En lugar de tener dos parámetros para un carácter, este método utiliza tres. Se especifican la tasa de natalidad, la tasa de mortalidad de un cognado y su tasa de endeudamiento. La tasa de natalidad es una variable aleatoria de Poisson con un único nacimiento de una clase cognada pero se permiten muertes separadas de ramas (parsimonia de Dollo). El método no permite la homoplasia pero sí el polimorfismo y las restricciones. Su principal problema es que no puede manejar datos faltantes (este problema ha sido resuelto posteriormente por Ryder y Nicholls. ^[51] Se utilizan técnicas estadísticas para ajustar el modelo a los datos. Se puede incorporar información previa y se realiza una investigación MCMC de posibles reconstrucciones. El método se ha aplicado a la base de datos de Gray y Nichol y parece dar resultados similares.

Modelos basados en la distancia

Estos utilizan una matriz triangular de comparaciones de idiomas por pares. La matriz de caracteres de entrada se utiliza para calcular la matriz de distancias, ya sea mediante la distancia de Hamming o la distancia de Levenshtein . La primera mide la proporción de caracteres coincidentes, mientras que la segunda permite incluir los costos de las diversas transformaciones posibles. Estos métodos son rápidos en comparación con los que se basan completamente en caracteres. Sin embargo, estos métodos dan como resultado una pérdida de información.

UPGMA

El "Método de agrupamiento por pares no ponderado con media aritmética" ( UPGMA ) es una técnica de agrupamiento que funciona uniendo repetidamente los dos idiomas que tienen la menor distancia entre sí. Funciona con precisión con una evolución similar a un reloj, pero de lo contrario puede ser erróneo. Este es el método utilizado en las lexicoestadísticas originales de Swadesh.

Descomposición dividida

Esta es una técnica para dividir datos en grupos naturales. ^[52] Los datos pueden ser caracteres, pero más comúnmente son medidas de distancia. Los recuentos de caracteres o distancias se utilizan para generar las divisiones y calcular pesos (longitudes de rama) para las divisiones. Las divisiones ponderadas se representan luego en un árbol o red en función de minimizar el número de cambios entre cada par de taxones. Existen algoritmos rápidos para generar la colección de divisiones. Los pesos se determinan a partir de las distancias de taxón a taxón. La descomposición por divisiones es efectiva cuando el número de taxones es pequeño o cuando la señal no es demasiado complicada.

Vecino uniéndose

Este método opera con datos de distancia, calcula una transformación de la matriz de entrada y luego calcula la distancia mínima de los pares de idiomas. ^[53] Funciona correctamente incluso si los idiomas no evolucionan con un reloj léxico. También se puede utilizar una versión ponderada del método. El método produce un árbol de salida. Se afirma que es el método más cercano a las técnicas manuales para la construcción de árboles.

Red vecinal

Utiliza un algoritmo similar al de la unión de vecinos. ^[54] A diferencia de la descomposición dividida, no fusiona los nodos inmediatamente, sino que espera hasta que un nodo se haya emparejado una segunda vez. Luego, los nodos del árbol se reemplazan por dos y se reduce la matriz de distancia. Puede manejar conjuntos de datos grandes y complicados. Sin embargo, el resultado es un fenograma en lugar de un filograma. Este es el método de red más popular.

Red

Este fue uno de los primeros métodos de redes que se ha utilizado para algunos análisis del lenguaje. Originalmente se desarrolló para secuencias genéticas con más de un origen posible. ^[55] La red colapsa los árboles alternativos en una sola red. Cuando hay múltiples historias, se dibuja una reticulación (una forma de caja). Genera una lista de caracteres incompatibles con un árbol.

ÁSPID

Este método utiliza un formalismo de representación de conocimiento declarativo y los métodos de Programación de Conjuntos de Respuestas. ^[56] Uno de estos solucionadores es CMODELS, que se puede utilizar para problemas pequeños, pero los más grandes requieren heurísticas. Se utiliza un preprocesamiento para determinar los caracteres informativos. CMODELS los transforma en una teoría proposicional que utiliza un solucionador SAT para calcular los modelos de esta teoría.

Fitch/Kitch

Fitch y Kitch son programas basados en máxima verosimilitud en PHYLIP que permiten reorganizar un árbol después de cada adición, a diferencia de NJ. Kitch se diferencia de Fitch en que supone una tasa de cambio constante a lo largo del árbol, mientras que Fitch permite diferentes tasas a lo largo de cada rama. ^[57]

Método de nivel de separación

En 2000, Holm introdujo un método para abordar algunos problemas conocidos del análisis lexicoestadístico: la "trampa de la simplesiomórfica", en la que los arcaísmos compartidos son difíciles de distinguir de las innovaciones compartidas, y la "trampa de la proporcionalidad", en la que los cambios posteriores pueden ocultar los cambios iniciales. Más tarde, introdujo un método refinado, llamado SLD, para tener en cuenta la distribución variable de palabras en los distintos idiomas. ^[58] El método no presupone una tasa de cambio constante.

Métodos de convergencia rápida

Se han desarrollado varios métodos de análisis de convergencia rápida para su uso con bases de datos de gran tamaño (>200 idiomas). Uno de ellos es el método de recubrimiento de disco (DCM). ^[59] Este se ha combinado con métodos existentes para ofrecer un mejor rendimiento. Los mismos autores ofrecen un artículo sobre el método DCM-NJ+MP en "El rendimiento de los métodos filogenéticos en árboles de diámetro limitado", ^{[ cita completa necesaria ]} donde se lo compara con el método NJ.

Modelos basados en semejanza

Estos modelos comparan las letras de las palabras en lugar de su fonética. Dunn et al. ^[60] estudiaron 125 caracteres tipológicos en 16 lenguas austronesias y 15 papúes. Compararon sus resultados con un árbol de multidimensionalidad y uno construido mediante análisis tradicional. Se encontraron diferencias significativas. De manera similar, Wichmann y Saunders ^[61] utilizaron 96 caracteres para estudiar 63 lenguas estadounidenses.

Comparación de masas por ordenador

Un método que se ha sugerido para la inspección inicial de un conjunto de idiomas para ver si están relacionados fue la comparación de masas . Sin embargo, esto ha sido severamente criticado y cayó en desuso. Recientemente Kessler ha resucitado una versión computarizada del método pero utilizando pruebas de hipótesis rigurosas. ^[62] El objetivo es hacer uso de similitudes entre más de dos idiomas a la vez. En otro artículo ^[63] se evalúan varios criterios para comparar listas de palabras. Se encontró que las familias IE y Uralic podían reconstruirse, pero no había evidencia de una superfamilia conjunta.

El método de Nichol

Este método utiliza campos léxicos estables, como los verbos de postura, para intentar establecer relaciones a larga distancia. ^[64] Se tienen en cuenta la convergencia y los cambios semánticos para buscar cognados antiguos. Se describe un modelo y se presentan los resultados de un estudio piloto.

Asociación Japonesa de Jubilados y Pensionados (ASJP)

El Programa Automatizado de Juicio de Similitud (ASJP) es similar a la lexicoestadística , pero el juicio de similitudes lo realiza un programa informático siguiendo un conjunto consistente de reglas. ^[65] Los árboles se generan utilizando métodos filogenéticos estándar. ASJP utiliza 7 símbolos vocálicos y 34 símbolos consonánticos. También hay varios modificadores. Dos palabras se juzgan similares si al menos dos consonantes consecutivas en las respectivas palabras son idénticas, mientras que las vocales también se tienen en cuenta. La proporción de palabras con el mismo significado juzgadas como similares para un par de idiomas es el Porcentaje de Similitud Léxica (LSP). También se calcula el Porcentaje de Similitud Fonológica (PSP). Luego, el PSP se resta del LSP, lo que produce el Porcentaje de Similitud Restada (SSP) y la distancia ASJP es 100-SSP. Actualmente hay datos sobre más de 4500 idiomas y dialectos en la base de datos ASJP ^[66] a partir de la cual se generó un árbol de los idiomas del mundo. ^[67]

El método de Serva y Petroni

Mide la distancia ortográfica entre palabras para evitar la subjetividad de los juicios de cognacidad. ^[68] Determina el número mínimo de operaciones necesarias para transformar una palabra en otra, normalizado por la longitud de la palabra más larga. Se construye un árbol a partir de los datos de distancia mediante la técnica UPGMA.

Métodos de evaluación fonética

Heggarty ha propuesto un método para proporcionar una medida de los grados de diferencia entre cognados, en lugar de sólo respuestas de sí/no. ^[69] Esto se basa en examinar muchas (>30) características de la fonética de las glosas en comparación con el protolenguaje. Esto podría requerir una gran cantidad de trabajo, pero Heggarty afirma que sólo es necesaria una muestra representativa de sonidos. También examinó la tasa de cambio de la fonética y encontró una gran variación de la tasa, por lo que no era adecuada para la glotocronología. Grimes y Agard habían llevado a cabo anteriormente una evaluación similar de la fonética para las lenguas romances, pero en ella se utilizaron sólo seis puntos de comparación. ^[70]

Evaluación de métodos

Métrica

Existen técnicas matemáticas estándar para medir la similitud/diferencia de dos árboles. Para los árboles de consenso, el índice de consistencia (IC) es una medida de homoplasia. Para un carácter, es la relación entre el número mínimo concebible de pasos en cualquier árbol (= 1 para árboles binarios) dividido por el número de pasos reconstruidos en el árbol. El IC de un árbol es la suma de los IC de los caracteres dividida por el número de caracteres. ^[71] Representa la proporción de patrones asignados correctamente.

El índice de retención (IR) mide la cantidad de similitud en un carácter. Es la relación (g - s) / (g - m), donde g es el mayor número de pasos de un carácter en cualquier árbol, m es el número mínimo de pasos en cualquier árbol y s es el número mínimo de pasos en un árbol en particular. También existe un IC reescalado que es el producto del IC y el IR.

En el caso de los árboles binarios, la forma estándar de comparar su topología es utilizar la métrica de Robinson-Foulds . ^[72] Esta distancia es el promedio del número de falsos positivos y falsos negativos en términos de ocurrencia de ramificaciones. Las tasas de RF superiores al 10 % se consideran coincidencias deficientes. Para otros tipos de árboles y para redes, aún no existe un método estándar de comparación.

Algunos métodos de producción de árboles generan listas de caracteres incompatibles. Estas pueden resultar extremadamente útiles para analizar el resultado. Cuando se utilizan métodos heurísticos, la repetibilidad es un problema. Sin embargo, se utilizan técnicas matemáticas estándar para superar este problema.

Comparación con análisis anteriores

Para evaluar los métodos se elige una familia de lenguas bien conocida, con un conjunto de datos fiable. Esta familia suele ser la de lenguas indoeuropeas, pero se han utilizado otras. Después de aplicar los métodos que se van a comparar con la base de datos, los árboles resultantes se comparan con el árbol de referencia determinado por los métodos lingüísticos tradicionales. El objetivo es que no haya conflictos en la topología, por ejemplo, que no falten subgrupos y que las fechas sean compatibles. Las familias sugeridas para este análisis por Nichols y Warnow ^[73] son la germánica, la romance, la eslava, la túrquica común, la china y la mixe zoque, así como grupos más antiguos como la oceánica y la de lenguas indoeuropeas.

Uso de simulaciones

Aunque el uso de lenguajes reales añade realismo y plantea problemas reales, el método de validación anterior adolece del hecho de que se desconoce la verdadera evolución de los lenguajes. Al generar un conjunto de datos a partir de un árbol de evolución simulado se conoce la correcta. Sin embargo, será una versión simplificada de la realidad. Por lo tanto, se deben utilizar ambas técnicas de evaluación.

Análisis de sensibilidad

Para evaluar la robustez de una solución es conveniente variar los datos de entrada y las restricciones, y observar el resultado. Cada variable se modifica ligeramente a su vez. Este análisis se ha llevado a cabo en varios casos y se ha demostrado que los métodos son robustos, por ejemplo, por Atkinson y Gray. ^[74]

Estudios que comparan métodos

A principios de los años 1990, el lingüista Donald Ringe , junto con los informáticos Luay Nakhleh y Tandy Warnow , el estadístico Steven N. Evans y otros, comenzaron a colaborar en la investigación de proyectos lingüísticos comparativos cuantitativos. Más tarde fundaron el proyecto CHPL, cuyos objetivos incluyen: "producir y mantener conjuntos de datos lingüísticos reales, en particular de lenguas indoeuropeas", "formular modelos estadísticos que capturen la evolución de datos lingüísticos históricos", "diseñar herramientas de simulación y medidas de precisión para generar datos sintéticos para estudiar el rendimiento de los métodos de reconstrucción", y "desarrollar e implementar métodos estadísticos y combinatorios para reconstruir filogenias lingüísticas, incluidas las redes filogenéticas". ^[75]

Rexova et al. (2003) compararon los métodos de codificación . ^[76] Crearon un conjunto de datos reducido a partir de la base de datos Dyen, pero con la adición de hitita. Produjeron una matriz multiestado estándar donde los 141 estados de caracteres corresponden a clases cognadas individuales, lo que permite el polimorfismo. También unieron algunas clases cognadas para reducir la subjetividad y no se permitieron estados polimórficos. Por último, produjeron una matriz binaria donde cada clase de palabras se trataba como un carácter separado. Las matrices se analizaron mediante PAUP. Se encontró que el uso de la matriz binaria producía cambios cerca de la raíz del árbol.

McMahon y McMahon (2003) utilizaron tres programas PHYLIP (NJ, Fitch y Kitch) en el conjunto de datos DKB. ^[77] Encontraron que los resultados producidos eran muy similares. Se utilizó el bootstrapping para probar la robustez de cualquier parte del árbol. Más tarde, utilizaron subconjuntos de los datos para evaluar su capacidad de retención y reconstrucción. ^[42] Los resultados mostraron diferencias topológicas que se atribuyeron al préstamo. Luego también utilizaron Network, Split Decomposition, Neighbor-net y SplitsTree en varios conjuntos de datos. Se encontraron diferencias significativas entre los dos últimos métodos. Neighbor-net se consideró óptimo para discernir el contacto lingüístico.

En 2005, Nakhleh, Warnow, Ringe y Evans realizaron una comparación de seis métodos de análisis utilizando una base de datos indoeuropea. ^[78] Los métodos comparados fueron UPGMA, NJ MP, MC, WMC y GA. El paquete de software PAUP se utilizó para UPGMA, NJ y MC, así como para calcular los árboles de consenso mayoritarios. Se utilizó la base de datos RWT, pero se eliminaron 40 caracteres debido a la evidencia de polimorfismo. Luego, se produjo una base de datos filtrada excluyendo todos los caracteres que claramente exhibieron un desarrollo paralelo, eliminando así 38 características. Los árboles se evaluaron sobre la base del número de caracteres incompatibles y de acuerdo con los resultados de subagrupamiento establecidos. Encontraron que UPGMA era claramente el peor, pero no había mucha diferencia entre los otros métodos. Los resultados dependían del conjunto de datos utilizado. Se encontró que la ponderación de los caracteres era importante, lo que requiere un juicio lingüístico.

Saunders (2005) ^[79] comparó NJ, MP, GA y Neighbor-Net con una combinación de datos léxicos y tipológicos. Recomendó el uso del método GA, pero Nichols y Warnow tienen algunas dudas sobre la metodología del estudio. ^[80]

Cysouw et al. (2006) ^[81] compararon el método original de Holm con los métodos de NJ, Fitch, MP y SD. Encontraron que el método de Holm era menos preciso que los otros.

En 2013, François Barbancon, Warnow, Evans, Ringe y Nakleh (2013) estudiaron varios métodos de reconstrucción de árboles utilizando datos simulados. ^[82] Sus datos simulados variaban en el número de aristas de contacto, el grado de homoplasia, la desviación de un reloj léxico y la desviación del supuesto de tasas entre sitios. Se encontró que la precisión de los métodos no ponderados (MP, NJ, UPGMA y GA) fue consistente en todas las condiciones estudiadas, siendo MP el mejor. La precisión de los dos métodos ponderados (WMC y WMP) dependía de la idoneidad del esquema de ponderación. Con baja homoplasia, los métodos ponderados generalmente produjeron los resultados más precisos, pero una ponderación inapropiada podría hacer que estos fueran peores que MP o GA bajo niveles de homoplasia moderados o altos.

Elegir el mejor modelo

La elección de un modelo apropiado es fundamental para la producción de buenos análisis filogenéticos. Tanto los modelos subparametrizados como los excesivamente restrictivos pueden producir un comportamiento aberrante cuando se violan sus supuestos subyacentes, mientras que los modelos excesivamente complejos o sobreparametrizados requieren largos tiempos de ejecución y sus parámetros pueden estar sobreajustados. ^[83] El método más común de selección de modelos es la "Prueba de razón de verosimilitud", que produce una estimación del ajuste entre el modelo y los datos, pero como alternativa se puede utilizar el Criterio de información de Akaike o el Criterio de información bayesiano. Hay programas informáticos de selección de modelos disponibles.

Véase también

Notas

^ Sapir, Edward (1916). "Perspectiva temporal en la cultura aborigen americana: un estudio de método". Geological Survey Memoir 90, No. 13. Serie antropológica. Ottawa: Oficina de Imprenta del Gobierno.
^ Kroeber, AL; Chrétien, CD (1937). "Clasificación cuantitativa de las lenguas indoeuropeas". Lengua . 13 (2): 83–103. doi :10.2307/408715. JSTOR 408715.
^ Ross, Alan SC (1950). "Problemas de probabilidad filológica". Revista de la Royal Statistical Society. Serie B (Metodológica) . 12 (1): 19–59. doi :10.1111/j.2517-6161.1950.tb00040.x. JSTOR 2983831.
^ Swadesh, Morris (1952). "Datación léxico-estadística de contactos étnicos prehistóricos: con especial referencia a los indios norteamericanos y los esquimales". Actas de la American Philosophical Society . 96 (4): 452–463. JSTOR 3143802.
^ Bergsland, Knut; Vogt, Hans (1962). "Sobre la validez de la glotocronología". Antropología actual . 3 (2): 115–153. doi :10.1086/200264. JSTOR 2739527. S2CID 144236043.
^ Dyen, Isidore; Kruskal, Joseph B.; Black, Paul (1992). "Una clasificación indoeuropea: un experimento lexicoestadístico". Transacciones de la American Philosophical Society . 82 (5): iii–132. doi :10.2307/1006517. JSTOR 1006517.
^ Ringe, Don; Warnow, Tandy; Taylor, Ann (2002). "Cladística indoeuropea y computacional". Transactions of the Philological Society . 100 : 59–129. doi : 10.1111/1467-968X.00091 .
^ Anunciado inicialmente en Gray, Russell D.; Atkinson, Quentin D. (2003). "Los tiempos de divergencia de los árboles lingüísticos respaldan la teoría anatoliana del origen indoeuropeo". Nature . 426 (6965): 435–439. Bibcode :2003Natur.426..435G. doi :10.1038/nature02029. PMID 14647380. S2CID 42340.
^ Publicado por Renfrew, McMahon y Trask en 2000
^ Bouckaert, R.; Lemey, P.; Dunn, M.; Greenhill, SJ; Alekseyenko, AV; Drummond, AJ; Gray, RD; Suchard, MA; Atkinson, QD (2012). "Mapeo de los orígenes y la expansión de la familia de lenguas indoeuropeas". Science . 337 (6097): 957–960. Bibcode :2012Sci...337..957B. doi :10.1126/science.1219669. PMC 4112997 . PMID 22923579.
^ Honkola, T.; Vesakoski, O.; Korhonen, K.; Lehtinen, J.; Syrjänen, K.; Wahlberg, N. (2013). "Los cambios culturales y climáticos dan forma a la historia evolutiva de las lenguas urálicas". Revista de biología evolutiva . 26 (6): 1244–1253. doi : 10.1111/jeb.12107 . PMID 23675756. S2CID 7966025.
^ Hruschka, Daniel J.; Branford, Simon; Smith, Eric D.; Wilkins, Jon; Meade, Andrew; Pagel, Mark; Bhattacharya, Tanmoy (2015). "Detección de cambios regulares de sonido en lingüística como eventos de evolución concertada". Current Biology . 25 (1): 1–9. Bibcode :2015CBio...25....1H. doi :10.1016/j.cub.2014.10.064. PMC 4291143 . PMID 25532895.
^ Kolipakam, Vishnupriya; Jordan, Fiona M.; Dunn, Michael; Greenhill, Simon J.; Bouckaert, Remco; Gray, Russell D.; Verkerk, Annemarie (2018). "Un estudio filogenético bayesiano de la familia de lenguas dravídicas". Royal Society Open Science . 5 (3): 171504. Bibcode :2018RSOS....571504K. doi :10.1098/rsos.171504. PMC 5882685 . PMID 29657761.
^ Sidwell, Paul. 2015. Un análisis filogenético exhaustivo de las lenguas austroasiáticas. Presentado en Diversity Linguistics: Retrospect and Prospect, 1–3 de mayo de 2015 (Leipzig, Alemania), conferencia de clausura del Departamento de Lingüística del Instituto Max Planck de Antropología Evolutiva.
^ Gray, RD; Drummond, AJ; Greenhill, SJ (2009). "Las filogenias del lenguaje revelan pulsos y pausas de expansión en el asentamiento del Pacífico". Science . 323 (5913): 479–483. Bibcode :2009Sci...323..479G. doi :10.1126/science.1166858. PMID 19164742. S2CID 29838345.
^ Bowern, Claire y Atkinson, Quentin, 2012. Filogenética computacional y la estructura interna de Pama-Nyungan. Language, vol. 88, 817-845.
^ Bouckaert, Remco R.; Bowern, Claire; Atkinson, Quentin D. (2018). "El origen y la expansión de las lenguas pama-nyungan en Australia". Nature Ecology & Evolution . 2 (4): 741–749. Bibcode :2018NatEE...2..741B. doi :10.1038/s41559-018-0489-3. PMID 29531347. S2CID 4208351.
^ Currie, Thomas E.; Meade, Andrew; Guillon, Myrtille; Mace, Ruth (2013). "Filogeografía cultural de las lenguas bantúes del África subsahariana". Actas de la Royal Society B: Biological Sciences . 280 (1762): 20130695. doi :10.1098/rspb.2013.0695. PMC 3673054 . PMID 23658203.
^ Grollemund, Rebecca; Branford, Simon; Bostoen, Koen; Meade, Andrew; Venditti, Chris; Pagel, Mark (2015). "La expansión bantú muestra que el hábitat altera la ruta y el ritmo de las dispersiones humanas". Actas de la Academia Nacional de Ciencias . 112 (43): 13296–13301. Bibcode :2015PNAS..11213296G. doi : 10.1073/pnas.1503793112 . PMC 4629331 . PMID 26371302.
^ Kitchen, Andrew; Ehret, Christopher; Assefa, Shiferaw; Mulligan, Connie J. (2009). "El análisis filogenético bayesiano de las lenguas semíticas identifica un origen semítico en la Edad del Bronce Temprano en Oriente Próximo". Actas de la Royal Society B: Biological Sciences . 276 (1668): 2703–2710. doi :10.1098/rspb.2009.0408. PMC 2839953 . PMID 19403539.
^ Sicoli, Mark A.; Holton, Gary (2014). "Las filogenias lingüísticas respaldan la remigración desde Beringia a Asia". PLOS ONE . 9 (3): e91722. Bibcode :2014PLoSO...991722S. doi : 10.1371/journal.pone.0091722 . PMC 3951421 . PMID 24621925.
^ Wheeler, Ward C.; Whiteley, Peter M. (2015). "La lingüística histórica como un problema de optimización de secuencias: La evolución y biogeografía de las lenguas utoaztecas" (PDF) . Cladistics . 31 (2): 113–125. doi :10.1111/cla.12078. PMID 34758582. S2CID 86030904.
^ Atkinson, QD (2006). De las especies a las lenguas: un enfoque filogenético de la historia humana. Tesis doctoral, Universidad de Auckland, Auckland.
^ Walker, Robert S.; Ribeiro, Lincoln A. (2011). "Filogeografía bayesiana de la expansión arahuaca en las tierras bajas de Sudamérica". Actas de la Royal Society B: Biological Sciences . 278 (1718): 2562–2567. doi :10.1098/rspb.2010.2579. PMC 3136831 . PMID 21247954.
^ Michael, Lev, Natalia Chousou-Polydouri, Keith Bartolomei, Erin Donnelly, Vivian Wauters, Sérgio Meira, Zachary O'Hagan. 2015. Una clasificación filogenética bayesiana del tupí-guaraní. LIAMES 15(2):193-221.
^ Zhang, Menghan; Yan, Shi; Pan, Wuyun; Jin, Li (2019). "Evidencia filogenética de origen sino-tibetano en el norte de China en el Neolítico Tardío". Nature . 569 (7754): 112–115. Bibcode :2019Natur.569..112Z. doi :10.1038/s41586-019-1153-z. PMID 31019300. S2CID 129946000.
^ Sagart, Laurent; Jacques, Guillaume; Lai, Yunfan; Ryder, Robin; Thouzeau, Valentin; Greenhill, Simon J.; List, Johann-Mattis (2019). "Las filogenias de las lenguas datadas arrojan luz sobre la ascendencia del chino-tibetano". Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 116 (21): 10317–10322. Bibcode :2019PNAS..11610317S. doi : 10.1073/pnas.1817972116 . PMC 6534992 . PMID 31061123.
^ ab McMahon, April MS; McMahon, Robert (2005). Clasificación de idiomas por números . Oxford University Press. ISBN 978-0199279029.
^ Harrison, SP (2003). "Sobre los límites del método comparativo". En Brian D. Joseph; Richard D. Janda (eds.). The Handbook of Historical Linguistics . Blackwell Publishing. págs. 213–243. doi :10.1002/9781405166201.ch2. ISBN 9781405166201.
^ Embleton, Sheila M (1986). Estadísticas en lingüística histórica . Brockmeyer. ISBN 9783883395371.
^ Heggarty, Paul (2006). "¿Indisciplina interdisciplinaria? ¿Pueden los métodos filogenéticos aplicarse de manera significativa a los datos lingüísticos y a la datación de las lenguas?" (PDF) . En Peter Forster; Colin Renfrew (eds.). Métodos filogenéticos y la prehistoria de las lenguas . Monografías del Instituto McDonald. Instituto McDonald de Investigación Arqueológica. Archivado desde el original (PDF) el 28 de enero de 2021. Consultado el 22 de febrero de 2020 .
^ Nichols, Johanna; Warnow, Tandy (2008). "Tutorial sobre filogenia lingüística computacional". Language and Linguistics Compass . 2 (5): 760–820. doi :10.1111/j.1749-818X.2008.00082.x.
^ Huson, Daniel H.; Bryant, David (2006). "Aplicación de redes filogenéticas en estudios evolutivos". Biología molecular y evolución . 23 (2): 254–267. doi : 10.1093/molbev/msj030 . PMID 16221896.
^ Atkinson, QD; Meade, A.; Venditti, C.; Greenhill, SJ; Pagel, M. (2008). "Los idiomas evolucionan en ráfagas de puntuación". Science . 319 (5863): 588. doi :10.1126/science.1149683. hdl : 1885/33371 . PMID 18239118. S2CID 29740420.
^ Swadesh, Morris (1955). "Hacia una mayor precisión en la datación lexicoestadística". Revista internacional de lingüística americana . 21 (2): 121–137. doi :10.1086/464321. JSTOR 1263939. S2CID 144581963.
^ En http://www.idc.upenn.edu ^{[ enlace muerto permanente ]}
^ Rexova, K. (2003). «Análisis cladístico de lenguas: clasificación indoeuropea basada en datos lexicoestadísticos». Cladistics . 19 (2): 120–127. doi : 10.1016/S0748-3007(02)00147-0 (inactivo 2024-03-21).{{cite journal}}: CS1 maint: DOI inactivo a partir de marzo de 2024 ( enlace )
^ Publicaciones CSLI, 2001
^ Holman, Eric W.; Wichmann, Søren; Brown, Cecil H.; Velupillai, Viveka; Müller, André; Bakker, Dik (2008). "Exploraciones en la clasificación automática de idiomas". Folia Linguistica . 42 (3–4). doi :10.1515/FLIN.2008.331. S2CID 82275473.
^ Haspelmath et al. , Atlas mundial de estructuras lingüísticas, OUP 2005
^ Sobre el cálculo del factor de azar en la comparación de idiomas, Transactions of the American Philosophical Society 82 (1992)
^ ab Clasificación de idiomas por números
^ Sobre la detección de préstamos, Diachronia 20/2 (2003)
^ ver, por ejemplo, Bergsland y Vogt
^ Por ejemplo, Pagel, Atkinson y Meade, La frecuencia del uso de palabras predice las tasas de evolución léxica a lo largo de la historia indoeuropea, Nature 449, 11 de octubre de 2007
^ Atkinson y Gray, ¿Qué antigüedad tiene la familia indoeuropea? (en Métodos filogenéticos y la prehistoria de las lenguas, Forster y Renfrew, 2006)
^ Cladística indoeuropea y computacional, Transactions of the Philosophical Society 100/1 (2002)
^ Nakhleh et al. Redes filogenéticas perfectas, Language 81 (2005)
^ Metrópolis y otros 1953
^ Nicholls, Geoff K.; Gray, Russell D. "Cuantificación de la incertidumbre en un modelo estocástico de evolución del vocabulario". Métodos filogenéticos y la prehistoria de las lenguas . Instituto Mcdonald de Investigación Arqueológica. págs. 161–171. CiteSeerX 10.1.1.799.8282 .
^ Ryder, Robin; Nicholls, Geoff (2011), "Datos faltantes en un modelo estocástico de Dollo para datos afines y su aplicación a la datación del protoindoeuropeo", Journal of the Royal Statistical Society, Serie C , 60 (1): 71–92, doi : 10.1111/j.1467-9876.2010.00743.x , S2CID 118853910
^ Bandelt y vestido 1992
^ Saitou y Nei (1987)
^ Bryant y Moulton: Neighbor-net, un método aglomerativo para la construcción de redes filogenéticas - Molecular Biology and Evolution 21 (2003)
^ Bandelt y otros 1995
^ Brooks, Erdem. Minett y Ringe: Cladística basada en caracteres y programación de conjuntos de respuestas
^ McMahon y McMahon
^ Holm: El nuevo arboreto de árboles indoeuropeos - Journal of Quantitative Linguistics 14 (2007)
^ Nakhleh, Roshan, St John, Sun y Warnow : Diseño de métodos filogenéticos de rápida convergencia - Bioinformática, OUP 2001
^ Filogenética estructural y reconstrucción de la historia de las lenguas antiguas, Science 309, 2072 (2005)
^ Cómo utilizar bases de datos tipológicas en la investigación lingüística histórica ^{[ enlace roto ]} , Diachronica 24, 373 (2007)
^ Véase, por ejemplo, La evaluación matemática de las relaciones lingüísticas de largo alcance - Language and Linguistics Compass 2/5 (2008)
^ Kessler y Lehtonen: Comparación multilateral y prueba de significación
^ Nichols: Cuasi-cognados y cambios de tipo léxico (en Filogenética y la prehistoria de las lenguas, Forster y Renfrew, 2006)
^ Brown et al.: Clasificación automatizada de las lenguas del mundo, Sprachtypologie und Universalienforschung, 61.4: 285-308, 2008 Archivado el 23 de junio de 2010 en Wayback Machine .
^ Lenguajes procesados por ASJP Archivado el 11 de mayo de 2010 en Wayback Machine (15 de marzo de 2010)
^ Müller, A., S. Wichmann, V. Velupillai et al. 2010. ASJP World Language Tree of Lexical Similarity: Versión 3 (julio de 2010). Archivado el 30 de julio de 2010 en Wayback Machine.
^ Árbol de las lenguas indoeuropeas según la distancia de Levenstein
^ Cuantificación del cambio a lo largo del tiempo en la fonética (en Time-depth in Historical Linguistics, Renfrew, McMahon y Trask, 2001)
^ Diversidad lingüística en las lenguas romances, Lengua 35 1959
^ Kluge y Farris, Zoología sistemática 18, 1-32 (1969)
^ Robinson y Foulds: Comparación de árboles filogenéticos - Biociencias matemáticas - 53 (1981)
^ Tutorial sobre filogenia lingüística computacional, Lenguaje y Brújula Lingüística 2/5 (2008)
^ ¿Qué antigüedad tiene la familia de lenguas indoeuropeas? (en Métodos filogenéticos y la prehistoria de las lenguas, Forster y Renfrew, 2006)
^ CPHL: Filogenética computacional en lingüística histórica (página de inicio), 2009 (17 de octubre de 2017).
^ Análisis cladístico de las lenguas, Cladistics 19/2 (2003)
^ Encontrar familias, métodos cuantitativos en la clasificación de lenguas. Transactions of the Philological Society 101 (2003)
^ Nakhleh, Warnow, Ringe y Evans, "Una comparación de los métodos de reconstrucción filogenética en un conjunto de datos de IE" (2005)
^ Filogenética lingüística de tres familias austronesias, Tesis de licenciatura en Swarthmore College (2005)
^ Tutorial sobre filogenia lingüística computacional
^ Una crítica del método de separación de bases para la subagrupación genealógica, con datos del mixe-zoqueano ^{[ enlace muerto ]} , Journal of Quantitative Linguistics 13, 225 (2006)
^ Barbancon, Warnow, Evans, Ringe y Nakhleh, Un estudio experimental que compara los métodos de reconstrucción filogenética lingüística
^ Sullivan y Joyce, Selección de modelos en filogenética ^{[ enlace roto ]} , Revista anual de ecología, evolución y sistemática 36 (2005)

Bibliografía

Atkinson, Nicholls, Welsh y Gray: De las palabras a las fechas - Transacciones de la Sociedad Filológica 103 (2005).
Bandelt y Drew: Descomposición dividida - Evolución filogenética molecular 1 (1992).
Bandelt, Forster y Rohl: Redes de unión mediana para inferir filogenias intraespecíficas - Molecular Biological Evolution 16 (1999).
Bryant, Filimon y Gray: Desenredando nuestro pasado: idiomas, árboles, divisiones y redes ^{[ enlace roto ]} (en La evolución de la diversidad cultural por Mace, Holden y Shennan UCL 2005).
Evans y Warnow : Tiempos de divergencia no identificables en modelos de tasas entre sitios - IEEE/ACM Transactions on Computational Biology and Bioinformation 1 (2005).
Huelsenbeck y Ronquist: Sr. Bayes, Inferencia bayesiana de filogenia - Bioinformática 17 (2001).
Huson: Splitstree, un programa para analizar y visualizar datos evolutivos - Bioinfomatics 14(1) (1998).
Warnow , Evans, Ringe y Nakhleh: Un modelo estocástico de la evolución del lenguaje que incorpora la homoplasia y el préstamo (en Métodos filogenéticos y la prehistoria de los lenguajes - Forster y Renfrew, 2006).
Efron, Halloran y Holmes: Niveles de confianza bootstrap para árboles filogenéticos - Actas de la Academia Nacional de Ciencias de Estados Unidos 93 (1996).
Kowalski y Thorton: Rendimiento de las filogenias de máxima parsimonia y verosimilitud cuando la evolución es heterogénea - Nature 431 (2004).
Felsentein: Casos en los que los métodos de parsimonia y compatibilidad serán positivamente engañosos - Zoología Sistemática 27 (1978).
Rogers: La estimación de máxima verosimilitud de los árboles filogenéticos es consistente cuando las tasas de sustitución varían de acuerdo con los sitios invariables más la distribución gamma - Biología Sistemática 59 (2001).