stringtranslate.com

Lingüística comparada cuantitativa

La lingüística comparada cuantitativa es el uso del análisis cuantitativo aplicado a la lingüística comparada . Los ejemplos incluyen los campos estadísticos de lexicoestadística y glotocronología , y el préstamo de filogenética de la biología.

Historia

Los métodos estadísticos se han utilizado con fines de análisis cuantitativo en lingüística comparada durante más de un siglo. Durante la década de 1950, surgió la lista Swadesh : un conjunto estandarizado de conceptos léxicos que se encuentran en la mayoría de los idiomas, como palabras o frases, que permiten comparar y contrastar empíricamente dos o más idiomas.

Probablemente el primer estudio cuantitativo de lingüística histórica publicado fue el de Sapir en 1916, [1] mientras que Kroeber y Chretien en 1937 [2] investigaron nueve lenguas indoeuropeas (IE) utilizando 74 características morfológicas y fonológicas (ampliadas en 1939 con la inclusión del hitita). ). Ross [3] llevó a cabo en 1950 una investigación sobre las bases teóricas de tales estudios. Swadesh, utilizando listas de palabras, desarrolló lexicoestadística y glotocronología en una serie de artículos [4] publicados a principios de la década de 1950, pero estos métodos fueron ampliamente criticados [5] aunque algunos de las críticas fueron consideradas injustificadas por otros estudiosos. Embleton publicó un libro sobre "Estadística en lingüística histórica" ​​en 1986 que revisó trabajos anteriores y amplió el método glotocronológico. Dyen, Kruskal y Black llevaron a cabo un estudio del método lexicoestadístico en una gran base de datos de IE en 1992. [6]

Durante la década de 1990, hubo un renovado interés en el tema, basado en la aplicación de métodos de filogenética y cladística computacional . Estos proyectos a menudo implicaban la colaboración de lingüistas y colegas con experiencia en ciencias de la información y/o antropología biológica . Estos proyectos a menudo buscaban llegar a un árbol (o red) filogenético óptimo , para representar una hipótesis sobre la ascendencia evolutiva y tal vez sus contactos lingüísticos. Los pioneros en estos métodos incluyeron a los fundadores de CPHL: filogenética computacional en lingüística histórica (proyecto CPHL): Donald Ringe , Tandy Warnow , Luay Nakhleh y Steven N. Evans .

A mediados de la década de 1990, un grupo de la Universidad de Pensilvania computarizó el método comparativo y utilizó una base de datos IE diferente con 20 lenguas antiguas. [7] En el campo biológico se desarrollaron varios programas de software que podrían tener aplicación en la lingüística histórica. En particular, un grupo de la Universidad de Auckland desarrolló un método que proporcionaba fechas antiguas y controvertidas para los idiomas IE. [8] En agosto de 1999 se celebró una conferencia sobre "Profundidad temporal en la lingüística histórica" ​​en la que se discutieron muchas aplicaciones de métodos cuantitativos. [9] Posteriormente se han publicado muchos artículos sobre estudios de varios grupos lingüísticos, así como comparaciones de los métodos.

En 2003 se generó una mayor atención de los medios después de la publicación por parte de los antropólogos Russell Gray y Quentin Atkinson de un breve estudio sobre las lenguas indoeuropeas en Nature . Gray y Atkinson intentaron cuantificar, en un sentido probabilístico, la edad y las relaciones de las lenguas indoeuropeas modernas y, a veces, de las protolenguas precedentes.

Las actas de una influyente conferencia de 2004, Phylogenetic Methods and the Prehistory of Languages, se publicaron en 2006, editadas por Peter Forster y Colin Renfrew .

Familias lingüísticas estudiadas

Se han realizado análisis filogenéticos computacionales para:

Fondo

El método estándar para evaluar las relaciones lingüísticas ha sido el método comparativo . Sin embargo, esto tiene una serie de limitaciones. No todo el material lingüístico es adecuado como insumo y existen cuestiones relacionadas con los niveles lingüísticos en los que opera el método. Los lenguajes reconstruidos están idealizados y diferentes estudiosos pueden producir resultados diferentes. Los árboles genealógicos lingüísticos se utilizan a menudo junto con el método y los "préstamos" deben excluirse de los datos, lo que resulta difícil cuando los préstamos se realizan dentro de una familia. A menudo se afirma que el método está limitado en el tiempo durante el cual puede operar. El método es difícil de aplicar y no existe una prueba independiente. [28] Por lo tanto, se han buscado métodos alternativos que tengan un método formalizado, cuantifiquen las relaciones y puedan ser probados.

Un objetivo de la lingüística histórica comparada es identificar casos de relación genética entre lenguas. [29] Los pasos en el análisis cuantitativo son (i) diseñar un procedimiento basado en fundamentos teóricos, en un modelo particular o en experiencias pasadas, etc. (ii) verificar el procedimiento aplicándolo a algunos datos donde existe una gran cantidad de datos. conjunto de opiniones lingüísticas para su comparación (esto puede conducir a una revisión del procedimiento de la etapa (i) o al extremo de su abandono total) (iii) aplicar el procedimiento a datos donde aún no se han producido opiniones lingüísticas, no se han todavía están firmemente establecidos o tal vez incluso estén en conflicto. [30]

La aplicación de métodos filogenéticos a las lenguas es un proceso de varias etapas: (a) la etapa de codificación: pasar de las lenguas reales a alguna expresión de las relaciones entre ellas en forma de datos numéricos o de estado, de modo que esos datos puedan luego usarse como entrada. a métodos filogenéticos (b) la etapa de representación: aplicar métodos filogenéticos para extraer de esos datos numéricos y/o de estado una señal que se convierte en alguna forma útil de representación, generalmente gráficas bidimensionales, como árboles o redes, que sintetizan y " colapsar" lo que a menudo son relaciones multidimensionales altamente complejas en la señal (c) la etapa de interpretación: evaluar esas representaciones de árbol y red para extraer de ellas lo que realmente significan para los lenguajes reales y sus relaciones a través del tiempo. [31]

Tipos de árboles y redes.

El resultado de un análisis lingüístico histórico cuantitativo es normalmente un árbol o un diagrama de red. Esto permite una visualización resumida de los datos de salida, pero no es el resultado completo. Un árbol es un gráfico acíclico conectado , que consta de un conjunto de vértices (también conocidos como "nodos") y un conjunto de aristas ("ramas"), cada una de las cuales conecta un par de vértices. [32] Un nodo interno representa un ancestro lingüístico en un árbol o red filogénica. Cada idioma está representado por un camino, los caminos muestran los diferentes estados a medida que evoluciona. Sólo hay un camino entre cada par de vértices. Los árboles sin raíces trazan la relación entre los datos de entrada sin suposiciones sobre su descendencia. Un árbol enraizado identifica explícitamente un ancestro común, a menudo especificando una dirección de evolución o incluyendo un "grupo externo" que se sabe que está relacionado sólo lejanamente con el conjunto de lenguas que se clasifican. La mayoría de los árboles son binarios, es decir, un padre tiene dos hijos. Un árbol siempre se puede producir aunque no siempre sea apropiado. Un tipo diferente de árbol es el que se basa únicamente en similitudes/diferencias de idiomas. En este caso, los nodos internos del gráfico no representan a los antepasados, sino que se introducen para representar el conflicto entre las diferentes divisiones ("biparticiones") en el análisis de datos. La "distancia fenética" es la suma de los pesos (a menudo representados como longitudes) a lo largo del camino entre idiomas. A veces se hace una suposición adicional de que estos nodos internos representan antepasados.

Cuando los idiomas convergen, generalmente con la adopción de palabras ("préstamo"), un modelo de red es más apropiado. Habrá aristas adicionales para reflejar la doble ascendencia de una lengua. Estos bordes serán bidireccionales si ambos idiomas se toman prestado el uno del otro. Por tanto, un árbol es una red simple; sin embargo, existen muchos otros tipos de redes. Una red filogenética es aquella en la que los taxones están representados por nodos y sus relaciones evolutivas están representadas por ramas. [33] Otro tipo es el que se basa en divisiones y es una generalización combinatoria del árbol dividido. Un conjunto dado de divisiones puede tener más de una representación, por lo que los nodos internos pueden no ser ancestros y son sólo una representación "implícita" de la historia evolutiva a diferencia de la representación "explícita" de las redes filogenéticas. En una red dividida la distancia frenética es la del camino más corto entre dos lenguas. Otro tipo es la red reticular que muestra incompatibilidades (debidas, por ejemplo, al contacto), ya que las reticulaciones y sus nodos internos representan ancestros. También se puede construir una red agregando bordes de contacto a un árbol. El último tipo principal es la red de consenso formada a partir de árboles. Estos árboles pueden ser el resultado de un análisis bootstrap o de muestras de una distribución posterior.

Cambio de idioma

Los cambios ocurren continuamente en las lenguas, pero generalmente no a un ritmo constante, [34] y su efecto acumulativo produce divisiones en dialectos, lenguas y familias de lenguas. Generalmente se piensa que la morfología cambia más lentamente y la fonología es la más rápida. A medida que se producen cambios, queda cada vez menos evidencia del idioma original. Finalmente podría haber pérdida de cualquier evidencia de parentesco. Es posible que los cambios de un tipo no afecten a otros tipos; por ejemplo, los cambios de sonido no afectan el cognacy. A diferencia de la biología, no se puede dar por sentado que todas las lenguas tengan un origen común y que sea necesario establecer relaciones. En el modelado a menudo se supone, por simplicidad, que los personajes cambian de forma independiente, pero puede que este no sea el caso. Además de los préstamos, también puede haber cambios semánticos y polimorfismo.

Entrada de análisis

Datos

El análisis puede realizarse sobre los "caracteres" de las lenguas o sobre las "distancias" de las lenguas. En el primer caso, la entrada a una clasificación de idiomas generalmente toma la forma de una matriz de datos donde las filas corresponden a los diversos idiomas que se analizan y las columnas corresponden a diferentes características o caracteres mediante los cuales se puede describir cada idioma. Estos rasgos son de dos tipos cognados o datos tipológicos. Los caracteres pueden adoptar una o más formas (homoplasia) y pueden ser léxicos, morfológicos o fonológicos. Los cognados son morfemas (léxicos o gramaticales) o construcciones más grandes. Los caracteres tipológicos pueden provenir de cualquier parte de la gramática o del léxico. Si hay lagunas en los datos, éstas deben codificarse.

Además de la base de datos original de datos (no seleccionados), en muchos estudios se forman subconjuntos para propósitos particulares (datos seleccionados).

En lexicoestadística los rasgos son los significados de las palabras, o más bien espacios semánticos. Así, las entradas de la matriz son una serie de glosas. Tal como lo ideó originalmente Swadesh, la palabra más común para un espacio era elegir, lo cual puede ser difícil y subjetivo debido al cambio semántico. Los métodos posteriores pueden permitir incorporar más de un significado.

Restricciones

Algunos métodos permiten imponer restricciones a la geografía de contacto lingüístico (aislamiento por distancia) y a los tiempos divididos de los subgrupos.

Bases de datos

Swadesh publicó originalmente una lista de 200 palabras, pero luego la refinó hasta convertirla en una de 100 palabras. [35] Una base de datos de IE comúnmente utilizada es la de Dyen, Kruskal y Black, que contiene datos para 95 idiomas, aunque se sabe que el original contiene algunos errores. Además de los datos brutos, también contiene juicios relacionados. Esto está disponible en línea. [36] La base de datos de Ringe, Warnow y Taylor tiene información sobre 24 lenguas IE, con 22 caracteres fonológicos, 15 caracteres morfológicos y 333 caracteres léxicos. Gray y Atkinson utilizaron una base de datos de 87 idiomas con 2449 elementos léxicos, basada en el conjunto Dyen con la adición de tres idiomas antiguos. Incorporaron los juicios sobre cognacy de varios estudiosos. Se han elaborado otras bases de datos para familias de lenguas africanas, australianas y andinas, entre otras.

La codificación de los datos puede realizarse en forma binaria o en forma multiestado. El primero se utiliza con frecuencia, pero da lugar a un sesgo. Se ha afirmado que existe un factor de escala constante entre los dos métodos de codificación y que se puede tener en cuenta este factor. Sin embargo, otro estudio sugiere que la topología puede cambiar [37]

Listas de palabras

Las ranuras de palabras se eligen para que estén lo más libres posible de cultura y préstamos. Las listas originales de Swadesh son las más utilizadas, pero se han ideado muchas otras para fines particulares. A menudo, estos son más cortos que la lista de 100 elementos preferida de Swadesh. Kessler ha escrito un libro sobre "La importancia de las listas de palabras [38] mientras que McMahon y McMahon llevaron a cabo estudios sobre los efectos de la reconstructibilidad y la retentividad. [28] Se ha estudiado el efecto de aumentar el número de espacios y se ha establecido una ley de rendimientos decrecientes. encontrado, y alrededor de 80 se consideraron satisfactorios [39] . Sin embargo, algunos estudios han utilizado menos de la mitad de este número.

Generalmente, cada conjunto afín se representa como un carácter diferente, pero las diferencias entre palabras también se pueden medir como una medida de distancia mediante cambios de sonido. Las distancias también se pueden medir letra por letra.

Características morfológicas

Tradicionalmente, estos se han considerado más importantes que los léxicos, por lo que algunos estudios han otorgado una importancia adicional a este tipo de caracteres. Estas características se incluyeron, por ejemplo, en la base de datos de Ringe, Warnow y Taylor IE. Sin embargo, otros estudios los han omitido.

Características tipológicas

Ejemplos de estas características incluyen constantes glotalizadas, sistemas de tonos, alineación acusativa en sustantivos, número dual, correspondencia de número de caso, orden objeto-verbo y pronombres de primera persona del singular. Estos se enumerarán en la base de datos WALS, aunque todavía está escasamente poblada para muchos idiomas. [40]

Modelos probabilísticos

Algunos métodos de análisis incorporan un modelo estadístico de la evolución del lenguaje y utilizan las propiedades del modelo para estimar la historia de la evolución. Los modelos estadísticos también se utilizan para simular datos con fines de prueba. Se puede utilizar un proceso estocástico para describir cómo evoluciona un conjunto de caracteres dentro de un idioma. La probabilidad de que un personaje cambie puede depender de la rama, pero no todos los personajes evolucionan juntos ni la velocidad es idéntica en todas las ramas. A menudo se supone que cada personaje evoluciona de forma independiente, pero no siempre es así. Dentro de un modelo también se pueden modelar préstamos y desarrollo paralelo (homoplasia), así como polimorfismos.

Efectos del azar

Las semejanzas casuales producen un nivel de ruido contra el cual hay que encontrar la señal requerida de relación. Ringe [41] llevó a cabo un estudio sobre los efectos del azar en el método de comparación de masas . Esto demostró que las semejanzas aleatorias eran fundamentales para la técnica y que las conclusiones de Greenberg no podían justificarse, aunque el procedimiento matemático utilizado por Ringe fue criticado más tarde.

Con bases de datos pequeñas, los errores de muestreo pueden ser importantes.

En algunos casos, con una base de datos grande y una búsqueda exhaustiva de todos los árboles o redes posibles no es factible debido a limitaciones de tiempo de ejecución. Por lo tanto, existe la posibilidad de que la solución óptima no se encuentre mediante métodos heurísticos de búsqueda en el espacio de soluciones.

Detección de endeudamiento

Los préstamos pueden afectar gravemente la topología de un árbol, por lo que se hacen esfuerzos para excluir los préstamos. Sin embargo, a veces todavía existen algunos que no se detectan. McMahon y McMahon [42] demostraron que alrededor del 5% del préstamo puede afectar la topología, mientras que el 10% tiene efectos significativos. En las redes el endeudamiento produce reticulaciones. Minett y Wang [43] examinaron formas de detectar automáticamente el endeudamiento.

citas divididas

La datación de las divisiones lingüísticas se puede determinar si se sabe cómo evolucionan los caracteres a lo largo de cada rama de un árbol. La suposición más simple es que todos los personajes evolucionan a un ritmo único y constante con el tiempo y que esto es independiente de la rama del árbol. Ésta fue la suposición que se hizo en la glotocronología. Sin embargo, los estudios pronto demostraron que había variaciones entre idiomas, algunas probablemente debido a la presencia de préstamos no reconocidos. [44] Un mejor enfoque es permitir la variación de la tasa, y la distribución gamma generalmente se usa debido a su conveniencia matemática. También se han realizado estudios que demuestran que la tasa de sustitución de caracteres depende de la frecuencia de uso. [45] El endeudamiento generalizado puede sesgar las estimaciones del tiempo de divergencia al hacer que las lenguas parezcan más similares y, por tanto, más jóvenes. Sin embargo, esto también hace que la longitud de las ramas del ancestro sea más larga, de modo que la raíz no se ve afectada. [46]

Este aspecto es la parte más controvertida de la lingüística comparada cuantitativa.

Tipos de análisis

Es necesario comprender cómo funciona un método de clasificación de idiomas para determinar sus supuestos y limitaciones. Puede que sólo sea válido bajo ciertas condiciones o que sea adecuado para bases de datos pequeñas. Los métodos difieren en sus requisitos de datos, su complejidad y su tiempo de ejecución. Los métodos también difieren en sus criterios de optimización.

Modelos basados ​​en personajes

Máxima parsimonia y máxima compatibilidad

Estos dos métodos son similares pero el objetivo del método de máxima parsimonia es encontrar el árbol (o red) en el que ocurre el mínimo número de cambios evolutivos. En algunas implementaciones, a los caracteres se les pueden dar pesos y luego el objetivo es minimizar la suma total ponderada de los cambios. El análisis produce árboles sin raíces a menos que se utilice un grupo externo o se dirija a personajes. Se utilizan heurísticas para encontrar el mejor árbol, pero no se garantiza la optimización. El método se implementa frecuentemente mediante los programas PAUP o TNT.

La máxima compatibilidad también utiliza personajes, con el objetivo de encontrar el árbol en el que evolucione el máximo número de personajes sin homoplasia. Nuevamente los caracteres se pueden ponderar y cuando esto ocurre el objetivo es maximizar la suma de los pesos de los caracteres compatibles. También produce árboles sin raíces a menos que se incorpore información adicional. No existen heurísticas disponibles que sean precisas con bases de datos grandes. Este método sólo ha sido utilizado por el grupo de Ringe. [47]

En estos dos métodos, a menudo se encuentran varios árboles con la misma puntuación, por lo que la práctica habitual es encontrar un árbol de consenso mediante un algoritmo. Un consenso mayoritario tiene biparticiones en más de la mitad de los árboles de entrada, mientras que un consenso codicioso agrega biparticiones al árbol mayoritario. El árbol de consenso estricto es el menos resuelto y contiene las divisiones que hay en cada árbol.

Bootstrapping (una estrategia de remuestreo estadístico) se utiliza para proporcionar valores de soporte de sucursales. La técnica selecciona caracteres al azar de la matriz de datos de entrada y luego se utiliza el mismo análisis. El valor de soporte es la fracción de ejecuciones con esa bipartición en el árbol observado. Sin embargo, el arranque requiere mucho tiempo.

Máxima verosimilitud y análisis bayesiano

Ambos métodos utilizan modelos de evolución explícitos. El método de máxima verosimilitud optimiza la probabilidad de producir los datos observados, mientras que el análisis bayesiano estima la probabilidad de cada árbol y así produce una distribución de probabilidad. Se realiza un recorrido aleatorio a través del "espacio del árbol modelo". Ambos tardan un tiempo indeterminado en ejecutarse y detenerse puede ser arbitrario, por lo que la decisión es un problema. Sin embargo, ambos producen información de soporte para cada sucursal.

Los supuestos de estos métodos son evidentes y verificables. La complejidad del modelo se puede aumentar si es necesario. Los parámetros del modelo se estiman directamente a partir de los datos de entrada, de modo que se evitan suposiciones sobre la tasa evolutiva.

Redes filogenéticas perfectas

Este método produce una red filogénica explícita que tiene un árbol subyacente con bordes de contacto adicionales. Los personajes se pueden tomar prestados pero evolucionan sin homoplasia. Para producir tales redes, se ha utilizado un algoritmo de teoría de grafos [48] .

El método de Gray y Atkinson.

Los datos léxicos de entrada se codifican en forma binaria, con un carácter para cada estado del carácter multiestado original. El método permite la homoplasia y restricciones en los tiempos parciales. Se utiliza un método de análisis basado en verosimilitud, con la evolución expresada como una matriz de tasas. Las ganancias y pérdidas afines se modelan con una distribución gamma para permitir la variación de la tasa y con suavización de la tasa. Debido a la gran cantidad de árboles posibles con muchos idiomas, se utiliza la inferencia bayesiana para buscar el árbol óptimo. Un algoritmo Markov Chain Monte Carlo [49] genera una muestra de árboles como una aproximación a la distribución de probabilidad posterior. Se puede proporcionar un resumen de esta distribución como un árbol de consenso codicioso o una red con valores de soporte. El método también proporciona estimaciones de fechas.

El método es preciso cuando los caracteres originales son binarios y evolucionan de manera idéntica e independiente entre sí bajo un modelo de tasas entre sitios con tasas distribuidas gamma; las fechas son exactas cuando la tasa de cambio es constante. Comprender el rendimiento del método cuando los caracteres originales son de múltiples estados es más complicado, ya que la codificación binaria produce caracteres que no son independientes, mientras que el método asume independencia.

El método de Nicholls y Gray

Este método [50] es una consecuencia del de Gray y Atkinson. En lugar de tener dos parámetros para un personaje, este método utiliza tres. Se especifican la tasa de natalidad, la tasa de mortalidad de un afín y su tasa de endeudamiento. La tasa de natalidad es una variable aleatoria de Poisson con un solo nacimiento de una clase afín, pero se permiten muertes separadas de ramas (parsimonia Dollo). El método no permite la homoplasia pero sí el polimorfismo y las restricciones. Su principal problema es que no puede manejar datos faltantes (este problema ya fue resuelto por Ryder y Nicholls). [51] Se utilizan técnicas estadísticas para ajustar el modelo a los datos. Se puede incorporar información previa y se puede realizar una investigación MCMC. reconstrucciones. El método se ha aplicado a la base de datos de Gray y Nichol y parece dar resultados similares.

Modelos basados ​​en distancia

Estos utilizan una matriz triangular de comparaciones de idiomas por pares. La matriz de caracteres de entrada se utiliza para calcular la matriz de distancias utilizando la distancia de Hamming o la distancia de Levenshtein . El primero mide la proporción de caracteres coincidentes, mientras que el segundo permite incluir los costos de las distintas transformaciones posibles. Estos métodos son rápidos en comparación con los que se basan totalmente en personajes. Sin embargo, estos métodos resultan en pérdida de información.

UPGMA

El "Método de grupo por pares no ponderado con media aritmética" ( UPGMA ) es una técnica de agrupación que opera uniendo repetidamente los dos idiomas que tienen la distancia más pequeña entre ellos. Funciona con precisión con una evolución similar a un reloj, pero de lo contrario puede cometer errores. Este es el método utilizado en las lexicoestadísticas originales de Swadesh.

Descomposición dividida

Esta es una técnica para dividir datos en grupos naturales. [52] Los datos podrían ser caracteres, pero normalmente son medidas de distancia. Los recuentos de caracteres o las distancias se utilizan para generar las divisiones y calcular los pesos (longitudes de las ramas) para las divisiones. Luego, las divisiones ponderadas se representan en un árbol o red basándose en minimizar el número de cambios entre cada par de taxones. Existen algoritmos rápidos para generar la colección de divisiones. Los pesos se determinan a partir de las distancias de taxón a taxón. La descomposición dividida es eficaz cuando el número de taxones es pequeño o cuando la señal no es demasiado complicada.

Vecino uniéndose

Este método opera con datos de distancia, calcula una transformación de la matriz de entrada y luego calcula la distancia mínima de los pares de idiomas. [53] Funciona correctamente incluso si las lenguas no evolucionan con un reloj léxico. También se puede utilizar una versión ponderada del método. El método produce un árbol de salida. Se afirma que es el método más cercano a las técnicas manuales para la construcción de árboles.

Red vecina

Utiliza un algoritmo similar al de unión de vecinos. [54] A diferencia de la descomposición dividida, no fusiona los nodos inmediatamente, sino que espera hasta que un nodo se haya emparejado por segunda vez. Luego, los nodos del árbol se reemplazan por dos y se reduce la matriz de distancias. Puede manejar conjuntos de datos grandes y complicados. Sin embargo, el resultado es un fenograma en lugar de un filograma. Este es el método de red más popular.

Red

Este fue uno de los primeros métodos de red que se ha utilizado para algunos análisis del lenguaje. Fue desarrollado originalmente para secuencias genéticas con más de un origen posible. [55] La red colapsa los árboles alternativos en una sola red. Cuando hay varias historias, se dibuja una reticulación (una forma de caja). Genera una lista de caracteres incompatibles con un árbol.

ÁSPID

Esto utiliza un formalismo de representación del conocimiento declarativo y los métodos de programación de conjuntos de respuestas. [56] Uno de esos solucionadores es CMODELS, que se puede utilizar para problemas pequeños, pero los más grandes requieren heurística. El preprocesamiento se utiliza para determinar los caracteres informativos. CMODELS los transforma en una teoría proposicional que utiliza un solucionador SAT para calcular los modelos de esta teoría.

Fitch/Kitch

Fitch y Kitch son programas basados ​​en máxima verosimilitud en PHYLIP que permiten reorganizar un árbol después de cada adición, a diferencia de NJ. Kitch se diferencia de Fitch en que supone una tasa de cambio constante en todo el árbol, mientras que Fitch permite diferentes tasas en cada rama. [57]

Método de nivel de separación

Holm introdujo un método en 2000 para abordar algunos problemas conocidos del análisis lexicoestadístico. Se trata de la "trampa de la simplesiomorfia", en la que los arcaísmos compartidos son difíciles de distinguir de las innovaciones compartidas, y la "trampa" de la proporcionalidad, cuando los cambios posteriores pueden oscurecer los primeros. Más tarde introdujo un método refinado, llamado SLD, para tener en cuenta la variable distribución de palabras entre idiomas [58] El método no supone una tasa de cambio constante.

Métodos de convergencia rápida

Se han desarrollado varios métodos de análisis convergentes rápidos para su uso con bases de datos grandes (>200 idiomas). Uno de ellos es el método de cobertura de disco (DCM). [59] Esto se ha combinado con métodos existentes para mejorar el rendimiento. Los mismos autores presentan un artículo sobre el método DCM-NJ+MP en "The performance of Phylogenetic Methods on Trees of Bounded Diámetro", [ cita completa necesaria ] donde se compara con el método NJ.

Modelos basados ​​en semejanza

Estos modelos comparan las letras de las palabras en lugar de su fonética. Dunn et al. [60] estudiaron 125 caracteres tipológicos en 16 lenguas austronesias y 15 papúes. Compararon sus resultados con un árbol MP y uno construido mediante análisis tradicional. Se encontraron diferencias significativas. De manera similar, Wichmann y Saunders [61] utilizaron 96 caracteres para estudiar 63 lenguas americanas.

Comparación de masas computarizada

Un método que se ha sugerido para la inspección inicial de un conjunto de idiomas para ver si están relacionados fue la comparación masiva . Sin embargo, este ha sido duramente criticado y cayó en desuso. Recientemente, Kessler ha resucitado una versión computarizada del método pero utilizando rigurosas pruebas de hipótesis. [62] El objetivo es hacer uso de similitudes en más de dos idiomas a la vez. En otro artículo [63] se evalúan varios criterios para comparar listas de palabras. Se descubrió que las familias IE y Ural podían reconstruirse, pero no había evidencia de una superfamilia conjunta.

El método de Nicol.

Este método utiliza campos léxicos estables, como los verbos de postura, para intentar establecer relaciones a larga distancia. [64] Se tienen en cuenta la convergencia y los cambios semánticos para buscar cognados antiguos. Se esboza un modelo y se presentan los resultados de un estudio piloto.

ASJP

El Programa Automatizado de Juicio de Similitudes (ASJP) es similar a la lexicoestadística , pero el juicio de similitudes lo realiza un programa de computadora que sigue un conjunto consistente de reglas. [65] Los árboles se generan utilizando métodos filogenéticos estándar. ASJP utiliza 7 símbolos vocálicos y 34 símbolos consonánticos. También hay varios modificadores. Dos palabras se consideran similares si al menos dos consonantes consecutivas en las respectivas palabras son idénticas y también se tienen en cuenta las vocales. La proporción de palabras con el mismo significado que se consideran similares para un par de idiomas es el porcentaje de similitud léxica (LSP). También se calcula el porcentaje de similitud fonológica (PSP). Luego, el PSP se resta del LSP, lo que produce el porcentaje de similitud restado (SSP) y la distancia ASJP es 100-SSP. Actualmente hay datos sobre más de 4.500 idiomas y dialectos en la base de datos ASJP [66] a partir de la cual se generó un árbol de los idiomas del mundo. [67]

El método de Serva y Petroni

Esto mide la distancia ortográfica entre palabras para evitar la subjetividad de los juicios de cognación. [68] Determina el número mínimo de operaciones necesarias para transformar una palabra en otra, normalizado por la longitud de la palabra más larga. Se construye un árbol a partir de los datos de distancia mediante la técnica UPGMA.

Métodos de evaluación fonética.

Heggarty ha propuesto una manera de proporcionar una medida de los grados de diferencia entre cognados, en lugar de simplemente respuestas de sí o no. [69] Esto se basa en examinar muchas (>30) características de la fonética de las glosas en comparación con la protolengua. Esto podría requerir una gran cantidad de trabajo, pero Heggarty afirma que sólo es necesaria una muestra representativa de sonidos. También examinó la tasa de cambio de la fonética y encontró una gran variación de tasa, por lo que no era adecuada para la glotocronología. Grimes y Agard habían llevado a cabo anteriormente una evaluación similar de la fonética para las lenguas romances, pero utilizando sólo seis puntos de comparación. [70]

Evaluación de métodos

Métrica

Se encuentran disponibles técnicas matemáticas estándar para medir la similitud/diferencia de dos árboles. Para los árboles de consenso, el índice de consistencia (IC) es una medida de homoplasia. Para un carácter, es la relación entre el número mínimo imaginable de pasos en cualquier árbol (= 1 para árboles binarios) dividido por el número de pasos reconstruidos en el árbol. El CI de un árbol es la suma de los CI de caracteres dividida por el número de caracteres. [71] Representa la proporción de patrones correctamente asignados.

El índice de retención (RI) mide la cantidad de similitud en un personaje. Es la relación (g - s) / (g - m) donde g es el mayor número de pasos de un personaje en cualquier árbol, m es el número mínimo de pasos en cualquier árbol y s es el mínimo de pasos en un árbol en particular. árbol. También hay un CI reescalado que es el producto de CI y RI.

Para árboles binarios, la forma estándar de comparar su topología es utilizar la métrica de Robinson-Foulds . [72] Esta distancia es el promedio del número de falsos positivos y falsos negativos en términos de ocurrencia de sucursales. Las tasas de RF superiores al 10% se consideran malas coincidencias. Para otros tipos de árboles y redes todavía no existe un método estándar de comparación.

Algunos métodos de producción de árboles producen listas de caracteres incompatibles. Estos pueden ser extremadamente útiles para analizar el resultado. Cuando se utilizan métodos heurísticos, la repetibilidad es un problema. Sin embargo, se utilizan técnicas matemáticas estándar para superar este problema.

Comparación con análisis anteriores.

Para evaluar los métodos, se elige una familia de lenguas bien comprendida y con un conjunto de datos fiable. Esta familia suele ser la IE, pero se han utilizado otras. Después de aplicar los métodos a comparar con la base de datos, los árboles resultantes se comparan con el árbol de referencia determinado por métodos lingüísticos tradicionales. El objetivo es no tener conflictos en la topología, por ejemplo, que no falten subgrupos y fechas compatibles. Las familias sugeridas para este análisis por Nichols y Warnow [73] son ​​germánica, romance, eslava, turca común, china y mixe zoque, así como grupos más antiguos como la oceánica y la IE.

Uso de simulaciones

Aunque el uso de lenguajes reales añade realismo y proporciona problemas reales, el método de validación anterior adolece del hecho de que se desconoce la verdadera evolución de los lenguajes. Generando un conjunto de datos a partir de un árbol de evolución simulado se conoce la evolución correcta. Sin embargo, será una versión simplificada de la realidad. Por lo tanto, se deben utilizar ambas técnicas de evaluación.

Análisis de sensibilidad

Para evaluar la solidez de una solución es deseable variar los datos de entrada y las restricciones, y observar la salida. Cada variable cambia ligeramente por turno. Este análisis se ha llevado a cabo en varios casos y los métodos resultaron ser sólidos, por ejemplo, por Atkinson y Gray. [74]

Estudios que comparan métodos

A principios de la década de 1990, el lingüista Donald Ringe , los informáticos Luay Nakhleh y Tandy Warnow , el estadístico Steven N. Evans y otros, comenzaron a colaborar en investigaciones en proyectos lingüísticos comparativos cuantitativos. Posteriormente fundaron el proyecto CHPL, cuyos objetivos incluyen: "producir y mantener conjuntos de datos lingüísticos reales, en particular de lenguas indoeuropeas", "formular modelos estadísticos que capturen la evolución de datos lingüísticos históricos", "diseñar herramientas de simulación y precisión medidas para generar datos sintéticos para estudiar el desempeño de los métodos de reconstrucción", y "desarrollar e implementar métodos combinatorios y basados ​​en estadísticas para reconstruir filogenias del lenguaje, incluidas las redes filogenéticas". [75]

Rexova et al. llevaron a cabo una comparación de los métodos de codificación . (2003). [76] Crearon un conjunto de datos reducido a partir de la base de datos Dyen pero con la adición de hitita. Produjeron una matriz multiestado estándar donde los 141 estados de caracteres corresponden a clases afines individuales, lo que permite el polimorfismo. También se unieron a algunas clases afines, para reducir la subjetividad y no se permitían estados polimórficos. Por último, produjeron una matriz binaria en la que cada clase de palabras se trataba como un carácter independiente. Las matrices fueron analizadas por PAUP. Se encontró que el uso de la matriz binaria producía cambios cerca de la raíz del árbol.

McMahon y McMahon (2003) utilizaron tres programas PHYLIP (NJ, Fitch y Kitch) en el conjunto de datos DKB. [77] Descubrieron que los resultados obtenidos eran muy similares. Se utilizó bootstrapping para probar la robustez de cualquier parte del árbol. Posteriormente utilizaron subconjuntos de datos para evaluar su capacidad de retención y reconstructibilidad. [42] Los resultados mostraron diferencias topológicas que se atribuyeron al endeudamiento. Luego también utilizaron Network, Split Decomposition, Neighbor-net y SplitsTree en varios conjuntos de datos. Se encontraron diferencias significativas entre los dos últimos métodos. La red de vecinos se consideró óptima para el contacto lingüístico exigente.

En 2005, Nakhleh, Warnow, Ringe y Evans compararon seis métodos de análisis utilizando una base de datos indoeuropea. [78] Los métodos comparados fueron UPGMA, NJ MP, MC, WMC y GA. El paquete de software PAUP se utilizó para UPGMA, NJ y MC, además de calcular los árboles de consenso mayoritarios. Se utilizó la base de datos RWT pero se eliminaron 40 caracteres debido a evidencia de polimorfismo. Luego se produjo una base de datos filtrada excluyendo todos los personajes que claramente exhibían un desarrollo paralelo, eliminando así 38 características. Los árboles fueron evaluados en función del número de caracteres incompatibles y de acuerdo con los resultados de subgrupos establecidos. Descubrieron que UPGMA era claramente el peor, pero no había mucha diferencia entre los otros métodos. Los resultados dependieron del conjunto de datos utilizado. Se descubrió que era importante ponderar los caracteres, lo que requiere juicio lingüístico.

Saunders (2005) [79] comparó NJ, MP, GA y Neighbor-Net en una combinación de datos léxicos y tipológicos. Recomendó el uso del método GA, pero Nichols y Warnow tienen algunas preocupaciones sobre la metodología del estudio. [80]

Cysouw et al. (2006) [81] compararon el método original de Holm con NJ, Fitch, MP y SD. Descubrieron que el método de Holm era menos preciso que los demás.

En 2013, François Barbancon, Warnow, Evans, Ringe y Nakleh (2013) estudiaron varios métodos de reconstrucción de árboles utilizando datos simulados. [82] Sus datos simulados variaron en el número de bordes de contacto, el grado de homoplasia, la desviación de un reloj léxico y la desviación del supuesto de tasas entre sitios. Se encontró que la precisión de los métodos no ponderados (MP, NJ, UPGMA y GA) fueron consistentes en todas las condiciones estudiadas, siendo MP el mejor. La precisión de los dos métodos ponderados (WMC y WMP) dependía de lo apropiado del esquema de ponderación. Con una homoplasia baja, los métodos ponderados generalmente produjeron resultados más precisos, pero una ponderación inadecuada podría hacerlos peores que MP o GA en niveles de homoplasia moderados o altos.

Elegir el mejor modelo

La elección de un modelo apropiado es fundamental para la producción de buenos análisis filogenéticos. Tanto los modelos subparametrizados como los demasiado restrictivos pueden producir un comportamiento aberrante cuando se violan sus supuestos subyacentes, mientras que los modelos demasiado complejos o demasiado parametrizados requieren tiempos de ejecución prolongados y sus parámetros pueden estar sobreajustados. [83] El método más común de selección de modelos es la "Prueba de razón de verosimilitud", que produce una estimación del ajuste entre el modelo y los datos, pero como alternativa se puede utilizar el Criterio de información de Akaike o el Criterio de información bayesiano. Se encuentran disponibles programas informáticos de selección de modelos.

Ver también

Notas

  1. ^ Sapir, Eduardo (1916). "Perspectiva del tiempo en la cultura aborigen americana: un estudio de método". Memoria del Servicio Geológico 90, No. 13 . Serie Antropológica. Ottawa: Oficina de Imprenta del Gobierno.
  2. ^ Kroeber, Alabama; Chrétien, CD (1937). "Clasificación cuantitativa de lenguas indoeuropeas". Idioma . 13 (2): 83–103. doi :10.2307/408715. JSTOR  408715.
  3. ^ Ross, Alan SC (1950). "Problemas de probabilidad filológica". Revista de la Real Sociedad de Estadística. Serie B (Metodológica) . 12 (1): 19–59. doi :10.1111/j.2517-6161.1950.tb00040.x. JSTOR  2983831.
  4. ^ Swadesh, Morris (1952). "Datación léxico-estadística de contactos étnicos prehistóricos: con especial referencia a los indios y esquimales norteamericanos". Actas de la Sociedad Filosófica Estadounidense . 96 (4): 452–463. JSTOR  3143802.
  5. ^ Bergsland, Knut; Vogt, Hans (1962). "Sobre la validez de la glotocronología". Antropología actual . 3 (2): 115-153. doi :10.1086/200264. JSTOR  2739527. S2CID  144236043.
  6. ^ Tinte, Isidoro; Kruskal, Joseph B.; Negro, Paul (1992). "Una clasificación indoeuropea: un experimento léxicoestadístico". Transacciones de la Sociedad Filosófica Estadounidense . 82 (5): iii-132. doi :10.2307/1006517. JSTOR  1006517.
  7. ^ Ringe, Don; Warnow, Tandy; Taylor, Ana (2002). "Cladística indoeuropea y computacional". Transacciones de la Sociedad Filológica . 100 : 59-129. doi : 10.1111/1467-968X.00091 .
  8. ^ Anunciado inicialmente en Gray, Russell D.; Atkinson, Quentin D. (2003). "Los tiempos de divergencia del árbol del lenguaje respaldan la teoría de Anatolia de origen indoeuropeo". Naturaleza . 426 (6965): 435–439. Código Bib :2003Natur.426..435G. doi : 10.1038/naturaleza02029. PMID  14647380. S2CID  42340.
  9. ^ Publicado por Renfrew, McMahon y Trask en 2000
  10. ^ Bouckaert, R.; Lemey, P.; Dunn, M.; Greenhill, SJ; Alekseyenko, AV; Drummond, AJ; Gris, RD; Suchard, MA; Atkinson, QD (2012). "Mapeo de los orígenes y la expansión de la familia de lenguas indoeuropeas". Ciencia . 337 (6097): 957–960. Código bibliográfico : 2012 Ciencia... 337..957B. doi : 10.1126/ciencia.1219669. PMC 4112997 . PMID  22923579. 
  11. ^ Honkola, T.; Vesakoski, O.; Korhonen, K.; Lehtinen, J.; Syrjänen, K.; Wahlberg, N. (2013). "Los cambios culturales y climáticos dan forma a la historia evolutiva de las lenguas urálicas". Revista de biología evolutiva . 26 (6): 1244-1253. doi : 10.1111/jeb.12107 . PMID  23675756. S2CID  7966025.
  12. ^ Hruschka, Daniel J.; Branford, Simón; Smith, Eric D.; Wilkins, Jon; Meade, Andrés; Pagel, Marcos; Bhattacharya, Tanmoy (2015). "Detección de cambios de sonido regulares en lingüística como eventos de evolución concertada". Biología actual . 25 (1): 1–9. Código Bib : 2015CBio...25....1H. doi :10.1016/j.cub.2014.10.064. PMC 4291143 . PMID  25532895. 
  13. ^ Kolipakam, Vishnupriya; Jordania, Fiona M.; Dunn, Michael; Greenhill, Simón J.; Bouckaert, Remco; Gray, Russell D.; Verkerk, Annemarie (2018). "Un estudio filogenético bayesiano de la familia de lenguas dravídicas". Ciencia abierta de la Royal Society . 5 (3): 171504. Código bibliográfico : 2018RSOS....571504K. doi :10.1098/rsos.171504. PMC 5882685 . PMID  29657761. 
  14. ^ Sidwell, Pablo. 2015. Un análisis filogenético completo de las lenguas austroasiáticas. Presentado en Diversity Linguistics: Retrospect and Prospect, 1 al 3 de mayo de 2015 (Leipzig, Alemania), conferencia de clausura del Departamento de Lingüística del Instituto Max Planck de Antropología Evolutiva.
  15. ^ Gris, RD; Drummond, AJ; Greenhill, SJ (2009). "Las filogenias del lenguaje revelan pulsos de expansión y pausas en la colonización del Pacífico". Ciencia . 323 (5913): 479–483. Código Bib : 2009 Ciencia... 323.. 479G. doi : 10.1126/ciencia.1166858. PMID  19164742. S2CID  29838345.
  16. ^ Bowern, Claire y Atkinson, Quentin, 2012. Filogenética computacional y estructura interna de Pama-Nyungan. Idioma, vol. 88, 817-845.
  17. ^ Bouckaert, Remco R.; Bowern, Claire; Atkinson, Quentin D. (2018). "El origen y expansión de las lenguas Pama-Nyungan en Australia". Ecología y evolución de la naturaleza . 2 (4): 741–749. Código Bib : 2018NatEE...2..741B. doi :10.1038/s41559-018-0489-3. PMID  29531347. S2CID  4208351.
  18. ^ Currie, Thomas E.; Meade, Andrés; Guillón, Myrtille; Mace, Ruth (2013). "Filogeografía cultural de las lenguas bantúes del África subsahariana". Actas de la Royal Society B: Ciencias Biológicas . 280 (1762): 20130695. doi :10.1098/rspb.2013.0695. PMC 3673054 . PMID  23658203. 
  19. ^ Grollemund, Rebeca; Branford, Simón; Boston, Koen; Meade, Andrés; Venditti, Chris; Pagel, Mark (2015). "La expansión bantú muestra que el hábitat altera la ruta y el ritmo de las dispersiones humanas". Procedimientos de la Academia Nacional de Ciencias . 112 (43): 13296–13301. Código Bib : 2015PNAS..11213296G. doi : 10.1073/pnas.1503793112 . PMC 4629331 . PMID  26371302. 
  20. ^ Cocina, Andrés; Ehret, Christopher; Assefa, Shiferaw; Mulligan, Connie J. (2009). "El análisis filogenético bayesiano de las lenguas semíticas identifica un origen semítico de la Edad del Bronce Temprano en el Cercano Oriente". Actas de la Royal Society B: Ciencias Biológicas . 276 (1668): 2703–2710. doi :10.1098/rspb.2009.0408. PMC 2839953 . PMID  19403539. 
  21. ^ Sicoli, Mark A.; Holton, Gary (2014). "Las filogenias lingüísticas apoyan la retromigración de Beringia a Asia". MÁS UNO . 9 (3): e91722. Código Bib : 2014PLoSO...991722S. doi : 10.1371/journal.pone.0091722 . PMC 3951421 . PMID  24621925. 
  22. ^ Wheeler, sala C.; Whiteley, Peter M. (2015). "La lingüística histórica como problema de optimización de secuencias: La evolución y biogeografía de las lenguas uto-aztecas" (PDF) . Cladística . 31 (2): 113-125. doi :10.1111/cla.12078. PMID  34758582. S2CID  86030904.
  23. ^ Atkinson, QD (2006). De las especies a las lenguas: una aproximación filogenética a la historia humana. Tesis doctoral, Universidad de Auckland, Auckland.
  24. ^ Caminante, Robert S.; Ribeiro, Lincoln A. (2011). "Filogeografía bayesiana de la expansión arahuaca en las tierras bajas de América del Sur". Actas de la Royal Society B: Ciencias Biológicas . 278 (1718): 2562–2567. doi :10.1098/rspb.2010.2579. PMC 3136831 . PMID  21247954. 
  25. ^ Michael, Lev, Natalia Chousou-Polydouri, Keith Bartolomei, Erin Donnelly, Vivian Wauters, Sérgio Meira, Zachary O'Hagan. 2015. Una clasificación filogenética bayesiana del tupí-guaraní. LIAMES 15(2):193-221.
  26. ^ Zhang, Menghan; Yan, Shi; Pan, Wuyun; Jin, Li (2019). "Evidencia filogenética del origen chino-tibetano en el norte de China en el Neolítico tardío". Naturaleza . 569 (7754): 112-115. Código Bib :2019Natur.569..112Z. doi :10.1038/s41586-019-1153-z. PMID  31019300. S2CID  129946000.
  27. ^ Sagart, Laurent; Jacques, Guillaume; Lai, Yunfan; Ryder, Robin; Thouzeau, Valentín; Greenhill, Simón J.; Lista, Johann-Mattis (2019). "Las filogenias del lenguaje anticuado arrojan luz sobre la ascendencia del sino-tibetano". Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 116 (21): 10317–10322. Código Bib : 2019PNAS..11610317S. doi : 10.1073/pnas.1817972116 . PMC 6534992 . PMID  31061123. 
  28. ^ ab McMahon, abril MS; McMahon, Robert (2005). Clasificación de idiomas por números . Prensa de la Universidad de Oxford. ISBN 978-0199279029.
  29. ^ Harrison, SP (2003). "Sobre los límites del método comparativo". En Brian D. Joseph; Richard D. Janda (eds.). El manual de lingüística histórica . Publicación Blackwell. págs. 213–243. doi :10.1002/9781405166201.ch2. ISBN 9781405166201.
  30. ^ Embleton, Sheila M (1986). Estadística en Lingüística Histórica . Brockmeyer. ISBN 9783883395371.
  31. ^ Heggarty, Paul (2006). "¿Indisciplina interdisciplinaria? ¿Se pueden aplicar de manera significativa los métodos filogenéticos a los datos lingüísticos y al lenguaje de las citas?" (PDF) . En Peter Forster; Colin Renfrew (eds.). Métodos filogenéticos y prehistoria de las lenguas . Monografías del Instituto McDonald. Instituto McDonald de Investigaciones Arqueológicas. Archivado desde el original (PDF) el 28 de enero de 2021 . Consultado el 22 de febrero de 2020 .
  32. ^ Nicols, Johanna; Warnow, Tandy (2008). "Tutorial sobre Filogenia Lingüística Computacional". Brújula de Lengua y Lingüística . 2 (5): 760–820. doi :10.1111/j.1749-818X.2008.00082.x.
  33. ^ Huson, Daniel H.; Bryant, David (2006). "Aplicación de redes filogenéticos en los estudios evolutivos". Biología Molecular y Evolución . 23 (2): 254–267. doi : 10.1093/molbev/msj030 . PMID  16221896.
  34. ^ Atkinson, QD; Meade, A.; Venditti, C.; Greenhill, SJ; Pagel, M. (2008). "Los idiomas evolucionan en ráfagas de puntuación". Ciencia . 319 (5863): 588. doi :10.1126/science.1149683. hdl : 1885/33371 . PMID  18239118. S2CID  29740420.
  35. ^ Swadesh, Morris (1955). "Hacia una mayor precisión en las citas lexicoestadísticas". Revista Internacional de Lingüística Americana . 21 (2): 121-137. doi :10.1086/464321. JSTOR  1263939. S2CID  144581963.
  36. ^ En http://www.idc.upenn.edu [ enlace muerto permanente ]
  37. ^ Rexova, K. (2003). "Análisis cladístico de lenguas: clasificación indoeuropea basada en datos lexicoestadísticos". Cladística . 19 (2): 120–127. doi : 10.1016/S0748-3007(02)00147-0 (inactivo 2024-03-21).{{cite journal}}: Mantenimiento CS1: DOI inactivo a partir de marzo de 2024 ( enlace )
  38. ^ Publicaciones CSLI, 2001
  39. ^ Holman, Eric W.; Wichmann, Søren; Marrón, Cecil H.; Velupillai, Viveka; Müller, André; Bakker, Dik (2008). "Exploraciones en clasificación automatizada de idiomas". Folia Lingüística . 42 (3–4). doi :10.1515/FLIN.2008.331. S2CID  82275473.
  40. ^ Haspelmath y otros. , Atlas mundial de estructuras del lenguaje, OUP 2005
  41. ^ Sobre el cálculo del factor de azar en la comparación de idiomas, Transactions of the American Philosophical Society 82 (1992)
  42. ^ ab Clasificación de idiomas por números
  43. ^ Sobre la detección de préstamos, Diacronia 20/2 (2003)
  44. ^ ver, por ejemplo, Bergsland y Vogt
  45. ^ Por ejemplo, Pagel, Atkinson y Meade, La frecuencia del uso de palabras predice tasas de evolución léxica a lo largo de la historia indoeuropea, Nature 449, 11 de octubre de 2007
  46. ^ Atkinson y Gray, ¿Cuántos años tiene la familia indoeuropea (en Métodos filogenéticos y prehistoria de las lenguas, Forster y Renfrew, 2006?
  47. ^ Cladística indoeuropea y computacional, Transactions of the Philosophical Society 100/1 (2002)
  48. ^ Nakhleh y otros. Redes filogénicas perfectas, Idioma 81 (2005)
  49. ^ Metrópolis y otros. 1953
  50. ^ Nicholls, Geoff K.; Gray, Russell D. "Cuantificación de la incertidumbre en un modelo estocástico de evolución del vocabulario". Métodos filogenéticos y prehistoria de las lenguas . Instituto Mcdonald de Investigaciones Arqueológicas. págs. 161-171. CiteSeerX 10.1.1.799.8282 . 
  51. ^ Ryder, Robin; Nicholls, Geoff (2011), "Datos faltantes en un modelo estocástico de Dollo para datos afines y su aplicación a la datación del protoindoeuropeo", Revista de la Royal Statistical Society, Serie C , 60 (1): 71– 92, doi : 10.1111/j.1467-9876.2010.00743.x , S2CID  118853910
  52. ^ Bandelt y vestido 1992
  53. ^ Saitou y Nei (1987)
  54. ^ Bryant y Moulton: Neighbor-net, un método aglomerativo para la construcción de redes filogenéticas - Molecular Biology and Evolution 21 (2003)
  55. ^ Bandelt y col. 1995
  56. ^ Brooks, Erdem. Minett y Ringe: cladística basada en caracteres y programación de conjuntos de respuestas
  57. ^ McMahon y McMahon
  58. ^ Holm: El nuevo arboreto de árboles indoeuropeos - Journal of Quantitative Linguistics 14 (2007)
  59. ^ Nakhleh, Roshan, St John, Sun y Warnow  : Diseño de métodos filogenéticos rápidamente convergentes - Bioinfomática, OUP 2001
  60. ^ Filogenética estructural y reconstrucción de la historia de las lenguas antiguas, Science 309, 2072 (2005)
  61. Cómo utilizar bases de datos tipológicas en la investigación lingüística histórica [ enlace muerto ] , Diachronica 24, 373 (2007)
  62. ^ Véase, por ejemplo, La evaluación matemática de relaciones lingüísticas de largo alcance - Language and Linguistics Compass 2/5 (2008)
  63. ^ Kessler y Lehtonen: comparación multilateral y pruebas de importancia
  64. ^ Nichols: cuasi-cognados y cambios de tipo léxico (en Filogenética y prehistoria de las lenguas, Forster y Renfrew, 2006)
  65. ^ Marrón y col. : Clasificación automatizada de los idiomas del mundo, Sprachtypologie und Universalienforschung, 61.4: 285-308, 2008 Archivado el 23 de junio de 2010 en Wayback Machine .
  66. ^ Lenguajes procesados ​​ASJP Archivado el 11 de mayo de 2010 en Wayback Machine (15 de marzo de 2010)
  67. ^ Müller, A., S. Wichmann, V. Velupillai et al. 2010. Árbol de similitud léxica de idiomas mundiales de ASJP: versión 3 (julio de 2010). Archivado el 30 de julio de 2010 en Wayback Machine .
  68. ^ Árbol de lenguas indoeuropeas por distancia de Levenstein
  69. ^ Cuantificar el cambio a lo largo del tiempo en fonética (en Profundidad temporal en lingüística histórica, Renfrew, McMahon y Trask, 2001)
  70. ^ Diversidad lingüística en lenguas romances, Idioma 35 1959
  71. ^ Kluge y Farris, Zoología sistemática 18, 1-32 (1969)
  72. ^ Robinson y Foulds: Comparación de árboles filogenéticos - Biociencias matemáticas - 53 (1981)
  73. ^ Tutorial sobre filogenia lingüística computacional, lenguaje y brújula lingüística 2/5 (2008)
  74. ^ ¿Qué edad tiene la familia de lenguas indoeuropeas? (en Métodos filogénicos y prehistoria de las lenguas, Forster y Renfrew, 2006)
  75. ^ CPHL: Filogenética computacional en lingüística histórica (página de inicio), 2009 (17 de octubre de 2017).
  76. ^ Análisis cladístico de lenguas, Cladística 19/2 (2003)
  77. ^ Encontrar familias, métodos cuantitativos en la clasificación de idiomas. Transacciones de la Sociedad Filológica 101 (2003)
  78. ^ Nakhleh, Warnow, Ringe y Evans, "Una comparación de métodos de reconstrucción filogenética en un conjunto de datos de IE" (2005)
  79. ^ Filogenética lingüística para tres familias austronesias, BA Thesis Swarthmore College (2005)
  80. ^ Tutorial sobre filogenia lingüística computacional
  81. ^ Una crítica al método de base de separación para subgrupos genealógicos, con datos de Mixe-Zoquean [ enlace muerto ] , Journal of Quantitative Linguistics 13, 225 (2006)
  82. ^ Barbancon, Warnow, Evans, Ringe y Nakhleh, un estudio experimental que compara métodos de reconstrucción filogenética lingüística
  83. ^ Sullivan y Joyce, Selección de modelos en filogenética [ enlace muerto ] , Revisión anual de ecología, evolución y sistemática 36 (2005)

Bibliografía