La lexicoestadística es un método de lingüística comparativa que consiste en comparar el porcentaje de cognados léxicos entre lenguas para determinar su relación. La lexicoestadística está relacionada con el método comparativo , pero no reconstruye una protolengua . Debe distinguirse de la glotocronología , que intenta utilizar métodos lexicoestadísticos para estimar el tiempo transcurrido desde que dos o más lenguas divergieron de una protolengua anterior común. Sin embargo, esta es solo una aplicación de la lexicoestadística; es posible que otras aplicaciones no compartan el supuesto de una tasa constante de cambio para los elementos léxicos básicos.
El término "lexicoestadística" es engañoso, ya que se utilizan ecuaciones matemáticas, pero no estadísticas. Se pueden utilizar otras características de una lengua además del léxico, aunque esto es inusual. Mientras que el método comparativo utilizó innovaciones identificadas compartidas para determinar subgrupos, la lexicoestadística no las identifica. La lexicoestadística es un método basado en la distancia, mientras que el método comparativo considera directamente los caracteres de la lengua. El método lexicoestadístico es una técnica simple y rápida en relación con el método comparativo, pero tiene limitaciones (que se analizan a continuación). Se puede validar mediante la verificación cruzada de los árboles producidos por ambos métodos.
La lexicoestadística fue desarrollada por Morris Swadesh en una serie de artículos en la década de 1950, basándose en ideas anteriores. [1] [2] [3] El primer uso conocido del concepto fue por Dumont d'Urville en 1834, quien comparó varias lenguas "oceánicas" y propuso un método para calcular un coeficiente de relación. Hymes (1960) y Embleton (1986) analizan la historia de la lexicoestadística. [4] [5]
El objetivo es generar una lista de significados de uso universal (mano, boca, cielo, yo). Luego se recogen las palabras para estos espacios de significado para cada idioma considerado. Swadesh redujo un conjunto más grande de significados a 200 originalmente. Más tarde descubrió que era necesario reducirlo aún más, pero que podía incluir algunos significados que no estaban en su lista original, dando su lista posterior de 100 elementos. La lista Swadesh en Wikcionario da el total de 207 significados en varios idiomas. Se han generado listas alternativas que aplican criterios más rigurosos, por ejemplo, la lista Dolgopolsky y la lista Leipzig-Jakarta , así como listas con un alcance más específico; por ejemplo, Dyen , Kruskal y Black tienen 200 significados para 84 idiomas indoeuropeos en forma digital. [6]
Se necesita un lingüista capacitado y experimentado para tomar decisiones de cognación. Sin embargo, es posible que sea necesario refinar las decisiones a medida que aumenta el nivel de conocimiento. Sin embargo, la lexicoestadística no depende de que todas las decisiones sean correctas. Para cada par de palabras (en diferentes idiomas) de esta lista, la cognación de una forma podría ser positiva, negativa o indeterminada. A veces, un idioma tiene varias palabras para un significado, por ejemplo, small y little para not big .
Este porcentaje está relacionado con la proporción de significados de un par de idiomas en particular que son afines, es decir, relativos al total sin indeterminación. Este valor se ingresa en una tabla de distancias N × N , donde N es el número de idiomas que se comparan. Cuando se completa, esta tabla se llena hasta la mitad en forma triangular . Cuanto mayor sea la proporción de afinidad, más relacionados están los idiomas.
La creación del árbol de lenguaje se basa únicamente en la tabla que se encuentra arriba. Se pueden utilizar varios métodos de subagrupación, pero el adoptado por Dyen, Kruskal y Black fue:
Los cálculos deben ser de porcentajes léxicos de núcleo y grupo.
Un destacado exponente de la aplicación de la lexicoestadística ha sido Isidore Dyen . [7] [8] [9] [10] Utilizó la lexicoestadística para clasificar las lenguas austronesias [11] así como las indoeuropeas . [6] Un importante estudio de estas últimas fue publicado por Dyen, Kruskal y Black (1992). [6] También se han realizado estudios sobre lenguas amerindias y africanas .
El problema de la ramificación interna dentro de la familia lingüística Pama-Nyungan ha sido un tema de larga data para la lingüística australiana, y el consenso general sostenía que las conexiones internas entre los más de 25 subgrupos diferentes de Pama-Nyungan eran imposibles de reconstruir o que los subgrupos, de hecho, no estaban genéticamente relacionados en absoluto. [12] En 2012, Claire Bowern y Quentin Atkinson publicaron los resultados de su aplicación de métodos filogenéticos computacionales en 194 doculectos que representan todos los principales subgrupos y aislamientos de Pama-Nyungan. [13] Su modelo "recuperó" muchas de las ramas y divisiones que anteriormente habían sido propuestas y aceptadas por muchos otros australianistas, al tiempo que proporcionaba una idea de las ramas más problemáticas, como Paman (que se complica por la falta de datos) y Ngumpin-Yapa (donde el panorama genético está oscurecido por tasas muy altas de préstamos entre idiomas). Su conjunto de datos constituye el más grande de su tipo para una familia de lenguas de cazadores-recolectores , y el segundo más grande en general después del austronesio (Greenhill et al. 2008 Archivado el 19 de diciembre de 2018 en Wayback Machine ). Concluyen que las lenguas pama-nyungan de hecho no son una excepción a los métodos lexicoestadísticos, que se han aplicado con éxito a otras familias de lenguas del mundo.
Personas como Hoijer (1956) han demostrado que había dificultades para encontrar equivalentes a los elementos de significado, mientras que muchos encontraron necesario modificar las listas de Swadesh. [14] Gudschinsky (1956) cuestionó si era posible obtener una lista universal. [15]
Factores como el préstamo , la tradición y los tabúes pueden distorsionar los resultados, al igual que con otros métodos. En ocasiones, se ha recurrido a la lexicoestadística, empleando la similitud léxica en lugar de la cognación para encontrar semejanzas. Esto equivale entonces a una comparación masiva .
La elección de los significados de las ranuras es subjetiva, al igual que la elección de sinónimos .
Algunos de los métodos modernos de prueba de hipótesis estadísticas computacionales pueden considerarse mejoras de la lexicoestadística en la medida en que utilizan listas de palabras y medidas de distancia similares.
Australia ofrece un ejemplo prototípico de un área lingüística. Tiene una profundidad temporal considerable, un terreno bastante uniforme que conduce a la facilidad de interacción y comunicación, una proporción justa de matrimonios exogámicos recíprocos, un multilingüismo desenfrenado y una actitud abierta a los préstamos... Existe una uniformidad básica en las lenguas australianas que es el resultado natural de un largo período de difusión. Aunque no se había proporcionado ninguna justificación para 'Pama-Nyungan', llegó a ser aceptado. La gente lo aceptó porque era aceptado, como una especie de creencia. ... Está claro que 'Pama-Nyungan' no puede ser sostenido como un grupo genético. Tampoco es una agrupación tipológica útil.