Lexicoestadística

La lexicoestadística es un método de lingüística comparativa que consiste en comparar el porcentaje de cognados léxicos entre lenguas para determinar su relación. La lexicoestadística está relacionada con el método comparativo , pero no reconstruye una protolengua . Debe distinguirse de la glotocronología , que intenta utilizar métodos lexicoestadísticos para estimar el tiempo transcurrido desde que dos o más lenguas divergieron de una protolengua anterior común. Sin embargo, esta es solo una aplicación de la lexicoestadística; es posible que otras aplicaciones no compartan el supuesto de una tasa constante de cambio para los elementos léxicos básicos.

El término "lexicoestadística" es engañoso, ya que se utilizan ecuaciones matemáticas, pero no estadísticas. Se pueden utilizar otras características de una lengua además del léxico, aunque esto es inusual. Mientras que el método comparativo utilizó innovaciones identificadas compartidas para determinar subgrupos, la lexicoestadística no las identifica. La lexicoestadística es un método basado en la distancia, mientras que el método comparativo considera directamente los caracteres de la lengua. El método lexicoestadístico es una técnica simple y rápida en relación con el método comparativo, pero tiene limitaciones (que se analizan a continuación). Se puede validar mediante la verificación cruzada de los árboles producidos por ambos métodos.

Historia

La lexicoestadística fue desarrollada por Morris Swadesh en una serie de artículos en la década de 1950, basándose en ideas anteriores. ^[1]^[2]^[3] El primer uso conocido del concepto fue por Dumont d'Urville en 1834, quien comparó varias lenguas "oceánicas" y propuso un método para calcular un coeficiente de relación. Hymes (1960) y Embleton (1986) analizan la historia de la lexicoestadística. ^[4]^[5]

Método

Crear lista de palabras

El objetivo es generar una lista de significados de uso universal (mano, boca, cielo, yo). Luego se recogen las palabras para estos espacios de significado para cada idioma considerado. Swadesh redujo un conjunto más grande de significados a 200 originalmente. Más tarde descubrió que era necesario reducirlo aún más, pero que podía incluir algunos significados que no estaban en su lista original, dando su lista posterior de 100 elementos. La lista Swadesh en Wikcionario da el total de 207 significados en varios idiomas. Se han generado listas alternativas que aplican criterios más rigurosos, por ejemplo, la lista Dolgopolsky y la lista Leipzig-Jakarta , así como listas con un alcance más específico; por ejemplo, Dyen , Kruskal y Black tienen 200 significados para 84 idiomas indoeuropeos en forma digital. ^[6]

Determinar cognacias

Se necesita un lingüista capacitado y experimentado para tomar decisiones de cognación. Sin embargo, es posible que sea necesario refinar las decisiones a medida que aumenta el nivel de conocimiento. Sin embargo, la lexicoestadística no depende de que todas las decisiones sean correctas. Para cada par de palabras (en diferentes idiomas) de esta lista, la cognación de una forma podría ser positiva, negativa o indeterminada. A veces, un idioma tiene varias palabras para un significado, por ejemplo, small y little para not big .

Calcular porcentajes lexicoestadísticos

Este porcentaje está relacionado con la proporción de significados de un par de idiomas en particular que son afines, es decir, relativos al total sin indeterminación. Este valor se ingresa en una tabla de distancias $N \times N$ , donde N es el número de idiomas que se comparan. Cuando se completa, esta tabla se llena hasta la mitad en forma triangular . Cuanto mayor sea la proporción de afinidad, más relacionados están los idiomas.

Crear árbol genealógico

La creación del árbol de lenguaje se basa únicamente en la tabla que se encuentra arriba. Se pueden utilizar varios métodos de subagrupación, pero el adoptado por Dyen, Kruskal y Black fue:

Todas las listas se colocan en un pool
Los dos miembros más cercanos se eliminan y forman un núcleo que se coloca en la piscina.
Este paso se repite
En determinadas condiciones, un núcleo se convierte en un grupo.
Esto se repite hasta que el grupo solo contenga un grupo.

Los cálculos deben ser de porcentajes léxicos de núcleo y grupo.

Aplicaciones

Un destacado exponente de la aplicación de la lexicoestadística ha sido Isidore Dyen . ^[7]^[8]^[9]^[10] Utilizó la lexicoestadística para clasificar las lenguas austronesias ^[11] así como las indoeuropeas . ^[6] Un importante estudio de estas últimas fue publicado por Dyen, Kruskal y Black (1992). ^[6] También se han realizado estudios sobre lenguas amerindias y africanas .

Pama-Nyungan

El problema de la ramificación interna dentro de la familia lingüística Pama-Nyungan ha sido un tema de larga data para la lingüística australiana, y el consenso general sostenía que las conexiones internas entre los más de 25 subgrupos diferentes de Pama-Nyungan eran imposibles de reconstruir o que los subgrupos, de hecho, no estaban genéticamente relacionados en absoluto. ^[12] En 2012, Claire Bowern y Quentin Atkinson publicaron los resultados de su aplicación de métodos filogenéticos computacionales en 194 doculectos que representan todos los principales subgrupos y aislamientos de Pama-Nyungan. ^[13] Su modelo "recuperó" muchas de las ramas y divisiones que anteriormente habían sido propuestas y aceptadas por muchos otros australianistas, al tiempo que proporcionaba una idea de las ramas más problemáticas, como Paman (que se complica por la falta de datos) y Ngumpin-Yapa (donde el panorama genético está oscurecido por tasas muy altas de préstamos entre idiomas). Su conjunto de datos constituye el más grande de su tipo para una familia de lenguas de cazadores-recolectores , y el segundo más grande en general después del austronesio (Greenhill et al. 2008 Archivado el 19 de diciembre de 2018 en Wayback Machine ). Concluyen que las lenguas pama-nyungan de hecho no son una excepción a los métodos lexicoestadísticos, que se han aplicado con éxito a otras familias de lenguas del mundo.

Críticas

Personas como Hoijer (1956) han demostrado que había dificultades para encontrar equivalentes a los elementos de significado, mientras que muchos encontraron necesario modificar las listas de Swadesh. ^[14] Gudschinsky (1956) cuestionó si era posible obtener una lista universal. ^[15]

Factores como el préstamo , la tradición y los tabúes pueden distorsionar los resultados, al igual que con otros métodos. En ocasiones, se ha recurrido a la lexicoestadística, empleando la similitud léxica en lugar de la cognación para encontrar semejanzas. Esto equivale entonces a una comparación masiva .

La elección de los significados de las ranuras es subjetiva, al igual que la elección de sinónimos .

Métodos mejorados

Algunos de los métodos modernos de prueba de hipótesis estadísticas computacionales pueden considerarse mejoras de la lexicoestadística en la medida en que utilizan listas de palabras y medidas de distancia similares.

Véase también

Referencias

^ Swadesh, Morris (1955). "Hacia una mayor precisión en la datación lexicoestadística". Revista Internacional de Lingüística Americana . 21 (2): 121–137. doi :10.1086/464321. S2CID 144581963.
^ Swadesh, Morris (1952). "Datación lexicoestadística de contactos étnicos prehistóricos". Actas de la American Philosophical Society . 96 : 452–463.
^ Swadesh, Morris (1950). "Relaciones internas de los Salish". Revista Internacional de Lingüística Americana . 16 (4): 157–167. doi :10.1086/464084. S2CID 145122561.
^ Hymes, Dell (1960). "Lexicoestadísticas hasta ahora". Antropología actual . 1 (1): 3–44. doi :10.1086/200074. S2CID 144569209.
^ Embleton, Sheila (1986). Estadística en lingüística histórica . Bochum.
^ abc Dyen, Isidore; Kruskal, Joseph; Black, Paul (1992). "Una clasificación indoeuropea, un experimento lexicoestadístico". Transacciones de la American Philosophical Society . 82 (5): iii–132. doi :10.2307/1006517. JSTOR 1006517.
^ Dyen, Isidore (1962). "La relación lexicoestadísticamente determinada de un grupo lingüístico". Revista Internacional de Lingüística Americana . 28 (3): 153–161. doi :10.1086/464687. S2CID 143070513.
^ Dyen, Isidore (1963). "Préstamos y tabúes determinados lexicoestadísticamente". Lengua . 39 (1): 60–66. doi :10.2307/410762. JSTOR 410762.
^ Dyen, Isidore, ed. (1973). Lexicoestadística en lingüística genética . La Haya: Mouton.
^ Dyen, Isidore (1975). Subagrupamiento lingüístico y lexicoestadística . La Haya: Mouton.
^ Dyen, Isidore (1965). "Una clasificación lexicoestadística de las lenguas austronesias". Revista Internacional de Lingüística Americana . 19 .
^ Dixon, Robert MW (2002). Lenguas australianas: su naturaleza y desarrollo . Cambridge University Press. pp. 48, 53. Australia ofrece un ejemplo prototípico de un área lingüística. Tiene una profundidad temporal considerable, un terreno bastante uniforme que conduce a la facilidad de interacción y comunicación, una proporción justa de matrimonios exogámicos recíprocos, un multilingüismo desenfrenado y una actitud abierta a los préstamos... Existe una uniformidad básica en las lenguas australianas que es el resultado natural de un largo período de difusión. Aunque no se había proporcionado ninguna justificación para 'Pama-Nyungan', llegó a ser aceptado. La gente lo aceptó porque era aceptado, como una especie de creencia. ... Está claro que 'Pama-Nyungan' no puede ser sostenido como un grupo genético. Tampoco es una agrupación tipológica útil.
^ Bowern, Claire; Atkinson, Quentin (2012). "Filogenética computacional y la estructura interna de Pama-Nyungan". Idioma . 88 (4): 817–845. doi :10.1353/lan.2012.0081. hdl : 1885/61360 . S2CID 4375648.
^ Hoijer, Harry (1956). "Lexicoestadística: una crítica". Lengua . 32 (1): 49–60. doi :10.2307/410652. JSTOR 410652.
^ Gudschinsky, Sarah (1956). "El ABC de la lexicoestadística (glotocronología)". Palabra . 12 (2): 175–210. doi : 10.1080/00437956.1956.11659599 .

Lectura adicional

Dobson, Annette (1969). Agrupamiento lexicoestadístico. Lingüística antropológica 7, 216-221.
Dobson, Annette y Black, Paul (1979). Escalamiento multidimensional de algunos datos lexicoestadísticos. Mathematical Scientist 1979/4, 55-61.
McMahon, April y McMahon, Robert (2005). Clasificación de lenguas por números. Oxford University Press.
Sankoff, David (1970). "Sobre la tasa de reemplazo de las relaciones entre palabras y significados". Language 46.564-569.
Wittmann, Henri (1969). "Una investigación léxico-estadística sobre la diacronía del hitita". Indogermanische Forschungen 74.1-10.[1]
Wittmann, Henri (1973). "La clasificación lexicoestadística de las lenguas criollas de base francesa". Lexicoestadística en lingüística genética: Actas de la conferencia de Yale, 3-4 de abril de 1971 , dir. Isidore Dyen, 89-99. La Haye: Mouton.[2]

Enlaces externos

Busque lexicoestadística en Wikcionario, el diccionario libre.

La base de datos lexicoestadística global, parte del proyecto Evolución de los lenguajes humanos
Base de datos de IE
Una explicación simplificada de la diferencia entre glotocronología y lexicoestadística.