Programa de evaluación automática de similitudes

El Programa de Juicio Automatizado de Similitud ( ASJP ) es un proyecto colaborativo que aplica enfoques computacionales a la lingüística comparativa utilizando una base de datos de listas de palabras. La base de datos es de acceso abierto y consta de listas de vocabulario básico de 40 elementos para más de la mitad de los idiomas del mundo. ^[1] Se está ampliando continuamente. Además de aislamientos e idiomas de grupos genealógicos demostrados, la base de datos incluye pidgins , criollos , idiomas mixtos y idiomas construidos . Las palabras de la base de datos se transcriben a una ortografía estándar simplificada ( código ASJP ). ^[2] La base de datos se ha utilizado para estimar fechas en las que las familias de idiomas han divergido en idiomas hijos mediante un método relacionado con la glotocronología pero aún diferente de ella , ^[3] para determinar la patria ( Urheimat ) de un protoidioma , ^[4] para investigar el simbolismo del sonido , ^[5] para evaluar diferentes métodos filogenéticos, ^[6] y varios otros propósitos.

El ASJP no es ampliamente aceptado entre los lingüistas históricos como un método adecuado para establecer o evaluar relaciones entre familias lingüísticas. ^[7]

Es parte del proyecto Cross-Linguistic Linked Data organizado por el Instituto Max Planck para la Ciencia de la Historia Humana . ^[8]

Historia

Objetivos originales

ASJP se desarrolló originalmente como un medio para evaluar objetivamente la similitud de palabras con el mismo significado de diferentes idiomas, con el objetivo final de clasificar los idiomas computacionalmente, basándose en las similitudes léxicas observadas. En el primer artículo de ASJP ^[2] dos palabras semánticamente idénticas de idiomas comparados se juzgaron similares si mostraban al menos dos segmentos de sonido idénticos. La similitud entre los dos idiomas se calculó como un porcentaje del número total de palabras comparadas que se juzgaron similares. Este método se aplicó a listas de palabras de 100 elementos para 250 idiomas de familias lingüísticas que incluyen Austroasiatic , Indo-European , Mayan y Muskogean .

Consorcio ASJP

El consorcio ASJP, fundado en torno a 2008, ^llegó^{a contar} con la participación de unos 25 lingüistas profesionales y otras partes interesadas que trabajaban como transcriptores voluntarios y/o prestaban ayuda al proyecto de otras maneras. La principal fuerza impulsora de la fundación del consorcio fue Cecil H. Brown . Søren Wichmann es el curador diario del proyecto. Un tercer miembro central del consorcio es Eric W. Holman, que ha creado la mayor parte del software utilizado en el proyecto.

Listas de palabras más cortas

Si bien las listas de palabras utilizadas se basaron originalmente en la lista Swadesh de 100 elementos , se determinó estadísticamente que un subconjunto de 40 de los 100 elementos produjo resultados de clasificación tan buenos o ligeramente mejores que la lista completa. ^[9] Por lo tanto, las listas de palabras recopiladas posteriormente contienen solo 40 elementos (o menos, cuando faltan atestigüedades para algunos).

Distancia de Levenshtein

En artículos publicados desde 2008, ASJP ha empleado un programa de juicio de similitud basado en la distancia de Levenshtein (LD). Se ha descubierto que este enfoque produce mejores resultados de clasificación medidos contra la opinión de expertos que el método utilizado inicialmente. La LD se define como el número mínimo de cambios sucesivos necesarios para convertir una palabra en otra, donde cada cambio es la inserción, eliminación o sustitución de un símbolo. Dentro del enfoque de Levenshtein, las diferencias en la longitud de las palabras se pueden corregir dividiendo la LD por el número de símbolos de la palabra más larga de las dos palabras comparadas. Esto produce una LD normalizada (LDN). Una LDN dividida (LDND) entre los dos idiomas se calcula dividiendo la LDN promedio para todos los pares de palabras que involucran el mismo significado por la LDN promedio para todos los pares de palabras que involucran significados diferentes. Esta segunda normalización tiene como objetivo corregir la similitud aleatoria. ^[10]

Lista de palabras

La ASJP utiliza la siguiente lista de 40 palabras. ^[11] Es similar a la lista Swadesh–Yakhontov , pero tiene algunas diferencias.

Partes del cuerpo

ojo
oreja
nariz
lengua
diente
mano
rodilla
sangre
hueso
pecho (de mujer)
hígado
piel

Animales y plantas

piojo
perro
pez (sustantivo)
cuerno (parte del animal)
árbol
hoja

Gente

persona
nombre (sustantivo)

Naturaleza

sol
estrella
agua
fuego
piedra
camino
montaña
noche (tiempo oscuro)

Verbos y adjetivos

beber (verbo)
morir
ver
escuchar
venir
nuevo
lleno

Numerales y pronombres

uno
dos
I
tú
nosotros

Código ASJP

La versión ASJP de 2016 ^{[ cita requerida ]} utiliza los siguientes símbolos para codificar fonemas : pbfvmw 8 tdszcnrl SZC j T 5 ykgx N q X h 7 L 4 G ! ie E 3 auo

Representan 7 vocales y 34 consonantes, todas encontradas en el teclado QWERTY estándar.

Una ~marca sigue a dos consonantes, por lo que se considera que están en la misma posición. Por lo tanto, kʷat se convierte en kw~at. Sílabas como kat, wat, kawy kwise consideran léxicamente similares a kw~at.

De manera similar, una $marca sigue a tres consonantes de modo que se consideran en la misma posición. ndy$imse considera similar a nim, damy yim.

"marca la consonante precedente como glotalizada .

Véase también

Referencias

^ "Base de datos de la ASJP -". asjp.clld.org . Consultado el 15 de febrero de 2024 .
^ abc Brown, Cecil H; Holman, Eric W.; Wichmann, Søren; Velupillai, Viveka (2008). «Clasificación automatizada de las lenguas del mundo: descripción del método y resultados preliminares». STUF – Tipología lingüística y universales .
^ "Datación automatizada de las familias lingüísticas del mundo basada en la similitud léxica" (PDF) . pubman.mpdl.mpg.de . 2011.
^ "Patrias de las familias lingüísticas del mundo: un enfoque cuantitativo". www.researchgate.net . 2010.
^ Wichmann, Søren; Holman, Eric W.; Brown, Cecil H. (abril de 2010). "Simbolismo sonoro en el vocabulario básico". Entropía . 12 (4): 844–858. doi : 10.3390/e12040844 . ISSN 1099-4300.
^ Pompei, Simone; Loreto, Vittorio; Tria, Francesca (3 de junio de 2011). "Sobre la precisión de los árboles lingüísticos". PLOS ONE . 6 (6): e20109. arXiv : 1103.4012 . Bibcode :2011PLoSO...620109P. doi : 10.1371/journal.pone.0020109 . ISSN 1932-6203. PMC 3108590 . PMID 21674034.
^ Cf. comentarios de Adelaar, Blust y Campbell en Holman, Eric W., et al. (2011) "Datación automatizada de las familias lingüísticas del mundo basada en la similitud léxica". Antropología actual , vol. 52, núm. 6, págs. 841–875.
^ "Datos vinculados entre idiomas" . Consultado el 22 de febrero de 2020 .
^ Holman, Eric W.; Wichmann, Søren; Marrón, Cecil H.; Velupillai, Viveka; Müller, André; Bakker, Dik (2008). "Exploraciones en clasificación automatizada de idiomas". Folia Lingüística .
^ Wichmann, Søren, Eric W. Holman, Dik Bakker y Cecil H. Brown. 2010. Evaluación de medidas de distancia lingüística. Physica A 389: 3632-3639 ( doi :10.1016/j.physa.2010.05.011).
^ "Directrices" (PDF) . asjp.clld.org .

Fuentes

Søren Wichmann, Jeff Good (eds). 2014. Cuantificación de la dinámica del lenguaje: a la vanguardia de la lingüística areal y filogenética, pág. 203. Leiden: Brill.
Brown, Cecil H., et al. 2008. Clasificación automatizada de las lenguas del mundo: descripción del método y resultados preliminares. Tipología lingüística y universales 61(4). Noviembre de 2008. doi :10.1524/stuf.2008.0026
Wichmann, Søren, Eric W. Holman y Cecil H. Brown (eds.). 2018. La base de datos ASJP (versión 18).

Enlaces externos

Página de inicio oficial de la base de datos ASJP