El Programa de Juicio Automatizado de Similitud ( ASJP ) es un proyecto colaborativo que aplica enfoques computacionales a la lingüística comparativa utilizando una base de datos de listas de palabras. La base de datos es de acceso abierto y consta de listas de vocabulario básico de 40 elementos para más de la mitad de los idiomas del mundo. [1] Se está ampliando continuamente. Además de aislamientos e idiomas de grupos genealógicos demostrados, la base de datos incluye pidgins , criollos , idiomas mixtos y idiomas construidos . Las palabras de la base de datos se transcriben a una ortografía estándar simplificada ( código ASJP ). [2] La base de datos se ha utilizado para estimar fechas en las que las familias de idiomas han divergido en idiomas hijos mediante un método relacionado con la glotocronología pero aún diferente de ella , [3] para determinar la patria ( Urheimat ) de un protoidioma , [4] para investigar el simbolismo del sonido , [5] para evaluar diferentes métodos filogenéticos, [6] y varios otros propósitos.
El ASJP no es ampliamente aceptado entre los lingüistas históricos como un método adecuado para establecer o evaluar relaciones entre familias lingüísticas. [7]
Es parte del proyecto Cross-Linguistic Linked Data organizado por el Instituto Max Planck para la Ciencia de la Historia Humana . [8]
ASJP se desarrolló originalmente como un medio para evaluar objetivamente la similitud de palabras con el mismo significado de diferentes idiomas, con el objetivo final de clasificar los idiomas computacionalmente, basándose en las similitudes léxicas observadas. En el primer artículo de ASJP [2] dos palabras semánticamente idénticas de idiomas comparados se juzgaron similares si mostraban al menos dos segmentos de sonido idénticos. La similitud entre los dos idiomas se calculó como un porcentaje del número total de palabras comparadas que se juzgaron similares. Este método se aplicó a listas de palabras de 100 elementos para 250 idiomas de familias lingüísticas que incluyen Austroasiatic , Indo-European , Mayan y Muskogean .
El consorcio ASJP, fundado en torno a 2008, llegó a contar con la participación de unos 25 lingüistas profesionales y otras partes interesadas que trabajaban como transcriptores voluntarios y/o prestaban ayuda al proyecto de otras maneras. La principal fuerza impulsora de la fundación del consorcio fue Cecil H. Brown . Søren Wichmann es el curador diario del proyecto. Un tercer miembro central del consorcio es Eric W. Holman, que ha creado la mayor parte del software utilizado en el proyecto.
Si bien las listas de palabras utilizadas se basaron originalmente en la lista Swadesh de 100 elementos , se determinó estadísticamente que un subconjunto de 40 de los 100 elementos produjo resultados de clasificación tan buenos o ligeramente mejores que la lista completa. [9] Por lo tanto, las listas de palabras recopiladas posteriormente contienen solo 40 elementos (o menos, cuando faltan atestigüedades para algunos).
En artículos publicados desde 2008, ASJP ha empleado un programa de juicio de similitud basado en la distancia de Levenshtein (LD). Se ha descubierto que este enfoque produce mejores resultados de clasificación medidos contra la opinión de expertos que el método utilizado inicialmente. La LD se define como el número mínimo de cambios sucesivos necesarios para convertir una palabra en otra, donde cada cambio es la inserción, eliminación o sustitución de un símbolo. Dentro del enfoque de Levenshtein, las diferencias en la longitud de las palabras se pueden corregir dividiendo la LD por el número de símbolos de la palabra más larga de las dos palabras comparadas. Esto produce una LD normalizada (LDN). Una LDN dividida (LDND) entre los dos idiomas se calcula dividiendo la LDN promedio para todos los pares de palabras que involucran el mismo significado por la LDN promedio para todos los pares de palabras que involucran significados diferentes. Esta segunda normalización tiene como objetivo corregir la similitud aleatoria. [10]
La ASJP utiliza la siguiente lista de 40 palabras. [11] Es similar a la lista Swadesh–Yakhontov , pero tiene algunas diferencias.
La versión ASJP de 2016 [ cita requerida ] utiliza los siguientes símbolos para codificar fonemas : pbfvmw 8 tdszcnrl SZC j T 5 ykgx N q X h 7 L 4 G ! ie E 3 auo
Representan 7 vocales y 34 consonantes, todas encontradas en el teclado QWERTY estándar.
Una ~
marca sigue a dos consonantes, por lo que se considera que están en la misma posición. Por lo tanto, kʷat se convierte en kw~at
. Sílabas como kat
, wat
, kaw
y kwi
se consideran léxicamente similares a kw~at
.
De manera similar, una $
marca sigue a tres consonantes de modo que se consideran en la misma posición. ndy$im
se considera similar a nim
, dam
y yim
.
"
marca la consonante precedente como glotalizada .