Identificación del idioma

En el procesamiento del lenguaje natural , la identificación del lenguaje o la adivinación del lenguaje es el problema de determinar en qué lenguaje natural se encuentra el contenido dado. Los enfoques computacionales para este problema lo ven como un caso especial de categorización de texto , resuelto con varios métodos estadísticos .

Descripción general

Existen varios enfoques estadísticos para la identificación de idiomas que utilizan diferentes técnicas para clasificar los datos. Una técnica consiste en comparar la compresibilidad del texto con la compresibilidad de textos en un conjunto de idiomas conocidos. Este enfoque se conoce como medida de distancia basada en información mutua. La misma técnica también se puede utilizar para construir empíricamente árboles genealógicos de lenguas que se correspondan estrechamente con los árboles construidos utilizando métodos históricos. ^{[ cita necesaria ]} La medida de distancia basada en información mutua es esencialmente equivalente a métodos más convencionales basados en modelos y generalmente no se considera novedosa ni mejor que técnicas más simples.

Otra técnica, descrita por Cavnar y Trenkle (1994) y Dunning (1994) es crear un modelo de n-gramas de lenguaje a partir de un "texto de entrenamiento" para cada uno de los lenguajes. Estos modelos pueden basarse en caracteres (Cavnar y Trenkle) o bytes codificados (Dunning); en este último se integran la identificación del idioma y la detección de codificación de caracteres . Luego, para cualquier fragmento de texto que deba identificarse, se crea un modelo similar y ese modelo se compara con cada modelo de lenguaje almacenado. El lenguaje más probable es aquel cuyo modelo es más similar al modelo del texto que debe identificarse. Este enfoque puede resultar problemático cuando el texto de entrada está en un idioma para el que no existe un modelo. En ese caso, el método puede devolver como resultado otro idioma "más similar". También son problemáticos para cualquier enfoque los fragmentos de texto de entrada que se componen de varios idiomas, como es común en la Web.

Para un método más reciente, véase Řehůřek y Kolkus (2009). Este método puede detectar múltiples idiomas en un texto no estructurado y funciona de manera sólida en textos cortos de solo unas pocas palabras: algo con lo que luchan los enfoques de n-gramas .

Un método estadístico más antiguo de Grefenstette se basaba en la prevalencia de ciertas palabras funcionales (por ejemplo, "the" en inglés).

Un enfoque intuitivo no estadístico común (aunque muy incierto) es buscar combinaciones de letras comunes o signos diacríticos o signos de puntuación distintivos. ^[1]^[2]

Identificar idiomas similares

Uno de los grandes obstáculos de los sistemas de identificación de lenguas es distinguir entre lenguas estrechamente relacionadas. Idiomas similares como el búlgaro y el macedonio o el indonesio y el malayo presentan una importante superposición léxica y estructural, lo que dificulta que los sistemas discriminen entre ellos.

En 2014, la tarea compartida DSL ^[3] se organizó proporcionando un conjunto de datos (Tan et al., 2014) que contiene 13 idiomas diferentes (y variedades lingüísticas) en seis grupos lingüísticos: Grupo A (bosnio, croata, serbio), Grupo B ( indonesio, malasio), grupo C (checo, eslovaco), grupo D (portugués brasileño, portugués europeo), grupo E (español peninsular, español argentino), grupo F (inglés americano, inglés británico). El mejor sistema alcanzó un rendimiento superior al 95% de los resultados (Goutte et al., 2014). Los resultados de la tarea compartida DSL se describen en Zampieri et al. 2014.

Software

Apache OpenNLP incluye un detector estadístico basado en char n-gram y viene con un modelo que puede distinguir 103 idiomas
Apache Tika contiene un detector de idiomas para 18 idiomas

Ver también

Referencias

Benedetto, D., E. Caglioti y V. Loreto. Árboles de lenguaje y zipping. Physical Review Letters , 88:4 (2002), Teoría de la complejidad.
Cavnar, William B. y John M. Trenkle. "Categorización de texto basada en N-Gram". Actas de SDAIR-94, tercer simposio anual sobre análisis de documentos y recuperación de información (1994) [1].
Cilibrasi, Rudi y Paul MB Vitanyi. "Agrupación por compresión". IEEE Transactions on Information Theory 51(4), abril de 2005, 1523–1545.
Dunning, T. (1994) "Identificación estadística del lenguaje". Informe técnico MCCS 94-273, Universidad Estatal de Nuevo México, 1994.
Buen hombre, Josué. (2002) Comentario ampliado sobre "Árboles de lenguaje y compresión". Microsoft Research, 21 de febrero de 2002. (Esta es una crítica a la compresión de datos a favor del método Naive Bayes).
Gota, C.; Léger, S.; Carpuat, M. (2014) El sistema NRC para discriminar lenguas similares. Actas del taller de Coling 2014 "Aplicación de herramientas de PNL a idiomas, variedades y dialectos similares"
Grefenstette, Gregorio. (1995) Comparación de dos esquemas de identificación de idiomas. Actas de la Tercera Conferencia Internacional sobre el Análisis Estadístico de Datos Textuales (JADT 1995).
Poutsma, Arjen. (2001) Aplicación de técnicas de Monte Carlo a la identificación de lenguas. SmartHaven, Ámsterdam. Presentado en CLIN 2001 Archivado el 7 de enero de 2015 en Wayback Machine .
Bronceado, L.; Zampieri, M.; Ljubešić, N.; Tiedemann, J. (2014) Fusión de fuentes de datos comparables para la discriminación de idiomas similares: la colección DSL Corpus. Actas del séptimo taller sobre creación y uso de corpus comparables (BUCC). Reikiavik, Islandia. pag. 6-10
El economista. (2002) "Los elementos del estilo: el análisis de datos comprimidos conduce a resultados impresionantes en lingüística"
Radim Řehůřek y Milan Kolkus. (2009) "Identificación de idiomas en la Web: ampliación del método del diccionario" Lingüística computacional y procesamiento inteligente de textos .
Zampieri, M.; Bronceado, L.; Ljubešić, N.; Tiedemann, J. (2014) Informe sobre la tarea compartida DSL 2014. Actas del primer taller sobre la aplicación de herramientas de PNL a idiomas, variedades y dialectos similares (VarDial). Dublín, Irlanda. pag. 58-67.

Referencias

^ Valores, Wolfgang G.; Stock, Matilda (31 de julio de 2013). Manual de ciencias de la información. Walter de Gruyter. págs. 180-181. ISBN 978-3-11-023500-5.
^ Hagiwara, Masato (14 de diciembre de 2021). Procesamiento del lenguaje natural en el mundo real: aplicaciones prácticas con aprendizaje profundo. Simón y Schuster. págs. 105-106. ISBN 978-1-61729-642-0.
^ "Taller VarDial @ COLING 2014".