Identificación del idioma

En el procesamiento del lenguaje natural , la identificación del lenguaje o la adivinación del lenguaje es el problema de determinar en qué lenguaje natural se encuentra un contenido dado. Los enfoques computacionales para este problema lo ven como un caso especial de categorización de texto , que se resuelve con varios métodos estadísticos .

Descripción general

Existen varios enfoques estadísticos para la identificación de idiomas que utilizan diferentes técnicas para clasificar los datos. Una técnica consiste en comparar la compresibilidad del texto con la compresibilidad de los textos en un conjunto de idiomas conocidos. Este enfoque se conoce como medición de distancia basada en información mutua. La misma técnica también se puede utilizar para construir empíricamente árboles genealógicos de idiomas que se correspondan estrechamente con los árboles construidos utilizando métodos históricos. ^{[ cita requerida ]} La medición de distancia basada en información mutua es esencialmente equivalente a métodos basados en modelos más convencionales y, en general, no se considera novedosa ni mejor que las técnicas más simples.

Otra técnica, como describen Cavnar y Trenkle (1994) y Dunning (1994), consiste en crear un modelo de n-gramas de lenguaje a partir de un "texto de entrenamiento" para cada uno de los idiomas. Estos modelos pueden basarse en caracteres (Cavnar y Trenkle) o en bytes codificados (Dunning); en este último caso, se integran la identificación del lenguaje y la detección de la codificación de caracteres . A continuación, para cualquier fragmento de texto que se necesite identificar, se crea un modelo similar y se compara ese modelo con cada modelo de lenguaje almacenado. El idioma más probable es aquel con el modelo más similar al modelo del texto que se necesita identificar. Este enfoque puede ser problemático cuando el texto de entrada está en un idioma para el que no existe ningún modelo. En ese caso, el método puede devolver como resultado otro idioma "más similar". También son problemáticos para cualquier enfoque los fragmentos de texto de entrada que están compuestos por varios idiomas, como es habitual en la Web.

Para un método más reciente, véase Řehůřek y Kolkus (2009). Este método puede detectar varios idiomas en un fragmento de texto no estructurado y funciona de manera robusta en textos cortos de solo unas pocas palabras: algo con lo que los enfoques de n-gramas tienen dificultades.

Un método estadístico más antiguo de Grefenstette se basaba en la prevalencia de ciertas palabras funcionales (por ejemplo, "the" en inglés).

Un enfoque intuitivo no estadístico común (aunque muy incierto) es buscar combinaciones de letras comunes o signos diacríticos o de puntuación distintivos. ^[1]^[2]

Identificación de idiomas similares

Uno de los grandes obstáculos de los sistemas de identificación de lenguas es la distinción entre lenguas estrechamente relacionadas. Lenguas similares, como el búlgaro y el macedonio o el indonesio y el malayo, presentan importantes superposiciones léxicas y estructurales, lo que dificulta a los sistemas la distinción entre ellas.

En 2014 se organizó la tarea compartida DSL ^[3] que proporcionó un conjunto de datos (Tan et al., 2014) que contenía 13 idiomas diferentes (y variedades lingüísticas) en seis grupos lingüísticos: Grupo A (bosnio, croata, serbio), Grupo B (indonesio, malayo), Grupo C (checo, eslovaco), Grupo D (portugués brasileño, portugués europeo), Grupo E (español peninsular, español argentino), Grupo F (inglés americano, inglés británico). El mejor sistema alcanzó un rendimiento de más del 95 % de los resultados (Goutte et al., 2014). Los resultados de la tarea compartida DSL se describen en Zampieri et al. 2014.

Software

Apache OpenNLP incluye un detector estadístico basado en n-gramas de caracteres y viene con un modelo que puede distinguir 103 idiomas.
Apache Tika contiene un detector de idiomas para 18 idiomas

Véase también

Referencias

Benedetto, D., E. Caglioti y V. Loreto. Árboles de lenguaje y cremalleras. Physical Review Letters , 88:4 (2002), Teoría de la complejidad.
Cavnar, William B. y John M. Trenkle. "Categorización de texto basada en N-Gram". Actas de SDAIR-94, 3er Simposio Anual sobre Análisis de Documentos y Recuperación de Información (1994) [1].
Cilibrasi, Rudi y Paul MB Vitanyi. "Agrupamiento por compresión". IEEE Transactions on Information Theory 51(4), abril de 2005, 1523–1545.
Dunning, T. (1994) "Identificación estadística del lenguaje". Informe técnico MCCS 94-273, Universidad Estatal de Nuevo México, 1994.
Goodman, Joshua. (2002) Comentario ampliado sobre "Árboles de lenguaje y compresión". Microsoft Research, 21 de febrero de 2002. (Se trata de una crítica a la compresión de datos a favor del método Naive Bayes).
Goutte, C.; Leger, S.; Carpuat, M. (2014) El sistema NRC para discriminar idiomas similares. Actas del taller Coling 2014 "Aplicación de herramientas de PNL a idiomas, variedades y dialectos similares"
Grefenstette, Gregory. (1995) Comparación de dos esquemas de identificación de idiomas. Actas de la 3.ª Conferencia Internacional sobre Análisis Estadístico de Datos Textuales (JADT 1995).
Poutsma, Arjen. (2001) Aplicación de técnicas de Monte Carlo a la identificación de lenguajes. SmartHaven, Ámsterdam. Presentado en CLIN 2001. Archivado el 7 de enero de 2015 en Wayback Machine .
Tan, L.; Zampieri, M.; Ljubešić, N.; Tiedemann, J. (2014) Fusión de fuentes de datos comparables para la discriminación de idiomas similares: la colección de corpus DSL. Actas del 7.º Taller sobre creación y uso de corpus comparables (BUCC). Reykjavik, Islandia. págs. 6-10
The Economist. (2002) "Los elementos de estilo: el análisis de datos comprimidos conduce a resultados impresionantes en lingüística"
Radim Řehůřek y Milan Kolkus. (2009) "Identificación de idiomas en la Web: ampliación del método del diccionario" Lingüística computacional y procesamiento inteligente de textos .
Zampieri, M.; Tan, L.; Ljubešić, N.; Tiedemann, J. (2014) Un informe sobre la tarea compartida DSL 2014. Actas del 1.er taller sobre la aplicación de herramientas de PNL a idiomas, variedades y dialectos similares (VarDial). Dublín, Irlanda. págs. 58-67.

Referencias

^ Valores, Wolfgang G.; Stock, Matilda (31 de julio de 2013). Manual de ciencias de la información. Walter de Gruyter. págs. 180-181. ISBN 978-3-11-023500-5.
^ Hagiwara, Masato (14 de diciembre de 2021). Procesamiento del lenguaje natural en el mundo real: aplicaciones prácticas con aprendizaje profundo. Simon and Schuster. págs. 105-106. ISBN 978-1-61729-642-0.
^ "Taller VarDial @ COLING 2014".