stringtranslate.com

Identificación del idioma

En el procesamiento del lenguaje natural , la identificación del lenguaje o la adivinación del lenguaje es el problema de determinar en qué lenguaje natural se encuentra el contenido dado. Los enfoques computacionales para este problema lo ven como un caso especial de categorización de texto , resuelto con varios métodos estadísticos .

Descripción general

Existen varios enfoques estadísticos para la identificación de idiomas que utilizan diferentes técnicas para clasificar los datos. Una técnica consiste en comparar la compresibilidad del texto con la compresibilidad de textos en un conjunto de idiomas conocidos. Este enfoque se conoce como medida de distancia basada en información mutua. La misma técnica también se puede utilizar para construir empíricamente árboles genealógicos de lenguas que se correspondan estrechamente con los árboles construidos utilizando métodos históricos. [ cita necesaria ] La medida de distancia basada en información mutua es esencialmente equivalente a métodos más convencionales basados ​​en modelos y generalmente no se considera novedosa ni mejor que técnicas más simples.

Otra técnica, descrita por Cavnar y Trenkle (1994) y Dunning (1994) es crear un modelo de n-gramas de lenguaje a partir de un "texto de entrenamiento" para cada uno de los lenguajes. Estos modelos pueden basarse en caracteres (Cavnar y Trenkle) o bytes codificados (Dunning); en este último se integran la identificación del idioma y la detección de codificación de caracteres . Luego, para cualquier fragmento de texto que deba identificarse, se crea un modelo similar y ese modelo se compara con cada modelo de lenguaje almacenado. El lenguaje más probable es aquel cuyo modelo es más similar al modelo del texto que debe identificarse. Este enfoque puede resultar problemático cuando el texto de entrada está en un idioma para el que no existe un modelo. En ese caso, el método puede devolver como resultado otro idioma "más similar". También son problemáticos para cualquier enfoque los fragmentos de texto de entrada que se componen de varios idiomas, como es común en la Web.

Para un método más reciente, véase Řehůřek y Kolkus (2009). Este método puede detectar múltiples idiomas en un texto no estructurado y funciona de manera sólida en textos cortos de solo unas pocas palabras: algo con lo que luchan los enfoques de n-gramas .

Un método estadístico más antiguo de Grefenstette se basaba en la prevalencia de ciertas palabras funcionales (por ejemplo, "the" en inglés).

Un enfoque intuitivo no estadístico común (aunque muy incierto) es buscar combinaciones de letras comunes o signos diacríticos o signos de puntuación distintivos. [1] [2]

Identificar idiomas similares

Uno de los grandes obstáculos de los sistemas de identificación de lenguas es distinguir entre lenguas estrechamente relacionadas. Idiomas similares como el búlgaro y el macedonio o el indonesio y el malayo presentan una importante superposición léxica y estructural, lo que dificulta que los sistemas discriminen entre ellos.

En 2014, la tarea compartida DSL [3] se organizó proporcionando un conjunto de datos (Tan et al., 2014) que contiene 13 idiomas diferentes (y variedades lingüísticas) en seis grupos lingüísticos: Grupo A (bosnio, croata, serbio), Grupo B ( indonesio, malasio), grupo C (checo, eslovaco), grupo D (portugués brasileño, portugués europeo), grupo E (español peninsular, español argentino), grupo F (inglés americano, inglés británico). El mejor sistema alcanzó un rendimiento superior al 95% de los resultados (Goutte et al., 2014). Los resultados de la tarea compartida DSL se describen en Zampieri et al. 2014.

Software

Ver también

Referencias

Referencias

  1. ^ Valores, Wolfgang G.; Stock, Matilda (31 de julio de 2013). Manual de ciencias de la información. Walter de Gruyter. págs. 180-181. ISBN 978-3-11-023500-5.
  2. ^ Hagiwara, Masato (14 de diciembre de 2021). Procesamiento del lenguaje natural en el mundo real: aplicaciones prácticas con aprendizaje profundo. Simón y Schuster. págs. 105-106. ISBN 978-1-61729-642-0.
  3. ^ "Taller VarDial @ COLING 2014".