stringtranslate.com

Identificación del idioma

En el procesamiento del lenguaje natural , la identificación del lenguaje o la adivinación del lenguaje es el problema de determinar en qué lenguaje natural se encuentra un contenido dado. Los enfoques computacionales para este problema lo ven como un caso especial de categorización de texto , que se resuelve con varios métodos estadísticos .

Descripción general

Existen varios enfoques estadísticos para la identificación de idiomas que utilizan diferentes técnicas para clasificar los datos. Una técnica consiste en comparar la compresibilidad del texto con la compresibilidad de los textos en un conjunto de idiomas conocidos. Este enfoque se conoce como medición de distancia basada en información mutua. La misma técnica también se puede utilizar para construir empíricamente árboles genealógicos de idiomas que se correspondan estrechamente con los árboles construidos utilizando métodos históricos. [ cita requerida ] La medición de distancia basada en información mutua es esencialmente equivalente a métodos basados ​​en modelos más convencionales y, en general, no se considera novedosa ni mejor que las técnicas más simples.

Otra técnica, como describen Cavnar y Trenkle (1994) y Dunning (1994), consiste en crear un modelo de n-gramas de lenguaje a partir de un "texto de entrenamiento" para cada uno de los idiomas. Estos modelos pueden basarse en caracteres (Cavnar y Trenkle) o en bytes codificados (Dunning); en este último caso, se integran la identificación del lenguaje y la detección de la codificación de caracteres . A continuación, para cualquier fragmento de texto que se necesite identificar, se crea un modelo similar y se compara ese modelo con cada modelo de lenguaje almacenado. El idioma más probable es aquel con el modelo más similar al modelo del texto que se necesita identificar. Este enfoque puede ser problemático cuando el texto de entrada está en un idioma para el que no existe ningún modelo. En ese caso, el método puede devolver otro idioma "más similar" como resultado. También son problemáticos para cualquier enfoque los fragmentos de texto de entrada que están compuestos por varios idiomas, como es habitual en la Web.

Para un método más reciente, véase Řehůřek y Kolkus (2009). Este método puede detectar varios idiomas en un fragmento de texto no estructurado y funciona de manera robusta en textos cortos de solo unas pocas palabras: algo con lo que los enfoques de n-gramas tienen dificultades.

Un método estadístico más antiguo de Grefenstette se basaba en la prevalencia de ciertas palabras funcionales (por ejemplo, "the" en inglés).

Un enfoque intuitivo no estadístico común (aunque muy incierto) es buscar combinaciones de letras comunes o signos diacríticos o de puntuación distintivos. [1] [2]

Identificación de idiomas similares

Uno de los grandes obstáculos de los sistemas de identificación de lenguas es la distinción entre lenguas estrechamente relacionadas. Lenguas similares, como el búlgaro y el macedonio o el indonesio y el malayo, presentan importantes superposiciones léxicas y estructurales, lo que dificulta a los sistemas la distinción entre ellas.

En 2014 se organizó la tarea compartida DSL [3] que proporcionó un conjunto de datos (Tan et al., 2014) que contenía 13 idiomas diferentes (y variedades lingüísticas) en seis grupos lingüísticos: Grupo A (bosnio, croata, serbio), Grupo B (indonesio, malayo), Grupo C (checo, eslovaco), Grupo D (portugués brasileño, portugués europeo), Grupo E (español peninsular, español argentino), Grupo F (inglés americano, inglés británico). El mejor sistema alcanzó un rendimiento de más del 95 % de los resultados (Goutte et al., 2014). Los resultados de la tarea compartida DSL se describen en Zampieri et al. 2014.

Software

Véase también

Referencias

Referencias

  1. ^ Valores, Wolfgang G.; Stock, Matilda (31 de julio de 2013). Manual de ciencias de la información. Walter de Gruyter. págs. 180-181. ISBN 978-3-11-023500-5.
  2. ^ Hagiwara, Masato (14 de diciembre de 2021). Procesamiento del lenguaje natural en el mundo real: aplicaciones prácticas con aprendizaje profundo. Simon and Schuster. págs. 105-106. ISBN 978-1-61729-642-0.
  3. ^ "Taller VarDial @ COLING 2014".