La identificación de la lengua materna ( NLI ) es la tarea de determinar la lengua materna (L1) de un autor basándose únicamente en sus escritos en una segunda lengua (L2). [1] La NLI funciona mediante la identificación de patrones de uso del lenguaje que son comunes a grupos específicos de L1 y luego aplicando este conocimiento para predecir la lengua materna de textos nunca antes vistos. Esto está motivado en parte por aplicaciones en la adquisición de una segunda lengua , la enseñanza de idiomas y la lingüística forense , entre otros.
El NLI trabaja bajo el supuesto de que la L1 de un autor lo predispondrá a adoptar patrones de producción lingüística particulares en su L2, tal como lo influya su lengua materna. Esto se relaciona con la influencia interlingüística (CLI), un tema clave en el campo de la adquisición de una segunda lengua (SLA) que analiza los efectos de transferencia de la L1 a las lenguas aprendidas posteriormente.
Utilizando datos en inglés a gran escala, los métodos NLI logran una precisión de más del 80 % en la predicción del idioma nativo de textos escritos por autores con 11 antecedentes L1 diferentes. [2] Esto se puede comparar con una línea de base del 9 % para elegir aleatoriamente.
Esta identificación de características específicas de L1 se ha utilizado para estudiar los efectos de la transferencia lingüística en la adquisición de una segunda lengua. [3] Esto es útil para desarrollar material pedagógico, métodos de enseñanza, instrucciones específicas de L1 y generar retroalimentación para los estudiantes adaptada a su lengua materna.
Los métodos de NLI también se pueden aplicar en lingüística forense como método para realizar perfiles de autoría con el fin de inferir los atributos de un autor, incluido su trasfondo lingüístico. Esto es particularmente útil en situaciones en las que un texto, por ejemplo una carta anónima, es la pieza clave de evidencia en una investigación y las pistas sobre la lengua materna de un escritor pueden ayudar a los investigadores a identificar la fuente. Esto ya ha atraído el interés y la financiación de las agencias de inteligencia. [4]
Los métodos de procesamiento del lenguaje natural se utilizan para extraer e identificar patrones de uso del lenguaje comunes a los hablantes de un grupo de L1. Esto se hace utilizando datos de estudiantes de idiomas, generalmente de un corpus de estudiantes. A continuación, se aplica el aprendizaje automático para entrenar clasificadores, como máquinas de vectores de soporte , para predecir la L1 de textos no vistos. [5] También se ha aplicado a la tarea una variedad de sistemas basados en conjuntos y se ha demostrado que mejoran el rendimiento en comparación con los sistemas de un solo clasificador. [6] [7]
Se han aplicado varios tipos de características lingüísticas para esta tarea. Entre ellas se incluyen características sintácticas como análisis de constituyentes, dependencias gramaticales y etiquetas de categorías gramaticales. También se ha descubierto que las características léxicas de nivel superficial, como los n-gramas de caracteres, palabras y lemas , son bastante útiles para esta tarea. Sin embargo, parece que los n-gramas de caracteres [8] [9] son la mejor característica individual para esta tarea.
El taller Building Educational Applications (BEA) en NAACL 2013 albergó la tarea compartida inaugural de NLI. [10] El concurso tuvo como resultado 29 inscripciones de equipos de todo el mundo, 24 de los cuales también publicaron un artículo que describía sus sistemas y enfoques.