stringtranslate.com

Identificación de la lengua nativa

La identificación de la lengua materna ( NLI ) es la tarea de determinar la lengua materna (L1) de un autor basándose únicamente en sus escritos en una segunda lengua (L2). [1] La NLI funciona mediante la identificación de patrones de uso del lenguaje que son comunes a grupos específicos de L1 y luego aplicando este conocimiento para predecir la lengua materna de textos nunca antes vistos. Esto está motivado en parte por aplicaciones en la adquisición de una segunda lengua , la enseñanza de idiomas y la lingüística forense , entre otros.

Descripción general

El NLI trabaja bajo el supuesto de que la L1 de un autor lo predispondrá a adoptar patrones de producción lingüística particulares en su L2, tal como lo influya su lengua materna. Esto se relaciona con la influencia interlingüística (CLI), un tema clave en el campo de la adquisición de una segunda lengua (SLA) que analiza los efectos de transferencia de la L1 a las lenguas aprendidas posteriormente.

Utilizando datos en inglés a gran escala, los métodos NLI logran una precisión de más del 80 % en la predicción del idioma nativo de textos escritos por autores con 11 antecedentes L1 diferentes. [2] Esto se puede comparar con una línea de base del 9 % para elegir aleatoriamente.

Aplicaciones

Pedagogía y transferencia lingüística

Esta identificación de características específicas de L1 se ha utilizado para estudiar los efectos de la transferencia lingüística en la adquisición de una segunda lengua. [3] Esto es útil para desarrollar material pedagógico, métodos de enseñanza, instrucciones específicas de L1 y generar retroalimentación para los estudiantes adaptada a su lengua materna.

Lingüística forense

Los métodos de NLI también se pueden aplicar en lingüística forense como método para realizar perfiles de autoría con el fin de inferir los atributos de un autor, incluido su trasfondo lingüístico. Esto es particularmente útil en situaciones en las que un texto, por ejemplo una carta anónima, es la pieza clave de evidencia en una investigación y las pistas sobre la lengua materna de un escritor pueden ayudar a los investigadores a identificar la fuente. Esto ya ha atraído el interés y la financiación de las agencias de inteligencia. [4]

Metodología

Los métodos de procesamiento del lenguaje natural se utilizan para extraer e identificar patrones de uso del lenguaje comunes a los hablantes de un grupo de L1. Esto se hace utilizando datos de estudiantes de idiomas, generalmente de un corpus de estudiantes. A continuación, se aplica el aprendizaje automático para entrenar clasificadores, como máquinas de vectores de soporte , para predecir la L1 de textos no vistos. [5] También se ha aplicado a la tarea una variedad de sistemas basados ​​en conjuntos y se ha demostrado que mejoran el rendimiento en comparación con los sistemas de un solo clasificador. [6] [7]

Se han aplicado varios tipos de características lingüísticas para esta tarea. Entre ellas se incluyen características sintácticas como análisis de constituyentes, dependencias gramaticales y etiquetas de categorías gramaticales. También se ha descubierto que las características léxicas de nivel superficial, como los n-gramas de caracteres, palabras y lemas , son bastante útiles para esta tarea. Sin embargo, parece que los n-gramas de caracteres [8] [9] son ​​la mejor característica individual para esta tarea.

Tarea compartida 2013

El taller Building Educational Applications (BEA) en NAACL 2013 albergó la tarea compartida inaugural de NLI. [10] El concurso tuvo como resultado 29 inscripciones de equipos de todo el mundo, 24 de los cuales también publicaron un artículo que describía sus sistemas y enfoques.

Véase también

Referencias

  1. ^ Wong, Sze-Meng Jojo y Mark Dras. "Explotación de estructuras de análisis para la identificación de lenguas nativas". Actas de la Conferencia sobre métodos empíricos en el procesamiento del lenguaje natural. Asociación de Lingüística Computacional, 2011.
  2. ^ Shervin Malmasi, Keelan Evanini, Aoife Cahill, Joel Tetreault, Robert Pugh, Christopher Hamill, Diane Napolitano y Yao Qian. 2017. "Un informe sobre la tarea compartida de identificación de lenguas nativas de 2017". En Actas del 12.º taller sobre el uso innovador del lenguaje natural para la creación de aplicaciones educativas, páginas 62-75, Copenhague, Dinamarca. Asociación de Lingüística Computacional.
  3. ^ Malmasi, Shervin y Mark Dras. "Hipótesis de transferencia de lenguaje con ponderaciones SVM lineales". Actas de la Conferencia de 2014 sobre métodos empíricos en el procesamiento del lenguaje natural (EMNLP). 2014.
  4. ^ Ria Perkins. 2014. "Identificadores lingüísticos de hablantes de persa L1 que escriben en inglés: NLID para análisis de autoría". Tesis doctoral, Universidad de Aston.
  5. ^ Tetreault et al, "Lenguas nativas, perdidas y encontradas: recursos y evaluaciones empíricas en la identificación de lenguas nativas", en Proc. Conferencia Internacional sobre Lingüística Computacional (COLING), 2012
  6. ^ Malmasi, Shervin, Sze-Meng Jojo Wong y Mark Dras. "Tarea compartida de NLI 2013: presentación de MQ". Actas del octavo taller sobre uso innovador de la PNL para la creación de aplicaciones educativas. 2013.
  7. ^ Habic, Vuk, Semenov, Alexander y Pasiliao, Eduardo. "Aprendizaje profundo multitarea para la identificación de lenguas nativas" en Knowledge-Based Systems, 2020
  8. ^ Radu Tudor Ionescu, Marius Popescu y Aoife Cahill. "Núcleos de cadenas para la identificación de lenguas nativas: perspectivas ocultas", Computational Linguistics, 2016
  9. ^ Radu Tudor Ionescu y Marius Popescu. "¿Pueden los núcleos de cadenas superar la prueba del tiempo en la identificación de lenguas nativas?", en Actas de BEA12, 2017.
  10. ^ Tetreault et al, "Un informe sobre la primera tarea compartida de identificación de lenguas nativas", 2013