stringtranslate.com

Etiquetado de parte del discurso

En lingüística de corpus , el etiquetado de partes del discurso ( etiquetado POS o etiquetado PoS o POST ), también llamado etiquetado gramatical , es el proceso de marcar una palabra en un texto (corpus) como correspondiente a una parte particular del discurso , [1] basándose tanto en su definición como en su contexto . Una forma simplificada de esto se enseña comúnmente a niños en edad escolar, en la identificación de palabras como sustantivos , verbos , adjetivos , adverbios , etc.

Una vez realizado a mano, el etiquetado POS ahora se realiza en el contexto de la lingüística computacional , utilizando algoritmos que asocian términos discretos, así como partes ocultas de la oración, mediante un conjunto de etiquetas descriptivas. Los algoritmos de etiquetado de POS se dividen en dos grupos distintos: basados ​​en reglas y estocásticos. El etiquetador de E. Brill , uno de los primeros y más utilizados etiquetadores de POS en inglés, emplea algoritmos basados ​​en reglas.

Principio

El etiquetado de partes del discurso es más difícil que simplemente tener una lista de palabras y sus partes del discurso, porque algunas palabras pueden representar más de una parte del discurso en diferentes momentos y porque algunas partes del discurso son complejas. Esto no es raro: en los lenguajes naturales (a diferencia de muchos lenguajes artificiales ), un gran porcentaje de las formas de las palabras son ambiguas . Por ejemplo, incluso "perros", que normalmente se considera simplemente un sustantivo en plural, también puede ser un verbo:

El marinero vigila la escotilla.

El etiquetado gramatical correcto reflejará que "perros" se usa aquí como verbo, no como el sustantivo plural más común. El contexto gramatical es una forma de determinar esto; El análisis semántico también se puede utilizar para inferir que "marinero" y "escotilla" implican a "perros" como 1) en el contexto náutico y 2) una acción aplicada al objeto "escotilla" (en este contexto, "perros" es un término que significa "cierra (una puerta estanca) de forma segura").

Conjuntos de etiquetas

Las escuelas comúnmente enseñan que hay 9 partes del discurso en inglés: sustantivo , verbo , artículo , adjetivo , preposición , pronombre , adverbio , conjunción e interjección . Sin embargo, es evidente que existen muchas más categorías y subcategorías. Para los sustantivos, se pueden distinguir las formas plural, posesiva y singular. En muchos idiomas las palabras también se marcan por su " caso " (rol como sujeto, objeto, etc.), género gramatical , etc.; mientras que los verbos están marcados por tiempo , aspecto y otras cosas. En algunos sistemas de etiquetado, diferentes inflexiones de la misma raíz de la palabra obtendrán diferentes partes del discurso, lo que dará como resultado una gran cantidad de etiquetas. Por ejemplo, NN para sustantivos comunes singulares, NNS para sustantivos comunes plurales, NP para nombres propios singulares (consulte las etiquetas POS utilizadas en Brown Corpus). Otros sistemas de etiquetado utilizan un número menor de etiquetas e ignoran las diferencias sutiles o las modelan como características algo independientes de la parte del discurso. [2]

En el etiquetado de partes del discurso por computadora, es típico distinguir entre 50 y 150 partes del discurso separadas para inglés. El trabajo sobre métodos estocásticos para etiquetar el griego koiné (DeRose 1990) utilizó más de 1.000 partes de la oración y encontró que aproximadamente tantas palabras eran ambiguas en ese idioma como en inglés. Un descriptor morfosintáctico en el caso de lenguas morfológicamente ricas se expresa comúnmente utilizando mnemónicos muy cortos, como Ncmsan para Categoría=Sustantivo, Tipo = común, Género = masculino, Número = singular, Caso = acusativo, Animado = no.

El "conjunto de etiquetas" más popular para el etiquetado de puntos de venta en inglés americano es probablemente el conjunto de etiquetas Penn, desarrollado en el proyecto Penn Treebank. Es muy similar a los conjuntos de etiquetas anteriores Brown Corpus y LOB Corpus, aunque mucho más pequeños. En Europa, los conjuntos de etiquetas de las Directrices Eagles tienen un uso generalizado e incluyen versiones para varios idiomas.

El trabajo de etiquetado de POS se ha realizado en una variedad de idiomas y el conjunto de etiquetas de POS utilizadas varía mucho según el idioma. Las etiquetas generalmente están diseñadas para incluir distinciones morfológicas manifiestas, aunque esto conduce a inconsistencias como la marcación de casos para los pronombres pero no para los sustantivos en inglés, y diferencias mucho mayores entre idiomas. Los conjuntos de etiquetas para idiomas con muchas flexiones, como el griego y el latín, pueden ser muy grandes; etiquetar palabras en lenguas aglutinantes como las lenguas inuit puede resultar prácticamente imposible. En el otro extremo, Petrov et al. [3] han propuesto un conjunto de etiquetas "universal", con 12 categorías (por ejemplo, sin subtipos de sustantivos, verbos, puntuación, etc.). Depende del propósito en cuestión si es preferible un conjunto muy pequeño de etiquetas muy amplias o un conjunto mucho más grande de etiquetas más precisas. El etiquetado automático es más fácil en conjuntos de etiquetas más pequeños.

Historia

El cuerpo marrón

La investigación sobre el etiquetado de partes del discurso ha estado estrechamente ligada a la lingüística de corpus . El primer corpus importante de inglés para análisis informático fue el Brown Corpus desarrollado en la Universidad de Brown por Henry Kučera y W. Nelson Francis , a mediados de los años 1960. Consta de aproximadamente 1.000.000 de palabras de texto en prosa en inglés, compuesto por 500 muestras de publicaciones elegidas al azar. Cada muestra tiene 2000 o más palabras (que terminan en la primera oración y terminan después de 2000 palabras, de modo que el corpus contiene solo oraciones completas).

El Brown Corpus fue minuciosamente "etiquetado" con marcadores de partes del discurso durante muchos años. Se hizo una primera aproximación con un programa de Greene y Rubin, que consistía en una enorme lista hecha a mano de qué categorías podían coexistir. Por ejemplo, puede aparecer artículo y luego sustantivo, pero artículo y luego verbo (posiblemente) no. El programa obtuvo aproximadamente un 70% de acierto. Sus resultados fueron revisados ​​y corregidos a mano repetidamente, y posteriormente los usuarios enviaron erratas de modo que a finales de los años 70 el etiquetado era casi perfecto (teniendo en cuenta algunos casos en los que incluso los hablantes humanos podrían no estar de acuerdo).

Este corpus se ha utilizado para innumerables estudios sobre la frecuencia de las palabras y las partes del discurso e inspiró el desarrollo de corpus "etiquetados" similares en muchos otros idiomas. Las estadísticas derivadas de su análisis formaron la base para la mayoría de los sistemas de etiquetado de partes del discurso posteriores, como CLAWS y VOLSUNGA. Sin embargo, en este momento (2005) ha sido reemplazado por corpus más grandes, como el British National Corpus de 100 millones de palabras , aunque los corpus más grandes rara vez están tan cuidadosamente seleccionados.

Durante algún tiempo, el etiquetado de partes del discurso se consideró una parte inseparable del procesamiento del lenguaje natural , porque hay ciertos casos en los que no se puede decidir la parte correcta del discurso sin comprender la semántica o incluso la pragmática del contexto. Esto es extremadamente costoso, especialmente porque analizar los niveles superiores es mucho más difícil cuando se deben considerar múltiples posibilidades de parte del discurso para cada palabra.

Uso de modelos de Markov ocultos.

A mediados de la década de 1980, investigadores en Europa comenzaron a utilizar modelos ocultos de Markov (HMM) para eliminar la ambigüedad de partes del discurso cuando trabajaban para etiquetar el corpus Lancaster-Oslo-Bergen de inglés británico. Los HMM implican contar casos (como los del Brown Corpus) y hacer una tabla de probabilidades de ciertas secuencias. Por ejemplo, una vez que haya visto un artículo como "el", quizás la siguiente palabra sea un sustantivo el 40% de las veces, un adjetivo el 40% y un número el 20%. Sabiendo esto, un programa puede decidir que es mucho más probable que "can" en "the can" sea un sustantivo que un verbo o un modal. Por supuesto, se puede utilizar el mismo método para beneficiarse del conocimiento de las siguientes palabras.

Los HMM más avanzados ("de orden superior") aprenden las probabilidades no sólo de pares sino también de secuencias triples o incluso más grandes. Entonces, por ejemplo, si acaba de ver un sustantivo seguido de un verbo, es muy probable que el siguiente elemento sea una preposición, un artículo o un sustantivo, pero mucho menos probable que sea otro verbo.

Cuando varias palabras ambiguas aparecen juntas, las posibilidades se multiplican. Sin embargo, es fácil enumerar cada combinación y asignar una probabilidad relativa a cada una, multiplicando por turno las probabilidades de cada elección. Luego se elige la combinación con mayor probabilidad. El grupo europeo desarrolló CLAWS, un programa de etiquetado que hizo exactamente esto y logró una precisión del orden del 93% al 95%.

Eugene Charniak señala en Técnicas estadísticas para el análisis del lenguaje natural (1997) [4] que simplemente asignando la etiqueta más común a cada palabra conocida y la etiqueta " nombre propio " a todas las incógnitas se alcanzará una precisión del 90% porque muchas palabras no son ambiguas, y muchos otros rara vez representan sus partes menos comunes del discurso.

CLAWS fue pionero en el campo del etiquetado de partes del discurso basado en HMM, pero era bastante costoso ya que enumeraba todas las posibilidades. A veces tenía que recurrir a métodos de respaldo cuando simplemente había demasiadas opciones (el Brown Corpus contiene un caso con 17 palabras ambiguas seguidas, y hay palabras como "todavía" que pueden representar hasta 7 partes distintas del discurso [5 ]

Los HMM son la base del funcionamiento de los etiquetadores estocásticos y se utilizan en varios algoritmos, uno de los más utilizados es el algoritmo de inferencia bidireccional. [6]

Métodos de programación dinámica.

En 1987, Steven DeRose [7] y Kenneth W. Church [8] desarrollaron de forma independiente algoritmos de programación dinámica para resolver el mismo problema en mucho menos tiempo. Sus métodos eran similares al algoritmo de Viterbi conocido desde hace algún tiempo en otros campos. DeRose usó una tabla de pares, mientras que Church usó una tabla de triples y un método para estimar los valores de triples que eran raros o inexistentes en el Brown Corpus (una medición real de probabilidades triples requeriría un corpus mucho más grande). Ambos métodos lograron una precisión superior al 95%. La disertación de DeRose de 1990 en la Universidad de Brown incluyó análisis de tipos de error específicos, probabilidades y otros datos relacionados, y replicó su trabajo en griego, donde resultó igualmente eficaz.

Estos hallazgos fueron sorprendentemente disruptivos para el campo del procesamiento del lenguaje natural. La precisión reportada fue mayor que la precisión típica de algoritmos muy sofisticados que integraban parte de la elección del habla con muchos niveles más altos de análisis lingüístico: sintaxis, morfología, semántica, etc. Los métodos de CLAWS, DeRose y Church fallaron en algunos de los casos conocidos en los que se requiere semántica, pero resultaron insignificantemente raros. Esto convenció a muchos en el campo de que sería útil separar el etiquetado de partes del discurso de los otros niveles de procesamiento; esto, a su vez, simplificó la teoría y la práctica del análisis del lenguaje computarizado y alentó a los investigadores a encontrar formas de separar también otras piezas. Los modelos de Markov se convirtieron en el método estándar para la asignación de partes del discurso.

Etiquetadores no supervisados

Los métodos ya discutidos implican trabajar a partir de un corpus preexistente para aprender las probabilidades de etiquetas. Sin embargo, también es posible arrancar utilizando etiquetado "no supervisado". Las técnicas de etiquetado no supervisadas utilizan un corpus sin etiquetar para sus datos de entrenamiento y producen el conjunto de etiquetas por inducción. Es decir, observan patrones en el uso de las palabras y derivan ellos mismos categorías de partes del discurso. Por ejemplo, las estadísticas revelan fácilmente que "el", "un" y "una" ocurren en contextos similares, mientras que "comer" ocurre en contextos muy diferentes. Con suficiente iteración, surgen clases de palabras de similitud que son notablemente similares a las que esperarían los lingüistas humanos; y las diferencias mismas a veces sugieren nuevas ideas valiosas.

Estas dos categorías se pueden subdividir en enfoques basados ​​en reglas, estocásticos y neuronales.

Otros etiquetadores y métodos

Algunos de los principales algoritmos actuales para el etiquetado de partes del discurso incluyen el algoritmo de Viterbi , el etiquetador Brill , la gramática de restricción y el algoritmo de Baum-Welch (también conocido como algoritmo hacia adelante y hacia atrás). Los etiquetadores del modelo de Markov oculto y del modelo de Markov visible se pueden implementar utilizando el algoritmo de Viterbi. El etiquetador Brill basado en reglas es inusual porque aprende un conjunto de patrones de reglas y luego aplica esos patrones en lugar de optimizar una cantidad estadística.

También se han aplicado muchos métodos de aprendizaje automático al problema del etiquetado de puntos de venta. Se han probado métodos como SVM , clasificador de máxima entropía , perceptrón y vecino más cercano , y la mayoría puede lograr una precisión superior al 95%. [ cita necesaria ]

Se informa una comparación directa de varios métodos (con referencias) en ACL Wiki. [9] Esta comparación utiliza la etiqueta Penn establecida en algunos de los datos de Penn Treebank, por lo que los resultados son directamente comparables. Sin embargo, muchos etiquetadores importantes no se incluyen (quizás debido al trabajo que implica reconfigurarlos para este conjunto de datos en particular). Por lo tanto, no se debe asumir que los resultados aquí reportados son los mejores que se pueden lograr con un enfoque determinado; ni siquiera lo mejor que se ha logrado con un determinado enfoque.

En 2014, un artículo que informaba que utilizaba el método de regularización de estructura para el etiquetado de partes del discurso, logrando un 97,36% en un conjunto de datos de referencia estándar. [10]

Ver también

Referencias

  1. ^ "Etiquetas POS". Motor de bocetos . Computación léxica. 2018-03-27 . Consultado el 6 de abril de 2018 .
  2. ^ Etiquetas POS universales
  3. ^ Petrov, eslavo; Das, Dipanjan; McDonald, Ryan (11 de abril de 2011). "Un conjunto de etiquetas universales de parte del discurso". arXiv : 1104.2086 [cs.CL].
  4. ^ Eugenio Charniak
  5. ^ DeRose 1990, pag. 82.
  6. ^ Etiquetador CLL POS
  7. ^ DeRose, Steven J. 1988. "Desambiguación de categorías gramaticales mediante optimización estadística". Lingüística computacional 14 (1): 31–39. [1]
  8. ^ Iglesia Kenneth Ward (1988). "Un programa de piezas estocásticas y un analizador de frases nominales para texto sin restricciones". Actas de la segunda conferencia sobre procesamiento aplicado del lenguaje natural - . pag. 136.doi : 10.3115 /974235.974260 . {{cite book}}: |journal=ignorado ( ayuda )
  9. ^ Etiquetado de POS (lo último en tecnología)
  10. ^ Xu Sun (2014). Regularización de estructura para predicción estructurada (PDF) . Sistemas de procesamiento de información neuronal (NIPS). págs. 2402–2410 . Consultado el 20 de agosto de 2021 .

Trabajos citados