etiquetador brillante

El etiquetador Brill es un método inductivo para el etiquetado de partes del discurso . Fue descrito e inventado por Eric Brill en su tesis doctoral de 1993. Se puede resumir como un "etiquetado basado en transformación impulsado por errores". Es:

una forma de aprendizaje supervisado , que tiene como objetivo minimizar el error; y,
un proceso basado en transformación, en el sentido de que se asigna una etiqueta a cada palabra y se cambia utilizando un conjunto de reglas predefinidas.

En el proceso de transformación, si la palabra es conocida, primero le asigna la etiqueta más frecuente, o si la palabra es desconocida, ingenuamente le asigna la etiqueta "sustantivo". En última instancia, se logra una alta precisión aplicando estas reglas de forma iterativa y cambiando las etiquetas incorrectas. Este enfoque garantiza que información valiosa, como la construcción morfosintáctica de palabras, se utilice en un proceso de etiquetado automático.

Algoritmo

El algoritmo comienza con la inicialización, que es la asignación de etiquetas en función de su probabilidad para cada palabra (por ejemplo, "perro" suele ser más un sustantivo que un verbo). Luego, los "parches" se determinan mediante reglas que corrigen los (probables) errores de etiquetado cometidos en la fase de inicialización: ^[1]

Inicialización:
- Palabras conocidas (en vocabulario): asignar la etiqueta más frecuente asociada a una forma de la palabra
- palabra desconocida

Reglas y procesamiento

El texto de entrada primero se tokeniza o se divide en palabras. Normalmente, en el procesamiento del lenguaje natural , las contracciones como "'s", "n't" y similares se consideran tokens de palabras independientes, al igual que los signos de puntuación.

Luego, un diccionario y algunas reglas morfológicas proporcionan una etiqueta inicial para cada token de palabra. Por ejemplo, una búsqueda simple revelaría que "perro" puede ser un sustantivo o un verbo (simplemente se elige la etiqueta más frecuente), mientras que a una palabra desconocida se le asignarán algunas etiquetas basadas en mayúsculas, varias cadenas de prefijos o sufijos. , etc. (tales análisis morfológicos, que Brill llama Reglas Léxicas , pueden variar entre implementaciones).

Después de que todos los tokens de palabras tengan etiquetas (provisionales), las reglas contextuales se aplican de forma iterativa para corregir las etiquetas examinando pequeñas cantidades de contexto. Aquí es donde el método Brill se diferencia de otros métodos de etiquetado de partes del discurso, como los que utilizan modelos ocultos de Markov . Las reglas se vuelven a aplicar repetidamente, hasta que se alcanza un umbral o no se pueden aplicar más reglas.

Las reglas brillantes son de la forma general:

 etiqueta1 → etiqueta2 Condición SI

donde la Condición prueba los tokens de palabras anteriores y/o siguientes, o sus etiquetas (la notación para dichas reglas difiere entre implementaciones). Por ejemplo, en la notación de Brill:

 EN NN WDPREVTAG DT mientras

cambiaría la etiqueta de una palabra de IN (preposición) a NN (sustantivo común), si la etiqueta de la palabra anterior es DT (determinante) y la palabra en sí es "mientras". Esto cubre casos como "todo el tiempo" o "en un tiempo", donde "mientras" debe etiquetarse como sustantivo en lugar de su uso más común como preposición (muchas reglas son más generales).

Las reglas sólo deben aplicarse si se sabe que la etiqueta que se está cambiando también es permisible, para la palabra en cuestión o en principio (por ejemplo, la mayoría de los adjetivos en inglés también se pueden usar como sustantivos).

Reglas de este tipo pueden implementarse mediante máquinas simples de estados finitos . Consulte Etiquetado de parte del discurso para obtener más información general, incluidas descripciones de Penn Treebank y otros conjuntos de etiquetas.

Los etiquetadores Brill típicos utilizan unos cientos de reglas, que pueden desarrollarse mediante intuición lingüística o mediante aprendizaje automático en un corpus preetiquetado .

Código

Las páginas de códigos de Brill en la Universidad Johns Hopkins ya no están en la web. En Archive.org se puede encontrar una versión archivada de un espejo del etiquetador Brill en su última versión, tal como estaba disponible en Plymouth Tech. El software utiliza la licencia MIT .

Referencias

^ Eric brillante. 1992. Un etiquetador de partes del discurso simple basado en reglas. En Actas de la tercera conferencia sobre procesamiento aplicado del lenguaje natural (ANLC '92). Asociación de Lingüística Computacional, Stroudsburg, PA, EE. UU., 152-155. doi :10.3115/974499.974526

enlaces externos

Brill tagger capacitado para holandés (versión en línea y fuera de línea)
Brill tagger entrenado para New Norwegian
Brill tagger entrenado para danés (demostración en línea)
Brill tagger capacitado para inglés (demostración en línea)
taggerXML Versión modernizada del etiquetador Part Of Speech de Eric Brill (código fuente de las versiones danesa e inglesa anteriores)