Etiquetadora brillante

El etiquetador Brill es un método inductivo para el etiquetado de categorías gramaticales . Fue descrito e inventado por Eric Brill en su tesis doctoral de 1993. Se puede resumir como un "etiquetador basado en transformaciones impulsado por errores". Es:

una forma de aprendizaje supervisado , que tiene como objetivo minimizar el error; y,
un proceso basado en la transformación, en el sentido de que se asigna una etiqueta a cada palabra y se cambia utilizando un conjunto de reglas predefinidas.

En el proceso de transformación, si se conoce la palabra, primero se le asigna la etiqueta más frecuente, o si la palabra es desconocida, se le asigna ingenuamente la etiqueta "sustantivo". Al final, se logra una alta precisión al aplicar estas reglas de forma iterativa y cambiar las etiquetas incorrectas. Este enfoque garantiza que se emplee información valiosa, como la construcción morfosintáctica de las palabras, en un proceso de etiquetado automático.

Algoritmo

El algoritmo comienza con la inicialización, que es la asignación de etiquetas en función de su probabilidad para cada palabra (por ejemplo, "perro" es más a menudo un sustantivo que un verbo). Luego se determinan los "parches" mediante reglas que corrigen los errores de etiquetado (probables) cometidos en la fase de inicialización: ^[1]

Inicialización:
- Palabras conocidas (en vocabulario): asignar la etiqueta más frecuente asociada a una forma de la palabra
- Palabra desconocida

Normas y tramitación

El texto de entrada primero se convierte en tokens , es decir, se divide en palabras. Normalmente, en el procesamiento del lenguaje natural , las contracciones como "'s", "n't" y similares se consideran tokens de palabras independientes, al igual que los signos de puntuación.

Un diccionario y algunas reglas morfológicas proporcionan una etiqueta inicial para cada palabra. Por ejemplo, una simple búsqueda revelaría que "perro" puede ser un sustantivo o un verbo (simplemente se elige la etiqueta más frecuente), mientras que a una palabra desconocida se le asignarán algunas etiquetas en función de la capitalización, varias cadenas de prefijos o sufijos, etc. (estos análisis morfológicos, que Brill llama Reglas léxicas , pueden variar entre implementaciones).

Una vez que todos los tokens de palabras tienen etiquetas (provisionales), las reglas contextuales se aplican de forma iterativa para corregir las etiquetas examinando pequeñas cantidades de contexto. Aquí es donde el método Brill difiere de otros métodos de etiquetado de partes del discurso, como los que utilizan modelos ocultos de Markov . Las reglas se vuelven a aplicar repetidamente hasta que se alcanza un umbral o no se pueden aplicar más reglas.

Las reglas de Brill son de la forma general:

 etiqueta1 → etiqueta2 Condición IF

donde la condición prueba los tokens de palabras anteriores y/o posteriores, o sus etiquetas (la notación para tales reglas difiere entre implementaciones). Por ejemplo, en la notación de Brill:

 EN NN WDPREVTAG DT mientras

Cambiaría la etiqueta de una palabra de IN (preposición) a NN (sustantivo común), si la etiqueta de la palabra precedente es DT (determinante) y la palabra en sí es "while". Esto cubre casos como "all the while" o "in a while", donde "while" debería etiquetarse como sustantivo en lugar de su uso más común como conjunción (muchas reglas son más generales).

Las reglas sólo deberían funcionar si se sabe también que la etiqueta que se va a cambiar es permisible para la palabra en cuestión o en principio (por ejemplo, la mayoría de los adjetivos en inglés también se pueden usar como sustantivos).

Las reglas de este tipo se pueden implementar mediante máquinas de estados finitos simples . Consulte Etiquetado de partes de la oración para obtener información más general, incluidas descripciones de Penn Treebank y otros conjuntos de etiquetas.

Los etiquetadores Brill típicos utilizan unos cientos de reglas, que pueden desarrollarse por intuición lingüística o por aprendizaje automático en un corpus pre-etiquetado .

Código

Las páginas de códigos de Brill en la Universidad Johns Hopkins ya no están disponibles en la web. En Archive.org se puede encontrar una versión archivada de un espejo del etiquetador de Brill en su última versión, tal como estaba disponible en Plymouth Tech. El software utiliza la licencia MIT .

Referencias

^ Eric Brill. 1992. Un etiquetador de partes del discurso basado en reglas simple. En Actas de la tercera conferencia sobre procesamiento del lenguaje natural aplicado (ANLC '92). Association for Computational Linguistics, Stroudsburg, PA, EE. UU., 152-155. doi :10.3115/974499.974526

Enlaces externos

Etiquetadora Brill entrenada para holandés (versión online y offline)
Graficador de Brill entrenado para el Nuevo Noruego
Etiquetadora Brill entrenada para danés (demostración en línea)
Etiquetadora Brill entrenada para inglés (demo en línea)
taggerXML Versión modernizada del etiquetador de partes del discurso de Eric Brill (código fuente de las versiones en danés e inglés mencionadas anteriormente)