Etiquetado gramatical

Este proceso se puede realizar de acuerdo con la definición de la palabra o el contexto en que aparece, por ejemplo su relación con las palabras adyacentes en una frase, oración (como realiza el desambiguador léxico en ventana deslizante), o en un párrafo.

Las soluciones propuestas en la literatura para el etiquetado léxico se pueden dividir en dos grandes grupos fundamentados en el aprendizaje automático: 'Aproximaciones Lingüísticas' basadas en un conjunto de reglas establecidas manualmente por expertos o aprendidas de forma (semi)automática, y las 'Aproximaciones de Aprendizaje Automático' (basadas en corpus) que usan textos, generalmente anotados con información lingüística para establecer los modelos subyacentes.

Además empleaban un léxico muy restringido, por lo que aparecían muchas situaciones no contempladas.

Estas aproximaciones difieren entre sí en el método de aprendizaje y en la complejidad del modelo construido.

La aproximación más utilizada son los Modelos de Markov Ocultos o n-gramas.

El etiquetador CLAWS emplea este sistema y consigue un porcentaje de aciertos en el rango 93-95%.