El sistema de etiquetado automático de palabras por probabilidad de constituyentes (CLAWS) es un programa que realiza el etiquetado de categorías gramaticales . Fue desarrollado en la década de 1980 en la Universidad de Lancaster por el Centro Universitario de Investigación de Corpus Informáticos sobre Lenguaje. [1] Tiene una tasa de precisión general del 96-97% y la última versión (CLAWS4) etiqueta alrededor de 100 millones de palabras del Corpus Nacional Británico . [1]
Un etiquetador de partes del discurso (POS Tagger) es un software que lee texto en algún idioma y asigna partes del discurso a cada palabra (y otros elementos), como sustantivo, verbo, adjetivo, etc., aunque generalmente las aplicaciones computacionales usan etiquetas POS más detalladas como 'sustantivo-plural'. [2] Desarrollado a principios de la década de 1980, [1] [3] CLAWS fue creado para llenar el vacío cada vez mayor creado por las necesidades POS en constante cambio. Originalmente creado para agregar etiquetas de partes del discurso al corpus LOB del inglés británico, el conjunto de etiquetas CLAWS se ha adaptado desde entonces a otros idiomas también, incluidos el urdu y el árabe. [4]
Desde su creación, CLAWS ha sido elogiado por su funcionalidad y adaptabilidad. Sin embargo, no está exento de defectos y, aunque presume de una tasa de error de solo el 1,5 % cuando se juzga en las categorías principales, CLAWS aún tiene alrededor de un 3,3 % de ambigüedades sin resolver. La ambigüedad surge en casos como el de la palabra moscas y en el que se plantea si debe clasificarse como sustantivo o verbo. [5] Son estas ambigüedades las que requerirán las diversas actualizaciones y conjuntos de etiquetas que CLAWS soportará.
CLAWS utiliza un modelo de Markov oculto para determinar la probabilidad de que las secuencias de palabras anticipen cada etiqueta de parte del discurso.
Este extracto de Drácula (1897) de Bram Stoker ha sido etiquetado con los conjuntos de etiquetas C5 y C7 de CLAWS . Así es como se verá generalmente un resultado de CLAWS , con la etiqueta de categoría gramatical más probable después de cada palabra.
El primer conjunto de etiquetas desarrollado en CLAWS , el conjunto de etiquetas CLAWS1, tiene 132 etiquetas de palabras. En términos de forma y aplicación, el conjunto de etiquetas C1 es similar a las etiquetas Brown Corpus . [6] Consulte la tabla de etiquetas en el conjunto de etiquetas C1 aquí. [7]
Entre 1983 y 1986, las versiones actualizadas que dieron lugar a CLAWS2 formaron parte de un intento más amplio de abordar aspectos como el reconocimiento de saltos de frase, con el fin de evitar la necesidad de un preprocesamiento manual de un texto antes de aplicar las etiquetas, pasando en su lugar a una posedición manual opcional para ajustar el resultado de la anotación automática, si fuera necesario. [8] El conjunto de etiquetas CLAWS2 tiene 166 etiquetas de palabras. [6] [9] Consulte la tabla de etiquetas en el conjunto de etiquetas C2 aquí. [10]
CLAWS4 se utilizó para el British National Corpus (BNC) de 100 millones de palabras . Es un etiquetador gramatical de propósito general, sucesor del etiquetador CLAWS1. [11] Al etiquetar el BNC, las numerosas rondas de trabajo que se realizaron en CLAWS4 se centraron en hacer que el programa CLAWS fuera independiente de los conjuntos de etiquetas. Por ejemplo, el proyecto BNC utilizó dos versiones de conjuntos de etiquetas: "un conjunto de etiquetas principal (C5) con 62 etiquetas con las que se ha etiquetado todo el corpus, y un conjunto de etiquetas más grande (C7) con 152 etiquetas, que se ha utilizado para crear un corpus de muestra 'central' seleccionado de dos millones de palabras". [12] La última versión de CLAWS4 la ofrece UCREL, un centro de investigación de la Universidad de Lancaster . [6] [13]
El conjunto de etiquetas CLAWS5, que se utilizó para BNC , tiene más de 60 etiquetas. [6] Consulte la tabla de etiquetas en el conjunto de etiquetas C5 aquí. [14]
El conjunto de etiquetas CLAWS6 se utilizó para el corpus de muestreo BNC y el corpus COLT . Tiene más de 160 etiquetas, incluidos 13 subtipos de determinantes. [6] Consulte la tabla de etiquetas del conjunto de etiquetas C6 aquí. [15]
Actualmente se utiliza el conjunto de etiquetas estándar CLAWS7. Solo se diferencia en las etiquetas de puntuación en comparación con el conjunto de etiquetas CLAWS6. [6] Consulte la tabla de etiquetas del conjunto de etiquetas C7 aquí. [16]
El conjunto de etiquetas CLAWS8 se amplió a partir del conjunto de etiquetas C7 con más distinciones en las categorías de determinantes y pronombres, así como 37 nuevas etiquetas auxiliares para las formas de ser, hacer y tener . [6] Consulte la tabla de etiquetas en el conjunto de etiquetas C8 aquí