stringtranslate.com

GARRAS (lingüística)

El sistema de etiquetado automático de palabras por probabilidad de constituyentes (CLAWS) es un programa que realiza el etiquetado de categorías gramaticales . Fue desarrollado en la década de 1980 en la Universidad de Lancaster por el Centro Universitario de Investigación de Corpus Informáticos sobre Lenguaje. [1] Tiene una tasa de precisión general del 96-97% y la última versión (CLAWS4) etiqueta alrededor de 100 millones de palabras del Corpus Nacional Británico . [1]

Historia

Un etiquetador de partes del discurso (POS Tagger) es un software que lee texto en algún idioma y asigna partes del discurso a cada palabra (y otros elementos), como sustantivo, verbo, adjetivo, etc., aunque generalmente las aplicaciones computacionales usan etiquetas POS más detalladas como 'sustantivo-plural'. [2] Desarrollado a principios de la década de 1980, [1] [3] CLAWS fue creado para llenar el vacío cada vez mayor creado por las necesidades POS en constante cambio. Originalmente creado para agregar etiquetas de partes del discurso al corpus LOB del inglés británico, el conjunto de etiquetas CLAWS se ha adaptado desde entonces a otros idiomas también, incluidos el urdu y el árabe. [4]

Desde su creación, CLAWS ha sido elogiado por su funcionalidad y adaptabilidad. Sin embargo, no está exento de defectos y, aunque presume de una tasa de error de solo el 1,5 % cuando se juzga en las categorías principales, CLAWS aún tiene alrededor de un 3,3 % de ambigüedades sin resolver. La ambigüedad surge en casos como el de la palabra moscas y en el que se plantea si debe clasificarse como sustantivo o verbo. [5] Son estas ambigüedades las que requerirán las diversas actualizaciones y conjuntos de etiquetas que CLAWS soportará.

Normas y tramitación

CLAWS utiliza un modelo de Markov oculto para determinar la probabilidad de que las secuencias de palabras anticipen cada etiqueta de parte del discurso.

Ejemplo de salida

Este extracto de Drácula (1897) de Bram Stoker ha sido etiquetado con los conjuntos de etiquetas C5 y C7 de CLAWS . Así es como se verá generalmente un resultado de CLAWS , con la etiqueta de categoría gramatical más probable después de cada palabra.

Conjuntos de etiquetas

Conjunto de etiquetas CLAWS1

El primer conjunto de etiquetas desarrollado en CLAWS , el conjunto de etiquetas CLAWS1, tiene 132 etiquetas de palabras. En términos de forma y aplicación, el conjunto de etiquetas C1 es similar a las etiquetas Brown Corpus . [6] Consulte la tabla de etiquetas en el conjunto de etiquetas C1 aquí. [7]

Conjunto de etiquetas CLAWS2

Entre 1983 y 1986, las versiones actualizadas que dieron lugar a CLAWS2 formaron parte de un intento más amplio de abordar aspectos como el reconocimiento de saltos de frase, con el fin de evitar la necesidad de un preprocesamiento manual de un texto antes de aplicar las etiquetas, pasando en su lugar a una posedición manual opcional para ajustar el resultado de la anotación automática, si fuera necesario. [8] El conjunto de etiquetas CLAWS2 tiene 166 etiquetas de palabras. [6] [9] Consulte la tabla de etiquetas en el conjunto de etiquetas C2 aquí. [10]

Conjunto de etiquetas CLAWS4

CLAWS4 se utilizó para el British National Corpus (BNC) de 100 millones de palabras . Es un etiquetador gramatical de propósito general, sucesor del etiquetador CLAWS1. [11] Al etiquetar el BNC, las numerosas rondas de trabajo que se realizaron en CLAWS4 se centraron en hacer que el programa CLAWS fuera independiente de los conjuntos de etiquetas. Por ejemplo, el proyecto BNC utilizó dos versiones de conjuntos de etiquetas: "un conjunto de etiquetas principal (C5) con 62 etiquetas con las que se ha etiquetado todo el corpus, y un conjunto de etiquetas más grande (C7) con 152 etiquetas, que se ha utilizado para crear un corpus de muestra 'central' seleccionado de dos millones de palabras". [12] La última versión de CLAWS4 la ofrece UCREL, un centro de investigación de la Universidad de Lancaster . [6] [13]

Conjunto de etiquetas CLAWS5

El conjunto de etiquetas CLAWS5, que se utilizó para BNC , tiene más de 60 etiquetas. [6] Consulte la tabla de etiquetas en el conjunto de etiquetas C5 aquí. [14]

Conjunto de etiquetas CLAWS6

El conjunto de etiquetas CLAWS6 se utilizó para el corpus de muestreo BNC y el corpus COLT . Tiene más de 160 etiquetas, incluidos 13 subtipos de determinantes. [6] Consulte la tabla de etiquetas del conjunto de etiquetas C6 aquí. [15]

Conjunto de etiquetas CLAWS7

Actualmente se utiliza el conjunto de etiquetas estándar CLAWS7. Solo se diferencia en las etiquetas de puntuación en comparación con el conjunto de etiquetas CLAWS6. [6] Consulte la tabla de etiquetas del conjunto de etiquetas C7 aquí. [16]

Conjunto de etiquetas CLAWS8

El conjunto de etiquetas CLAWS8 se amplió a partir del conjunto de etiquetas C7 con más distinciones en las categorías de determinantes y pronombres, así como 37 nuevas etiquetas auxiliares para las formas de ser, hacer y tener . [6] Consulte la tabla de etiquetas en el conjunto de etiquetas C8 aquí

Véase también

Referencias

  1. ^ abc "Etiquetador de categorías gramaticales CLAWS". ucrel.lancs.ac.uk . Consultado el 1 de abril de 2020 .
  2. ^ "Etiquetador de categorías gramaticales log-lineales de Stanford". The Stanford Natural Language Processing Group . Archivado desde el original el 25 de octubre de 2004.
  3. ^ Garside, Roger. 1987. El sistema de etiquetado de palabras CLAWS. En: R. Garside, G. Leech y G. Sampson (eds.), El análisis computacional del inglés: un enfoque basado en corpus. Longman.
  4. ^ Atwell, ES 2008. Desarrollo de conjuntos de etiquetas para el etiquetado de categorías gramaticales. En: Ludeling, A y Kyto, M, (eds.) Corpus Linguistics: An International Handbook, Volume 1. Walter de Gruyter, 501–526. ISBN 978-3-11-021142-9 
  5. ^ McCoy, Kathy. "Etiquetado de partes de la oración (Capítulo 5)" (PDF) . Archivado (PDF) desde el original el 17 de abril de 2018.
  6. ^ abcdefg "Etiquetador de categorías gramaticales de CLAWS". ucrel.lancs.ac.uk . Consultado el 12 de abril de 2020 .
  7. ^ "Conjunto de etiquetas UCREL CLAWS1 (LOB)". ucrel.lancs.ac.uk . Consultado el 12 de abril de 2020 .
  8. ^ Garside, Roger. 1996. El etiquetado robusto de texto sin restricciones: la experiencia de BNC. En J. Thomas y M. Short (Eds.) Uso de corpus para la investigación lingüística: estudios en honor a Geoffrey Leech. (pp. 167–180). Londres. Longman.
  9. ^ Booth, Barbara. 1985. Revisión de CLAWS. Revista ICAME 9:29–35.
  10. ^ "Conjunto de etiquetas UCREL CLAWS2". ucrel.lancs.ac.uk . Consultado el 12 de abril de 2020 .
  11. ^ "CLAWS4: EL ETIQUETADO DEL CORPUS NACIONAL BRITÁNICO". ucrel.lancs.ac.uk . Consultado el 12 de abril de 2020 .
  12. ^ Garside, Roger. 1996. El etiquetado robusto de texto sin restricciones: la experiencia de BNC. En J. Thomas y M. Short (Eds.) Using Corpora for language research: Studies in the honour of Geoffrey Leech. (págs. 167-180). Londres. Longman. pág. 169.
  13. ^ "Página de inicio de UCREL, Lancaster, Reino Unido". ucrel.lancs.ac.uk . Consultado el 12 de abril de 2020 .
  14. ^ "Conjunto de etiquetas UCREL CLAWS5". ucrel.lancs.ac.uk . Consultado el 20 de abril de 2020 .
  15. ^ "Conjunto de etiquetas UCREL CLAWS6". ucrel.lancs.ac.uk . Consultado el 12 de abril de 2020 .
  16. ^ "Conjunto de etiquetas UCREL CLAWS7". ucrel.lancs.ac.uk . Consultado el 12 de abril de 2020 .

Enlaces externos