Categorías lingüísticas

Las categorías lingüísticas incluyen

Categoría léxica , una parte del discurso como un sustantivo , una preposición , etc.
Categoría sintáctica , un concepto similar que también puede incluir categorías sintácticas
Categoría gramatical , una característica gramatical como el tiempo , el género , etc.

La definición de categorías lingüísticas es una preocupación importante de la teoría lingüística y, por lo tanto, la definición y denominación de categorías varía según los diferentes marcos teóricos y tradiciones gramaticales de los distintos idiomas. La operacionalización de categorías lingüísticas en lexicografía , lingüística computacional , procesamiento del lenguaje natural , lingüística de corpus y gestión de terminología generalmente requiere definiciones de categorías lingüísticas específicas para recursos, problemas o aplicaciones. En lingüística cognitiva se ha argumentado que las categorías lingüísticas tienen una estructura prototípica como la de las categorías de palabras comunes en un idioma. ^[1]

Inventarios de categorías lingüísticas

Para facilitar la interoperabilidad entre recursos léxicos , anotaciones lingüísticas y herramientas de anotación y para el manejo sistemático de categorías lingüísticas en diferentes marcos teóricos, se han desarrollado y están utilizando varios inventarios de categorías lingüísticas, con ejemplos como los que se dan a continuación. El objetivo práctico de dichos inventarios es realizar una evaluación cuantitativa (para inventarios específicos del lenguaje), entrenar herramientas de PLN o facilitar la evaluación, consulta o anotación interlingüística de datos lingüísticos. A nivel teórico, se ha postulado la existencia de categorías universales en el lenguaje humano, por ejemplo, en Gramática universal , pero también ha sido muy criticada .

Conjuntos de etiquetas de partes del discurso

Las escuelas enseñan comúnmente que hay 9 partes del discurso en inglés: sustantivo , verbo , artículo , adjetivo , preposición , pronombre , adverbio , conjunción e interjección . Sin embargo, claramente hay muchas más categorías y subcategorías. Para los sustantivos, se pueden distinguir las formas plural, posesiva y singular. En muchos idiomas, las palabras también se marcan por su caso (rol como sujeto, objeto, etc.), género gramatical , etc.; mientras que los verbos se marcan por tiempo , aspecto y otras cosas. En algunos sistemas de etiquetado, diferentes flexiones de la misma palabra raíz obtendrán diferentes partes del discurso, lo que resulta en una gran cantidad de etiquetas. Por ejemplo, NN para sustantivos comunes singulares, NNS para sustantivos comunes plurales, NP para sustantivos propios singulares (ver las etiquetas POS utilizadas en el Brown Corpus). Otros sistemas de etiquetado usan una cantidad menor de etiquetas e ignoran las diferencias finas o las modelan como características algo independientes de la parte del discurso. ^[2]

En el etiquetado de partes del discurso por ordenador, es habitual distinguir entre 50 y 150 partes del discurso independientes en inglés. Se ha trabajado en el etiquetado de POS en diversos idiomas, y el conjunto de etiquetas POS utilizadas varía mucho según el idioma. Las etiquetas suelen estar diseñadas para incluir distinciones morfológicas evidentes, aunque esto conduce a incoherencias, como el marcado de mayúsculas y minúsculas para los pronombres pero no para los sustantivos en inglés, y a diferencias mucho mayores entre idiomas. Los conjuntos de etiquetas para idiomas con una gran inflexión, como el griego y el latín, pueden ser muy grandes; etiquetar palabras en idiomas aglutinantes , como los inuit, puede resultar prácticamente imposible. En el trabajo sobre métodos estocásticos para etiquetar el griego koiné (DeRose 1990) se han utilizado más de 1.000 partes del discurso y se ha descubierto que aproximadamente tantas palabras eran ambiguas en ese idioma como en inglés. Un descriptor morfosintáctico en el caso de idiomas morfológicamente ricos se expresa comúnmente usando mnemotécnicos muy cortos, como Ncmsan para Categoría = Sustantivo, Tipo = común, Género = masculino, Número = singular, Caso = acusativo, Animado = no.

El "conjunto de etiquetas" más popular para el etiquetado POS para inglés americano es probablemente el conjunto de etiquetas Penn, desarrollado en el proyecto Penn Treebank.

Esquemas de anotación multilingües

Para las lenguas de Europa occidental, se han desarrollado esquemas de anotación de aplicación translingüística para las partes del discurso, la morfosintaxis y la sintaxis con las Directrices EAGLES . El "Grupo asesor de expertos sobre estándares de ingeniería lingüística" (EAGLES) fue una iniciativa de la Comisión Europea que funcionó dentro del programa de Investigación e Ingeniería Lingüística de la DG XIII de 1994 a 1998, coordinado por el Consorcio Pisa Ricerche, Pisa, Italia. Las directrices EAGLES proporcionan orientación sobre el marcado que se utilizará con corpus de texto , en particular para identificar características relevantes en lingüística computacional y lexicografía . Numerosas empresas, centros de investigación, universidades y organismos profesionales de toda la Unión Europea colaboraron para producir las Directrices EAGLES, que establecen recomendaciones para estándares de facto y reglas de mejores prácticas para: ^[3]

Recursos lingüísticos a gran escala (como corpus de textos, léxicos computacionales y corpus de habla);
Medios para manipular dicho conocimiento, a través de formalismos lingüísticos computacionales , lenguajes de marcado y diversas herramientas de software;
Medios para evaluar y valorar recursos, herramientas y productos.

Las directrices de Eagles también han inspirado trabajos posteriores en otras regiones, por ejemplo, Europa del Este. ^[4]

Una generación después, la comunidad de investigación inició un esfuerzo similar bajo el paraguas de Universal Dependencies . Petrov et al. ^[5]^[6] propusieron un conjunto de etiquetas "universal", pero altamente reduccionista, con 12 categorías (por ejemplo, sin subtipos de sustantivos, verbos, puntuación, etc.; sin distinción de "to" como marcador de infinitivo frente a preposición (difícilmente una coincidencia "universal"), etc.). Posteriormente, esto se complementó con especificaciones translingüísticas para la sintaxis de dependencia (Stanford Dependencies), ^[7] y la morfosintaxis (Interset interlingua, ^[8] parcialmente basada en la tradición Multext-East/Eagles) en el contexto de Universal Dependencies (UD), un proyecto cooperativo internacional para crear bancos de árboles de los idiomas del mundo con anotaciones ("universales") aplicables translingüísticamente para partes del discurso, sintaxis de dependencia y (opcionalmente) características morfosintácticas (morfológicas). Las aplicaciones principales son el procesamiento de texto automatizado en el campo del procesamiento del lenguaje natural (PLN) y la investigación en sintaxis y gramática del lenguaje natural, especialmente dentro de la tipología lingüística . El esquema de anotación tiene sus raíces en tres proyectos relacionados: El esquema de anotación UD utiliza una representación en forma de árboles de dependencia en lugar de árboles de estructura de frase . En febrero de 2019, hay poco más de 100 bancos de árboles de más de 70 idiomas disponibles en el inventario UD. ^[9] El objetivo principal del proyecto es lograr la coherencia interlingüística de la anotación. Sin embargo, se permiten extensiones específicas del idioma para las características morfológicas (los idiomas o recursos individuales pueden introducir características adicionales). En una forma más restringida, las relaciones de dependencia se pueden extender con una etiqueta secundaria que acompaña a la etiqueta UD, por ejemplo, aux:pass para un auxiliar (UD aux ) utilizado para marcar la voz pasiva. ^[10]

Las dependencias universales han inspirado esfuerzos similares para las áreas de morfología flexiva, ^[11] semántica de marcos ^[12] y correferencia . ^[13] Para la sintaxis de la estructura de frases , no parece existir un esfuerzo comparable, pero las especificaciones del Penn Treebank se han aplicado a (y extendido para) una amplia gama de idiomas, ^[14] por ejemplo, islandés, ^[15] inglés antiguo, ^[16] inglés medio, ^[17] bajo alemán medio, ^[18] alto alemán moderno temprano, ^[19] yiddish, ^[20] portugués, ^[21] japonés, ^[22] árabe ^[23] y chino. ^[24]

Convenciones para glosas interlineales

En lingüística , una glosa interlineal es una glosa (serie de explicaciones breves, como definiciones o pronunciaciones) colocada entre líneas ( inter- + lineal ), como entre una línea de texto original y su traducción a otro idioma . Cuando se glosa, cada línea del texto original adquiere una o más líneas de transcripción conocidas como texto interlineal o texto glosado interlineal (IGT), interlineal para abreviar. Estas glosas ayudan al lector a seguir la relación entre el texto fuente y su traducción, y la estructura del idioma original. No existe un inventario estándar para las glosas, pero se recogen etiquetas comunes en las Reglas de glosas de Leipzig. ^[25] Wikipedia también proporciona una Lista de abreviaturas de glosas que se basa en esta y otras fuentes.

Ontología general para la descripción lingüística (GOLD)

GOLD ("Ontología general para la descripción lingüística") es una ontología para la lingüística descriptiva . Proporciona una explicación formalizada de las categorías y relaciones más básicas utilizadas en la descripción científica del lenguaje humano, por ejemplo, como una formalización de glosas interlineales. GOLD fue introducido por primera vez por Farrar y Langendoen (2003). ^[26] Originalmente, se concibió como una solución al problema de resolver esquemas de marcado dispares para datos lingüísticos, en particular datos de lenguas en peligro de extinción . Sin embargo, GOLD es mucho más general y se puede aplicar a todas las lenguas. En esta función, GOLD se superpone con el Registro de categorías de datos ISO 12620 (ISOcat); sin embargo, está estructurado de manera más estricta.

GOLD fue mantenido por la Lista LINGUIST y otros desde 2007 hasta 2010. ^[27] El proyecto RELISH creó un espejo de la edición 2010 de GOLD como una Selección de Categoría de Datos dentro de ISOcat. A partir de 2018, los datos de GOLD siguen siendo un importante centro terminológico en el contexto de la nube de Datos Abiertos Vinculados Lingüísticos , pero como ya no se mantiene activamente, su función es reemplazada cada vez más por OLiA (para anotación lingüística, basándose en GOLD e ISOcat) y lexinfo.net (para metadatos de diccionario, basándose en ISOcat).

ISO 12620 (Registro de categorías de datos ISO TC37, ISOcat)

La ISO 12620 es una norma del ISO/TC 37 que define un Registro de Categoría de Datos , un registro para registrar términos lingüísticos utilizados en varios campos de la traducción , la lingüística computacional y el procesamiento del lenguaje natural y que define asignaciones tanto entre términos diferentes como entre los mismos términos utilizados en diferentes sistemas. ^[28]^[29]^[30]

Una implementación anterior de este estándar, ISOcat, proporciona identificadores persistentes y URI para categorías lingüísticas, incluido el inventario de la ontología GOLD (ver más abajo). El objetivo del registro es que los nuevos sistemas puedan reutilizar la terminología existente, o al menos ser fácilmente mapeados a la terminología existente, para ayudar a la interoperabilidad . ^[31] El estándar es utilizado por otros estándares como Lexical Markup Framework (ISO 24613:2008), y se han agregado varias terminologías al registro, incluidas las pautas Eagles, el Corpus Nacional de Polaco y el formato TermBase eXchange de la Localization Industry Standards Association .

Sin embargo, la edición actual ISO 12620:2019 ^[32] ya no proporciona un registro de términos para la tecnología del lenguaje y la terminología, sino que ahora está restringida a los recursos terminológicos, de ahí el título revisado "Gestión de recursos terminológicos - Especificaciones de categorías de datos". En consecuencia, ISOcat ya no se desarrolla activamente. ^[33] A partir de mayo de 2020, los sistemas sucesores, CLARIN Concept Registry ^[34] y DatCatInfo ^[35] recién están surgiendo.

Para las categorías lingüísticas relevantes para los recursos léxicos , el vocabulario lexinfo representa un estándar comunitario establecido, ^[36] en particular en relación con el vocabulario OntoLex y los diccionarios legibles por máquina en el contexto de las tecnologías de datos abiertos vinculados lingüísticos . Al igual que el vocabulario OntoLex se basa en el Marco de marcado léxico (LMF), lexinfo se basa en (la sección LMF de) ISOcat. ^[37] Sin embargo, a diferencia de ISOcat, lexinfo se mantiene activamente y actualmente (mayo de 2020) se amplía en un esfuerzo comunitario. ^[38]

Ontologías de anotación lingüística (OLiA)

De manera similar a GOLD, las Ontologías de Anotación Lingüística (OLiA) proporcionan un inventario de referencia de categorías lingüísticas para fenómenos sintácticos, morfológicos y semánticos relevantes para la anotación lingüística y los corpus lingüísticos en forma de ontología . Además, también proporcionan esquemas de anotación legibles por máquina para más de 100 idiomas, vinculados con el modelo de referencia OLiA. ^[39] Las ontologías OLiA representan un importante centro de terminología de anotación en la nube de datos abiertos vinculados (lingüísticos) , con aplicaciones para búsqueda, recuperación y aprendizaje automático sobre recursos lingüísticos anotados de forma heterogénea. ^[37]

Además de los esquemas de anotación, el modelo de referencia OLiA también está vinculado con las directrices Eagles, ^[40] GOLD, ^[40] ISOcat, ^[41] CLARIN Concept Registry, ^[42] Universal Dependencies, ^[43] lexinfo, ^[43] etc., lo que permite la interoperabilidad entre estos vocabularios. OLiA se está desarrollando como un proyecto comunitario en GitHub ^[44].

Referencias

^ John R Taylor (1995) Categorización lingüística: prototipos en la teoría lingüística , 2.ª ed., cap. 2, pág. 21
^ Etiquetas POS universales
^ Lo esencial de EAGLES
^ Dimitrova, L., Ide, N., Petkevic, V., Erjavec, T., Kaalep, HJ y Tufis, D. (agosto de 1998). Multext-east: corpus y lexicones paralelos y comparables para seis lenguas de Europa central y oriental. En Actas de la 17.ª conferencia internacional sobre lingüística computacional, volumen 1 (págs. 315-319). Asociación de lingüística computacional.
^ Petrov, Slav; Das, Dipanjan; McDonald, Ryan (11 de abril de 2011). "Un conjunto de etiquetas universales para las partes del discurso". arXiv : 1104.2086 [cs.CL].
^ Petrov, Slav (11 de abril de 2011). "Un conjunto de etiquetas universales para las partes del discurso". arXiv : 1104.2086 [cs.CL].
^ "Dependencias de Stanford". nlp.stanford.edu . The Stanford Natural Language Processing Group . Consultado el 8 de mayo de 2020 .
^ "Interset". cuni.cz . Instituto de Lingüística Formal y Aplicada (República Checa) . Consultado el 8 de mayo de 2020 .
^ "Dependencias universales". universaldependencies.org . Consultado el 14 de mayo de 2020 .
^ "aux:pass". universaldependencies.org . Consultado el 14 de mayo de 2020 .
^ UniMorph. «UniMorph: Anotación morfológica universal». UniMorph . Consultado el 14 de mayo de 2020 .
^ System-T/UniversalPropositions, System-T, 14 de mayo de 2020 , consultado el 14 de mayo de 2020
^ Prange, J., Schneider, N. y Abend, O. (agosto de 2019). Anotación multicapa semánticamente restringida: el caso de la correferencia. En Actas del primer taller internacional sobre diseño de representaciones de significado (pp. 164-176).
^ "Penn Parsed Corpora of Historical English: Otros corpora" (Corporos analizados de Penn del inglés histórico: otros corpora). www.ling.upenn.edu . Consultado el 14 de mayo de 2020 .
^ "Corpus histórico analizado en islandés (IcePaHC)". www.linguist.is . Consultado el 14 de mayo de 2020 .
^ Warner, Anthony Departamento de Lengua y Ciencias Lingüísticas Universidad de York York; Taylor, Ann; Warner, Anthony; Pintzuk, Susan; Beths, Frank (septiembre de 2003). "El corpus analizado de prosa en inglés antiguo de York-Toronto-Helsinki (YCOE)". {{cite journal}}: Requiere citar revista |journal=( ayuda )
^ "Corpus analizado de inglés medio de Penn-Helsinki 2". www.ling.upenn.edu . Consultado el 14 de mayo de 2020 .
^ "Corpus del bajo alemán histórico". www.chlg.ac.uk . Consultado el 14 de mayo de 2020 .
^ Light, C., y Wallenberg, J. (2011). Sobre el uso de las voces pasivas en el idioma germánico. Presentado en la 13.ª reunión de la Conferencia de Sintaxis Generativa Diacrónica (DIGS) DIGS 13, Universidad de Pensilvania. 5 de junio de 2011
^ Beatrice Santorini (1993) [./Ftp://babel.ling.upenn.edu/papers/faculty/beatrice%20santorini/santorini-1993.pdf La tasa de cambio de la estructura de las frases en la historia del yiddish]. Language Variation and Change 5, 257-283.
^ "Proyecto Tycho Brahe". www.tycho.iel.unicamp.br . Consultado el 14 de mayo de 2020 .
^ "NPCMJ – Corpus analizado por Ninjal del japonés moderno" . Consultado el 14 de mayo de 2020 .
^ "Árabe árabe: Parte 3 (corpus completo) v 2.0 (MPG + Análisis sintáctico) - Consorcio de datos lingüísticos". catalog.ldc.upenn.edu . Consultado el 14 de mayo de 2020 .
^ "Proyecto de banco de árboles chinos de Pensilvania". verbs.colorado.edu . Consultado el 14 de mayo de 2020 .
^ Comrie, B., Haspelmath, M., y Bickel, B. (2008). Las reglas de glosa de Leipzig: convenciones para glosas interlineales morfema por morfema. Departamento de Lingüística del Instituto Max Planck de Antropología Evolutiva y Departamento de Lingüística de la Universidad de Leipzig. Consultado el 28 de enero de 2010.
^ Scott Farrar y D. Terence Langendoen (2003) "Una ontología lingüística para la Web Semántica". GLOT International. 7 (3), pp.97-100, [1].
^ Versiones GOLD
^ "ISO 12620:1999 - Aplicaciones informáticas en terminología - Categorías de datos". iso.org . 2011 . Consultado el 9 de noviembre de 2011 .
^ "ISO 12620:2009 - Terminología y otros recursos lingüísticos y de contenido - Especificación de categorías de datos y gestión de un registro de categorías de datos para recursos lingüísticos". iso.org . 2011 . Consultado el 9 de noviembre de 2011 .
^ "ISO 12620:2019 Gestión de recursos terminológicos — Especificaciones de categorías de datos". ISO . Consultado el 20 de enero de 2020 .
^ Bononno, Robert (2011). "Terminología para traductores: una implementación de la norma ISO 12620". Meta . 45 (4): 646–669. CiteSeerX 10.1.1.136.4771 . doi :10.7202/002101ar.
^ "ISO 12620:2019 Gestión de recursos terminológicos — Especificaciones de categorías de datos". ISO . Consultado el 20 de enero de 2020 .
^ "El Repositorio de Categorías de Datos (DCR) ha cambiado de dirección". www.iso.org . Consultado el 8 de mayo de 2020 .
^ "Registro de conceptos de CLARIN | CLARIN ERIC". www.clarin.eu . Consultado el 8 de mayo de 2020 .
^ "DatCatInfo". www.datcatinfo.net . Consultado el 8 de mayo de 2020 .
^ "LexInfo". www.lexinfo.net . Consultado el 14 de mayo de 2020 .
^ ab Cimiano, P., Chiarcos, C., McCrae, JP, y Gracia, J. (2020). Datos vinculados lingüísticos (pp. 137-160). Springer, Cham.
^ ontolex/lexinfo, OntoLex Community Group, 7 de marzo de 2020 , consultado el 14 de mayo de 2020
^ "Ontologías OLiA". purl.org/olia . Consultado el 14 de mayo de 2020 .
^ ab Chiarcos, C. (2008). Una ontología de anotaciones lingüísticas. En LDV Forum (Vol. 23, No. 1, pp. 1-16).
^ Chiarcos, C. (mayo de 2010). Fundamentación de una ontología de anotaciones lingüísticas en el Registro de categorías de datos. En el taller LREC 2010 sobre estándares de recursos lingüísticos y tecnologías lingüísticas (LT<S), La Valetta, Malta (pp. 37-40).
^ Rehm, G., Galanis, D., Labropoulou, P., Piperidis, S., Welß, M., Usbeck, R., et al (2020). Hacia un ecosistema interoperable de plataformas de IA y LT: una hoja de ruta para la implementación de diferentes niveles de interoperabilidad. Preimpresión de arXiv arXiv :2004.08355 .
^ de Christian Chiarcos, Maxim Ionov y Christian Fäth (2020), Interoperabilidad de anotaciones en la era posterior a ISOcat, LREC 2020
^ acoli-repo/olia, ACoLi, 10 de marzo de 2020 , consultado el 14 de mayo de 2020

Enlaces externos

Página oficial de las Directrices de los Eagles
Reglas de glosa de Leipzig
Ontología GOLD
ISOcat
Repositorio de categorías de datos DatCatInfo (DCR)