Las categorías lingüísticas incluyen
La definición de categorías lingüísticas es una preocupación importante de la teoría lingüística y, por lo tanto, la definición y denominación de categorías varía según los diferentes marcos teóricos y tradiciones gramaticales de los distintos idiomas. La operacionalización de categorías lingüísticas en lexicografía , lingüística computacional , procesamiento del lenguaje natural , lingüística de corpus y gestión de terminología generalmente requiere definiciones de categorías lingüísticas específicas para recursos, problemas o aplicaciones. En lingüística cognitiva se ha argumentado que las categorías lingüísticas tienen una estructura prototípica como la de las categorías de palabras comunes en un idioma. [1]
Para facilitar la interoperabilidad entre recursos léxicos , anotaciones lingüísticas y herramientas de anotación y para el manejo sistemático de categorías lingüísticas en diferentes marcos teóricos, se han desarrollado y están utilizando varios inventarios de categorías lingüísticas, con ejemplos como los que se dan a continuación. El objetivo práctico de dichos inventarios es realizar una evaluación cuantitativa (para inventarios específicos del lenguaje), entrenar herramientas de PLN o facilitar la evaluación, consulta o anotación interlingüística de datos lingüísticos. A nivel teórico, se ha postulado la existencia de categorías universales en el lenguaje humano, por ejemplo, en Gramática universal , pero también ha sido muy criticada .
Las escuelas enseñan comúnmente que hay 9 partes del discurso en inglés: sustantivo , verbo , artículo , adjetivo , preposición , pronombre , adverbio , conjunción e interjección . Sin embargo, claramente hay muchas más categorías y subcategorías. Para los sustantivos, se pueden distinguir las formas plural, posesiva y singular. En muchos idiomas, las palabras también se marcan por su caso (rol como sujeto, objeto, etc.), género gramatical , etc.; mientras que los verbos se marcan por tiempo , aspecto y otras cosas. En algunos sistemas de etiquetado, diferentes flexiones de la misma palabra raíz obtendrán diferentes partes del discurso, lo que resulta en una gran cantidad de etiquetas. Por ejemplo, NN para sustantivos comunes singulares, NNS para sustantivos comunes plurales, NP para sustantivos propios singulares (ver las etiquetas POS utilizadas en el Brown Corpus). Otros sistemas de etiquetado usan una cantidad menor de etiquetas e ignoran las diferencias finas o las modelan como características algo independientes de la parte del discurso. [2]
En el etiquetado de partes del discurso por ordenador, es habitual distinguir entre 50 y 150 partes del discurso independientes en inglés. Se ha trabajado en el etiquetado de POS en diversos idiomas, y el conjunto de etiquetas POS utilizadas varía mucho según el idioma. Las etiquetas suelen estar diseñadas para incluir distinciones morfológicas evidentes, aunque esto conduce a incoherencias, como el marcado de mayúsculas y minúsculas para los pronombres pero no para los sustantivos en inglés, y a diferencias mucho mayores entre idiomas. Los conjuntos de etiquetas para idiomas con una gran inflexión, como el griego y el latín, pueden ser muy grandes; etiquetar palabras en idiomas aglutinantes , como los inuit, puede resultar prácticamente imposible. En el trabajo sobre métodos estocásticos para etiquetar el griego koiné (DeRose 1990) se han utilizado más de 1.000 partes del discurso y se ha descubierto que aproximadamente tantas palabras eran ambiguas en ese idioma como en inglés. Un descriptor morfosintáctico en el caso de idiomas morfológicamente ricos se expresa comúnmente usando mnemotecnias muy cortas, como Ncmsan para Categoría = Sustantivo, Tipo = común, Género = masculino, Número = singular, Caso = acusativo, Animado = no.
El "conjunto de etiquetas" más popular para el etiquetado POS para inglés americano es probablemente el conjunto de etiquetas Penn, desarrollado en el proyecto Penn Treebank.
Para las lenguas de Europa occidental, se han desarrollado esquemas de anotación de aplicación translingüística para las partes del discurso, la morfosintaxis y la sintaxis con las Directrices EAGLES . El "Grupo asesor de expertos sobre estándares de ingeniería lingüística" (EAGLES) fue una iniciativa de la Comisión Europea que funcionó dentro del programa de Investigación e Ingeniería Lingüística de la DG XIII de 1994 a 1998, coordinado por el Consorcio Pisa Ricerche, Pisa, Italia. Las directrices EAGLES proporcionan orientación sobre el marcado que se utilizará con corpus de texto , en particular para identificar características relevantes en lingüística computacional y lexicografía . Numerosas empresas, centros de investigación, universidades y organismos profesionales de toda la Unión Europea colaboraron para producir las Directrices EAGLES, que establecen recomendaciones para estándares de facto y reglas de mejores prácticas para: [3]
Las directrices de Eagles también han inspirado trabajos posteriores en otras regiones, por ejemplo, Europa del Este. [4]
Una generación después, la comunidad de investigación inició un esfuerzo similar bajo el paraguas de Universal Dependencies . Petrov et al. [5] [6] propusieron un conjunto de etiquetas "universal", pero altamente reduccionista, con 12 categorías (por ejemplo, sin subtipos de sustantivos, verbos, puntuación, etc.; sin distinción de "to" como marcador de infinitivo frente a preposición (difícilmente una coincidencia "universal"), etc.). Posteriormente, esto se complementó con especificaciones translingüísticas para la sintaxis de dependencia (Stanford Dependencies), [7] y la morfosintaxis (Interset interlingua, [8] parcialmente basada en la tradición Multext-East/Eagles) en el contexto de Universal Dependencies (UD), un proyecto cooperativo internacional para crear bancos de árboles de los idiomas del mundo con anotaciones ("universales") aplicables translingüísticamente para partes del discurso, sintaxis de dependencia y (opcionalmente) características morfosintácticas (morfológicas). Las aplicaciones principales son el procesamiento de texto automatizado en el campo del procesamiento del lenguaje natural (PLN) y la investigación en sintaxis y gramática del lenguaje natural, especialmente dentro de la tipología lingüística . El esquema de anotación tiene sus raíces en tres proyectos relacionados: El esquema de anotación UD utiliza una representación en forma de árboles de dependencia en lugar de árboles de estructura de frase . En febrero de 2019, hay poco más de 100 bancos de árboles de más de 70 idiomas disponibles en el inventario UD. [9] El objetivo principal del proyecto es lograr la coherencia interlingüística de la anotación. Sin embargo, se permiten extensiones específicas del idioma para las características morfológicas (los idiomas o recursos individuales pueden introducir características adicionales). En una forma más restringida, las relaciones de dependencia se pueden extender con una etiqueta secundaria que acompaña a la etiqueta UD, por ejemplo, aux:pass para un auxiliar (UD aux ) utilizado para marcar la voz pasiva. [10]
Las dependencias universales han inspirado esfuerzos similares para las áreas de morfología flexiva, [11] semántica de marcos [12] y correferencia . [13] Para la sintaxis de la estructura de frases , no parece existir un esfuerzo comparable, pero las especificaciones del Penn Treebank se han aplicado a (y extendido para) una amplia gama de idiomas, [14] por ejemplo, islandés, [15] inglés antiguo, [16] inglés medio, [17] bajo alemán medio, [18] alto alemán moderno temprano, [19] yiddish, [20] portugués, [21] japonés, [22] árabe [23] y chino. [24]
En lingüística , una glosa interlineal es una glosa (serie de explicaciones breves, como definiciones o pronunciaciones) colocada entre líneas ( inter- + lineal ), como entre una línea de texto original y su traducción a otro idioma . Cuando se glosa, cada línea del texto original adquiere una o más líneas de transcripción conocidas como texto interlineal o texto glosado interlineal (IGT), interlineal para abreviar. Estas glosas ayudan al lector a seguir la relación entre el texto fuente y su traducción, y la estructura del idioma original. No existe un inventario estándar para las glosas, pero se recogen etiquetas comunes en las Reglas de glosas de Leipzig. [25] Wikipedia también proporciona una Lista de abreviaturas de glosas que se basa en esta y otras fuentes.
GOLD ("Ontología general para la descripción lingüística") es una ontología para la lingüística descriptiva . Proporciona una explicación formalizada de las categorías y relaciones más básicas utilizadas en la descripción científica del lenguaje humano, por ejemplo, como una formalización de glosas interlineales. GOLD fue introducido por primera vez por Farrar y Langendoen (2003). [26] Originalmente, se concibió como una solución al problema de resolver esquemas de marcado dispares para datos lingüísticos, en particular datos de lenguas en peligro de extinción . Sin embargo, GOLD es mucho más general y se puede aplicar a todas las lenguas. En esta función, GOLD se superpone con el Registro de categorías de datos ISO 12620 (ISOcat); sin embargo, está estructurado de manera más estricta.
GOLD fue mantenido por la Lista LINGUIST y otros desde 2007 hasta 2010. [27] El proyecto RELISH creó un espejo de la edición 2010 de GOLD como una Selección de Categoría de Datos dentro de ISOcat. A partir de 2018, los datos de GOLD siguen siendo un importante centro terminológico en el contexto de la nube de Datos Abiertos Vinculados Lingüísticos , pero como ya no se mantiene activamente, su función es reemplazada cada vez más por OLiA (para anotación lingüística, basándose en GOLD e ISOcat) y lexinfo.net (para metadatos de diccionario, basándose en ISOcat).
La ISO 12620 es una norma del ISO/TC 37 que define un Registro de Categoría de Datos , un registro para registrar términos lingüísticos utilizados en varios campos de la traducción , la lingüística computacional y el procesamiento del lenguaje natural y que define asignaciones tanto entre términos diferentes como entre los mismos términos utilizados en diferentes sistemas. [28] [29] [30]
Una implementación anterior de este estándar, ISOcat, proporciona identificadores persistentes y URI para categorías lingüísticas, incluido el inventario de la ontología GOLD (ver más abajo). El objetivo del registro es que los nuevos sistemas puedan reutilizar la terminología existente, o al menos ser fácilmente mapeados a la terminología existente, para ayudar a la interoperabilidad . [31] El estándar es utilizado por otros estándares como Lexical Markup Framework (ISO 24613:2008), y se han agregado varias terminologías al registro, incluidas las pautas Eagles, el Corpus Nacional de Polaco y el formato TermBase eXchange de la Localization Industry Standards Association .
Sin embargo, la edición actual ISO 12620:2019 [32] ya no proporciona un registro de términos para la tecnología lingüística y la terminología, sino que ahora está restringida a los recursos terminológicos, de ahí el título revisado "Gestión de recursos terminológicos - Especificaciones de categorías de datos". En consecuencia, ISOcat ya no se desarrolla activamente. [33] A partir de mayo de 2020, los sistemas sucesores, CLARIN Concept Registry [34] y DatCatInfo [35] recién están surgiendo.
Para las categorías lingüísticas relevantes para los recursos léxicos , el vocabulario lexinfo representa un estándar comunitario establecido, [36] en particular en relación con el vocabulario OntoLex y los diccionarios legibles por máquina en el contexto de las tecnologías de datos abiertos vinculados lingüísticos . Al igual que el vocabulario OntoLex se basa en el Marco de marcado léxico (LMF), lexinfo se basa en (la sección LMF de) ISOcat. [37] Sin embargo, a diferencia de ISOcat, lexinfo se mantiene activamente y actualmente (mayo de 2020) se amplía en un esfuerzo comunitario. [38]
De manera similar a GOLD, las Ontologías de Anotación Lingüística (OLiA) proporcionan un inventario de referencia de categorías lingüísticas para fenómenos sintácticos, morfológicos y semánticos relevantes para la anotación lingüística y los corpus lingüísticos en forma de ontología . Además, también proporcionan esquemas de anotación legibles por máquina para más de 100 idiomas, vinculados con el modelo de referencia OLiA. [39] Las ontologías OLiA representan un importante centro de terminología de anotación en la nube de datos abiertos vinculados (lingüísticos) , con aplicaciones para búsqueda, recuperación y aprendizaje automático sobre recursos lingüísticos anotados de forma heterogénea. [37]
Además de los esquemas de anotación, el modelo de referencia OLiA también está vinculado con las directrices Eagles, [40] GOLD, [40] ISOcat, [41] CLARIN Concept Registry, [42] Universal Dependencies, [43] lexinfo, [43] etc., lo que permite la interoperabilidad entre estos vocabularios. OLiA se está desarrollando como un proyecto comunitario en GitHub [44].
{{cite journal}}
: Requiere citar revista |journal=
( ayuda )