Datos abiertos vinculados lingüísticamente

En el procesamiento del lenguaje natural , la lingüística y los campos afines, Linguistic Linked Open Data (LLOD) describe un método y una comunidad interdisciplinaria que se ocupa de crear, compartir y (re)utilizar recursos lingüísticos de acuerdo con los principios de Linked Data . La Linguistic Linked Open Data Cloud fue concebida y está siendo mantenida por el Open Linguistics Working Group (OWLG) de la Open Knowledge Foundation , pero ha sido un punto focal de actividad para varios grupos comunitarios del W3C , proyectos de investigación y esfuerzos de infraestructura desde entonces.

Definición y desarrollo

Los datos abiertos vinculados lingüísticos describen la publicación de datos para la lingüística y el procesamiento del lenguaje natural utilizando los siguientes principios: ^[1]

Los datos deben tener licencia abierta mediante el uso de licencias como las licencias Creative Commons .
Los elementos de un conjunto de datos deben identificarse de forma única mediante un URI .
La URI debe resolverse para que los usuarios puedan acceder a más información mediante navegadores web.
La resolución de un recurso LLOD debería devolver resultados utilizando estándares web como el Marco de descripción de recursos (RDF).
Se deben incluir enlaces a otros recursos para ayudar a los usuarios a descubrir nuevos recursos y proporcionar semántica.

Los principales beneficios de LLOD se han identificado como: ^[2]

Representación: Los gráficos vinculados son un formato de representación más flexible para datos lingüísticos.
Interoperabilidad: Los modelos RDF comunes se pueden integrar fácilmente.
Federación: Los datos de múltiples fuentes se pueden combinar de forma sencilla.
Ecosistema: Las herramientas para RDF y datos vinculados están ampliamente disponibles bajo licencias de código abierto.
Expresividad: Los vocabularios existentes ayudan a expresar recursos lingüísticos.
Semántica: Los enlaces comunes expresan lo que quieres decir.
Dinamismo: Los datos web se pueden mejorar continuamente.

La página de inicio del diagrama de nubes LLOD se encuentra en linguistic-lod.org ^[3]

Vocabularios de LLOD

Además de recopilar metadatos y generar el diagrama de nube LLOD, la comunidad LLOD está impulsando el desarrollo de estándares comunitarios con respecto a vocabularios, metadatos y recomendaciones de mejores prácticas.

Según la descripción general del estado del arte de Cimiano et al. (2020), ^[4] estos incluyen:

para modelar recursos léxicos
- OntoLex-Lemon , estándar comunitario para recursos léxicos (diccionarios legibles por máquina, terminologías multilingües, lexicalización de ontologías) ^[5]
para modelar anotaciones lingüísticas (en corpus o NLP)
- Anotación web , un estándar del W3C para la anotación de recursos web (textuales o de otro tipo) ^[6]
- Formato de intercambio de lenguaje natural (NIF), un estándar comunitario para la anotación gramatical de texto ^[7]
- CoNLL-RDF, un vocabulario basado en NIF para la representación RDF de corpus en formatos TSV ("CoNLL") convencionales ^[8]
- POWLA, un vocabulario para estructuras de datos lingüísticos genéricos que se puede utilizar para complementar NIF, CoNLL-RDF o Web Annotation ^[9]
para categorías de datos lingüísticos
- Ontologías de anotación lingüística (OLiA) para la anotación lingüística ^[10]
- lexinfo para funciones gramaticales y de otro tipo en recursos léxicos ^[11]
para la identificación del idioma
- como cadenas etiquetadas con idioma utilizando etiquetas de idioma IETF BCP 47
- con URI ISO 639-3 proporcionados por lexvo.org ^[12]
- con URI de Glottolog para variedades de idiomas no cubiertas por la norma ISO 639
para metadatos
- Dublin Core , un estándar comunitario de términos que se pueden utilizar para describir recursos web
- Vocabulario de catálogo de datos (DCAT), un estándar del W3C para catálogos de datos publicados en la web ^[13]
- METASHARE-OWL, vocabulario para metadatos de recursos lingüísticos ^[14]

A mediados de 2020, se estaba trabajando activamente en la mayoría de estos estándares comunitarios. La existencia de múltiples estándares incompatibles para las anotaciones lingüísticas es particularmente problemática y, a principios de 2020, el grupo comunitario Linked Data for Language Technology del W3C comenzó a trabajar en la consolidación de estos (y otros) vocabularios para las anotaciones lingüísticas en la web. ^[15]

Comunidad

El diagrama de nubes LLOD ha sido desarrollado y es mantenido por el Grupo de Trabajo de Lingüística Abierta (OWLG) de la Open Knowledge Foundation (desde 2014 Open Knowledge), una organización abierta e interdisciplinaria de expertos en recursos lingüísticos.

El OWLG organiza eventos comunitarios, coordina los desarrollos de LLOD y facilita la comunicación interdisciplinaria entre los contribuyentes y usuarios de LLOD.

Varios grupos empresariales y comunitarios del W3C se centran en aspectos especializados de LLOD:

El grupo comunitario Ontology-Lexica del W3C ( OntoLex ) desarrolla y mantiene especificaciones para diccionarios legibles por máquinas en la nube LLOD.
El grupo comunitario de mejores prácticas para datos abiertos vinculados multilingües del W3C recopila información sobre las mejores prácticas para producir datos abiertos vinculados multilingües. ^[16]
El grupo de la comunidad de datos vinculados para tecnología del lenguaje del W3C reúne casos de usuarios y requisitos para aplicaciones de tecnología del lenguaje que utilizan datos vinculados. ^[17]

El desarrollo de LLOD se impulsa y documenta mediante una serie de talleres internacionales, maratones de datos y publicaciones asociadas. Entre otras, se incluyen

Linked Data in Linguistics (LDL), taller científico anual, iniciado en 2012
Datos abiertos multilingües vinculados para empresas (MLODE), reunión comunitaria bianual (2012 y 2014)
Datathon de verano sobre datos abiertos vinculados lingüísticos (SD-LLOD), datathon bianual, desde 2015

Aplicaciones de LLOD

Los datos abiertos vinculados lingüísticos se aplican para abordar una serie de problemas de investigación científica:

En todas las áreas de la lingüística empírica, la filología computacional y el procesamiento del lenguaje natural , la anotación lingüística y el marcado lingüístico representan elementos centrales del análisis. Sin embargo, el progreso en este campo se ve obstaculizado por los desafíos de interoperabilidad , en particular las diferencias en los vocabularios y los esquemas de anotación utilizados para diferentes recursos y herramientas. El uso de datos vinculados para conectar recursos lingüísticos y ontologías / repositorios terminológicos facilita la reutilización de vocabularios compartidos y su interpretación en relación con una base común.
En lingüística de corpus y filología computacional, el marcado superpuesto representa un problema notorio para los formatos XML convencionales . Por ello, desde finales de los años 1990 se han propuesto modelos de datos basados en grafos. ^[18] Estos se representan tradicionalmente por medio de múltiples archivos XML interconectados (XML independiente), ^[19] que no son compatibles con la tecnología XML estándar. ^[20] El modelado de anotaciones tan complejas como Linked Data representa un formalismo semánticamente equivalente al XML independiente, ^[21] pero elimina la necesidad de tecnología especial y, en su lugar, se basa en el ecosistema RDF existente.
Cuestiones multilingües, incluida la vinculación de recursos léxicos como WordNet , como se realizó en el Índice Interlingüístico de la Asociación Global WordNet, y la interconexión de recursos heterogéneos como WordNet y Wikipedia, como se hizo en BabelNet .
Proporcionar foros para la estandarización de la información sobre recursos lingüísticos

Los datos abiertos vinculados lingüísticos están estrechamente relacionados con el desarrollo de

Mejores prácticas para vincular datos léxicos en la web (para datos publicados de acuerdo con las convenciones de OntoLex )
Mejores prácticas para crear anotaciones en la web (por ejemplo, utilizando el estándar de anotación web )
Mejores prácticas para modelar y compartir recursos textuales con marcado superpuesto

Proyectos de investigación seleccionados

Los usos y el desarrollo de LLOD han sido objeto de varios proyectos de investigación a gran escala, incluidos

LOD2. Creación de conocimiento a partir de datos interconectados (11 países de la UE + Corea, 2010-2014) ^[22]
MONNET. Ontologías multilingües para el conocimiento en red (5 países de la UE, 2010-2013) ^[23]
LIDER. Datos vinculados como facilitador de análisis de contenido multilingüe y multimedios para empresas de toda Europa (5 países de la UE, 2013-2015) ^[24]
QTLeap. Traducción de calidad mediante enfoques de ingeniería lingüística profunda (6 países de la UE, 2013-2016) ^[25]
LiODi. Linked Open Dictionaries (Grupo de investigación de carreras tempranas en eHumanities del BMBF, Universidad Goethe de Frankfurt, Alemania, 2015-2020) ^[26]
FREME. Marco abierto de servicios electrónicos para el enriquecimiento multilingüe y semántico de contenidos digitales (6 países de la UE, 2015-2017) ^[27]
POSTDATA. Normalización de poesía y datos abiertos enlazados (ERC Starting Grant, UNED, España, 2016-2021) ^[28]
Linking Latin (ERC Consolidator Grant, Universita Cattolica del Sacro Cuore, Italia, 2018-2023) ^[29]
Pret-a-LLOD (5 países de la UE, 2019-2021) ^[30]
NexusLinguarum. Red europea para la ciencia de datos lingüísticos centrada en la Web (COST Action, 35 países COST, 2 países vecinos cercanos, un país socio internacional, 2019-2023) ^[31]

Recursos seleccionados

A partir de octubre de 2018, los 10 recursos vinculados con mayor frecuencia en el diagrama LLOD son (en orden de la cantidad de conjuntos de datos vinculados):

Las ontologías de anotación lingüística ( OLiA , vinculadas con 74 conjuntos de datos) proporcionan terminología de referencia para anotaciones lingüísticas y metadatos gramaticales;
WordNet (vinculado con 51 conjuntos de datos), una base de datos léxica para inglés y pivote para desarrollar bases de datos similares para otros idiomas, con varias ediciones (edición de Princeton vinculada con 36 conjuntos de datos; edición W3C vinculada con 8 conjuntos de datos; edición VU vinculada con 7 conjuntos de datos);
DBpedia (vinculada con 50 conjuntos de datos), base de conocimiento multilingüe de conocimiento general del mundo, basada en Wikipedia;
lexinfo.net (vinculado con 36 conjuntos de datos) proporciona terminología de referencia para recursos léxicos;
BabelNet (vinculada con 33 conjuntos de datos) , red semántica lexicalizada multilingüe , basada en la agregación de varios otros recursos, entre los que destacan WordNet y Wikipedia;
lexvo.org (vinculado con 26 conjuntos de datos) proporciona identificadores de idiomas y otros datos relacionados con los idiomas. Lo más importante es que lexvo proporciona una representación RDF de los códigos de 3 letras ISO 639-3 para identificadores de idiomas e información sobre estos idiomas;
El Registro de categorías de datos ISO 12620 (ISOcat; edición RDF, vinculado con 10 conjuntos de datos) proporciona un repositorio semiestructurado para diversas terminologías relacionadas con el lenguaje. ISOcat está alojado por The Language Archive, respectivamente, el proyecto DOBES , en el Instituto Max Planck de Psicolingüística , pero actualmente está en transición a CLARIN ;
UBY (edición RDF lemon-Uby , vinculada con 9 conjuntos de datos), una red léxica para inglés, agregada a partir de varios recursos léxicos;
Glottolog (vinculado con 7 conjuntos de datos) proporciona identificadores de idiomas de grano fino para idiomas con pocos recursos, en particular, muchos que no están cubiertos por lexvo.org;
Enlaces Wikcionario - DBpedia ( wiktionary.dbpedia.org , vinculado con 7 conjuntos de datos), lexicalizaciones basadas en Wikcionario para conceptos de DBpedia.
DBnary es una versión RDF de 23 ediciones de idiomas Wikionary .

Aspectos

Existen numerosas discusiones recurrentes sobre los diferentes aspectos del término, su aplicabilidad y para un tipo particular de recursos. ^[32]

Datos lingüísticos: alcance y clasificación

Además de los recursos utilizados y creados para la investigación lingüística, el diagrama de nubes LLOD también incluye ontologías, terminologías y bases de conocimiento general cuyo desarrollo no fue impulsado originalmente por el interés en las ciencias del lenguaje o la tecnología del lenguaje, por ejemplo, la DBpedia . Como criterio para la inclusión en el diagrama LLOD, el OWLG requiere "relevancia lingüística": "[Un] conjunto de datos es lingüísticamente relevante si proporciona o describe datos lingüísticos que pueden usarse con el propósito de investigación lingüística o procesamiento del lenguaje natural". ^[33] Esto incluye recursos lingüísticos en un sentido estricto ("condición 1": un recurso anotado o estructurado de otro modo creado para su aplicación en ciencias del lenguaje o tecnología del lenguaje, como se demuestra, por ejemplo, mediante una publicación científica en una revista o conferencia relacionada con la lingüística), pero también recursos "que pueden usarse para anotar, enriquecer, recuperar o clasificar recursos lingüísticos... [si su relevancia] puede verificarse por la existencia de vínculos entre un recurso (cuya relevancia lingüística debe confirmarse) y recursos que cumplen la condición (1)" ("condición 2"). ^[34]

Un tema relacionado es la clasificación de los conjuntos de datos lingüísticamente relevantes (o recursos lingüísticos en general). El OWLG desarrolló la siguiente clasificación para el diagrama de nubes LLOD: ^[35]

Corpus : recopilación de datos lingüísticos analizados lingüísticamente.
Léxicos: datos léxico-conceptuales
- Recursos léxicos : léxicos y diccionarios
- bases terminológicas : terminologías, tesauros y bases de conocimiento
metadatos
- metadatos de recursos lingüísticos (metadatos sobre recursos lingüísticos, incluidos recursos lingüísticos digitales y libros impresos)
- Categorías de datos lingüísticos (metadatos sobre terminología lingüística, incluidas categorías lingüísticas e identificadores de idioma)
- bases de datos tipológicas (metadatos sobre idiomas individuales, especialmente características lingüísticas de esos idiomas)
otro (marcador de posición para recursos que (aún) no están clasificados) ^[1]

Tenga en cuenta que en esta clasificación, las bases terminológicas pueden ser ligeramente diferentes en el sentido de que no brindan información gramatical; sin embargo, dado que formalizan el conocimiento semántico, son de relevancia inmanente para las tareas de procesamiento del lenguaje natural, como el reconocimiento de entidades nombradas o la resolución de anáforas.

Datos abiertos: disponibilidad

LLOD se define en relación con Linked Open Data, y los recursos LLOD ( datos ) deben cumplir con las licencias de acuerdo con la Definición Abierta . ^[36] Sin embargo, para generar el diagrama de nube LLOD (y el diagrama LOD), esto no parece aplicarse todavía, por lo que el criterio técnico es la disponibilidad en la web y una entrada de metadatos. En el OWLG, se ha discutido repetidamente si se podrían incluir recursos no comerciales (académicos) con un consenso general de admitirlos por el momento (2015) pero posteriormente aplicar requisitos más estrictos junto con el crecimiento de la nube LLOD. A enero de 2018, aún no se había acordado cuándo iba a suceder este movimiento. ^[37] A enero de 2020, los metadatos de licencia legibles por máquina estaban disponibles para 86 recursos LLOD, de estos, 82 adoptaron licencias abiertas, 4 adoptaron licencias no comerciales. ^[38]

En un sentido más amplio, el término tecnología LLOD (infraestructuras, herramientas, vocabularios) también puede usarse para referirse a la tecnología independientemente de si realmente se trata de recursos abiertos, por ejemplo, en el nombre del proyecto de la UE Pret-a-LLOD que presenta varios casos de negocios comerciales. ^[39] Esto se justifica para aplicaciones que consumen (en lugar de proporcionar) datos abiertos, pero además, también cuando se aplican la tecnología de datos vinculados y la adopción de otras convenciones LLOD (esp., el uso de vocabularios RDF desarrollados en el contexto de LLOD) para facilitar la integración perfecta de recursos LLOD (recursos abiertos).

La abreviatura "LLOD" se puede utilizar para referirse tanto a la tecnología LLOD (uso de datos vinculados y vocabularios LLOD, independientemente del estado legal de los datos que se procesan) como a los recursos LLOD (datos abiertos). Para desambiguar, se pueden utilizar los términos "recursos LLOD" y "tecnología LLOD". Para enfatizar la aplicación o la aplicabilidad a recursos no abiertos, también se ha utilizado "LLD" (datos vinculados lingüísticos). ^[40] Un posible compromiso es el acrónimo "LL(O)D" para la tecnología. Actualmente (junio de 2020) no existe una nube de "datos vinculados lingüísticos con licencia" que contenga recursos no abiertos. ^[38]

Datos vinculados: formatos

La definición de Linked Data requiere la aplicación de RDF o estándares relacionados. Esto incluye las recomendaciones del W3C SPARQL, Turtle, JSON-LD, RDF-XML, RDFa, etc. Sin embargo, en la tecnología del lenguaje y las ciencias del lenguaje, actualmente son más populares otros formalismos, y ocasionalmente se ha solicitado la inclusión de dichos datos en el diagrama de nube LLOD. ^[32] Para varios de estos lenguajes, existen mecanismos de envoltura estandarizados por el W3C (por ejemplo, para XML , CSV o bases de datos relacionales, consulte Extracción de conocimiento#Extracción de fuentes estructuradas a RDF ), y dichos datos se pueden integrar con la condición de que se proporcione la asignación correspondiente junto con los datos de origen.

Literatura seleccionada

El documento de revisión de 2022 es:

Anas Fahad Khan; Christian Chiarcos; Thierry Declerck; et al. (26 de septiembre de 2022). "Cuando la lingüística se encuentra con las tecnologías web. Avances recientes en el modelado de datos vinculados lingüísticos". Web semántica . 13 (6): 987–1050. doi :10.3233/SW-222859. ISSN 1570-0844. Wikidata Q118877323.

Se proporciona una descripción exhaustiva del estado del arte sobre LLOD.

Cimiano, Philipp; Chiarcos, Christian; McCrae, John P.; Gracia, Jorge (2020). Datos vinculados lingüísticos: representación, generación y aplicaciones. Springer International Publishing

El concepto de una nube de datos abiertos vinculados lingüísticamente fue introducido originalmente por

Chiarcos, Christian, Hellmann, Sebastian y Nordhoff, Sebastian (2011). Hacia una nube de datos abiertos vinculados lingüísticos: el grupo de trabajo de lingüística abierta. TAL ( Traitement Automatique des Langues) , 52 (3), 245–275.

El primer libro sobre el tema es

Christian Chiarcos, Sebastian Nordhoff y Sebastian Hellmann (eds., 2012). Linked Data in Linguistics. Representación y conexión de datos y metadatos lingüísticos. Springer, Heidelberg.

Según Cimiano et al. (2020), ^[41] otras publicaciones seminales desde entonces incluyen

Christian Chiarcos, Steven Moran, Pablo N. Mendes, Sebastian Nordhoff y Richard Littauer. Building a Linked Open Data cloud of linguistic resources: Motivations and developments (Construir una nube de recursos lingüísticos de Linked Open Data: motivaciones y desarrollos). En Iryna Gurevych y Jungi Kim (eds.), The People's Web Meets NLP. Collaboratively Constructed Language Resources (La red de la gente se encuentra con la PNL. Recursos lingüísticos construidos de forma colaborativa). Springer, Heidelberg, 2013.
Christian Chiarcos, John McCrae, Philipp Cimiano y Christiane Fellbaum. Hacia datos abiertos para lingüística: Lexical Linked Data. En Alessandro Oltramari, Piek Vossen, Lu Qin y Eduard Hovy (eds.), Nuevas tendencias de investigación en ontologías y recursos léxicos. Springer, Heidelberg, 2013.
Jorge Gracia, Elena Montiel-Ponsoda, Philipp Cimiano, Asunción Gómez-Pérez, Paul Buitelaar y John McCrae. Desafíos para la Web multilingüe de datos. Journal of Web Semantics, vol. 11, págs. 63–71. Elsevier BV, 2012.

Los acontecimientos ocurridos entre 2015 y 2019 se resumen en el volumen recopilado por

Pareja-Lora, Antonio; Lust, Barbara; Blume, Maria; Chiarcos, Christian (eds., 2020). Desarrollo de recursos de datos abiertos vinculados lingüísticos para la investigación colaborativa intensiva en datos en las ciencias del lenguaje. The MIT Press

Referencias

^ ab Grupo de trabajo de lingüística abierta. «LOD lingüístico». linguistic-lod.org . Proyecto LIDER . Consultado el 24 de mayo de 2016 .
^ Chiarcos, Christian; McCrae, John; Cimiano, Philipp; Fellbaum, Christiane (2013). Hacia datos abiertos para lingüística: Lexical Linked Data (PDF) . Heidelberg: En: Alessandro Oltramari, Piek Vossen, Lu Qin y Eduard Hovy (eds.), Nuevas tendencias de investigación en ontologías y recursos léxicos. Springer . Consultado el 24 de mayo de 2016 .
^ "Datos abiertos vinculados lingüísticos. Información sobre el estado actual de la creciente nube de datos abiertos vinculados lingüísticos" . Consultado el 10 de diciembre de 2019 .
^ Cimiano, Philipp; Chiarcos, Christian; McCrae, John P.; Gracia, Jorge (2020). Datos vinculados lingüísticos: representación, generación y aplicaciones. Springer International Publishing. ISBN 978-3-030-30224-5.
^ "Lexicon Model for Ontologies: Community Report, 10 de mayo de 2016". www.w3.org . Consultado el 5 de junio de 2020 .
^ "Resultados del Grupo de trabajo de anotaciones web del W3C". w3c.github.io . Consultado el 5 de junio de 2020 .
^ Hellmann, Sebastian; Lehmann, Jens; Auer, Sören; Brümmer, Martin (2013). "Integración de PNL mediante datos enlazados". En Alani, Harith; Kagal, Lalana; Fokoue, Achille; Groth, Paul; Biemann, Chris; Parreira, Josiane Xavier; Aroyo, Lora; Noy, Natasha; Welty, Chris (eds.). La Web semántica – ISWC 2013, Actas parte II . 12.ª Conferencia Internacional de Web Semántica, Sídney, NSW, Australia, 21-25 de octubre de 2013. Lecture Notes in Computer Science. Vol. 7908. Berlín, Heidelberg: Springer. págs. 98-113. doi : 10.1007/978-3-642-41338-4_7 . ISBN. 978-3-642-41338-4.
^ Chiarcos, Christian; Fäth, Christian (2017). "CoNLL-RDF: corpus enlazados realizados de una manera amigable con el procesamiento del lenguaje natural". En Gracia, Jorge; Bond, Francis; McCrae, John P.; Buitelaar, Paul; Chiarcos, Christian; Hellmann, Sebastian (eds.). Lenguaje, datos y conocimiento . Apuntes de clase en informática. Vol. 10318. Cham: Springer International Publishing. págs. 74–88. doi :10.1007/978-3-319-59888-8_6. ISBN 978-3-319-59888-8.
^ Chiarcos, Christian (2012). "POWLA: Modelado de corpus lingüísticos en OWL/DL". En Simperl, Elena; Cimiano, Philipp; Polleres, Axel; Corcho, Oscar; Presutti, Valentina (eds.). La Web semántica: investigación y aplicaciones . Apuntes de clase en informática. Vol. 7295. Berlín, Heidelberg: Springer. págs. 225–239. doi : 10.1007/978-3-642-30284-8_22 . ISBN . 978-3-642-30284-8.
^ Chiarcos, Christian; Sukhareva, Maria (1 de enero de 2015). "OLiA – Ontologías de anotación lingüística". Web semántica . 6 (4): 379–386. doi :10.3233/SW-140167. ISSN 1570-0844. S2CID 5956950.
^ Cimiano, P.; Buitelaar, P.; McCrae, J.; Sintek, M. (1 de marzo de 2011). "LexInfo: Un modelo declarativo para la interfaz léxico-ontología". Revista de semántica web . 9 (1): 29–51. doi :10.1016/j.websem.2010.11.001. ISSN 1570-8268.
^ de Melo, Gerard (1 de enero de 2015). "Lexvo.org: Información relacionada con el lenguaje para la nube de datos vinculados lingüísticos". Web semántica . 6 (4): 393–400. doi :10.3233/SW-150171. ISSN 1570-0844.
^ "Vocabulario del catálogo de datos (DCAT) - Versión 2" www.w3.org . Consultado el 5 de junio de 2020 .
^ McCrae, John P.; Labropoulou, Penny; Gracia, Jorge; Villegas, Marta; Rodríguez-Doncel, Víctor; Cimiano, Philipp (2015). "Una ontología para unirlos a todos: la ontología META-SHARE OWL para la interoperabilidad de conjuntos de datos lingüísticos en la Web". En Gandon, Fabien; Guéret, Christophe; Villata, Serena; Breslin, John; Faron-Zucker, Catherine; Zimmermann, Antoine (eds.). La Web semántica: eventos satélite de ESWC 2015 . Apuntes de conferencias en informática. Vol. 9341. Cham: Springer International Publishing. págs. 271–282. doi : 10.1007/978-3-319-25639-9_42 . ISBN 978-3-319-25639-9.
^ ld4lt/linguistic-annotation, ld4lt, 19 de mayo de 2020 , consultado el 5 de junio de 2020
^ "Mejores prácticas para el grupo comunitario de datos abiertos multilingües vinculados". 2 de octubre de 2015. Consultado el 9 de diciembre de 2019 .
^ "Linked Data for Language Technology Community Group". 26 de junio de 2015. Consultado el 9 de diciembre de 2019 .
^ Bird, Steven; Liberman, Mark. "Hacia un marco formal para las anotaciones lingüísticas" (PDF) . En: Actas de la Conferencia Internacional sobre Procesamiento del Lenguaje Hablado, Sydney, 1998. Consultado el 25 de mayo de 2016 .^{[ enlace muerto permanente ]}
^ ISO 24612:2012. «Gestión de recursos lingüísticos: marco de anotación lingüística (LAF)». ISO . Consultado el 25 de mayo de 2016 .{{cite web}}: CS1 maint: nombres numéricos: lista de autores ( enlace )
^ Eckart, Richard (2008). Elegir una base de datos XML para corpus anotados lingüísticamente. SDV. Sprache und Datenverarbeitung 32.1/2008: Revista internacional sobre procesamiento de datos lingüísticos, Workshop Datenbanktechnologien für hypermediale linguistische Anwendungen (KONVENS 2008), Universitätsverlag Rhein-Ruhr, Berlín, septiembre de 2008, págs.
^ Chiarcos, Christian. "Interoperabilidad de corpus y anotaciones (versión borrador)" (PDF) . En: Christian Chiarcos, Sebastian Nordhoff y Sebastian Hellmann (eds.) Linked Data in Linguistics. Representing and Connecting Language Data and Language Metadata, 2012. Consultado el 25 de mayo de 2016 .
^ "lod2.okfn.org (versión archivada)". Archivado desde el original el 7 de marzo de 2014. Consultado el 9 de diciembre de 2019 .
^ "Ontologías multilingües para el conocimiento en red (Monnet)". Comisión Europea, Resultados de la investigación de CORDIS en la UE . Consultado el 10 de diciembre de 2019 .
^ "LIDER: Linked Data como facilitador de análisis de contenido multilingüe y multimedios para empresas de toda Europa". Comisión Europea, Resultados de la investigación de CORDIS sobre la UE . Consultado el 10 de diciembre de 2019 .
^ "Traducción de calidad mediante enfoques de ingeniería lingüística profunda". Comisión Europea, Resultados de la investigación de CORDIS EU . Consultado el 10 de diciembre de 2019 .
^ "Linked Open Dictionaries (LiODi)" . Consultado el 10 de diciembre de 2019 .
^ "Marco abierto de servicios electrónicos para el enriquecimiento multilingüe y semántico de contenidos digitales" . Consultado el 10 de diciembre de 2019 .
^ "POSTDATA – Estandarización de poesía y datos abiertos vinculados" . Consultado el 10 de diciembre de 2019 .
^ "Linking Latin. Building a Knowledge Base of Linguistic Resources for Latin" (Enlaces del latín. Creación de una base de conocimientos de recursos lingüísticos para el latín) . Consultado el 10 de diciembre de 2019 .
^ "Página de inicio del proyecto Pret-a-LLOD" . Consultado el 10 de diciembre de 2019 ."Pret-a-LLOD". Comisión Europea, Resultados de la investigación de la UE de CORDIS . Consultado el 10 de diciembre de 2019 .
^ "CA18209 - Red europea para la ciencia de datos lingüísticos centrada en la Web". cost. Cooperación Europea en Ciencia y Tecnología . Consultado el 10 de diciembre de 2019 .
^ ab Para conocer el historial de estas discusiones, consulte los archivos de la lista de correo de Open Linguistics, disponibles solo como respaldo en https://github.com/open-linguistics/linguistics.okfn.org/tree/master/backup
^ Cimiano, Philipp; Chiarcos, Christian; McCrae, John P.; Gracia, Jorge (2020). Datos vinculados lingüísticos: representación, generación y aplicaciones. Springer International Publishing. pág. 33. ISBN 978-3-030-30224-5.
^ Cimiano, Philipp; Chiarcos, Christian; McCrae, John P.; Gracia, Jorge (2020). Datos vinculados lingüísticos: representación, generación y aplicaciones. Springer International Publishing. págs. 33–34. ISBN 978-3-030-30224-5.
^ Cimiano, Philipp; Chiarcos, Christian; McCrae, John P.; Gracia, Jorge (2020). Datos vinculados lingüísticos: representación, generación y aplicaciones. Springer International Publishing. pp. 36f. ISBN 978-3-030-30224-5.
^ Chiarcos, Christian y Pareja-Lora, Antonio (2020), Datos abiertos—Datos vinculados—Datos abiertos vinculados—Datos abiertos vinculados lingüísticos (LLOD): una introducción general. En: Pareja-Lora, Antonio; Lust, Barbara; Blume, Maria; Chiarcos, Christian (eds.). Desarrollo de recursos de datos abiertos vinculados lingüísticos para la investigación colaborativa intensiva en datos en las ciencias del lenguaje. The MIT Press, p.1-18.
^ "linguistics.okfn.org/003004.html en master · open-linguistics/linguistics.okfn.org · GitHub". GitHub . Consultado el 5 de junio de 2020 .
^ ab Cimiano, Philipp; Chiarcos, Christian; McCrae, John P.; Gracia, Jorge (2020). Datos vinculados lingüísticos: representación, generación y aplicaciones. Springer International Publishing. pág. 37. ISBN 978-3-030-30224-5.
^ "Prêt-à-LLOD - Sitio web del proyecto Prêt-à-LLOD" . Consultado el 5 de junio de 2020 .
^ Véase el título del libro de Cimiano, Chiarcos, Gracia, McCrae (2020). Sin embargo, el acrónimo LLD (junio de 2020: 7 coincidencias unívocas en Google Scholar) parece usarse raramente en comparación con LLOD (junio de 2020: 309 coincidencias unívocas en Google Scholar).
^ Cimiano, Philipp; Chiarcos, Christian; McCrae, John P.; Gracia, Jorge (2020). Datos vinculados lingüísticos: representación, generación y aplicaciones. Springer International Publishing. pp. vi. ISBN 978-3-030-30224-5.