stringtranslate.com

Datos abiertos vinculados lingüísticamente

En el procesamiento del lenguaje natural , la lingüística y los campos afines, Linguistic Linked Open Data (LLOD) describe un método y una comunidad interdisciplinaria que se ocupa de crear, compartir y (re)utilizar recursos lingüísticos de acuerdo con los principios de Linked Data . La Linguistic Linked Open Data Cloud fue concebida y está siendo mantenida por el Open Linguistics Working Group (OWLG) de la Open Knowledge Foundation , pero ha sido un punto focal de actividad para varios grupos comunitarios del W3C , proyectos de investigación y esfuerzos de infraestructura desde entonces.

Definición y desarrollo

Nube LLOD (24 de mayo de 2016)

Los datos abiertos vinculados lingüísticos describen la publicación de datos para la lingüística y el procesamiento del lenguaje natural utilizando los siguientes principios: [1]

Los principales beneficios de LLOD se han identificado como: [2]

La página de inicio del diagrama de nubes LLOD se encuentra en linguistic-lod.org [3]

Vocabularios de LLOD

Además de recopilar metadatos y generar el diagrama de nube LLOD, la comunidad LLOD está impulsando el desarrollo de estándares comunitarios con respecto a vocabularios, metadatos y recomendaciones de mejores prácticas.

Según la descripción general del estado del arte de Cimiano et al. (2020), [4] estos incluyen:

A mediados de 2020, se estaba trabajando activamente en la mayoría de estos estándares comunitarios. La existencia de múltiples estándares incompatibles para las anotaciones lingüísticas es particularmente problemática y, a principios de 2020, el Grupo Comunitario de Datos Vinculados para Tecnologías del Lenguaje del W3C comenzó a trabajar en pos de una consolidación de estos (y otros) vocabularios para anotaciones lingüísticas en la web. [15]

Comunidad

El diagrama de nubes LLOD ha sido desarrollado y es mantenido por el Grupo de Trabajo de Lingüística Abierta (OWLG) de la Open Knowledge Foundation (desde 2014 Open Knowledge), una organización abierta e interdisciplinaria de expertos en recursos lingüísticos.

El OWLG organiza eventos comunitarios, coordina los desarrollos de LLOD y facilita la comunicación interdisciplinaria entre los contribuyentes y usuarios de LLOD.

Varios grupos empresariales y comunitarios del W3C se centran en aspectos especializados de LLOD:

El desarrollo de LLOD se impulsa y documenta mediante una serie de talleres internacionales, maratones de datos y publicaciones asociadas. Entre otras, se incluyen

Aplicaciones de LLOD

Los datos abiertos vinculados lingüísticos se aplican para abordar una serie de problemas de investigación científica:

Los datos abiertos vinculados lingüísticos están estrechamente relacionados con el desarrollo de

Proyectos de investigación seleccionados

Los usos y el desarrollo de LLOD han sido objeto de varios proyectos de investigación a gran escala, incluidos

Recursos seleccionados

A partir de octubre de 2018, los 10 recursos vinculados con mayor frecuencia en el diagrama LLOD son (en orden de la cantidad de conjuntos de datos vinculados):

Aspectos

Existen numerosas discusiones recurrentes sobre los diferentes aspectos del término, su aplicabilidad y para un tipo particular de recursos. [32]

Datos lingüísticos: alcance y clasificación

Además de los recursos utilizados y creados para la investigación lingüística, el diagrama de nubes LLOD también incluye ontologías, terminologías y bases de conocimiento general cuyo desarrollo no fue impulsado originalmente por el interés en las ciencias del lenguaje o la tecnología del lenguaje, por ejemplo, la DBpedia . Como criterio para la inclusión en el diagrama LLOD, el OWLG requiere "relevancia lingüística": "[Un] conjunto de datos es lingüísticamente relevante si proporciona o describe datos lingüísticos que pueden usarse con el propósito de investigación lingüística o procesamiento del lenguaje natural". [33] Esto incluye recursos lingüísticos en un sentido estricto ("condición 1": un recurso anotado o estructurado de otro modo creado para su aplicación en ciencias del lenguaje o tecnología del lenguaje, como se demuestra, por ejemplo, mediante una publicación científica en una revista o conferencia relacionada con la lingüística), pero también recursos "que pueden usarse para anotar, enriquecer, recuperar o clasificar recursos lingüísticos... [si su relevancia] puede verificarse por la existencia de vínculos entre un recurso (cuya relevancia lingüística debe confirmarse) y recursos que cumplen la condición (1)" ("condición 2"). [34]

Un tema relacionado es la clasificación de los conjuntos de datos lingüísticamente relevantes (o recursos lingüísticos en general). El OWLG desarrolló la siguiente clasificación para el diagrama de nubes LLOD: [35]

Tenga en cuenta que en esta clasificación, las bases terminológicas pueden ser ligeramente diferentes en el sentido de que no brindan información gramatical; sin embargo, dado que formalizan el conocimiento semántico, son de relevancia inmanente para las tareas de procesamiento del lenguaje natural, como el reconocimiento de entidades nombradas o la resolución de anáforas.

Datos abiertos: disponibilidad

LLOD se define en relación con Linked Open Data, y los recursos LLOD ( datos ) deben cumplir con las licencias de acuerdo con la Definición Abierta . [36] Sin embargo, para generar el diagrama de nube LLOD (y el diagrama LOD), esto no parece aplicarse todavía, por lo que el criterio técnico es la disponibilidad en la web y una entrada de metadatos. En el OWLG, se ha discutido repetidamente si se podrían incluir recursos no comerciales (académicos) con un consenso general de admitirlos por el momento (2015) pero posteriormente aplicar requisitos más estrictos junto con el crecimiento de la nube LLOD. A enero de 2018, aún no se había acordado cuándo iba a suceder este movimiento. [37] A enero de 2020, los metadatos de licencia legibles por máquina estaban disponibles para 86 recursos LLOD, de estos, 82 adoptaron licencias abiertas, 4 adoptaron licencias no comerciales. [38]

En un sentido más amplio, el término tecnología LLOD (infraestructuras, herramientas, vocabularios) también puede usarse para referirse a la tecnología independientemente de si realmente se trata de recursos abiertos, por ejemplo, en el nombre del proyecto de la UE Pret-a-LLOD que presenta varios casos de negocios comerciales. [39] Esto se justifica para aplicaciones que consumen (en lugar de proporcionar) datos abiertos, pero además, también cuando se aplican la tecnología de datos vinculados y la adopción de otras convenciones LLOD (esp., el uso de vocabularios RDF desarrollados en el contexto de LLOD) para facilitar la integración perfecta de recursos LLOD (recursos abiertos).

La abreviatura "LLOD" se puede utilizar para referirse tanto a la tecnología LLOD (uso de datos vinculados y vocabularios LLOD, independientemente del estado legal de los datos que se procesan) como a los recursos LLOD (datos abiertos). Para desambiguar, se pueden utilizar los términos "recursos LLOD" y "tecnología LLOD". Para enfatizar la aplicación o la aplicabilidad a recursos no abiertos, también se ha utilizado "LLD" (datos vinculados lingüísticos). [40] Un posible compromiso es el acrónimo "LL(O)D" para la tecnología. Actualmente (junio de 2020) no existe una nube de "datos vinculados lingüísticos con licencia" que contenga recursos no abiertos. [38]

Datos vinculados: formatos

La definición de Linked Data requiere la aplicación de RDF o estándares relacionados. Esto incluye las recomendaciones del W3C SPARQL, Turtle, JSON-LD, RDF-XML, RDFa, etc. Sin embargo, en la tecnología del lenguaje y las ciencias del lenguaje, actualmente son más populares otros formalismos, y ocasionalmente se ha solicitado la inclusión de dichos datos en el diagrama de nube LLOD. [32] Para varios de estos lenguajes, existen mecanismos de envoltura estandarizados por el W3C (por ejemplo, para XML , CSV o bases de datos relacionales, consulte Extracción de conocimiento#Extracción de fuentes estructuradas a RDF ), y dichos datos se pueden integrar con la condición de que se proporcione la asignación correspondiente junto con los datos de origen.

Literatura seleccionada

El documento de revisión de 2022 es:

Se proporciona una descripción exhaustiva del estado del arte sobre LLOD.

El concepto de una nube de datos abiertos vinculados lingüísticamente fue introducido originalmente por

El primer libro sobre el tema es

Según Cimiano et al. (2020), [41] otras publicaciones seminales desde entonces incluyen

Los acontecimientos ocurridos entre 2015 y 2019 se resumen en el volumen recopilado por

Referencias

  1. ^ ab Grupo de trabajo de lingüística abierta. «LOD lingüístico». linguistic-lod.org . Proyecto LIDER . Consultado el 24 de mayo de 2016 .
  2. ^ Chiarcos, Christian; McCrae, John; Cimiano, Philipp; Fellbaum, Christiane (2013). Hacia datos abiertos para lingüística: Lexical Linked Data (PDF) . Heidelberg: En: Alessandro Oltramari, Piek Vossen, Lu Qin y Eduard Hovy (eds.), Nuevas tendencias de investigación en ontologías y recursos léxicos. Springer . Consultado el 24 de mayo de 2016 .
  3. ^ "Datos abiertos vinculados lingüísticos. Información sobre el estado actual de la creciente nube de datos abiertos vinculados lingüísticos" . Consultado el 10 de diciembre de 2019 .
  4. ^ Cimiano, Philipp; Chiarcos, Christian; McCrae, John P.; Gracia, Jorge (2020). Datos vinculados lingüísticos: representación, generación y aplicaciones. Springer International Publishing. ISBN 978-3-030-30224-5.
  5. ^ "Lexicon Model for Ontologies: Community Report, 10 de mayo de 2016". www.w3.org . Consultado el 5 de junio de 2020 .
  6. ^ "Resultados del grupo de trabajo de anotaciones web del W3C". w3c.github.io . Consultado el 5 de junio de 2020 .
  7. ^ Hellmann, Sebastian; Lehmann, Jens; Auer, Sören; Brümmer, Martin (2013). "Integración de PNL mediante datos enlazados". En Alani, Harith; Kagal, Lalana; Fokoue, Achille; Groth, Paul; Biemann, Chris; Parreira, Josiane Xavier; Aroyo, Lora; Noy, Natasha; Welty, Chris (eds.). La Web semántica – ISWC 2013, Actas parte II . 12.ª Conferencia Internacional de Web Semántica, Sídney, NSW, Australia, 21-25 de octubre de 2013. Lecture Notes in Computer Science. Vol. 7908. Berlín, Heidelberg: Springer. págs. 98-113. doi : 10.1007/978-3-642-41338-4_7 . ISBN. 978-3-642-41338-4.
  8. ^ Chiarcos, Christian; Fäth, Christian (2017). "CoNLL-RDF: corpus enlazados realizados de una manera amigable con el procesamiento del lenguaje natural". En Gracia, Jorge; Bond, Francis; McCrae, John P.; Buitelaar, Paul; Chiarcos, Christian; Hellmann, Sebastian (eds.). Lenguaje, datos y conocimiento . Apuntes de clase en informática. Vol. 10318. Cham: Springer International Publishing. págs. 74–88. doi :10.1007/978-3-319-59888-8_6. ISBN 978-3-319-59888-8.
  9. ^ Chiarcos, Christian (2012). "POWLA: Modelado de corpus lingüísticos en OWL/DL". En Simperl, Elena; Cimiano, Philipp; Polleres, Axel; Corcho, Oscar; Presutti, Valentina (eds.). La Web semántica: investigación y aplicaciones . Apuntes de clase en informática. Vol. 7295. Berlín, Heidelberg: Springer. págs. 225–239. doi : 10.1007/978-3-642-30284-8_22 . ISBN . 978-3-642-30284-8.
  10. ^ Chiarcos, Christian; Sukhareva, Maria (1 de enero de 2015). "OLiA – Ontologías de anotación lingüística". Web semántica . 6 (4): 379–386. doi :10.3233/SW-140167. ISSN  1570-0844. S2CID  5956950.
  11. ^ Cimiano, P.; Buitelaar, P.; McCrae, J.; Sintek, M. (1 de marzo de 2011). "LexInfo: Un modelo declarativo para la interfaz léxico-ontología". Revista de semántica web . 9 (1): 29–51. doi :10.1016/j.websem.2010.11.001. ISSN  1570-8268.
  12. ^ de Melo, Gerard (1 de enero de 2015). "Lexvo.org: Información relacionada con el lenguaje para la nube de datos vinculados lingüísticos". Web semántica . 6 (4): 393–400. doi :10.3233/SW-150171. ISSN  1570-0844.
  13. ^ "Vocabulario del catálogo de datos (DCAT) - Versión 2" www.w3.org . Consultado el 5 de junio de 2020 .
  14. ^ McCrae, John P.; Labropoulou, Penny; Gracia, Jorge; Villegas, Marta; Rodríguez-Doncel, Víctor; Cimiano, Philipp (2015). "Una ontología para unirlos a todos: la ontología META-SHARE OWL para la interoperabilidad de conjuntos de datos lingüísticos en la Web". En Gandon, Fabien; Guéret, Christophe; Villata, Serena; Breslin, John; Faron-Zucker, Catherine; Zimmermann, Antoine (eds.). La Web semántica: eventos satélite de ESWC 2015 . Apuntes de conferencias en informática. Vol. 9341. Cham: Springer International Publishing. págs. 271–282. doi : 10.1007/978-3-319-25639-9_42 . ISBN 978-3-319-25639-9.
  15. ^ ld4lt/linguistic-annotation, ld4lt, 19 de mayo de 2020 , consultado el 5 de junio de 2020
  16. ^ "Mejores prácticas para el grupo comunitario de datos abiertos multilingües vinculados". 2 de octubre de 2015. Consultado el 9 de diciembre de 2019 .
  17. ^ "Linked Data for Language Technology Community Group". 26 de junio de 2015. Consultado el 9 de diciembre de 2019 .
  18. ^ Bird, Steven; Liberman, Mark. "Hacia un marco formal para las anotaciones lingüísticas" (PDF) . En: Actas de la Conferencia Internacional sobre Procesamiento del Lenguaje Hablado, Sydney, 1998. Consultado el 25 de mayo de 2016 .[ enlace muerto permanente ]
  19. ^ ISO 24612:2012. «Gestión de recursos lingüísticos: marco de anotación lingüística (LAF)». ISO . Consultado el 25 de mayo de 2016 .{{cite web}}: CS1 maint: nombres numéricos: lista de autores ( enlace )
  20. ^ Eckart, Richard (2008). Elegir una base de datos XML para corpus anotados lingüísticamente. SDV. Sprache und Datenverarbeitung 32.1/2008: Revista internacional sobre procesamiento de datos lingüísticos, Workshop Datenbanktechnologien für hypermediale linguistische Anwendungen (KONVENS 2008), Universitätsverlag Rhein-Ruhr, Berlín, septiembre de 2008, págs.
  21. ^ Chiarcos, Christian. "Interoperabilidad de corpus y anotaciones (versión borrador)" (PDF) . En: Christian Chiarcos, Sebastian Nordhoff y Sebastian Hellmann (eds.) Linked Data in Linguistics. Representing and Connecting Language Data and Language Metadata, 2012. Consultado el 25 de mayo de 2016 .
  22. ^ "lod2.okfn.org (versión archivada)". Archivado desde el original el 7 de marzo de 2014. Consultado el 9 de diciembre de 2019 .
  23. ^ "Ontologías multilingües para el conocimiento en red (Monnet)". Comisión Europea, Resultados de la investigación de CORDIS EU . Consultado el 10 de diciembre de 2019 .
  24. ^ "LIDER: Linked Data como facilitador de análisis de contenido multilingüe y multimedios para empresas de toda Europa". Comisión Europea, Resultados de la investigación de CORDIS sobre la UE . Consultado el 10 de diciembre de 2019 .
  25. ^ "Traducción de calidad mediante enfoques de ingeniería lingüística profunda". Comisión Europea, Resultados de la investigación de CORDIS EU . Consultado el 10 de diciembre de 2019 .
  26. ^ "Linked Open Dictionaries (LiODi)" . Consultado el 10 de diciembre de 2019 .
  27. ^ "Marco abierto de servicios electrónicos para el enriquecimiento multilingüe y semántico de contenidos digitales" . Consultado el 10 de diciembre de 2019 .
  28. ^ "POSTDATA – Estandarización de poesía y datos abiertos vinculados" . Consultado el 10 de diciembre de 2019 .
  29. ^ "Linking Latin. Building a Knowledge Base of Linguistic Resources for Latin" (Enlaces del latín. Creación de una base de conocimientos de recursos lingüísticos para el latín) . Consultado el 10 de diciembre de 2019 .
  30. ^ "Página de inicio del proyecto Pret-a-LLOD" . Consultado el 10 de diciembre de 2019 ."Pret-a-LLOD". Comisión Europea, Resultados de la investigación de la UE de CORDIS . Consultado el 10 de diciembre de 2019 .
  31. ^ "CA18209 - Red europea para la ciencia de datos lingüísticos centrada en la Web". cost. Cooperación Europea en Ciencia y Tecnología . Consultado el 10 de diciembre de 2019 .
  32. ^ ab Para conocer el historial de estas discusiones, consulte los archivos de la lista de correo de Open Linguistics, disponibles solo como respaldo en https://github.com/open-linguistics/linguistics.okfn.org/tree/master/backup
  33. ^ Cimiano, Philipp; Chiarcos, Christian; McCrae, John P.; Gracia, Jorge (2020). Datos vinculados lingüísticos: representación, generación y aplicaciones. Springer International Publishing. pág. 33. ISBN 978-3-030-30224-5.
  34. ^ Cimiano, Philipp; Chiarcos, Christian; McCrae, John P.; Gracia, Jorge (2020). Datos vinculados lingüísticos: representación, generación y aplicaciones. Springer International Publishing. págs. 33–34. ISBN 978-3-030-30224-5.
  35. ^ Cimiano, Philipp; Chiarcos, Christian; McCrae, John P.; Gracia, Jorge (2020). Datos vinculados lingüísticos: representación, generación y aplicaciones. Springer International Publishing. pp. 36f. ISBN 978-3-030-30224-5.
  36. ^ Chiarcos, Christian y Pareja-Lora, Antonio (2020), Datos abiertos—Datos vinculados—Datos abiertos vinculados—Datos abiertos vinculados lingüísticos (LLOD): una introducción general. En: Pareja-Lora, Antonio; Lust, Barbara; Blume, Maria; Chiarcos, Christian (eds.). Desarrollo de recursos de datos abiertos vinculados lingüísticos para la investigación colaborativa intensiva en datos en las ciencias del lenguaje. The MIT Press, p.1-18.
  37. ^ "linguistics.okfn.org/003004.html en master · open-linguistics/linguistics.okfn.org · GitHub". GitHub . Consultado el 5 de junio de 2020 .
  38. ^ ab Cimiano, Philipp; Chiarcos, Christian; McCrae, John P.; Gracia, Jorge (2020). Datos vinculados lingüísticos: representación, generación y aplicaciones. Springer International Publishing. pág. 37. ISBN 978-3-030-30224-5.
  39. ^ "Prêt-à-LLOD - Sitio web del proyecto Prêt-à-LLOD" . Consultado el 5 de junio de 2020 .
  40. ^ Véase el título del libro de Cimiano, Chiarcos, Gracia, McCrae (2020). Sin embargo, el acrónimo LLD (junio de 2020: 7 coincidencias unívocas en Google Scholar) parece usarse raramente en comparación con LLOD (junio de 2020: 309 coincidencias unívocas en Google Scholar).
  41. ^ Cimiano, Philipp; Chiarcos, Christian; McCrae, John P.; Gracia, Jorge (2020). Datos vinculados lingüísticos: representación, generación y aplicaciones. Springer International Publishing. pp. vi. ISBN 978-3-030-30224-5.