Nombre corto de un vocabulario para recursos léxicos en la web de datos
OntoLex es el nombre corto de un vocabulario para recursos léxicos en la web de datos (OntoLex-Lemon) y el nombre corto del grupo comunitario W3C que lo creó (W3C Ontology-Lexica Community Group). [1]
Vocabulario OntoLex-Lemon
El vocabulario OntoLex-Lemon representa un vocabulario para publicar datos léxicos como un gráfico de conocimiento , en formato RDF y/o como Linguistic Linked Open Data . Desde su publicación como informe de la comunidad W3C en 2016, [2] sirve como "un estándar de facto para representar ontología-léxico en la Web". [3] OntoLex-Lemon es una revisión del vocabulario Lemon propuesto originalmente por McCrae et al. (2011). [4]
Los elementos centrales de OntoLex-Lemon, que se muestran en la figura 1, son:
Entrada léxica: unidad de análisis del léxico, que agrupa una o más formas y uno o más sentidos, respectivamente conceptos. Puede proporcionar información morfosintáctica adicional, p. ej., una categoría gramatical. Nótese que cada entrada léxica puede tener como máximo una categoría gramatical; para representar grupos de entradas léxicas con formas idénticas pero categorías gramaticalmente diferentes, véase el módulo de lexicografía. [5]
forma léxica: forma superficial de una entrada léxica particular, por ejemplo, su representación escrita
sentido léxico: sentido de la palabra de una entrada léxica en particular. Nótese que los sentidos de OntoLex-Lemon están lexicalizados , es decir, pertenecen exactamente a una entrada léxica. Para los elementos de significado que pueden expresarse mediante diferentes lexemas, utilice el concepto léxico.
Concepto léxico: elementos de significado con diferentes lexicalizaciones. Un ejemplo típico son los synsets de WordNet, donde varias palabras sinónimas se agrupan en un único conjunto.
Además del módulo principal (espacio de nombres http://www.w3.org/ns/lemon/ontolex#), otros módulos especifican vocabulario designado para representar metadatos léxicos [6] (espacio de nombres http://www.w3.org/ns/lemon/lime#), relaciones léxico-semánticas (por ejemplo, traducción y variación, espacio de nombres http://www.w3.org/ns/lemon/vartrans#), expresiones de varias palabras (descomposición, espacio de nombres http://www.w3.org/ns/lemon/decomp#) y marcos sintácticos (espacio de nombres http://www.w3.org/ns/lemon/synsem#).
Las estructuras de datos de OntoLex-Lemon son comparables con las de otros formatos de diccionario (consulte los vocabularios relacionados a continuación). El elemento innovador de OntoLex-Lemon es que proporciona un modelo de datos como un vocabulario RDF, ya que esto permite nuevos casos de uso que se basan en tecnologías web en lugar de diccionarios independientes (por ejemplo, inferencia de traducción, consulte las aplicaciones a continuación). En el futuro previsible, OntoLex-Lemon también seguirá siendo único en esta función, ya que la comunidad de datos abiertos vinculados (lingüísticos) fomenta firmemente la reutilización de vocabularios existentes [7] y, a partir de diciembre de 2019, OntoLex-Lemon es el único vocabulario establecido (es decir, publicado por W3C u otra iniciativa de estandarización) para su propósito. Esto también se refleja en las extensiones recientes de la especificación original de OntoLex-Lemon, donde se han desarrollado nuevos módulos para extender el uso de OntoLex-Lemon a nuevas áreas de aplicación:
El módulo lexicográfico OntoLex-Lemon, publicado como informe del grupo comunitario W3C, [8] extiende OntoLex-Lemon con respecto a los requisitos de la lexicografía digital .
El módulo de morfología de OntoLex-Lemon, en desarrollo a partir de diciembre de 2019, [9] [10] tiene como objetivo facilitar el multilingüismo con la formalización de diccionarios morfológicos en OntoLex-Lemon, esp., para idiomas morfológicamente ricos.
El módulo OntoLex-Lemon para frecuencia, atestación e información de corpus, en desarrollo a partir de diciembre de 2019, [11] [12] tiene como objetivo facilitar los usos de OntoLex-Lemon en la lexicografía computacional y el procesamiento del lenguaje natural.
Actualizaciones de LexInfo: LexInfo proporciona categorías de datos para los datos de OntoLex-Lemon. La versión actual es Lexinfo 3.0; las versiones anteriores (anteriores a 2019) todavía dependían del vocabulario Monnet-Lemon más antiguo. [13]
Aplicaciones
OntoLex-Lemon se utiliza ampliamente para recursos léxicos en el contexto de datos abiertos vinculados lingüísticos . Entre las aplicaciones seleccionadas se incluyen:
Modelo de datos y API de infraestructura lexicográfica de OASIS (LEXIDMA), un marco para el trabajo lexicográfico interoperable a nivel internacional [14]
Infraestructura pública europea de conocimiento multilingüe [15] [16]
LexO, un editor web colaborativo utilizado para la creación y gestión de recursos léxicos y terminológicos (multilingües) como recursos de datos vinculados [17]
VocBench, una plataforma de desarrollo colaborativo, multilingüe y basada en la web para gestionar ontologías, tesauros, léxicos y datos RDF [18] [19] [20]
La API Lexicala de K Dictionaries que proporciona acceso a datos léxicos interlingüísticos de 50 idiomas y 150 pares de idiomas. [21]
DiTMAO, editor lexicográfico desarrollado para la creación del Diccionario de terminología médico-botánica del occitano antiguo [22]
una serie de tareas compartidas sobre inferencia de traducción entre diccionarios (TIAD-2017, [23] [24] TIAD-2019, [25] [26] TIAD-2020 [27] )
DBnary, edición RDF de las ediciones en 16 idiomas de Wikcionario [28] [29]
PanLex, una red léxica a gran escala de unos 2.500 diccionarios y más de 500 idiomas [30]
Princeton WordNet 3.1 , un recurso léxico para inglés de gran escala, estructurado jerárquica y relacionalmente [31]
Asociación Global WordNet, un esfuerzo comunitario para producir, mantener e interconectar WordNets multilingües [32]
BabelNet , una red léxica multilingüe a gran escala [33] [34]
LiLa, una base de conocimiento de recursos lingüísticos para el latín basada en un gran léxico que consta de una colección de formas de citación [35] [36] [37]
El desarrollo de OntoLex se aborda regularmente en eventos científicos dedicados a ontologías, datos vinculados o lexicografía. Desde 2017, se lleva a cabo una serie de talleres sobre el módulo OntoLex cada dos años. [38]
Vocabularios relacionados
Los vocabularios relacionados que se centran en la estandarización y publicación de recursos léxicos incluyen DICT (formato basado en texto), XML Dictionary eXchange Format , TEI-Dict (XML) y Lexical Markup Framework (modelo abstracto normalmente serializado en XML; el vocabulario Lemon evolucionó originalmente a partir de una serialización RDF de LMF). OntoLex-Lemon se diferencia de estos modelos anteriores en que es un vocabulario nativo de Linked Open Data que no (solo) formaliza la estructura y la semántica de diccionarios legibles por máquina, sino que está diseñado para facilitar la integración de información entre ellos.
Referencias
^ "Portal de la comunidad OntoLex". W3C . Consultado el 6 de diciembre de 2019 .
^ Cimiano, Phillip; McCrae, John P.; Buitelaar, Paul. "Lexicon Model for Ontologies: Community Report, 10 May 2016 Final Community Group Report 10 May 2016". W3C . Consultado el 6 de diciembre de 2019 .
^ Julia Bosque-Gil, Jorge Gracia y Elena Montiel-Ponsoda (julio de 2017). «Hacia un módulo para lexicografía en OntoLex» (PDF) . Kernerman Dictionary News . N.º 25. Consultado el 5 de abril de 2020 .
^ McCrae, John; Spohr, Dennis; Cimiano, Philipp (2011). "Vincular recursos léxicos y ontologías en la Web semántica con Lemon". Actas de la Conferencia de Web semántica extendida (ESWC-2011), Iraklion, Grecia : 245–259.
^ Bosque-Gil, Julia; Gracia, Jorge. "El módulo lexicográfico Lemon de OntoLex". W3C . Consultado el 6 de diciembre de 2019 .
^ Fiorelli, Manuel; Stellato, Armando; McCrae, John P.; Cimiano, Philipp; Pazienza, María Teresa (2015). "LIME: el módulo de metadatos para OntoLex". En Gandón, Fabien; Sabou, Marta; Saco, Harald; d'Amato, Claudia; Cudré-Mauroux, Philippe; Zimmermann, Antoine (eds.). La Web Semántica. Últimos Avances y Nuevos Dominios . Apuntes de conferencias sobre informática. vol. 9088. Publicaciones internacionales Springer. págs. 321–336. doi :10.1007/978-3-319-18818-8_20. ISBN978-3-319-18818-8.
^ "Datos abiertos vinculados lingüísticos. Información sobre el estado actual de la creciente nube de datos abiertos vinculados lingüísticos" . Consultado el 10 de diciembre de 2019 .
^ Bosque-Gil, Julia; Gracia, Jorge. "Informe final del grupo comunitario del módulo lexicográfico Lemon de OntoLex, 17 de septiembre de 2019". W3C . Consultado el 10 de diciembre de 2019 .
^ "Morfología" . Consultado el 10 de diciembre de 2019 .
^ Klimek, Bettina; McCrae, John P.; Bosque-Gil, Julia; Ionov, Maxim; Tauber, James K.; Chiarcos, Christian. Desafíos para la representación de la morfología en léxicos ontológicos, en: Kosem, I., Zingano Kuhn, T., Correia, M., Ferreria, JP, Jansen, M., Pereira, I., Kallas, J., Jakubíček, M., Krek, S. y Tiberius, C. (eds.) 2019. Lexicografía electrónica en el siglo XXI. Actas de la conferencia eLex 2019. 1-3 de octubre de 2019, Sintra, Portugal (PDF) . Brno: Lexical Computing CZ, sro pp. 570–591.
^ "Frecuencia, atestación e información del corpus" . Consultado el 10 de diciembre de 2019 .
^ Chiarcos, Christian; Ionov, Maxim. "Módulo OntoLex-Lemon para frecuencia, atestación e información de corpus (borrador de especificación)". GitHub . Consultado el 9 de abril de 2020 .
^ "LexInfo - Ontología de categorías de datos para OntoLex-Lemon". GitHub . Consultado el 4 de enero de 2020 .
^ censign. "Convocatoria de participación: OASIS Lexicographic Infrastructure Data Model and API (LEXIDMA) TC". OASIS . Consultado el 10 de diciembre de 2019 .
^ Schmitz, P.; Francesconi, E.; Hajlaoui, N.; Batouche, B.; Stellato, A. (2018). Interoperabilidad semántica de recursos lingüísticos multilingües mediante mapeo automático, en: Conferencia internacional sobre gobierno electrónico y la perspectiva de los sistemas de información . Cham: Springer. págs. 153–163.
^ Batouche, Brahim; Schmitz, Peter; Francesconi, Enrico; Hajlaoui, Najeh (2 de diciembre de 2018). PMKI–Public Multilingual Knowledge. Documentación del modelo de datos PMKIInfraestructura (PDF) . Especificación técnica europea . Consultado el 10 de diciembre de 2019 .
^ Lenardič, Jakob. «CLARIN-IT presenta LexO: donde la lexicografía se encuentra con la web semántica». CLARIN . Consultado el 10 de diciembre de 2019 .
^ El equipo de AIMS. «La versión 4.0.2 de VocBench se publicó en agosto de 2018». FAO de las Naciones Unidas en Italia . Consultado el 10 de diciembre de 2019 .
^ Stellato, Armando; Rajbhandari, Sachit; Turbati, Andrea; Fiorelli, Manuel; Caracciolo, Caterina; Lorenzetti, Tiziano; Keizer, Johannes; Pazienza, María Teresa (2015). "VocBench: una aplicación web para el desarrollo colaborativo de tesauros multilingües" (PDF) . En Gandón, Fabien; Sabou, Marta; Saco, Harald; d'Amato, Claudia; Cudré-Mauroux, Philippe; Zimmermann, Antoine (eds.). La Web Semántica. Últimos Avances y Nuevos Dominios . Apuntes de conferencias sobre informática. vol. 9088. Publicaciones internacionales Springer. págs. 38–53. doi :10.1007/978-3-319-18818-8_3. ISBN978-3-319-18818-8.
^ "VocBench 3: un editor web semántico colaborativo para ontologías, tesauros y léxicos | www.semantic-web-journal.net". semantic-web-journal.net . Consultado el 17 de enero de 2020 .
^ Ilan Kernerman y Dorielle Lonke (julio de 2019). «Lexicala API: A new era in dictionary data» (PDF) . Kernerman Dictionary News . N.º 27. Consultado el 5 de abril de 2020 .
^ "Diccionario de terminología médico-botánica del occitano antiguo" . Consultado el 10 de diciembre de 2019 .
^ "TIAD-2017 Shared Task – Translation Inference Cross Dictionaries. Call for Participation" (Tarea compartida TIAD-2017: inferencia de traducción entre diccionarios. Convocatoria para participar) . Consultado el 10 de diciembre de 2019 .
^ McCrae, John P.; Bond, Francis; Buitelaar, Paul; Cimiano, Philipp; Declerck, Thierry; Gracia, Jorge; Kernerman, Ilan; Montiel Ponsoda, Elena; Ordan, Noam; Piasacki, Maciej (18 de junio de 2017). Actas de los talleres LDK 2017: 1.er taller sobre el modelo OntoLex (OntoLex-2017), tarea compartida sobre inferencia de traducción entre diccionarios y desafíos para Wordnets. CEUR . Consultado el 10 de diciembre de 2019 .
^ "TIAD 2019. Segunda tarea compartida de inferencia de traducción entre diccionarios (TIAD)" . Consultado el 10 de diciembre de 2019 .
^ Gracia, Jorge; Kabashi, Besim; Kernerman, Ilan (20 de mayo de 2019). Actas de la tarea compartida TIAD-2019: inferencia de traducción entre diccionarios. Leipzig, Alemania: CEUR.
^ "TIAD 2020 – Segunda tarea compartida de Inferencia de Traducción entre Diccionarios (TIAD)".
^ "Dbnary Wiktionary como datos abiertos vinculados lingüísticos" . Consultado el 10 de diciembre de 2019 .
^ Sérasset, Gilles (2016). «DBnary: Wiktionary como recurso léxico multilingüe basado en Lemon en RDF». Web semántica . Consultado el 10 de diciembre de 2019 .
^ Kamholz, David; Pool, Jonathan; Colowick, Susan M. (2014). PanLex: Building a Resource for Panlingual Lexical Translation, en Actas de la 9.ª Conferencia sobre evaluación y recursos lingüísticos (LREC-2014), Reikiavik, Islandia, mayo de 2014. Asociación Europea de Recursos Lingüísticos. pp. 3145–3150 . Consultado el 10 de diciembre de 2019 .
^ "Princeton WordNet 3.1. WordNet RDF" . Consultado el 10 de diciembre de 2019 .
^ "Formatos globales de Wordnet: RDF" . Consultado el 10 de diciembre de 2019 .
^ "Punto final SPARQL de BabelNet" . Consultado el 10 de diciembre de 2019 .
^ Ehrmann, M.; Ceccioni, F.; Vanella, D.; McCrae, JP; Cimiano, P.; Navigli, R. Representación de datos multilingües como datos vinculados: el caso de BabelNet 2.0. En: Actas de la 9.ª Conferencia sobre evaluación y recursos lingüísticos (LREC-2014), Reykjavik, Islandia, mayo de 2014. Asociación Europea de Recursos Lingüísticos. pp. 401–408 . Consultado el 10 de diciembre de 2019 .
^ "Punto final SPARQL de LiLa" . Consultado el 4 de abril de 2020 .
^ "Interfaz de consulta de LiLa" . Consultado el 4 de abril de 2020 .
^ Passarotti, MC; Cecchini, FM; Franzini, G.; Litta, E.; Mambrini, F.; Ruffolo, P. LiLa: Linking Latin. A Knowledge Base of Linguistic Resources and NLP Tools. En: Actas de la 2.ª Conferencia sobre Lenguaje, Datos y Conocimiento (LDK 2019), Leipzig, Alemania, 20-23 de mayo de 2019. Actas del taller CEUR . Consultado el 4 de abril de 2020 .
^ Cimiano, Philipp (julio de 2017). «OntoLex 2017 – 1er taller sobre el modelo OntoLex» (PDF) . Kernerman Dictionary News . N.º 25. Consultado el 5 de abril de 2020 .