En lexicografía digital , procesamiento del lenguaje natural y humanidades digitales , un recurso léxico es un recurso lingüístico que consta de datos sobre los lexemas del léxico de una o más lenguas , por ejemplo, en forma de una base de datos . [1]
Existen diferentes estándares para la edición legible por máquina de recursos léxicos, por ejemplo, Lexical Markup Framework (LMF), un estándar ISO para codificar recursos léxicos, que comprende un modelo de datos abstracto y una serialización XML , [2] y OntoLex-Lemon , un vocabulario RDF. para publicar recursos léxicos como gráficos de conocimiento en la web, por ejemplo, como datos abiertos vinculados lingüísticos . [3]
Dependiendo del tipo de lenguas que se aborden, un recurso léxico puede calificarse como monolingüe , bilingüe o multilingüe . Para recursos léxicos bilingües y multilingües, las palabras pueden estar conectadas o no de un idioma a otro. Cuando está conectado, la equivalencia de un idioma a otro se realiza a través de un enlace bilingüe (para recursos léxicos bilingües, por ejemplo, usando la relación vartrans:translatable como en OntoLex-Lemon ) o mediante notaciones multilingües (para recursos léxicos multilingües, por ejemplo, por referencia a el mismo ontolex:Concepto en OntoLex-Lemon). [4]
También es posible crear y gestionar un recurso léxico que consta de diferentes léxicos del mismo idioma, por ejemplo, un diccionario para palabras generales y uno o varios diccionarios para diferentes dominios especializados.
Los recursos léxicos en lexicografía digital a menudo se denominan diccionario legible por máquina ( MRD ), un diccionario almacenado como datos de máquina (computadora) en lugar de imprimirse en papel. Es un diccionario electrónico y una base de datos léxica. El término MRD a menudo se contrasta con el diccionario de PNL , en el sentido de que un MRD es la forma electrónica de un diccionario que antes se imponía en papel. Aunque ambos son utilizados por programas, por el contrario, se prefiere el término diccionario de PNL cuando el diccionario se creó desde cero teniendo en cuenta la PNL. [5]
Una base de datos léxica es un recurso léxico que tiene asociada una base de datos de entorno de software que permite el acceso a su contenido. La base de datos puede diseñarse a medida para la información léxica o una base de datos de propósito general en la que se ha ingresado información léxica.
La información típicamente almacenada en una base de datos léxica incluye ortografía , categoría léxica y sinónimos de palabras, así como relaciones semánticas y fonológicas entre diferentes palabras o conjuntos de palabras.