stringtranslate.com

Marco de marcado léxico

Gestión de recursos lingüísticos – Marco de marcado léxico ( LMF ; ISO 24613 ), producido por ISO/TC 37 , es el estándar ISO para el procesamiento del lenguaje natural (NLP) y los léxicos de diccionarios legibles por máquina (MRD) . [1] El alcance es la estandarización de principios y métodos relacionados con los recursos lingüísticos en los contextos de la comunicación multilingüe.

Objetivos

Los objetivos de LMF son proporcionar un modelo común para la creación y el uso de recursos léxicos , gestionar el intercambio de datos entre estos recursos y permitir la fusión de un gran número de recursos electrónicos individuales para formar amplios recursos electrónicos globales.

Los tipos de instancias individuales de LMF pueden incluir recursos léxicos monolingües, bilingües o multilingües. Se deben utilizar las mismas especificaciones para léxicos pequeños y grandes, tanto para léxicos simples como complejos, tanto para representaciones léxicas escritas como habladas. Las descripciones varían desde morfología , sintaxis , semántica computacional hasta traducción asistida por computadora . Los idiomas cubiertos no se limitan a los idiomas europeos , sino que cubren todos los idiomas naturales . La gama de aplicaciones NLP específicas no está restringida. LMF puede representar la mayoría de los léxicos, incluidos los léxicos WordNet , EDR y PAROLE.

Historia

En el pasado, la estandarización de léxicos ha sido estudiada y desarrollada por una serie de proyectos como GENELEX, EDR, EAGLES, MULTEXT, PAROLE, SIMPLE e ISLE. Luego, las delegaciones nacionales de ISO/TC 37 decidieron abordar estándares dedicados a NLP y representación de léxicos. El trabajo sobre LMF comenzó en verano de 2003 con una nueva propuesta de tema de trabajo emitida por la delegación de EE. UU. En otoño de 2003, la delegación francesa emitió una propuesta técnica para un modelo de datos dedicado a léxicos de NLP. A principios de 2004, el comité ISO/TC 37 decidió formar un proyecto ISO común con Nicoletta Calzolari ( CNR -ILC Italia) como coordinadora y Gil Francopoulo (Tagmatica Francia) y Monte George ( ANSI , Estados Unidos) como editores. El primer paso en el desarrollo de LMF fue diseñar un marco general basado en las características generales de los léxicos existentes y desarrollar una terminología consistente para describir los componentes de esos léxicos. El siguiente paso fue el diseño de un modelo completo que representara todos los léxicos en detalle. Un gran panel de 60 expertos contribuyó con una amplia gama de requisitos para LMF que cubrían muchos tipos de léxicos de PNL. Los editores de LMF trabajaron en estrecha colaboración con el panel de expertos para identificar las mejores soluciones y alcanzar un consenso sobre el diseño de LMF. Se prestó especial atención a la morfología con el fin de proporcionar mecanismos potentes para manejar problemas en varios idiomas que se sabía que eran difíciles de manejar. Se escribieron 13 versiones, se enviaron (a los expertos designados a nivel nacional), se comentaron y se discutieron durante varias reuniones técnicas de ISO. Después de cinco años de trabajo, que incluyeron numerosas reuniones presenciales e intercambios de correo electrónico, los editores llegaron a un modelo UML coherente. En conclusión, LMF debe considerarse una síntesis del estado del arte en el campo del léxico de PNL.

Etapa actual

El número ISO es 24613. La especificación LMF se publicó oficialmente como norma internacional el 17 de noviembre de 2008.

Como uno de los miembros de la familia de normas ISO/TC 37

Las normas ISO/TC 37 se elaboran actualmente como especificaciones de alto nivel y tratan sobre segmentación de palabras (ISO 24614), anotaciones (ISO 24611, también conocida como MAF; ISO 24612, también conocida como LAF; ISO 24615, también conocida como SynAF; e ISO 24617-1, también conocida como SemAF/Time), estructuras de características (ISO 24610), contenedores multimedia (ISO 24616, también conocida como MLIF) y léxicos (ISO 24613). Estas normas se basan en especificaciones de bajo nivel dedicadas a constantes, a saber, categorías de datos (revisión de ISO 12620), códigos de idioma ( ISO 639 ), códigos de escritura ( ISO 15924 ), códigos de país ( ISO 3166 ) y Unicode ( ISO 10646 ).

La organización de dos niveles forma una familia coherente de normas con las siguientes reglas comunes y simples:

Normas clave

Las constantes lingüísticas como /femenino/ o /transitivo/ no están definidas dentro de LMF, pero están registradas en el Registro de categorías de datos (DCR) que se mantiene como un recurso global por ISO/TC 37 de conformidad con ISO/IEC 11179-3:2003. [2] Y estas constantes se utilizan para adornar los elementos estructurales de alto nivel.

La especificación LMF cumple con los principios de modelado del Lenguaje de Modelado Unificado (UML) definidos por Object Management Group (OMG). La estructura se especifica mediante diagramas de clases UML . Los ejemplos se presentan mediante diagramas de instancias (u objetos) UML.

Se proporciona una DTD XML en un anexo del documento LMF.

Estructura del modelo

LMF se compone de los siguientes componentes:

Las extensiones están dedicadas específicamente a la morfología , MRD , sintaxis de NLP , semántica de NLP , notaciones multilingües de NLP , patrones morfológicos de NLP , patrones de expresión de múltiples palabras y patrones de expresión de restricción .

Ejemplo

En el siguiente ejemplo, la entrada léxica está asociada con un lema clergyman y dos formas flexivas clergyman y clergymen . La codificación del idioma se establece para todo el recurso léxico. El valor del idioma se establece para todo el léxico como se muestra en el siguiente diagrama de instancia UML .

Los elementos Lexical Resource , Global Information , Lexicon , Lexical Entry , Lemma y Word Form definen la estructura del léxico. Se especifican dentro del documento LMF. Por el contrario, languageCoding , language , partOfSpeech , commonNoun , writtenForm , grammaticalNumber , singular , plural son categorías de datos que se toman del Data Category Registry. Estas marcas adornan la estructura. Los valores ISO 639-3 , clergyman , clergymen son cadenas de caracteres simples. El valor eng se toma de la lista de idiomas según lo definido por ISO 639-3 .

Con información adicional como dtdVersion y feat , los mismos datos se pueden expresar mediante el siguiente fragmento XML :

<LexicalResource dtdVersion= "15" > <GlobalInformation> <feat att= "languageCoding" val= "ISO 639-3" /> </GlobalInformation> <Lexicon> <feat att= "language" val= "eng" /> < LexicalEntry> <feat att= "partOfSpeech" val= "commonNoun" /> <Lemma> <feat att= "writeForm" val= "clergyman" /> </Lemma> <WordForm> <feat att= "writeForm" val= " clérigo" /> <feat att= "grammaticalNumber" val= "singular" /> </WordForm> <WordForm> <feat att= "writeForm" val= "clérigos" /> <feat att= "grammaticalNumber" val= "plural " /> </WordForm> </LexicalEntry> </Léxico> < /Recurso léxico>                                     

Este ejemplo es bastante simple, aunque LMF puede representar descripciones lingüísticas mucho más complejas, el etiquetado XML es correspondientemente complejo.

Publicaciones seleccionadas sobre LMF

La primera publicación sobre la especificación LMF tal como ha sido ratificada por ISO (este artículo se convirtió (en 2015) en el noveno artículo más citado en las conferencias de Recursos y Evaluación del Lenguaje de los artículos LREC):

Acerca de la representación semántica:

Acerca de las lenguas africanas:

Acerca de los idiomas asiáticos:

Acerca de los idiomas europeos:

Acerca de las lenguas semíticas:

Libro dedicado

En 2013 se publicó un libro: LMF Lexical Markup Framework [12], que está dedicado íntegramente a LMF. El primer capítulo trata de la historia de los modelos léxicos, el segundo capítulo es una presentación formal del modelo de datos y el tercero trata de la relación con las categorías de datos de la ISO-DCR. Los otros 14 capítulos tratan de un léxico o un sistema, ya sea en el ámbito civil o militar, ya sea en laboratorios de investigación científica o para aplicaciones industriales. Estos son Wordnet-LMF, Prolmf, DUELME, UBY-LMF , LG-LMF, RELISH, GlobalAtlas (o Global Atlas) y Wordscape.

Comunicaciones científicas relacionadas

Véase también

Referencias

  1. ^ "ISO 24613-1:2024 – Gestión de recursos lingüísticos – Marco de marcado léxico (LMF) – Parte 1: Modelo básico". ISO . Consultado el 31 de enero de 2024 .
  2. ^ ab "La pertinencia de las normas para las infraestructuras de investigación" (PDF) . Hal.inria.fr . Consultado el 24 de enero de 2016 .
  3. ^ "Marco de marcado léxico (LMF)" (PDF) . Hal.inria.fr . Consultado el 24 de enero de 2016 .
  4. ^ "Marco de marcado léxico (LMF) para recursos multilingües de PNL" (PDF) . Hal.inria.fr . Consultado el 24 de enero de 2016 .
  5. ^ "Vers la mise en place d'un lexique base sur LMF pour la langue Wolof" (PDF) . Aclweb.org . Consultado el 24 de enero de 2016 .
  6. ^ "Estandarización de Wordnets en la norma ISO LMF: Wordnet-LMF para GermaNet" (PDF) . Aclweb.org . Consultado el 24 de enero de 2016 .
  7. ^ "Subcat-LMF: Desarrollo de un formato estandarizado para la interoperabilidad de marcos de subcategorización" (PDF) . Aclweb.org : 550–560. Abril de 2012 . Consultado el 24 de enero de 2016 .
  8. ^ "UBY – Un recurso léxico-semántico unificado a gran escala basado en LMF" (PDF) . Aclweb.org . Consultado el 24 de enero de 2016 .
  9. ^ "Construcción de un Wordnet estandarizado en el LMF ISO para el lenguaje aeb" (PDF) . Aclweb.org . Consultado el 24 de enero de 2016 .
  10. ^ "Actas de la LREC 2008". Lrec-conf.org . Consultado el 24 de enero de 2016 .
  11. ^ "Modélisation des paradigmes de flexion des verbes arabes selon la norme LMF - ISO 24613" (PDF) . Aclweb.org . Consultado el 24 de enero de 2016 .
  12. ^ Gil Francopoulo (editado por) LMF Lexical Markup Framework, ISTE / Wiley 2013 ( ISBN 978-1-84821-430-9

Enlaces externos