stringtranslate.com

Mapa de LRE

El Mapa LRE (Language Resources and Evaluation) es una gran base de datos de acceso libre sobre recursos dedicados al procesamiento del lenguaje natural . La característica original del Mapa LRE es que los registros se recopilan durante la presentación de diferentes conferencias importantes sobre procesamiento del lenguaje natural . Luego, los registros se limpian y se reúnen en una base de datos global llamada "Mapa LRE". [1]

El Mapa LRE pretende ser un instrumento para recopilar información sobre recursos lingüísticos y convertirse, al mismo tiempo, en una comunidad de usuarios, un lugar donde compartir y descubrir recursos, discutir opiniones, proporcionar retroalimentación, descubrir nuevas tendencias, etc. Es un instrumento para descubrir, buscar y documentar recursos lingüísticos, entendidos aquí en un sentido amplio, como datos y herramientas.

La gran cantidad de información contenida en el Mapa puede analizarse de muchas maneras diferentes. Por ejemplo, el Mapa LRE puede proporcionar información sobre el tipo de recurso más frecuente, el idioma más representado, las aplicaciones para las que se utilizan o se están desarrollando los recursos, la proporción de recursos nuevos frente a los ya existentes o la forma en que se distribuyen los recursos a la comunidad.

Contexto

Varias instituciones en todo el mundo mantienen catálogos de recursos lingüísticos (ELRA, LDC , NICT Universal Catalogue, ACL Data and Code Repository, OLAC , LT World, etc.) [2] Sin embargo, se ha estimado que solo el 10% de los recursos existentes son conocidos, ya sea a través de catálogos de distribución o mediante publicidad directa por parte de los proveedores (sitios web y similares). El resto permanece oculto, y las únicas ocasiones en que emerge brevemente es cuando un recurso se presenta en el contexto de un artículo de investigación o informe en alguna conferencia. Sin embargo, incluso en este caso, podría ser que un recurso permanezca en segundo plano simplemente porque el foco de la investigación no está en el recurso per se .

Historia

El Mapa LRE se originó bajo el nombre de "Mapa LREC" durante la preparación de la conferencia LREC 2010. [3] Más específicamente, la idea se discutió dentro del proyecto FlaReNet y, en colaboración con ELRA y el Instituto de Lingüística Computacional del CNR en Pisa, el Mapa se puso en marcha en LREC 2010. [4] Los organizadores de LREC pidieron a los autores que proporcionaran información básica sobre todos los recursos (en un sentido amplio, es decir, incluidas herramientas, estándares y paquetes de evaluación), ya sea utilizados o creados, descritos en sus artículos. Todos estos descriptores se reunieron luego en una matriz global llamada Mapa LREC.

La misma metodología y requisitos de los autores se han aplicado y extendido a otras conferencias, a saber, COLING-2010, [5] EMNLP-2010, [6] RANLP-2011, [7] LREC 2012, [8] LREC 2014 [9] y LREC 2016. [10]
Después de esta generalización a otras conferencias, el mapa LREC ha pasado a llamarse mapa LRE .

Tamaño y contenido

El tamaño de la base de datos aumenta con el tiempo. Los datos recopilados ascienden a 4776 entradas.

Cada recurso se describe según los siguientes atributos:

Usos

El mapa LRE es una herramienta muy importante para representar gráficamente el campo de la PNL. En comparación con otros estudios basados ​​en puntuaciones subjetivas, el mapa LRE está hecho de hechos reales.

El mapa tiene un gran potencial para muchos usos, además de ser una herramienta de recopilación de información:

Matrices derivadas

Los datos fueron depurados y ordenados por Joseph Mariani (CNRS-LIMSI IMMI) y Gil Francopoulo (CNRS-LIMSI IMMI + Tagmatica) para calcular las distintas matrices de los informes finales de FLaReNet [11] . Una de ellas, la matriz de los datos escritos en LREC 2010, es la siguiente:

El inglés es el idioma más estudiado, seguido del francés y el alemán, y después del italiano y el español.

Futuro

El mapa LRE se ha ampliado a Language Resources and Evaluation Journal [12] y otras conferencias.

Referencias

  1. ^ Nicoletta Calzolari, Claudia Soria, Riccardo Del Gratta, Sara Goggi, Valeria Quochi, Irene Russo, Khalid Choukri, Joseph Mariani, Stelios Piperidis, 2010 El mapa LREC de recursos y tecnologías lingüísticas. LREC-2010, Malta
  2. ^ Informe técnico FlaReNet, mapa de evaluación y recursos lingüísticos (LRE), Nicoletta Calzolari (CNR-ILC Pisa, Italia), Claudia Soria, Irene Russo, Francesco Rubino, Riccardo Del Gratta. Proyecto eContentPlus [1]
  3. ^ Nicoletta Calzolari, Presentación de la Presidenta de la Conferencia LREC 2010
  4. ^ Séptima edición de la Conferencia sobre recursos lingüísticos y evaluación, Valletta, Malta
  5. ^ La 23ª Conferencia Internacional sobre Lingüística Computacional, Beijing, China [2]
  6. ^ Métodos empíricos en el procesamiento del lenguaje natural 9-11 de octubre, MIT Stata Center, Cambridge, Massachusetts, EE. UU. [3] Archivado el 11 de febrero de 2012 en Wayback Machine.
  7. ^ Avances recientes en el procesamiento del lenguaje natural 12-14 de septiembre, Hissar, Bulgaria [4]
  8. ^ 8ª edición de la Conferencia sobre recursos lingüísticos y evaluación, Estambul, Turquía
  9. ^ Novena edición de la Conferencia sobre recursos lingüísticos y evaluación, Reykjavik, Islandia
  10. ^ 10ª edición de la Conferencia sobre recursos lingüísticos y evaluación, Portoroz, Eslovenia
  11. ^ FLaReNet (Fostering Language Resources Network) es un proyecto financiado por la UE que pretende desarrollar una visión común del área de Recursos Lingüísticos y Tecnologías del Lenguaje para los próximos años y fomentar una estrategia europea para consolidar el sector y mejorar la competitividad a nivel de la UE y en todo el mundo.
  12. ^ Revista de recursos y evaluación del lenguaje Ed. Springer

Enlaces externos