stringtranslate.com

Recurso lingüístico

En lingüística y tecnología del lenguaje , un recurso lingüístico es una "[composición] de material lingüístico utilizado en la construcción, mejora y/o evaluación de aplicaciones de procesamiento del lenguaje, (...) en estudios e investigaciones sobre el lenguaje y sus aplicaciones mediadas por el lenguaje". [1]

Según Bird y Simons (2003), [2] esto incluye

  1. datos, es decir, "cualquier información que documente o describa una lengua, como una monografía publicada, un archivo de datos informáticos o incluso una caja de zapatos llena de fichas escritas a mano. La información puede variar en contenido desde grabaciones de sonido sin analizar hasta textos completamente transcritos y anotados o una gramática descriptiva completa", [2]
  2. herramientas, es decir, "recursos computacionales que facilitan la creación, visualización, consulta o, de otro modo, el uso de datos del lenguaje", [2] y
  3. asesoramiento, es decir, “cualquier información sobre qué fuentes de datos son fiables, qué herramientas son adecuadas en una situación determinada, qué prácticas se deben seguir al crear nuevos datos”. Este último aspecto suele denominarse “mejores prácticas” o “estándares (comunitarios)”. [2]

En un sentido más estricto, el término recurso lingüístico se aplica específicamente a los recursos que están disponibles en forma digital y que, por tanto, "abarca (a) conjuntos de datos (datos textuales, multimodales/multimedia y léxicos, gramáticas, modelos lingüísticos, etc.) en forma legible por máquina, y (b) herramientas/tecnologías/servicios utilizados para su procesamiento y gestión". [1]

Tipología

A mayo de 2020, no se ha establecido una tipología estándar ampliamente utilizada de recursos lingüísticos (las propuestas actuales incluyen LREMap , [3] METASHARE, [4] y, para los datos, la clasificación LLOD ). Las clases importantes de recursos lingüísticos incluyen

  1. datos
    1. recursos léxicos , por ejemplo, diccionarios legibles por máquina ,
    2. corpus lingüísticos , es decir, colecciones digitales de datos en lenguaje natural,
    3. bases de datos lingüísticas como la colección Cross-Linguistic Linked Data ,
  2. herramientas
    1. anotaciones lingüísticas y herramientas para crear dichas anotaciones de forma manual o semiautomática (por ejemplo, herramientas para anotar texto glosado interlineal como Toolbox y FLEx , u otras herramientas de documentación lingüística ),
    2. aplicaciones de búsqueda y recuperación de dichos datos ( sistemas de gestión de corpus ), de anotación automatizada ( etiquetado de partes del discurso , análisis sintáctico , análisis semántico , etc.),
  3. metadatos y vocabularios
    1. vocabularios, repositorios de terminología lingüística y metadatos de idiomas, por ejemplo, MetaShare (para metadatos de recursos lingüísticos), [4] el registro de categorías de datos ISO 12620 (para características lingüísticas, estructuras de datos y anotaciones dentro de un recurso lingüístico), [5] o la base de datos Glottolog (identificadores para variedades lingüísticas y base de datos bibliográfica). [6]

Publicación, difusión y creación de recursos lingüísticos

Una de las principales preocupaciones de la comunidad de recursos lingüísticos ha sido desarrollar infraestructuras y plataformas para presentar, debatir y difundir recursos lingüísticos. Entre las contribuciones seleccionadas a este respecto se incluyen:

En cuanto al desarrollo de estándares y mejores prácticas para los recursos lingüísticos, estos son tema de varios grupos comunitarios y esfuerzos de estandarización, incluidos


Referencias

  1. ^ ab LD4LT (2020), La ontología Metashare creada por el grupo comunitario LD4LT , Grupo comunitario W3C Linked Data for Language Technology (LD4LT), rama de desarrollo, versión del 10 de marzo de 2020
  2. ^ abcd Bird, Steven; Simons, Gary (1 de noviembre de 2003). "Ampliación de los metadatos de Dublin Core para respaldar la descripción y el descubrimiento de recursos lingüísticos". Computers and the Humanities . 37 (4): 375–388. arXiv : cs/0308022 . Bibcode :2003cs........8022B. doi :10.1023/A:1025720518994. ISSN  1572-8412. S2CID  5969663.
  3. ^ Calzolari, N., Del Gratta, R., Francopoulo, G., Mariani, J., Rubino, F., Russo, I. y Soria, C. (mayo de 2012). El mapa LRE. Armonizar las descripciones comunitarias de recursos. En LREC (págs. 1084-1089).
  4. ^ ab McCrae, John P.; Labropoulou, Penny; Gracia, Jorge; Villegas, Marta; Rodríguez-Doncel, Víctor; Cimiano, Philipp (2015). "Una ontología para unirlos a todos: la ontología META-SHARE OWL para la interoperabilidad de conjuntos de datos lingüísticos en la Web". En Gandon, Fabien; Guéret, Christophe; Villata, Serena; Breslin, John; Faron-Zucker, Catherine; Zimmermann, Antoine (eds.). La Web semántica: eventos satélite de ESWC 2015 . Apuntes de conferencias en informática. Vol. 9341. Cham: Springer International Publishing. págs. 271–282. doi : 10.1007/978-3-319-25639-9_42 . ISBN 978-3-319-25639-9.
  5. ^ Kemps-Snijders, M., Windhouwer, M., Wittenburg, P., y Wright, SE (2008). ISOcat: Agrupamiento de categorías de datos en la naturaleza. En la 6.ª Conferencia internacional sobre recursos lingüísticos y evaluación (LREC 2008) .
  6. ^ Nordhoff, Sebastian (2012), Chiarcos, Christian; Nordhoff, Sebastian; Hellmann, Sebastian (eds.), "Datos vinculados para la investigación de la diversidad lingüística: Glottolog/Langdoc y ASJP Online", Linked Data in Linguistics: Representing and Connecting Language Data and Language Metadata , Springer, págs. 191–200, doi :10.1007/978-3-642-28249-2_18, ISBN 978-3-642-28249-2
  7. ^ "Recursos lingüísticos y evaluación". Springer . Consultado el 13 de mayo de 2020 .
  8. ^ "Mejores prácticas para el grupo comunitario de datos abiertos vinculados multilingües". www.w3.org . 2 de octubre de 2015 . Consultado el 13 de mayo de 2020 .
  9. ^ "Linked Data for Language Technology Community Group" (Grupo comunitario de datos vinculados para tecnología lingüística). www.w3.org . 26 de junio de 2015 . Consultado el 13 de mayo de 2020 .
  10. ^ "Ontology-Lexica Community Group". www.w3.org . 10 de mayo de 2016 . Consultado el 13 de mayo de 2020 .
  11. ^ "Datos abiertos vinculados lingüísticamente".
  12. ^ "TEI: Iniciativa de codificación de texto". tei-c.org . Consultado el 13 de mayo de 2020 .