stringtranslate.com

EXCLAMAR

EXCLAIM ( Extensible Cross-Linguistic Automatic Information Machine) fue una herramienta integrada para la recuperación de información en varios idiomas (CLIR), creada en la Universidad de California en Santa Cruz a principios de 2006, con soporte para más de una docena de idiomas. Los desarrolladores principales fueron Justin Nuger y Jesse Saba Kirchner.

Los primeros trabajos sobre CLIR dependían de la construcción manual de corpus paralelos para cada par de idiomas. Este método requiere mucho trabajo en comparación con los corpus paralelos creados automáticamente. Una forma más eficiente de encontrar datos para entrenar un sistema CLIR es utilizar páginas web coincidentes que estén escritas en diferentes idiomas. [1]

EXCLAIM aprovecha la idea de los corpus paralelos latentes en la web al automatizar la alineación de dichos corpus en varios dominios. El más importante de ellos es la propia Wikipedia , que incluye artículos en 250 idiomas. La función de EXCLAIM es utilizar herramientas de análisis semántico y lingüístico para alinear la información de estas Wikipedias de modo que puedan ser tratadas como corpus paralelos. EXCLAIM también es extensible para incorporar información de muchas otras fuentes, como el Centro de recursos de salud comunitaria china (CCHRC).

Uno de los principales objetivos del proyecto EXCLAIM es proporcionar el tipo de herramientas computacionales y herramientas CLIR para lenguas minoritarias y en peligro de extinción que a menudo sólo están disponibles para lenguas mayoritarias poderosas o prósperas.

Estado actual

En 2009, EXCLAIM se encontraba en fase beta, con distintos grados de funcionalidad para distintos idiomas. La compatibilidad con CLIR mediante el conjunto de datos de Wikipedia y la versión más actual de EXCLAIM (v.0.5), incluida la compatibilidad total con UTF-8 y la derivación de Porter para el componente en inglés, estaba disponible para los siguientes veintitrés idiomas:

El soporte para utilizar el conjunto de datos de Wikipedia y una versión anterior de EXCLAIM (v.0.3) está disponible para los siguientes idiomas:

Entre los avances más importantes de la versión más reciente de EXCLAIM se encuentra la compatibilidad con el chino mandarín. Al desarrollar la compatibilidad con este idioma, EXCLAIM ha añadido soluciones a los problemas de segmentación y codificación que permitirán que el sistema se extienda a muchos otros idiomas escritos con convenciones ortográficas no europeas. Esta compatibilidad se proporciona a través del kit de herramientas del Sistema modular de recorte y reformateo (TARMS).

Las futuras versiones de EXCLAIM ampliarán el sistema a otros idiomas. Otros objetivos incluyen la incorporación de conjuntos de datos latentes disponibles además del conjunto de datos de Wikipedia.

El plan de desarrollo de EXCLAIM requiere un instrumento CLIR integrado que se pueda utilizar para buscar información en cualquiera de los idiomas admitidos desde el inglés, o para buscar información en inglés desde cualquiera de los idiomas admitidos cuando se lance EXCLAIM 1.0. Las versiones futuras permitirán buscar desde cualquier idioma admitido a cualquier otro, y buscar desde y hacia múltiples idiomas.

Otras aplicaciones

EXCLAIM se ha incorporado a varios proyectos que dependen de la expansión de consultas en varios idiomas como parte de sus backends . Uno de estos proyectos es un marco de generación de software de legibilidad en varios idiomas , detallado en el trabajo presentado en ACL 2009. [ 2]

Notas y referencias

  1. ^ "Recuperación de información entre idiomas basada en textos paralelos y minería automática de textos paralelos en la Web" (PDF) . ACM-SIGIR 1999. Consultado el 2 de diciembre de 2006 .
  2. ^ "Un marco de legibilidad interlingüística" (PDF) . ACL-IJNLP 2009. Consultado el 4 de septiembre de 2009 .

Enlaces externos