La recuperación de información en varios idiomas ( CLI ) es un subcampo de la recuperación de información que se ocupa de recuperar información escrita en un idioma diferente del idioma de la consulta del usuario. [1]
El término "recuperación de información en varios idiomas" tiene muchos sinónimos, de los cuales los siguientes son quizás los más frecuentes: recuperación de información en varios idiomas, recuperación de información translingüística, recuperación de información multilingüe. El término "recuperación de información multilingüe" se refiere de manera más general tanto a la tecnología para la recuperación de colecciones multilingües como a la tecnología que se ha trasladado para manejar material de un idioma a otro. El término Recuperación de Información Multilingüe (MLIR) implica el estudio de sistemas que aceptan consultas de información en varios idiomas y devuelven objetos (texto y otros medios) de varios idiomas, traducidos al idioma del usuario. La recuperación de información en varios idiomas se refiere más específicamente al caso de uso donde los usuarios formulan su necesidad de información en un idioma y el sistema recupera documentos relevantes en otro. Para hacerlo, la mayoría de los sistemas CLIR utilizan varias técnicas de traducción. Las técnicas CLIR se pueden clasificar en diferentes categorías según los diferentes recursos de traducción: [2]
Los sistemas CLIR han mejorado tanto que los sistemas de recuperación de información ad hoc multilingües y translingües más precisos de la actualidad son casi tan eficaces como los sistemas monolingües. [3] Otras tareas relacionadas con el acceso a la información, como el monitoreo de medios , el filtrado y enrutamiento de información, el análisis de sentimientos y la extracción de información requieren modelos más sofisticados y, por lo general, más procesamiento y análisis de los elementos de información de interés. Gran parte de ese procesamiento debe tener en cuenta las particularidades de los idiomas de destino en los que se implementa.
En su mayoría, los diversos mecanismos de variación en el lenguaje humano plantean desafíos de cobertura para los sistemas de recuperación de información: los textos en una colección pueden tratar un tema de interés pero usar términos o expresiones que no coinciden con la expresión de la necesidad de información dada por el usuario. Esto puede ser cierto incluso en un caso monolingüe, pero es especialmente cierto en la recuperación de información translingüe, donde los usuarios pueden conocer el idioma de destino solo hasta cierto punto. Se ha descubierto que los beneficios de la tecnología CLIR para los usuarios con competencia pobre a moderada en el idioma de destino son mayores que para aquellos que lo dominan. [4] Las tecnologías específicas implementadas para los servicios CLIR incluyen análisis morfológico para manejar la flexión , descomposición o división compuesta para manejar términos compuestos y mecanismos de traducción para traducir una consulta de un idioma a otro.
El primer taller sobre CLIR se celebró en Zúrich durante la conferencia SIGIR-96. [5] Desde el año 2000 se han celebrado talleres anuales en las reuniones del Cross Language Evaluation Forum (CLEF). Los investigadores también se reúnen en la Text Retrieval Conference (TREC) anual para discutir sus hallazgos sobre diferentes sistemas y métodos de recuperación de información, y la conferencia ha servido como punto de referencia para el subcampo CLIR. [6] Los primeros experimentos CLIR se llevaron a cabo en TREC-6, celebrado en el National Institute of Standards and Technology (NIST) del 19 al 21 de noviembre de 1997. [7]
La Búsqueda de Google tenía una función de búsqueda en varios idiomas que se eliminó en 2013. [8]