Una búsqueda de conceptos (o búsqueda conceptual ) es un método automatizado de recuperación de información que se utiliza para buscar en texto no estructurado almacenado electrónicamente (por ejemplo, archivos digitales , correo electrónico, literatura científica, etc.) información que sea conceptualmente similar a la información proporcionada en un consulta de busqueda . En otras palabras, las ideas expresadas en la información recuperada en respuesta a una consulta de búsqueda de conceptos son relevantes para las ideas contenidas en el texto de la consulta.
Las técnicas de búsqueda de conceptos se desarrollaron debido a las limitaciones impuestas por las tecnologías clásicas de búsqueda de palabras clave booleanas cuando se trata de colecciones de texto digitales grandes y no estructuradas. Las búsquedas de palabras clave a menudo arrojan resultados que incluyen muchos elementos no relevantes ( falsos positivos ) o que excluyen demasiados elementos relevantes (falsos negativos) debido a los efectos de la sinonimia y la polisemia . Sinonimia significa que una de dos o más palabras en el mismo idioma tienen el mismo significado, y polisemia significa que muchas palabras individuales tienen más de un significado.
La polisemia es un obstáculo importante para todos los sistemas informáticos que intentan abordar el lenguaje humano. En inglés, los términos más utilizados tienen varios significados comunes. Por ejemplo, la palabra fuego puede significar: una actividad de combustión; terminar el empleo; lanzar o excitar (como en encender). De los 200 términos más polisémicos del inglés, el verbo típico tiene más de doce significados o sentidos comunes. El sustantivo típico de este conjunto tiene más de ocho sentidos comunes. Para los 2000 términos más polisémicos en inglés, el verbo típico tiene más de ocho sentidos comunes y el sustantivo típico tiene más de cinco. [1]
Además de los problemas de polisemia y sinonimia, las búsquedas de palabras clave pueden excluir palabras mal escritas inadvertidamente , así como variaciones en las raíces (por ejemplo, strike versus strike). Las búsquedas de palabras clave también son susceptibles a errores introducidos por los procesos de escaneo de reconocimiento óptico de caracteres (OCR), que pueden introducir errores aleatorios en el texto de los documentos (a menudo denominados texto ruidoso ) durante el proceso de escaneo.
Una búsqueda de conceptos puede superar estos desafíos empleando la desambiguación del sentido de las palabras (WSD), [2] y otras técnicas, para ayudar a derivar los significados reales de las palabras y sus conceptos subyacentes, en lugar de simplemente hacer coincidir cadenas de caracteres como las tecnologías de búsqueda de palabras clave. .
En general, la investigación y la tecnología de recuperación de información se pueden dividir en dos categorías amplias: semántica y estadística. Los sistemas de recuperación de información que caen en la categoría semántica intentarán implementar cierto grado de análisis sintáctico y semántico del texto en lenguaje natural que proporcionaría un usuario humano (ver también lingüística computacional ). Los sistemas que entran en la categoría estadística encontrarán resultados basados en medidas estadísticas de qué tan estrechamente coinciden con la consulta. Sin embargo, los sistemas de la categoría semántica también suelen depender de métodos estadísticos para ayudarles a encontrar y recuperar información. [3]
Los esfuerzos para proporcionar sistemas de recuperación de información con capacidades de procesamiento semántico han utilizado básicamente tres enfoques:
Se han aplicado al procesamiento semántico una variedad de técnicas basadas en inteligencia artificial (IA) y procesamiento del lenguaje natural (PNL), y la mayoría de ellas se han basado en el uso de estructuras auxiliares como vocabularios controlados y ontologías . Los vocabularios controlados (diccionarios y tesauros) y las ontologías permiten incorporar a las consultas términos más amplios, términos más específicos y términos relacionados. [4] Los vocabularios controlados son una forma de superar algunas de las limitaciones más severas de las consultas de palabras clave booleanas. A lo largo de los años, se han construido estructuras auxiliares adicionales de interés general, como los grandes conjuntos de sinónimos de WordNet . [5] Se demostró que la búsqueda de conceptos basada en estructuras auxiliares, como WordNet, se puede implementar de manera eficiente reutilizando modelos de recuperación y estructuras de datos de recuperación de información clásica. [6] Enfoques posteriores han implementado la gramática para ampliar la gama de construcciones semánticas. En los últimos años también se ha implementado la creación de modelos de datos que representan conjuntos de conceptos dentro de un dominio específico ( ontologías de dominio ), y que pueden incorporar las relaciones entre términos.
Los vocabularios controlados hechos a mano contribuyen a la eficiencia y la amplitud de la recuperación de información y las operaciones de análisis de texto relacionadas, pero funcionan mejor cuando los temas están definidos de manera estricta y la terminología está estandarizada. Los vocabularios controlados requieren una amplia participación y supervisión humana para mantenerse al día con la rápida evolución del lenguaje. Tampoco se adaptan bien a los crecientes volúmenes de texto no estructurado que cubre una cantidad ilimitada de temas y contiene miles de términos únicos porque es necesario introducir nuevos términos y temas constantemente. Los vocabularios controlados también son propensos a capturar una visión del mundo particular en un momento específico, lo que los hace difíciles de modificar si cambian los conceptos en un área temática determinada. [7]
Los sistemas de recuperación de información que incorporan este enfoque cuentan el número de veces que grupos de términos aparecen juntos (co-ocurren) dentro de una ventana deslizante de términos u oraciones (por ejemplo, ± 5 oraciones o ± 50 palabras) dentro de un documento. Se basa en la idea de que las palabras que aparecen juntas en contextos similares tienen significados similares. Es local en el sentido de que la ventana deslizante de términos y oraciones utilizada para determinar la coexistencia de términos es relativamente pequeña.
Este enfoque es simple, pero captura sólo una pequeña porción de la información semántica contenida en una colección de texto. En el nivel más básico, numerosos experimentos han demostrado que aproximadamente sólo una cuarta parte de la información contenida en el texto es de naturaleza local. [8] Además, para ser más efectivo, este método requiere conocimiento previo sobre el contenido del texto, lo que puede resultar difícil con colecciones de documentos grandes y no estructurados. [7]
Algunos de los enfoques más potentes del procesamiento semántico se basan en el uso de técnicas de transformación matemática. Las técnicas de descomposición de matrices han sido las más exitosas. Algunas técnicas de descomposición de matrices ampliamente utilizadas incluyen las siguientes: [9]
Las técnicas de descomposición matricial se basan en datos, lo que evita muchos de los inconvenientes asociados con las estructuras auxiliares. También son de naturaleza global, lo que significa que son capaces de extraer y representar información semántica mucho más sólida que las técnicas basadas en estadísticas de coocurrencia local. [7]
El análisis de componentes independientes es una técnica que crea representaciones dispersas de forma automatizada, [10] y los enfoques matriciales semidiscretos y no negativos sacrifican la precisión de la representación para reducir la complejidad computacional. [7]
La descomposición de valores singulares (SVD) se aplicó por primera vez al texto en los Laboratorios Bell a finales de los años 1980. Se utilizó como base para una técnica llamada indexación semántica latente (LSI) debido a su capacidad para encontrar el significado semántico latente en una colección de texto. Al principio, la adopción del SVD tardó en adoptarse debido a los requisitos de recursos necesarios para trabajar con grandes conjuntos de datos. Sin embargo, el uso de LSI se ha expandido significativamente en los últimos años a medida que se superaron desafíos anteriores en escalabilidad y rendimiento. [11] e incluso de código abierto. [12] LSI se utiliza en una variedad de aplicaciones de procesamiento de texto y recuperación de información, aunque su aplicación principal ha sido la búsqueda de conceptos y la categorización automatizada de documentos. [13]
La eficacia de una búsqueda de conceptos puede depender de una variedad de elementos, incluido el conjunto de datos que se busca y el motor de búsqueda que se utiliza para procesar las consultas y mostrar los resultados. Sin embargo, la mayoría de los motores de búsqueda de conceptos funcionan mejor para ciertos tipos de consultas:
Al igual que con todas las estrategias de búsqueda, los buscadores experimentados generalmente refinan sus consultas a través de múltiples búsquedas, comenzando con una consulta inicial para obtener resultados conceptualmente relevantes que luego pueden usarse para componer y/o refinar consultas adicionales para obtener resultados cada vez más relevantes. Dependiendo del motor de búsqueda, utilizar los conceptos de consulta que se encuentran en los documentos de resultados puede ser tan fácil como seleccionar un documento y realizar una función similar de búsqueda . Cambiar una consulta agregando términos y conceptos para mejorar la relevancia de los resultados se denomina expansión de consulta . [19] Se ha estudiado el uso de ontologías como WordNet para ampliar consultas con palabras relacionadas conceptualmente. [20]
La retroalimentación de relevancia es una característica que ayuda a los usuarios a determinar si los resultados de sus consultas satisfacen sus necesidades de información. En otras palabras, la relevancia se evalúa en relación con una necesidad de información, no con una consulta. Un documento es relevante si aborda la necesidad de información indicada, no porque simplemente contenga todas las palabras de la consulta. [21] Es una forma de involucrar a los usuarios en el proceso de recuperación para mejorar el conjunto de resultados finales. [21] Los usuarios pueden refinar sus consultas en función de sus resultados iniciales para mejorar la calidad de sus resultados finales.
En general, la relevancia de la búsqueda de conceptos se refiere al grado de similitud entre los conceptos expresados en la consulta y los conceptos contenidos en los resultados devueltos por la consulta. Cuanto más similares sean los conceptos de los resultados a los conceptos contenidos en la consulta, más relevantes se considerarán los resultados. Los resultados generalmente se clasifican y ordenan por relevancia, de modo que los resultados más relevantes estén en la parte superior de la lista de resultados y los resultados menos relevantes estén al final de la lista.
Se ha demostrado que la retroalimentación sobre relevancia es muy efectiva para mejorar la relevancia de los resultados. [21] Una búsqueda de conceptos reduce el riesgo de perder elementos de resultados importantes porque se devolverán todos los elementos relacionados con los conceptos de la consulta, contengan o no las mismas palabras utilizadas en la consulta. [15]
La clasificación seguirá siendo parte de cualquier sistema moderno de recuperación de información. Sin embargo, los problemas de datos heterogéneos, escala y tipos de discurso no tradicionales reflejados en el texto, junto con el hecho de que los motores de búsqueda serán cada vez más componentes integrados de procesos complejos de gestión de información, y no sólo sistemas independientes, requerirán nuevos tipos. de las respuestas del sistema a una consulta. Por ejemplo, uno de los problemas con las listas clasificadas es que es posible que no revelen las relaciones que existen entre algunos de los elementos de los resultados. [22]
La evaluación formalizada de los motores de búsqueda se lleva realizando desde hace muchos años. Por ejemplo, la Conferencia de recuperación de textos (TREC) se inició en 1992 para apoyar la investigación dentro de la comunidad de recuperación de información proporcionando la infraestructura necesaria para la evaluación a gran escala de metodologías de recuperación de textos. La mayoría de los motores de búsqueda comerciales actuales incluyen tecnología desarrollada por primera vez en TREC. [24]
En 1997, se lanzó una contraparte japonesa de TREC, llamada Instituto Nacional de Colección de Pruebas de Informática para Sistemas IR (NTCIR). NTCIR lleva a cabo una serie de talleres de evaluación para investigaciones en recuperación de información, respuesta a preguntas, resumen automático , etc. En 2001 se inició una serie europea de talleres llamada Foro de Evaluación Translingüe (CLEF) para ayudar a la investigación en acceso a información multilingüe. En 2002, se creó la Iniciativa para la Evaluación de la Recuperación XML (INEX) para la evaluación de sistemas de recuperación XML orientados a contenidos .
La precisión y la recuperación han sido dos de las medidas de desempeño tradicionales para evaluar sistemas de recuperación de información. La precisión es la fracción de los documentos de resultados recuperados que son relevantes para las necesidades de información del usuario. La retirada se define como la fracción de documentos relevantes de toda la colección que se devuelven como documentos de resultado. [21]
Aunque los talleres y las colecciones de pruebas disponibles públicamente utilizadas para las pruebas y evaluaciones de los motores de búsqueda han proporcionado conocimientos sustanciales sobre cómo se gestiona y recupera la información, el campo sólo ha arañado la superficie de los desafíos que enfrentan las personas y las organizaciones al encontrar, gestionar y utilizar la información. ahora que hay tanta información disponible. [22] Los datos científicos sobre cómo las personas utilizan las herramientas de información disponibles hoy en día aún están incompletos porque las metodologías de investigación experimental no han podido mantenerse al día con el rápido ritmo del cambio. Aún es necesario abordar muchos desafíos, como la búsqueda contextualizada, la gestión de la información personal, la integración de la información y el soporte de tareas. [22]