Expansión de consultas

La expansión de consultas ( QE ) es el proceso de reformulación de una consulta dada para mejorar el rendimiento de recuperación en operaciones de recuperación de información , particularmente en el contexto de la comprensión de consultas . ^[1] En el contexto de los motores de búsqueda , la expansión de consultas implica evaluar la entrada de un usuario (qué palabras se escribieron en el área de consulta de búsqueda y, a veces, otros tipos de datos ) y expandir la consulta de búsqueda para que coincida con documentos adicionales. La expansión de consultas involucra técnicas como:

Encontrar sinónimos de palabras y buscar también sinónimos
Encontrar palabras relacionadas semánticamente (por ejemplo, antónimos , merónimos , hipónimos , hiperónimos )
Encontrar todas las diversas formas morfológicas de las palabras mediante la raíz de cada palabra en la consulta de búsqueda
Corregir errores ortográficos y buscar automáticamente la forma corregida o sugerirla en los resultados
Reponderación de los términos en la consulta original

La expansión de consultas es una metodología estudiada en el campo de la informática , particularmente dentro del ámbito del procesamiento del lenguaje natural y la recuperación de información .

Compensación entre precisión y recuperación

Los motores de búsqueda recurren a la ampliación de consultas para aumentar la calidad de los resultados de búsqueda de los usuarios. Se supone que los usuarios no siempre formulan consultas de búsqueda utilizando los términos más adecuados. En este caso, lo mejor puede ser que la base de datos no contenga los términos introducidos por el usuario.

Al derivar un término introducido por el usuario, se obtienen coincidencias con más documentos, ya que también se obtienen coincidencias con las formas alternativas de las palabras de un término introducido por el usuario, lo que aumenta la recuperación total . Esto se produce a expensas de reducir la precisión . Al ampliar una consulta de búsqueda para buscar los sinónimos de un término introducido por el usuario, la recuperación también aumenta a expensas de la precisión. Esto se debe a la naturaleza de la ecuación de cómo se calcula la precisión, en el sentido de que una recuperación mayor provoca implícitamente una disminución de la precisión, dado que los factores de recuperación son parte del denominador. También se infiere que una recuperación mayor afecta negativamente la calidad general de los resultados de la búsqueda, dado que muchos usuarios no quieren más resultados para analizar, independientemente de la precisión.

El objetivo de la expansión de consultas en este sentido es aumentar la recuperación, la precisión puede aumentar potencialmente (en lugar de disminuir como se equipara matemáticamente), al incluir en el conjunto de resultados páginas que son más relevantes (de mayor calidad), o al menos igualmente relevantes. Las páginas que no se incluirían en el conjunto de resultados, que tienen el potencial de ser más relevantes para la consulta deseada del usuario, se incluyen, y sin la expansión de consultas no lo habrían sido, independientemente de la relevancia . Al mismo tiempo, muchos de los motores de búsqueda comerciales actuales utilizan la frecuencia de palabras ( tf-idf ) para ayudar en la clasificación. ^{[ cita requerida ]} Al clasificar las ocurrencias tanto de las palabras ingresadas por el usuario como de los sinónimos y formas morfológicas alternativas, los documentos con una mayor densidad (alta frecuencia y proximidad cercana) tienden a migrar más arriba en los resultados de búsqueda, lo que lleva a una mayor calidad de los resultados de búsqueda cerca de la parte superior de los resultados, a pesar de la mayor recuperación.

Métodos de expansión de consultas

Los métodos automáticos para la expansión de consultas fueron propuestos en 1960 por Maron y Kuhns. ^[2] Los métodos modernos de expansión de consultas implican un análisis de la colección de documentos (global o local) ^[3] o están basados en diccionarios u ontologías . ^[4] El análisis global de la colección de documentos se aplica para buscar relaciones entre términos. El análisis local se refiere a la retroalimentación de relevancia introducida por Rocchio. ^[5] Rocchio propuso juzgar manualmente algunos de los documentos recuperados y usar esta información de retroalimentación para expandir la consulta. Dado que recopilar el juicio de los usuarios puede ser un desafío, solo los primeros documentos recuperados se consideran relevantes. Esto es lo que se llama retroalimentación de pseudo-relevancia (PRF). ^[6] La retroalimentación de pseudo-relevancia es eficiente en promedio, pero puede dañar los resultados de algunas consultas, ^[7] especialmente las difíciles ya que los documentos recuperados principales probablemente no sean relevantes. Los documentos pseudo-relevantes se utilizan para encontrar términos candidatos a expansión que coexisten con muchos términos de consulta. ^[8] Esta idea se desarrolló más en el formalismo del modelo de lenguaje de relevancia en los modelos de relevancia posicional ^{[9] y de relevancia de proximidad}^[10] que consideran la distancia a los términos de consulta en los documentos pseudo-relevantes. Otra dirección en la expansión de consultas es la representación de índices y términos de consulta en un espacio vectorial que se puede utilizar para encontrar términos relacionados en el momento de la consulta, utilizando vectores semánticos o incrustaciones de palabras . ^[11]^[12]

De manera más general, la expansión de consultas, con su contraparte, la expansión de documentos, se implementan hoy en día en forma de bases de datos vectoriales, utilizando varios esquemas de codificación basados en el aprendizaje profundo . ^[13]

Véase también

Bibliotecas de software

QueryTermAnalyzer, de código abierto, basado en C#. Analizador de sinónimos y ponderaciones de términos de consulta basado en aprendizaje automático para expansión de consultas.
LucQE: código abierto, Java. Proporciona un marco de trabajo junto con varias implementaciones que permiten realizar la expansión de consultas con el uso de Apache Lucene .
Xapian es una biblioteca de búsqueda de código abierto que incluye soporte para la expansión de consultas.
ReQue de código abierto, Python. Un marco de software configurable y una colección de conjuntos de datos de referencia para entrenar y evaluar métodos de expansión de consultas supervisadas. ^[14]^[15]

Referencias

Citas

^ Vectomova, Olga; Wang, Ying (2006). "Un estudio del efecto de la proximidad de términos en la expansión de consultas". Revista de Ciencias de la Información . 32 (4): 324–333. CiteSeerX 10.1.1.552.5987 . doi :10.1177/0165551506065787. S2CID 7265523.
^ Maron, ME y Kuhns, JL 1960. Sobre relevancia, indexación probabilística y recuperación de información. Revista de la ACM 7, 3, 216–244.
^ C. Carpineto y G. Romano. Un estudio sobre la expansión automática de consultas en la recuperación de información. ACM Computing Surveys, 44(1):1-50, enero de 2012.
^ J. Bhogal, A. Macfarlane y P. Smith. Una revisión de la expansión de consultas basada en ontología. Inf. Process. Manage., 43(4):866-886, julio de 2007.
^ J. Rocchio. Retroalimentación de relevancia en la recuperación de información. En The SMART Retrieval System, págs. 313-323. 1971.
^ C. Buckley. Expansión automática de consultas mediante SMART: TREC 3. En Actas de la tercera conferencia sobre recuperación de textos (TREC-3). Publicación especial del NIST, págs. 69-80. Instituto Nacional de Normas y Tecnología, 1995.
^ G. Amati, C. Carpineto y G. Romano. Dificultad de consultas, robustez y aplicación selectiva de la expansión de consultas. Advances in Information Retrieval, pág. 127-137, 2004.
^ J. Xu y WB Croft. Expansión de consultas mediante análisis de documentos locales y globales. En Actas de la 19.ª conferencia anual internacional ACM SIGIR sobre investigación y desarrollo en recuperación de información, páginas 4-11. ACM, 1996.
^ Y. Lv y C. Zhai. Modelo de relevancia posicional para retroalimentación de pseudo-relevancia. En Actas de la 33.ª conferencia internacional ACM SIGIR sobre investigación y desarrollo en recuperación de información, páginas 579-586. ACM, 2010.
^ L. Ermakova, J. Mothe y E. Nikitina. 2016. Modelo de relevancia de proximidad para expansión de consultas. En Actas del 31.° Simposio Anual de la ACM sobre Informática Aplicada (SAC '16). ACM, Nueva York, NY, EE. UU., 1054-1059. DOI: https://doi.org/10.1145/2851613.2851696
^ Sahlgren, Magnus, Jussi Karlgren, Rickard Cöster y Timo Järvinen. 2003. "Expansión automática de consultas mediante indexación aleatoria". En Avances en la recuperación de información entre idiomas: tercer taller del Foro de evaluación entre idiomas (CLEF). Springer.
^ S. Kuzi, A. Shtok y O. Kurland. 2016. Expansión de consultas mediante incrustaciones de palabras. En Actas de la 25.ª Conferencia Internacional de la ACM sobre Gestión de la Información y el Conocimiento (CIKM '16). ACM, Nueva York, NY, EE. UU., 1929-1932. DOI: https://doi.org/10.1145/2983323.2983876
^ Lin, Jimmy; Nogueira, Rodrigo; Yates, Andrew (13 de octubre de 2020). "Transformadores preentrenados para la clasificación de textos: BERT y más allá". arXiv : 2010.06467 [cs.IR].
^ Mahtab Tamannaee, Hossein Fani, Fattane Zarrinkalam, Jamil Samouh, Samad Paydar, Ebrahim Bagheri: ReQue: un flujo de trabajo configurable y una colección de conjuntos de datos para el refinamiento de consultas. CIKM 2020: 3165-3172
^ Hossein Fani, Mahtab Tamannaee, Fattane Zarrinkalam, Jamil Samouh, Samad Paydar, Ebrahim Bagheri; Un conjunto de herramientas extensible de métodos de refinamiento de consultas y generación de conjuntos de datos de referencia. En Avances en la recuperación de información: 43.ª Conferencia Europea sobre Investigación en RI (ECIR'21), 2021.

Fuentes

D. Abberley, D. Kirby, S. Renals y T. Robinson, The THISL broadcast news retrieval system. En Proc. ESCA ETRW Workshop Accessing Information in Spoken Audio (Cambridge), págs. 14-19, 1999. Sección sobre expansión de consultas: descripción matemática concisa.
R. Navigli, P. Velardi. Un análisis de las estrategias de expansión de consultas basadas en ontologías. Actas del taller sobre extracción y minería de texto adaptativo (ATEM 2003) , en la 14.ª Conferencia Europea sobre Aprendizaje Automático (ECML 2003) , Cavtat-Dubrovnik, Croacia, del 22 al 26 de septiembre de 2003, págs. 42–49 - Un análisis de los métodos de expansión de consultas que se basan en WordNet como ontología de referencia.
Y. Qiu y HP Frei. Expansión de consultas basada en conceptos. En Actas de SIGIR-93, 16.ª Conferencia internacional de la ACM sobre investigación y desarrollo en recuperación de información , Pittsburgh, SIGIR Forum, ACM Press, junio de 1993. Documento académico sobre un método específico de expansión de consultas.
Efthimis N. Efthimiadis. Expansión de consultas. En: Martha E. Williams (ed.), Annual Review of Information Systems and Technology (ARIST) , v31, pp 121–187, 1996 - Una introducción para lectores con menos conocimientos técnicos.