Expansión de consultas

La expansión de consultas ( QE ) es el proceso de reformular una consulta determinada para mejorar el rendimiento de la recuperación en las operaciones de recuperación de información , particularmente en el contexto de la comprensión de consultas . ^[1] En el contexto de los motores de búsqueda , la expansión de la consulta implica evaluar la entrada de un usuario (qué palabras se escribieron en el área de consulta de búsqueda y, a veces, otros tipos de datos ) y expandir la consulta de búsqueda para que coincida con documentos adicionales. La expansión de consultas implica técnicas como:

Encontrar sinónimos de palabras y buscar sinónimos también
Encontrar palabras semánticamente relacionadas (por ejemplo , antónimos , merónimos , hipónimos , hiperónimos )
Encontrar todas las diversas formas morfológicas de las palabras derivando cada palabra en la consulta de búsqueda.
Corregir errores ortográficos y buscar automáticamente la forma corregida o sugerirla en los resultados
Reponderar los términos en la consulta original

La expansión de consultas es una metodología estudiada en el campo de la informática , particularmente en el ámbito del procesamiento del lenguaje natural y la recuperación de información .

Compensaciones de precisión y recuperación

Los motores de búsqueda invocan la expansión de consultas para aumentar la calidad de los resultados de búsqueda de los usuarios. Se supone que los usuarios no siempre formulan consultas de búsqueda utilizando los mejores términos. Lo mejor en este caso puede ser que la base de datos no contenga los términos ingresados por el usuario.

Al derivar un término ingresado por el usuario, se hacen coincidir más documentos, ya que las formas de palabras alternativas para un término ingresado por el usuario también coinciden, lo que aumenta la recuperación total . Esto se consigue a costa de reducir la precisión . Al expandir una consulta de búsqueda para buscar sinónimos de un término ingresado por el usuario, la recuperación también aumenta a expensas de la precisión. Esto se debe a la naturaleza de la ecuación de cómo se calcula la precisión, en el sentido de que una mayor recuperación provoca implícitamente una disminución en la precisión, dado que los factores de recuperación son parte del denominador. También se infiere que una mayor recuperación afecta negativamente la calidad general de los resultados de búsqueda, dado que muchos usuarios no quieren revisar más resultados, independientemente de la precisión.

El objetivo de la expansión de consultas en este sentido es aumentar el recuerdo, la precisión puede aumentar potencialmente (en lugar de disminuir como se equipara matemáticamente), al incluir en el conjunto de resultados páginas que sean más relevantes (de mayor calidad) o al menos igualmente relevantes. Las páginas que no se incluirían en el conjunto de resultados, que tienen el potencial de ser más relevantes para la consulta deseada por el usuario, se incluyen y sin la consulta la expansión no lo sería, independientemente de su relevancia . Al mismo tiempo, muchos de los motores de búsqueda comerciales actuales utilizan la frecuencia de palabras ( tf-idf ) para ayudar en la clasificación. ^{[ cita necesaria ]} Al clasificar las apariciones de las palabras ingresadas por el usuario y los sinónimos y formas morfológicas alternativas, los documentos con una mayor densidad (alta frecuencia y proximidad) tienden a migrar más arriba en los resultados de búsqueda, lo que lleva a una mayor calidad del resultados de búsqueda cerca de la parte superior de los resultados, a pesar del mayor recuerdo.

Métodos de expansión de consultas

Maron y Kuhns propusieron en 1960 métodos automáticos para la expansión de consultas. ^[2] Los métodos modernos de expansión de consultas implican un análisis de la colección de documentos (global o local) ^[3] o se basan en diccionarios u ontologías . ^[4] El análisis global de la colección de documentos se aplica para la búsqueda de relaciones entre términos. El análisis local se refiere a la retroalimentación de relevancia introducida por Rocchio. ^[5] Rocchio propuso juzgar manualmente algunos de los documentos recuperados y utilizar esta información de retroalimentación para ampliar la consulta. Dado que recopilar la opinión de los usuarios puede ser un desafío, solo los primeros documentos recuperados se consideran relevantes. Esto se denomina retroalimentación de pseudorelevancia (PRF). ^[6] La retroalimentación de pseudorelevancia es eficiente en promedio, pero puede dañar los resultados de algunas consultas, ^[7] especialmente las difíciles, ya que los documentos más recuperados probablemente no sean relevantes. Los documentos pseudorelevantes se utilizan para encontrar términos candidatos a expansión que coexisten con muchos términos de consulta. ^[8] Esta idea se desarrolló aún más dentro del formalismo del modelo de lenguaje de relevancia en la relevancia posicional ^[9] y los modelos de relevancia de proximidad ^[10] que consideran la distancia a los términos de consulta en los documentos pseudo-relevantes. Otra dirección en la expansión de consultas es la representación de índices y términos de consulta en un espacio vectorial que se puede usar para encontrar términos relacionados en el momento de la consulta, utilizando vectores semánticos o incrustaciones de palabras . ^[11]^[12]

De manera más general, la expansión de consultas, con su contraparte la expansión de documentos, se implementa hoy en forma de bases de datos vectoriales, utilizando varios esquemas de codificación basados en el aprendizaje profundo . ^[13]

Ver también

Bibliotecas de software

QueryTermAnalyzer de código abierto, C#. Analizador de sinónimos y ponderación de términos de consulta basado en aprendizaje automático para la expansión de consultas.
LucQE: código abierto, Java. Proporciona un marco junto con varias implementaciones que permiten realizar expansión de consultas con el uso de Apache Lucene .
Xapian es una biblioteca de búsqueda de código abierto que incluye soporte para la expansión de consultas.
ReQue de código abierto, Python. Un marco de software configurable y una colección de conjuntos de datos estándar para entrenar y evaluar métodos de expansión de consultas supervisadas. ^[14]^[15]

Referencias

Citas

^ Vectomova, Olga; Wang, Ying (2006). "Un estudio del efecto de la proximidad de términos en la expansión de consultas". Revista de ciencias de la información . 32 (4): 324–333. CiteSeerX 10.1.1.552.5987 . doi :10.1177/0165551506065787. S2CID 7265523.
^ Maron, ME y Kuhns, JL 1960. Sobre relevancia, indexación probabilística y recuperación de información. Revista de la ACM 7, 3, 216–244.
^ C. Carpineto y G. Romano. Un estudio sobre la expansión automática de consultas en la recuperación de información. ACM Computing Surveys, 44(1):1-50, enero de 2012.
^ J. Bhogal, A. Macfarlane y P. Smith. Una revisión de la expansión de consultas basada en ontologías. inf. Proceso. Manage., 43(4):866-886, julio de 2007.
^ J. Rocchio. Retroalimentación de relevancia en la recuperación de información. En El sistema de recuperación SMART, pág. 313-323. 1971.
^ C. Buckley. Ampliación automática de consultas mediante SMART: TREC 3. En actas de la tercera conferencia de recuperación de texto (TREC-3). Publicación especial del NIST, pág. 69-80. Instituto Nacional de Estándares y Tecnología, 1995.
^ G. Amati, C. Carpineto y G. Romano. Dificultad de las consultas, solidez y aplicación selectiva de la expansión de consultas. Avances en la recuperación de información, pag. 127-137, 2004.
^ J. Xu y WB Croft. Ampliación de consultas mediante análisis de documentos locales y globales. En Actas de la 19.ª conferencia internacional anual ACM SIGIR sobre investigación y desarrollo en recuperación de información, páginas 4-11. ACM, 1996.
^ Y. Lv y C. Zhai. Modelo de relevancia posicional para retroalimentación de pseudorelevancia. En Actas de la 33ª conferencia internacional ACM SIGIR sobre investigación y desarrollo en recuperación de información, páginas 579-586. ACM, 2010.
^ L. Ermakova, J. Mothe y E. Nikitina. 2016. Modelo de relevancia de proximidad para la expansión de consultas. En actas del 31º Simposio anual ACM sobre informática aplicada (SAC '16). ACM, Nueva York, NY, EE. UU., 1054-1059. DOI: https://doi.org/10.1145/2851613.2851696
^ Sahlgren, Magnus, Jussi Karlgren, Rickard Cöster y Timo Järvinen. 2003. "Expansión automática de consultas mediante indexación aleatoria". En Avances en la recuperación de información en varios idiomas: tercer taller del Foro de evaluación en varios idiomas (CLEF). Saltador.
^ S. Kuzi, A. Shtok y O. Kurland. 2016. Ampliación de consultas mediante incrustaciones de Word. En actas de la 25ª Conferencia Internacional ACM sobre Gestión de la Información y el Conocimiento (CIKM '16). ACM, Nueva York, NY, Estados Unidos, 1929-1932. DOI: https://doi.org/10.1145/2983323.2983876
^ Lin, Jimmy; Nogueira, Rodrigo; Yates, Andrés (13 de octubre de 2020). "Transformadores previamente entrenados para clasificación de texto: BERT y más allá". arXiv : 2010.06467 [cs.IR].
^ Mahtab Tamannaee, Hossein Fani, Fattane Zarrinkalam, Jamil Samouh, Samad Paydar, Ebrahim Bagheri: ReQue: un flujo de trabajo configurable y una colección de conjuntos de datos para el refinamiento de consultas. CIKM 2020: 3165-3172
^ Hossein Fani, Mahtab Tamannaee, Fattane Zarrinkalam, Jamil Samouh, Samad Paydar, Ebrahim Bagheri; Un conjunto de herramientas extensible de métodos de refinamiento de consultas y generación de conjuntos de datos Gold Standard. En Avances en la recuperación de información: 43.a Conferencia europea sobre investigación de RI (ECIR'21), 2021.

Fuentes

D. Abberley, D. Kirby, S. Renals y T. Robinson, el sistema de recuperación de noticias de transmisión THISL. En Proc. Taller ESCA ETRW Acceso a información en audio hablado , (Cambridge), págs. 14-19, 1999. Sección sobre expansión de consultas: descripción general matemática concisa.
R. Navigli, P. Velardi. Un análisis de estrategias de expansión de consultas basadas en ontologías. Proc. del Taller sobre Extracción y Minería de Texto Adaptativo (ATEM 2003) , en la 14ª Conferencia Europea sobre Aprendizaje Automático (ECML 2003) , Cavtat-Dubrovnik, Croacia, 22-26 de septiembre de 2003, págs. 42–49 - Un análisis de la expansión de consultas métodos que se basan en WordNet como ontología de referencia.
Y. Qiu y HP Frei. Expansión de consultas basadas en conceptos. En Actas de SIGIR-93, 16ª Conferencia Internacional ACM sobre Investigación y Desarrollo en Recuperación de Información , Pittsburgh, Foro SIGIR, ACM Press, junio de 1993 - Documento académico sobre un método específico de expansión de consultas
Efthimis N. Efthimiadis. Ampliación de consultas. En: Martha E. Williams (ed.), Annual Review of Information Systems and Technology (ARIST) , v31, págs. 121–187, 1996: una introducción para espectadores menos técnicos.