stringtranslate.com

Expansión de consultas

La expansión de consultas ( QE ) es el proceso de reformulación de una consulta dada para mejorar el rendimiento de recuperación en operaciones de recuperación de información , particularmente en el contexto de la comprensión de consultas . [1] En el contexto de los motores de búsqueda , la expansión de consultas implica evaluar la entrada de un usuario (qué palabras se escribieron en el área de consulta de búsqueda y, a veces, otros tipos de datos ) y expandir la consulta de búsqueda para que coincida con documentos adicionales. La expansión de consultas involucra técnicas como:

La expansión de consultas es una metodología estudiada en el campo de la informática , particularmente dentro del ámbito del procesamiento del lenguaje natural y la recuperación de información .

Compensación entre precisión y recuperación

Los motores de búsqueda recurren a la ampliación de consultas para aumentar la calidad de los resultados de búsqueda de los usuarios. Se supone que los usuarios no siempre formulan consultas de búsqueda utilizando los términos más adecuados. En este caso, lo mejor puede ser que la base de datos no contenga los términos introducidos por el usuario.

Al derivar un término introducido por el usuario, se obtienen coincidencias con más documentos, ya que también se obtienen coincidencias con las formas alternativas de las palabras de un término introducido por el usuario, lo que aumenta la recuperación total . Esto se produce a expensas de reducir la precisión . Al ampliar una consulta de búsqueda para buscar los sinónimos de un término introducido por el usuario, la recuperación también aumenta a expensas de la precisión. Esto se debe a la naturaleza de la ecuación de cómo se calcula la precisión, en el sentido de que una recuperación mayor provoca implícitamente una disminución de la precisión, dado que los factores de recuperación son parte del denominador. También se infiere que una recuperación mayor afecta negativamente la calidad general de los resultados de la búsqueda, dado que muchos usuarios no quieren más resultados para analizar, independientemente de la precisión.

El objetivo de la expansión de consultas en este sentido es aumentar la recuperación, la precisión puede aumentar potencialmente (en lugar de disminuir como se equipara matemáticamente), al incluir en el conjunto de resultados páginas que son más relevantes (de mayor calidad), o al menos igualmente relevantes. Las páginas que no se incluirían en el conjunto de resultados, que tienen el potencial de ser más relevantes para la consulta deseada del usuario, se incluyen, y sin la expansión de consultas no lo habrían sido, independientemente de la relevancia . Al mismo tiempo, muchos de los motores de búsqueda comerciales actuales utilizan la frecuencia de palabras ( tf-idf ) para ayudar en la clasificación. [ cita requerida ] Al clasificar las ocurrencias tanto de las palabras ingresadas por el usuario como de los sinónimos y formas morfológicas alternativas, los documentos con una mayor densidad (alta frecuencia y proximidad cercana) tienden a migrar más arriba en los resultados de búsqueda, lo que lleva a una mayor calidad de los resultados de búsqueda cerca de la parte superior de los resultados, a pesar de la mayor recuperación.

Métodos de expansión de consultas

Los métodos automáticos para la expansión de consultas fueron propuestos en 1960 por Maron y Kuhns. [2] Los métodos modernos de expansión de consultas implican un análisis de la colección de documentos (global o local) [3] o están basados ​​en diccionarios u ontologías . [4] El análisis global de la colección de documentos se aplica para buscar relaciones entre términos. El análisis local se refiere a la retroalimentación de relevancia introducida por Rocchio. [5] Rocchio propuso juzgar manualmente algunos de los documentos recuperados y usar esta información de retroalimentación para expandir la consulta. Dado que recopilar el juicio de los usuarios puede ser un desafío, solo los primeros documentos recuperados se consideran relevantes. Esto es lo que se llama retroalimentación de pseudo-relevancia (PRF). [6] La retroalimentación de pseudo-relevancia es eficiente en promedio, pero puede dañar los resultados de algunas consultas, [7] especialmente las difíciles ya que los documentos recuperados principales probablemente no sean relevantes. Los documentos pseudo-relevantes se utilizan para encontrar términos candidatos a expansión que coexisten con muchos términos de consulta. [8] Esta idea se desarrolló más en el formalismo del modelo de lenguaje de relevancia en los modelos de relevancia posicional [9] y de relevancia de proximidad [10] que consideran la distancia a los términos de consulta en los documentos pseudo-relevantes. Otra dirección en la expansión de consultas es la representación de índices y términos de consulta en un espacio vectorial que se puede utilizar para encontrar términos relacionados en el momento de la consulta, utilizando vectores semánticos o incrustaciones de palabras . [11] [12]

De manera más general, la expansión de consultas, con su contraparte, la expansión de documentos, se implementan hoy en día en forma de bases de datos vectoriales, utilizando varios esquemas de codificación basados ​​en el aprendizaje profundo . [13]

Véase también

Bibliotecas de software

Referencias

Citas

  1. ^ Vectomova, Olga; Wang, Ying (2006). "Un estudio del efecto de la proximidad de términos en la expansión de consultas". Revista de Ciencias de la Información . 32 (4): 324–333. CiteSeerX  10.1.1.552.5987 . doi :10.1177/0165551506065787. S2CID  7265523.
  2. ^ Maron, ME y Kuhns, JL 1960. Sobre relevancia, indexación probabilística y recuperación de información. Revista de la ACM 7, 3, 216–244.
  3. ^ C. Carpineto y G. Romano. Un estudio sobre la expansión automática de consultas en la recuperación de información. ACM Computing Surveys, 44(1):1-50, enero de 2012.
  4. ^ J. Bhogal, A. Macfarlane y P. Smith. Una revisión de la expansión de consultas basada en ontología. Inf. Process. Manage., 43(4):866-886, julio de 2007.
  5. ^ J. Rocchio. Retroalimentación de relevancia en la recuperación de información. En The SMART Retrieval System, págs. 313-323. 1971.
  6. ^ C. Buckley. Expansión automática de consultas mediante SMART: TREC 3. En Actas de la tercera conferencia sobre recuperación de textos (TREC-3). Publicación especial del NIST, págs. 69-80. Instituto Nacional de Normas y Tecnología, 1995.
  7. ^ G. Amati, C. Carpineto y G. Romano. Dificultad de consultas, robustez y aplicación selectiva de la expansión de consultas. Advances in Information Retrieval, pág. 127-137, 2004.
  8. ^ J. Xu y WB Croft. Expansión de consultas mediante análisis de documentos locales y globales. En Actas de la 19.ª conferencia anual internacional ACM SIGIR sobre investigación y desarrollo en recuperación de información, páginas 4-11. ACM, 1996.
  9. ^ Y. Lv y C. Zhai. Modelo de relevancia posicional para retroalimentación de pseudo-relevancia. En Actas de la 33.ª conferencia internacional ACM SIGIR sobre investigación y desarrollo en recuperación de información, páginas 579-586. ACM, 2010.
  10. ^ L. Ermakova, J. Mothe y E. Nikitina. 2016. Modelo de relevancia de proximidad para expansión de consultas. En Actas del 31.° Simposio Anual de la ACM sobre Informática Aplicada (SAC '16). ACM, Nueva York, NY, EE. UU., 1054-1059. DOI: https://doi.org/10.1145/2851613.2851696
  11. ^ Sahlgren, Magnus, Jussi Karlgren, Rickard Cöster y Timo Järvinen. 2003. "Expansión automática de consultas mediante indexación aleatoria". En Avances en la recuperación de información entre idiomas: tercer taller del Foro de evaluación entre idiomas (CLEF). Springer.
  12. ^ S. Kuzi, A. Shtok y O. Kurland. 2016. Expansión de consultas mediante incrustaciones de palabras. En Actas de la 25.ª Conferencia Internacional de la ACM sobre Gestión de la Información y el Conocimiento (CIKM '16). ACM, Nueva York, NY, EE. UU., 1929-1932. DOI: https://doi.org/10.1145/2983323.2983876
  13. ^ Lin, Jimmy; Nogueira, Rodrigo; Yates, Andrew (13 de octubre de 2020). "Transformadores preentrenados para la clasificación de textos: BERT y más allá". arXiv : 2010.06467 [cs.IR].
  14. ^ Mahtab Tamannaee, Hossein Fani, Fattane Zarrinkalam, Jamil Samouh, Samad Paydar, Ebrahim Bagheri: ReQue: un flujo de trabajo configurable y una colección de conjuntos de datos para el refinamiento de consultas. CIKM 2020: 3165-3172
  15. ^ Hossein Fani, Mahtab Tamannaee, Fattane Zarrinkalam, Jamil Samouh, Samad Paydar, Ebrahim Bagheri; Un conjunto de herramientas extensible de métodos de refinamiento de consultas y generación de conjuntos de datos de referencia. En Avances en la recuperación de información: 43.ª Conferencia Europea sobre Investigación en RI (ECIR'21), 2021.

Fuentes