stringtranslate.com

Retroalimentación de relevancia

La retroalimentación de relevancia es una característica de algunos sistemas de recuperación de información . La idea detrás de la retroalimentación de relevancia es tomar los resultados que se devuelven inicialmente de una consulta dada, recopilar la retroalimentación del usuario y usar información sobre si esos resultados son relevantes o no para realizar una nueva consulta. Podemos distinguir de manera útil entre tres tipos de retroalimentación: retroalimentación explícita, retroalimentación implícita y retroalimentación ciega o "pseudo".

Retroalimentación explícita

La retroalimentación explícita se obtiene de los evaluadores de relevancia, indicando la relevancia de un documento recuperado para una consulta. Este tipo de retroalimentación se define como explícita solo cuando los evaluadores (u otros usuarios de un sistema) saben que la retroalimentación proporcionada se interpreta como juicios de relevancia .

Los usuarios pueden indicar la relevancia explícitamente mediante un sistema de relevancia binario o graduado . La retroalimentación de relevancia binaria indica si un documento es relevante o irrelevante para una consulta determinada. La retroalimentación de relevancia graduada indica la relevancia de un documento para una consulta en una escala mediante números, letras o descripciones (como "no relevante", "algo relevante", "relevante" o "muy relevante"). La relevancia graduada también puede adoptar la forma de un orden cardinal de los documentos creados por un evaluador; es decir, el evaluador coloca los documentos de un conjunto de resultados en orden de relevancia (normalmente descendente). Un ejemplo de esto sería la función SearchWiki implementada por Google en su sitio web de búsqueda.

La información de retroalimentación de relevancia debe interpolarse con la consulta original para mejorar el rendimiento de la recuperación, como el conocido algoritmo Rocchio .

Una métrica de desempeño que se hizo popular alrededor de 2005 para medir la utilidad de un algoritmo de clasificación basado en la retroalimentación de relevancia explícita es la ganancia acumulada descontada normalizada . Otras medidas incluyen la precisión en k y la precisión promedio media .

Retroalimentación implícita

La retroalimentación implícita se infiere del comportamiento del usuario, como por ejemplo, al observar qué documentos selecciona y cuáles no para ver, el tiempo que pasa viendo un documento o las acciones de navegación o desplazamiento por las páginas. [1] Existen muchas señales durante el proceso de búsqueda que se pueden utilizar para la retroalimentación implícita y los tipos de información que se deben proporcionar en respuesta. [2] [3]

Las diferencias clave entre la retroalimentación de relevancia implícita y la explícita incluyen: [4]

  1. El usuario no evalúa la relevancia para el beneficio del sistema IR, sino que solo satisface sus propias necesidades y
  2. El usuario no necesariamente está informado de que su comportamiento (documentos seleccionados) se utilizará como retroalimentación de relevancia.

Un ejemplo de esto es el tiempo de permanencia , que es una medida del tiempo que un usuario pasa viendo la página vinculada en un resultado de búsqueda. Es un indicador de qué tan bien el resultado de búsqueda cumplió con la intención de consulta del usuario y se utiliza como un mecanismo de retroalimentación para mejorar los resultados de búsqueda.

Retroalimentación de pseudo-relevancia

La retroalimentación de relevancia pseudo, también conocida como retroalimentación de relevancia ciega, proporciona un método para el análisis local automático. Automatiza la parte manual de la retroalimentación de relevancia, de modo que el usuario obtenga un mejor rendimiento de recuperación sin una interacción prolongada. El método consiste en realizar una recuperación normal para encontrar un conjunto inicial de documentos más relevantes, para luego suponer que los documentos mejor clasificados "k" son relevantes y, finalmente, realizar la retroalimentación de relevancia como antes bajo este supuesto. El procedimiento es el siguiente:

  1. Tome los resultados devueltos por la consulta inicial como resultados relevantes (solo los k superiores, siendo k entre 10 y 50 en la mayoría de los experimentos).
  2. Seleccione los 20-30 términos principales (número indicativo) de estos documentos utilizando, por ejemplo, ponderaciones tf-idf .
  3. Realice una expansión de consulta , agregue estos términos a la consulta y luego haga coincidir los documentos devueltos para esta consulta y finalmente devuelva los documentos más relevantes.

Algunos experimentos, como los resultados del sistema SMART de Cornell publicados en (Buckley et al. 1995), muestran una mejora en el rendimiento de los sistemas de recuperación utilizando retroalimentación de pseudo-relevancia en el contexto de los experimentos TREC 4.

Esta técnica automática funciona en la mayoría de los casos. La evidencia sugiere que tiende a funcionar mejor que el análisis global. [5] A través de una expansión de la consulta, se pueden recuperar algunos documentos relevantes que no se encontraron en la ronda inicial para mejorar el rendimiento general. Claramente, el efecto de este método depende en gran medida de la calidad de los términos de expansión seleccionados. Se ha descubierto que mejora el rendimiento en la tarea ad hoc de TREC [ cita requerida ] . Pero no está exento de los peligros de un proceso automático. Por ejemplo, si la consulta es sobre minas de cobre y los primeros documentos son sobre minas en Chile, entonces puede haber una desviación de la consulta en la dirección de documentos sobre Chile. Además, si las palabras agregadas a la consulta original no están relacionadas con el tema de la consulta, es probable que la calidad de la recuperación se degrade, especialmente en la búsqueda web, donde los documentos web a menudo cubren múltiples temas diferentes. Para mejorar la calidad de las palabras de expansión en la retroalimentación de pseudo-relevancia, se ha propuesto una retroalimentación de relevancia posicional para la retroalimentación de pseudo-relevancia para seleccionar de los documentos de retroalimentación aquellas palabras que se centran en el tema de la consulta en función de las posiciones de las palabras en los documentos de retroalimentación. [6] Específicamente, el modelo de relevancia posicional asigna más pesos a las palabras que ocurren más cerca de las palabras de consulta en función de la intuición de que las palabras más cercanas a las palabras de consulta tienen más probabilidades de estar relacionadas con el tema de la consulta.

La retroalimentación ciega automatiza la parte manual de la retroalimentación de relevancia y tiene la ventaja de que no se requieren evaluadores.

Uso de información relevante

La información de relevancia se utiliza utilizando el contenido de los documentos relevantes para ajustar los pesos de los términos en la consulta original o utilizando ese contenido para agregar palabras a la consulta. La retroalimentación de relevancia a menudo se implementa utilizando el algoritmo Rocchio .

Referencias

  1. ^ "Copia archivada" (PDF) . www.scils.rutgers.edu . Archivado desde el original (PDF) el 16 de marzo de 2004 . Consultado el 12 de enero de 2022 .{{cite web}}: CS1 maint: copia archivada como título ( enlace )
  2. ^ Jansen, BJ y McNeese, MD 2005. Evaluación de la eficacia y los patrones de interacción con la asistencia automatizada en sistemas IR. Revista de la Sociedad Estadounidense de Ciencias de la Información y Tecnología. 56(14), 1480-1503
  3. ^ Kelly, Diane y Jaime Teevan. "Retroalimentación implícita para inferir las preferencias del usuario: una bibliografía". Foro SIGIR de la ACM. Vol. 37. N.º 2. ACM, 2003.
  4. ^ "Copia archivada" (PDF) . haystack.lcs.mit.edu . Archivado desde el original (PDF) el 11 de junio de 2007 . Consultado el 12 de enero de 2022 .{{cite web}}: CS1 maint: copia archivada como título ( enlace )
  5. ^ Jinxi Xu y W. Bruce Croft, Expansión de consultas mediante análisis de documentos locales y globales, en Actas de la 19ª conferencia anual internacional ACM SIGIR sobre investigación y desarrollo en recuperación de información (SIGIR), 1996.
  6. ^ Yuanhua Lv y ChengXiang Zhai, Modelo de relevancia posicional para retroalimentación de pseudo-relevancia, en Actas de la 33ª conferencia internacional ACM SIGIR sobre investigación y desarrollo en recuperación de información (SIGIR), 2010.

Lectura adicional