Clasificación (recuperación de información)

La clasificación de la consulta es uno de los problemas fundamentales en la recuperación de información (IR), ^[1] la disciplina científica/de ingeniería detrás de los motores de búsqueda . ^[2] Dada una consulta $q$ y una colección $D$ de documentos que coinciden con la consulta, el problema es clasificar, es decir, ordenar, los documentos en $D$ según algún criterio para que los "mejores" resultados aparezcan al principio de la lista de resultados. mostrado al usuario. La clasificación en términos de recuperación de información es un concepto importante en informática y se utiliza en muchas aplicaciones diferentes, como consultas en motores de búsqueda y sistemas de recomendación . ^[3] La mayoría de los motores de búsqueda utilizan algoritmos de clasificación para proporcionar a los usuarios resultados precisos y relevantes . ^[4]

Historia

La noción de ranking de páginas se remonta a la década de 1940 y la idea se originó en el campo de la economía. En 1941, Wassily Leontief desarrolló un método iterativo para valorar el sector de un país basándose en la importancia de otros sectores que le suministraban recursos. En 1965, Charles H Hubbell de la Universidad de California, Santa Bárbara , publicó una técnica para determinar la importancia de los individuos basándose en la importancia de las personas que los respaldan. ^[5]

A Gabriel Pinski y Francis Narin se les ocurrió un método para clasificar las revistas. ^[6] Su regla era que una revista es importante si es citada por otras revistas importantes. Jon Kleinberg , un científico informático de la Universidad de Cornell , desarrolló un enfoque casi idéntico al PageRank que se llamó Búsqueda de temas inducida por hipertexto o HITS y trataba las páginas web como "centros" y "autoridades".

El algoritmo PageRank de Google fue desarrollado en 1998 por los fundadores de Google, Sergey Brin y Larry Page , y es una parte clave del método de Google para clasificar las páginas web en los resultados de búsqueda . ^[7] Todos los métodos anteriores son algo similares ya que todos explotan la estructura de los enlaces y requieren un enfoque iterativo. ^[8]

Modelos de clasificación

Las funciones de clasificación se evalúan mediante diversos medios; uno de los más simples es determinar la precisión de los primeros k resultados mejor clasificados para algunos k fijos ; por ejemplo, la proporción de los 10 resultados principales que son relevantes, en promedio, en muchas consultas.

Los modelos IR se pueden dividir a grandes rasgos en tres tipos: modelos booleanos o BIR, modelos espaciales vectoriales y modelos probabilísticos . ^[9] En la literatura se pueden encontrar varias comparaciones entre modelos de recuperación (por ejemplo, ^[10] ).

Modelos booleanos

El modelo booleano o BIR es un modelo de consulta básico simple donde cada consulta sigue los principios subyacentes del álgebra relacional con expresiones algebraicas y donde los documentos no se recuperan a menos que coincidan completamente entre sí. Dado que la consulta busca el documento (1) o no recupera el documento (0), no existe una metodología para clasificarlos.

Modelo espacial vectorial

Dado que el modelo booleano solo obtiene coincidencias completas, no soluciona el problema de que los documentos coincidan parcialmente. El modelo de espacio vectorial resuelve este problema introduciendo vectores de elementos de índice, a cada uno de los cuales se les asignan pesos. Las ponderaciones varían desde positivas (si coinciden completamente o hasta cierto punto) hasta negativas (si no coinciden o coinciden completamente de manera opuesta) si hay documentos presentes. Frecuencia de términos: la frecuencia inversa de documentos ( tf-idf ) es una de las técnicas más populares donde los pesos son términos (por ejemplo, palabras, palabras clave, frases, etc.) y las dimensiones son el número de palabras dentro del corpus.

La puntuación de similitud entre la consulta y el documento se puede encontrar calculando el valor del coseno entre el vector de peso de la consulta y el vector de peso del documento utilizando la similitud del coseno . Los documentos deseados se pueden recuperar clasificándolos según su puntuación de similitud y los k documentos principales que tienen las puntuaciones más altas o los más relevantes para el vector de consulta.

Modelo probabilístico

En el modelo probabilístico, la teoría de la probabilidad se ha utilizado como medio principal para modelar el proceso de recuperación en términos matemáticos. El modelo de probabilidad de recuperación de información fue introducido por Maron y Kuhns en 1960 y desarrollado por Roberston y otros investigadores. Según Spack Jones y Willett (1997): La razón para introducir conceptos probabilísticos es obvia: los sistemas de IR tratan con lenguaje natural, y esto es demasiado impreciso para permitir que un sistema indique con certeza qué documento será relevante para una consulta particular.

El modelo aplica la teoría de la probabilidad a la recuperación de información (un evento tiene una posibilidad de ocurrir del 0 al 100 por ciento). es decir, en el modelo de probabilidad, la relevancia se expresa en términos de probabilidad. Aquí, los documentos se clasifican en orden decreciente de probabilidad de relevancia. Tiene en cuenta el elemento de incertidumbre en el proceso de IR. es decir, incertidumbre sobre si los documentos recuperados por el sistema son relevantes para una consulta determinada.

El modelo de probabilidad pretende estimar y calcular la probabilidad de que un documento sea relevante para una consulta determinada basándose en algunos métodos. El “evento” en este contexto de recuperación de información se refiere a la probabilidad de relevancia entre una consulta y un documento. A diferencia de otros modelos de IR, el modelo de probabilidad no trata la relevancia como una medida exacta de error o coincidencia.

El modelo adopta varios métodos para determinar la probabilidad de relevancia entre consultas y documentos. La relevancia en el modelo de probabilidad se juzga según la similitud entre consultas y documentos. El juicio de similitud depende además de la frecuencia de los términos.

Por lo tanto, para una consulta que consta de un solo término (B), la probabilidad de que un documento particular (Dm) se considere relevante es la proporción de usuarios que envían el término de consulta (B) y consideran que el documento (Dm) es relevante en relación con el número de usuarios que enviaron el término (B). Tal como se representa en el modelo de Maron y Kuhn, se puede representar como la probabilidad de que los usuarios que envían un término de consulta particular (B) consideren que un documento individual (Dm) es relevante.

Según Gerard Salton y Michael J. McGill, la esencia de este modelo es que si se pueden calcular estimaciones de la probabilidad de aparición de varios términos en documentos relevantes, entonces las probabilidades de que se recupere un documento, dado que es relevante, o que no lo sea, se puede estimar. ^[11]

Varios experimentos han demostrado que el modelo probabilístico puede dar buenos resultados. Sin embargo, dichos resultados no han sido suficientemente mejores que los obtenidos utilizando el modelo booleano o del espacio vectorial. ^[12]^[13]

Medidas de evaluación

Las medidas de evaluación más comunes son la precisión, la recuperación y la puntuación f. Se calculan utilizando conjuntos de documentos desordenados. Estas medidas deben ampliarse o definirse nuevas medidas para evaluar los resultados de recuperación clasificados que son estándar en los motores de búsqueda modernos. En un contexto de recuperación clasificada, los conjuntos apropiados de documentos recuperados vienen naturalmente dados por los k documentos recuperados principales. Para cada uno de estos conjuntos, se pueden trazar los valores de precisión y recuperación para obtener una curva de recuperación de precisión. ^[14]

Precisión

La precisión mide la exactitud del proceso de recuperación. Si el conjunto real de documentos relevantes se denota por I y el conjunto de documentos recuperado se denota por O, entonces la precisión viene dada por:

{\text{Precisión}}={\frac {|\{{\text{I}}\}\cap \{{\text{O}}\}|}{|\{{\text{ O}}\}|}}

Recordar

La recuperación es una medida de la integridad del proceso de IR. Si el conjunto real de documentos relevantes se indica con I y el conjunto de documentos recuperado se indica con O, entonces la recuperación viene dada por:

{\text{Recordar}}={\frac {|\{{\text{I}}\}\cap \{{\text{O}}\}|}{|\{{\text{ I}}\}|}}

Puntuación F1

F1 Score intenta combinar la precisión y la medida de recuperación. Es la media armónica de los dos. Si P es la precisión y R es la recuperación, entonces el F-Score viene dado por:

F_{1}=2\cdot {\frac {\mathrm {P} \cdot \mathrm {R} }{\mathrm {P} +\mathrm {R} }}

Algoritmo de clasificación de páginas

El algoritmo PageRank genera una distribución de probabilidad que se utiliza para representar la probabilidad de que una persona que hace clic aleatoriamente en los enlaces llegue a una página en particular. El PageRank se puede calcular para colecciones de documentos de cualquier tamaño. En varios artículos de investigación se supone que la distribución se divide uniformemente entre todos los documentos de la colección al comienzo del proceso computacional. Los cálculos de PageRank requieren varias pasadas a través de la colección para ajustar los valores aproximados de PageRank para reflejar más fielmente el valor real teórico. Las fórmulas se dan a continuación:

PR(u)=\sum _{v\in B_{u}}{\frac {PR(v)}{L(v)}}

es decir, el valor de PageRank para una página u depende de los valores de PageRank para cada página v _contenida en el conjunto Bu (el conjunto que contiene todas las páginas que enlazan a la página u ), dividido por la cantidad L ( v ) de enlaces de la página v .

Algoritmo de golpes

Al igual que PageRank , HITS utiliza el análisis de enlaces para analizar la relevancia de las páginas, pero solo funciona en pequeños conjuntos de subgrafos (en lugar de gráficos web completos) y además depende de las consultas. Los subgrafos se clasifican según sus pesos en centros y autoridades donde se obtienen y muestran las páginas con la clasificación más alta. ^[15]

Ver también

Aprender a clasificar : aplicación del aprendizaje automático al problema de clasificación
búsqueda semántica

Referencias

^ Piccoli, Gabriele; Pigni, Federico (julio de 2018). Sistemas de información para directivos: con casos (Edición 4.0 ed.). Prensa prospectiva. pag. 28.ISBN 978-1-943153-50-3. Consultado el 25 de noviembre de 2018 .
^ Mogotsi, IC "Christopher D. Manning, Prabhakar Raghavan y Hinrich Schütze: Introducción a la recuperación de información: Cambridge University Press, Cambridge, Inglaterra, 2008, 482 págs., ISBN: 978-0-521-86571-5". Recuperación de información . 13 (2): 192-195. doi :10.1007/s10791-009-9115-y. ISSN 1386-4564. S2CID 31674042.
^ "¿Qué es la recuperación de información?". Geeks para Geeks . 2020-07-02 . Consultado el 2 de marzo de 2022 .
^ "Algoritmo de búsqueda y sistema de clasificación de Google: Búsqueda de Google". www.google.com . Consultado el 2 de marzo de 2022 .
^ "Un científico encuentra un algoritmo de tipo PageRank de la década de 1940". Revisión de tecnología del MIT . Consultado el 2 de marzo de 2022 .
^ Pinski, Gabriel; Narín, Francisco (1976). "Influencia de las citas para agregados de revistas de publicaciones científicas: teoría, con aplicación a la literatura de física". Procesamiento y gestión de información . 12 (5): 297–312. doi :10.1016/0306-4573(76)90048-0.
^ "¿Qué son las funciones SERP?". www.accuranker.com . 2019-03-28 . Consultado el 2 de marzo de 2022 .
^ Franceschet, Massimo (17 de febrero de 2010). "Un científico encuentra un algoritmo de tipo PageRank de la década de 1940". www.technologyreview.com.
^ Datta, Joydip (16 de abril de 2010). «Ranking en Recuperación de Información» (PDF) . Departamento de Ingeniería y Ciencias de la Computación, Instituto Indio de Tecnología. pag. 7 . Consultado el 25 de abril de 2019 .
^ Tortuga, Howard R.; Croft, W. Bruce (1992). "Una comparación de modelos de recuperación de texto". La revista informática . OUP. 35 (3): 279–290. doi : 10.1093/comjnl/35.3.279 .
^ Harter, Stephen P. (1 de julio de 1984). "Introducción a la recuperación de información moderna (Gerard Salton y Michael J. McGill)". Educación para la Información . 2 (3): 237–238. doi :10.3233/EFI-1984-2307.
^ Chu, H. Representación y recuperación de información en la era digital. Nueva Delhi: Publicación Ess Ess.
^ GGChoudhary. Introducción a la recuperación de información moderna. Publicación de facetas.
^ Manning, Cristóbal; Raghavan, Prabhakar; Schutze, Hinrich. Evaluación de resultados de recuperación clasificados. Prensa de la Universidad de Cambridge.
^ Tanase, Racula; Radu, Remus (16 de abril de 2010). "Conferencia n.º 4: Algoritmo HITS: centros y autoridades en Internet".