Algoritmo HITS

El algoritmo HITS (acrónimo del inglés Hypertext Induced Topic Selection, también conocido como hubs y autoridades) es un algoritmo de análisis de enlaces que valora las páginas web, desarrollado por Jon Kleinberg.

La idea detrás de Hubs y Autoridades surgió de una visión particular de la creación de páginas web cuando Internet se estaba formando originalmente; Es decir, ciertas páginas web, conocidas como hubs, servían como grandes directorios que no eran realmente autoritativos en la información que tenían, sino que se usaban como compilaciones de un amplio catálogo de información que conducía a los usuarios a otras páginas autorizadas.

[1]​ El esquema asigna dos puntajes para cada página: su autoridad, que estima el valor del contenido de la página, y su valor de concentrador, que estima el valor de sus enlaces a otras páginas.

Anteriormente, se utilizaron muchos métodos para clasificar la importancia de las revistas científicas.

Sin embargo, muchas revistas como Science y Nature están llenas de numerosas citas, haciendo que estas revistas tengan factores de impacto muy altos.

Por lo tanto, al comparar dos revistas más oscuras que han recibido aproximadamente el mismo número de citas, pero una de estas revistas ha recibido muchas citas de las revistas Science y Nature, esta revista necesita ser clasificado más alto.

Debido a que estos sitios son de gran importancia, pero también son motores de búsqueda, una página se puede clasificar mucho más alto que su relevancia actual.

Este conjunto se denomina conjunto de raíces y se puede obtener tomando las primeras páginas devueltas por un algoritmo de búsqueda basado en texto.

Un conjunto de base se genera aumentando el conjunto de raíces con todas las páginas web que están enlazadas desde él y algunas de las páginas que enlazan con él.

El cálculo HITS se realiza sólo en este subgrafo enfocado.

Según Kleinberg, la razón para construir un conjunto base es asegurar que la mayoría (o muchas) de las autoridades más fuertes están incluidas.

Los valores de autoridad y concentrador se definen en términos recíprocos entre sí.

Algunas implementaciones también consideran la relevancia de las páginas enlazadas.

Sin embargo, tiene algunas diferencias importantes: Para comenzar el ranking,

Así, los valores obtenidos a partir de este proceso en algún momento convergerán.