Algoritmo de clasificación
El método estocástico para el análisis de la estructura de enlaces (SALSA) es un algoritmo de clasificación de páginas web diseñado por R. Lempel y S. Moran para asignar puntuaciones altas a las páginas web centrales y de autoridad en función de la cantidad de hipervínculos entre ellas. [1]
Orígenes
SALSA se inspira en otros dos algoritmos de clasificación basados en enlaces, concretamente HITS y PageRank , de las siguientes maneras:
- Al igual que HITS, el algoritmo asigna dos puntuaciones a cada página web: una puntuación central y una puntuación de autoridad. Una autoridad es una página que es significativamente más relevante para un tema determinado que otras páginas, mientras que un centro es una página que contiene muchos enlaces a autoridades;
- Al igual que HITS, SALSA también trabaja con un subgrafo enfocado que depende del tema. Este subgrafo enfocado se obtiene primero encontrando un conjunto de páginas más relevantes para un tema determinado (por ejemplo, tomando las n páginas principales devueltas por un algoritmo de búsqueda basado en texto) y luego aumentando este conjunto con páginas web que enlazan directamente a él y con páginas que están enlazadas directamente desde él. Debido a este proceso de selección, los puntajes de centro y autoridad dependen del tema;
- Al igual que PageRank, el algoritmo calcula las puntuaciones simulando un recorrido aleatorio por una cadena de Markov que representa el gráfico de páginas web. Sin embargo, SALSA trabaja con dos cadenas de Markov diferentes: una cadena de centros y una cadena de autoridades. Esto supone un cambio respecto de las nociones de HITS de centros y autoridades basadas en una relación de refuerzo mutuo.
Propiedades
SALSA puede verse como una mejora de HITS.
Es computacionalmente más ligero, ya que su clasificación es equivalente a una clasificación ponderada de entrada/salida. El costo computacional del algoritmo es un factor crucial, ya que HITS y SALSA se calculan en el momento de la consulta y, por lo tanto, pueden afectar significativamente el tiempo de respuesta de un motor de búsqueda. Esto debe contrastarse con algoritmos independientes de la consulta, como PageRank, que se pueden calcular sin conexión.
SALSA es menos vulnerable al efecto de la Comunidad Muy Unida (TKC) que HITS. Una TKC es una estructura topológica dentro de la Web que consiste en un pequeño conjunto de páginas altamente interconectadas. Se sabe que la presencia de TKC en un subgrafo enfocado afecta negativamente la detección de autoridades significativas por parte de HITS.
La red social Twitter utiliza un algoritmo estilo SALSA para sugerir cuentas a seguir.
Referencias
- ^ Wang, Ziyang. "Algoritmos mejorados basados en enlaces para clasificar páginas web" (PDF) . cs.nyu.edu . Universidad de Nueva York, Departamento de Ciencias de la Computación . Consultado el 7 de agosto de 2023 .
- Lempel, R.; Moran S. (abril de 2001). "SALSA: El enfoque estocástico para el análisis de la estructura de enlaces". ACM Transactions on Information Systems . 19 (2): 131–160. CiteSeerX 10.1.1.38.5859 . doi :10.1145/382979.383041. S2CID 9607841.