Un rastreador enfocado es un rastreador web que recopila páginas web que satisfacen alguna propiedad específica, priorizando cuidadosamente la frontera de rastreo y administrando el proceso de exploración de hipervínculos. [1] Algunos predicados pueden basarse en propiedades simples, deterministas y superficiales. Por ejemplo, la misión de un rastreador puede ser rastrear páginas solo del dominio .jp. Otros predicados pueden ser más suaves o comparativos, por ejemplo, "rastrear páginas sobre béisbol" o "rastrear páginas con un PageRank alto ". Una propiedad de página importante pertenece a los temas, lo que lleva a "rastreadores temáticos". Por ejemplo, un rastreador temático puede implementarse para recopilar páginas sobre energía solar, gripe porcina o incluso conceptos más abstractos como controversia [2] mientras se minimizan los recursos gastados en obtener páginas sobre otros temas. La administración de la frontera de rastreo puede no ser el único dispositivo utilizado por los rastreadores enfocados; pueden usar un directorio web , un índice de texto web , vínculos de retroceso o cualquier otro artefacto web.
Un rastreador enfocado debe predecir la probabilidad de que una página no visitada sea relevante antes de descargarla realmente. [3] Un posible predictor es el texto de anclaje de los enlaces; este fue el enfoque adoptado por Pinkerton [4] en un rastreador desarrollado en los primeros días de la Web. El rastreo temático fue introducido por primera vez por Filippo Menczer . [5] [6] Chakrabarti et al. acuñaron el término "rastreador enfocado" y utilizaron un clasificador de texto [7] para priorizar la frontera de rastreo. Andrew McCallum y coautores también utilizaron el aprendizaje de refuerzo [8] [9] para enfocar a los rastreadores. Diligenti et al. rastrearon el gráfico de contexto [10] que conduce a las páginas relevantes y su contenido de texto, para entrenar a los clasificadores. Se ha utilizado una forma de aprendizaje de refuerzo en línea, junto con características extraídas del árbol DOM y el texto de las páginas enlazadas, para entrenar continuamente [11] a los clasificadores que guían el rastreo. En una revisión de los algoritmos de rastreo temático, Menczer et al. [12] muestran que estas estrategias simples son muy efectivas para rastreos cortos, mientras que técnicas más sofisticadas como el aprendizaje de refuerzo y la adaptación evolutiva pueden dar el mejor rendimiento en rastreos más largos. Se ha demostrado que la información espacial es importante para clasificar documentos web. [13]
Otro tipo de rastreadores enfocados es el rastreador enfocado semántico, que hace uso de ontologías de dominio para representar mapas temáticos y vincular páginas web con conceptos ontológicos relevantes para fines de selección y categorización. [14] Además, las ontologías se pueden actualizar automáticamente en el proceso de rastreo. Dong et al. [15] presentó un rastreador basado en aprendizaje de ontologías que utiliza una máquina de vectores de soporte para actualizar el contenido de los conceptos ontológicos al rastrear páginas web.
Los rastreadores también se centran en propiedades de página distintas de los temas. Cho et al. [16] estudian una variedad de políticas de priorización de rastreo y sus efectos en la popularidad de los enlaces de las páginas obtenidas. Najork y Weiner [17] muestran que el rastreo en amplitud , comenzando por las páginas semilla populares, conduce a la recopilación de páginas de PageRank alto al principio del rastreo. Eiron et al. [18] han informado de refinamientos que implican la detección de páginas obsoletas (mal mantenidas). Meusel et al. [19] han introducido un tipo de rastreador centrado en la semántica, que hace uso de la idea del aprendizaje de refuerzo , utilizando algoritmos de clasificación basados en línea en combinación con una estrategia de selección basada en bandidos para rastrear de manera eficiente páginas con lenguajes de marcado como RDFa , Microformats y Microdata .
El rendimiento de un rastreador enfocado depende de la riqueza de enlaces en el tema específico que se busca, y el rastreo enfocado generalmente se basa en un motor de búsqueda web general para proporcionar puntos de partida. Davison [20] presentó estudios sobre enlaces web y texto que explican por qué el rastreo enfocado tiene éxito en temas amplios; Chakrabarti et al. presentaron estudios similares [21] . La selección de semillas puede ser importante para los rastreadores enfocados e influir significativamente en la eficiencia del rastreo. [22] Una estrategia de lista blanca es comenzar el rastreo enfocado a partir de una lista de URL de semillas de alta calidad y limitar el alcance del rastreo a los dominios de estas URL. Estas semillas de alta calidad deben seleccionarse en función de una lista de candidatos a URL que se acumulan durante un período suficientemente largo de rastreo web general. La lista blanca debe actualizarse periódicamente después de su creación.