Rastreador enfocado

Un rastreador enfocado es un rastreador web que recopila páginas web que satisfacen alguna propiedad específica, priorizando cuidadosamente la frontera de rastreo y administrando el proceso de exploración de hipervínculos. ^[1] Algunos predicados pueden basarse en propiedades simples, deterministas y superficiales. Por ejemplo, la misión de un rastreador puede ser rastrear páginas solo del dominio .jp. Otros predicados pueden ser más suaves o comparativos, por ejemplo, "rastrear páginas sobre béisbol" o "rastrear páginas con un PageRank alto ". Una propiedad de página importante pertenece a los temas, lo que lleva a "rastreadores temáticos". Por ejemplo, un rastreador temático puede implementarse para recopilar páginas sobre energía solar, gripe porcina o incluso conceptos más abstractos como controversia ^[2] mientras se minimizan los recursos gastados en obtener páginas sobre otros temas. La administración de la frontera de rastreo puede no ser el único dispositivo utilizado por los rastreadores enfocados; pueden usar un directorio web , un índice de texto web , vínculos de retroceso o cualquier otro artefacto web.

Un rastreador enfocado debe predecir la probabilidad de que una página no visitada sea relevante antes de descargarla realmente. ^[3] Un posible predictor es el texto de anclaje de los enlaces; este fue el enfoque adoptado por Pinkerton ^[4] en un rastreador desarrollado en los primeros días de la Web. El rastreo temático fue introducido por primera vez por Filippo Menczer . ^[5]^[6] Chakrabarti et al. acuñaron el término "rastreador enfocado" y utilizaron un clasificador de texto ^[7] para priorizar la frontera de rastreo. Andrew McCallum y coautores también utilizaron el aprendizaje de refuerzo ^[8]^[9] para enfocar a los rastreadores. Diligenti et al. rastrearon el gráfico de contexto ^[10] que conduce a las páginas relevantes y su contenido de texto, para entrenar a los clasificadores. Se ha utilizado una forma de aprendizaje de refuerzo en línea, junto con características extraídas del árbol DOM y el texto de las páginas enlazadas, para entrenar continuamente ^[11] a los clasificadores que guían el rastreo. En una revisión de los algoritmos de rastreo temático, Menczer et al. ^[12] muestran que estas estrategias simples son muy efectivas para rastreos cortos, mientras que técnicas más sofisticadas como el aprendizaje de refuerzo y la adaptación evolutiva pueden dar el mejor rendimiento en rastreos más largos. Se ha demostrado que la información espacial es importante para clasificar documentos web. ^[13]

Otro tipo de rastreadores enfocados es el rastreador enfocado semántico, que hace uso de ontologías de dominio para representar mapas temáticos y vincular páginas web con conceptos ontológicos relevantes para fines de selección y categorización. ^[14] Además, las ontologías se pueden actualizar automáticamente en el proceso de rastreo. Dong et al. ^[15] presentó un rastreador basado en aprendizaje de ontologías que utiliza una máquina de vectores de soporte para actualizar el contenido de los conceptos ontológicos al rastrear páginas web.

Los rastreadores también se centran en propiedades de página distintas de los temas. Cho et al. ^[16] estudian una variedad de políticas de priorización de rastreo y sus efectos en la popularidad de los enlaces de las páginas obtenidas. Najork y Weiner ^[17] muestran que el rastreo en amplitud , comenzando por las páginas semilla populares, conduce a la recopilación de páginas de PageRank alto al principio del rastreo. Eiron et al. ^[18] han informado de refinamientos que implican la detección de páginas obsoletas (mal mantenidas). Meusel et al. ^[19] han introducido un tipo de rastreador centrado en la semántica, que hace uso de la idea del aprendizaje de refuerzo , utilizando algoritmos de clasificación basados en línea en combinación con una estrategia de selección basada en bandidos para rastrear de manera eficiente páginas con lenguajes de marcado como RDFa , Microformats y Microdata .

El rendimiento de un rastreador enfocado depende de la riqueza de enlaces en el tema específico que se busca, y el rastreo enfocado generalmente se basa en un motor de búsqueda web general para proporcionar puntos de partida. Davison ^[20] presentó estudios sobre enlaces web y texto que explican por qué el rastreo enfocado tiene éxito en temas amplios; Chakrabarti et al. presentaron estudios similares ^[21] . La selección de semillas puede ser importante para los rastreadores enfocados e influir significativamente en la eficiencia del rastreo. ^[22] Una estrategia de lista blanca es comenzar el rastreo enfocado a partir de una lista de URL de semillas de alta calidad y limitar el alcance del rastreo a los dominios de estas URL. Estas semillas de alta calidad deben seleccionarse en función de una lista de candidatos a URL que se acumulan durante un período suficientemente largo de rastreo web general. La lista blanca debe actualizarse periódicamente después de su creación.

Referencias

^ Soumen Chakrabarti, Rastreo web enfocado, en la Enciclopedia de sistemas de bases de datos.
^ Temas polémicos
^ Mejora del rendimiento de los rastreadores web enfocados [1], Sotiris Batsakis, Eurípides GM Petrakis, Evangelos Milios, 9 de abril de 2012
^ Pinkerton, B. (1994). Encontrar lo que la gente quiere: experiencias con WebCrawler. En Actas de la Primera Conferencia Mundial sobre la Web, Ginebra, Suiza.
^ Menczer, F. (1997). ARACHNID: Agentes de recuperación adaptativos que eligen vecindarios heurísticos para el descubrimiento de información Archivado el 21 de diciembre de 2012 en Wayback Machine . En D. Fisher, ed., Actas de la 14.ª Conferencia internacional sobre aprendizaje automático (ICML97). Morgan Kaufmann.
^ Menczer, F. y Belew, RK (1998). Agentes de información adaptativos en entornos textuales distribuidos Archivado el 21 de diciembre de 2012 en Wayback Machine . En K. Sycara y M. Wooldridge (eds.) Actas de la 2.ª Conferencia internacional sobre agentes autónomos (Agents '98). ACM Press.
^ Rastreo enfocado: un nuevo enfoque para el descubrimiento de recursos web específicos de cada tema, Soumen Chakrabarti, Martin van den Berg y Byron Dom, WWW 1999.
^ Un enfoque de aprendizaje automático para construir motores de búsqueda específicos de dominio, Andrew McCallum, Kamal Nigam, Jason Rennie y Kristie Seymore, IJCAI 1999.
^ Uso del aprendizaje por refuerzo para navegar en la web de manera eficiente, Jason Rennie y Andrew McCallum, ICML 1999.
^ Diligenti, M., Coetzee, F., Lawrence, S., Giles, CL y Gori, M. (2000). Rastreo enfocado usando gráficos de contexto Archivado el 7 de marzo de 2008 en Wayback Machine . En Actas de la 26.ª Conferencia Internacional sobre Bases de Datos de Gran Tamaño (VLDB), páginas 527-534, El Cairo, Egipto.
^ Rastreo enfocado acelerado a través de comentarios de relevancia en línea, Soumen Chakrabarti, Kunal Punera y Mallela Subramanyam, WWW 2002.
^ Menczer, F., Pant, G. y Srinivasan, P. (2004). Topical Web Crawlers: Evaluación de algoritmos adaptativos. ACM Trans. on Internet Technology 4(4): 378–419.
^ Reconocimiento de áreas comunes en una página web utilizando información visual: una posible aplicación en una clasificación de páginas, Milos Kovacevic, Michelangelo Diligenti, Marco Gori, Veljko Milutinovic, Data Mining, 2002. ICDM 2003.
^ Dong, H., Hussain, FK, Chang, E.: Estado del arte en rastreadores centrados en la semántica. Ciencia computacional y sus aplicaciones – ICCSA 2009. Springer-Verlag, Seúl, Corea (julio de 2009) págs. 910-924
^ Dong, H., Hussain, FK: SOF: un rastreador centrado en el aprendizaje de ontologías semisupervisado. Concurrencia y computación: práctica y experiencia. 25(12) (agosto de 2013) págs. 1623-1812
^ Junghoo Cho, Hector Garcia-Molina, Lawrence Page: Rastreo eficiente mediante ordenación de URL. Redes de computadoras 30(1-7): 161-172 (1998)
^ Marc Najork, Janet L. Wiener: El rastreo en amplitud produce páginas de alta calidad. WWW 2001: 114-118
^ Nadav Eiron, Kevin S. McCurley, John A. Tomlin: Clasificación de la frontera web. WWW 2004: 309-318.
^ Meusel R., Mika P., Blanco R. (2014). Rastreo enfocado para datos estructurados. Conferencia internacional ACM sobre gestión de la información y el conocimiento, páginas 1039-1048.
^ Brian D. Davison: Localidad temática en la Web. SIGIR 2000: 272-279.
^ Soumen Chakrabarti, Mukul Joshi, Kunal Punera, David M. Pennock: La estructura de temas generales en la Web. WWW 2002: 251-262.
^ Jian Wu, Pradeep Teregowda, Juan Pablo Fernández Ramírez, Prasenjit Mitra, Shuyi Zheng, C. Lee Giles, La evolución de una estrategia de rastreo para un motor de búsqueda de documentos académicos: listas blancas y listas negras, en actas de la 3.ª Conferencia Anual de Ciencia Web de la ACM, páginas 340-343, Evanston, IL, EE. UU., junio de 2012.