Araña web

La operación normal es que se le da al programa un grupo de direcciones iniciales, la araña descarga estas direcciones, analiza las páginas y busca enlaces a páginas nuevas.Luego descarga estas páginas nuevas, analiza sus enlaces, y así sucesivamente.A medida que el rastreador visita estas direcciones URL, identifica todos los hipervínculos en la página y los añade a la lista de URL para visitar, llamada la frontera de rastreo .Si el rastreador está realizando el archivo de los sitios web se copia y guarda la información a medida que avanza.La alta tasa de cambio puede implicar a las páginas que podría ya haber sido actualizados o incluso eliminado.Un rastreador debe elegir con cuidado en cada paso qué página siguiente visitar siempre.Como rastreador siempre se descarga sólo una fracción de las páginas web, es altamente deseable para la fracción descargado poder contener las páginas más relevantes y no sólo una muestra aleatoria de la web.Abiteboul diseñó una estrategia de rastreo basada en un algoritmo llamado OPIC (On-line Page Importance Computation).Es similar al cálculo del PageRank, pero es más rápido y sólo se realiza en un paso.Sin embargo, no hubo comparación con otras estrategias ni experimentos en la web real.Uno puede extraer buenas semillas de un gráfico web previamente rastreado utilizando este nuevo método.Un rastreador puede querer buscar sólo páginas HTML y evitar todos los demás tipos MIME.Esta estrategia puede hacer que se omitan involuntariamente numerosos recursos web HTML.Esta estrategia no es fiable si el sitio utiliza la reescritura de URLs para simplificarlas.Algunos rastreadores pretenden descargar/cargar tantos recursos como sea posible de un sitio web concreto.[10]​ Por ejemplo, cuando se le da una URL inicial como http://llama.org/hamster/monkey/page.html, intentará rastrear /hamster/monkey/, /hamster/ y /.Otros motores de búsqueda académica son Google Scholar y Microsoft Academic Search, etc.Dado que la mayoría de los documentos académicos se publican en formato PDF, este tipo de rastreador está especialmente interesado en rastrear archivos PDF, PostScript y Microsoft Word, incluidos sus formatos comprimidos.Esto aumenta el número total de artículos, pero una parte importante puede no ofrecer descargas gratuitas en PDF.Para cuando un rastreador de la web ha terminado su rastreo, pueden haber ocurrido muchos eventos, incluyendo creaciones, actualizaciones y eliminaciones.[20]​ Novedad: Es una medida binaria que indica si la copia local es exacta o no.La antigüedad de una página p en el repositorio a tiempo t se define como: Coffman et al.Para mejorar la novedad, el rastreador debe penalizar los elementos que cambian con demasiada frecuencia.Los motores de búsqueda comerciales, como Google, Ask Jeeves, MSN y Yahoo!Es poco probable que los Spambots y otros rastreadores web malintencionados coloquen información de identificación en el campo del agente de usuario, o pueden enmascarar su identidad como un navegador u otro rastreador conocido.[34]​ Estas páginas normalmente sólo son accesibles mediante el envío de consultas a una base de datos, y los rastreadores normales no pueden encontrar estas páginas si no hay enlaces que apunten a ellas.Se pueden adoptar enfoques estratégicos para dirigirse al contenido profundo de la web.Con una técnica llamada screen scraping, se puede personalizar un software especializado para consultar automática y repetidamente un determinado formulario web con la intención de agregar los datos resultantes.[36]​ Las páginas construidas en AJAX son algunas de las que causan problemas a los rastreadores web.Google ha propuesto un formato de llamadas AJAX que su bot puede reconocer e indexar.
Arquitectura de alto nivel de un rastreador web estándar
Un mensaje que indica que el rastreador no puede realizar su trabajo debido a robots.txt. La captura de pantalla es de Wayback Machine intentando rastrear Facebook.com