Rastreador web

Un rastreador web , a veces llamado araña o spiderbot y a menudo abreviado como rastreador , es un robot de Internet que navega sistemáticamente por la World Wide Web y que normalmente es operado por motores de búsqueda con el fin de indexar la web ( web spidering ). ^[1]

Los motores de búsqueda web y algunos otros sitios web utilizan software de rastreo o araña web para actualizar su contenido web o índices del contenido web de otros sitios. Los rastreadores web copian páginas para que las procese un motor de búsqueda, que indexa las páginas descargadas para que los usuarios puedan buscar de manera más eficiente.

Los rastreadores consumen recursos en los sistemas visitados y, a menudo, visitan sitios sin que se les solicite. Los problemas de programación, carga y "cortesía" entran en juego cuando se accede a grandes colecciones de páginas. Existen mecanismos para que los sitios públicos que no desean ser rastreados lo hagan saber al agente de rastreo. Por ejemplo, incluir un robots.txtarchivo puede solicitar a los bots que indexen solo partes de un sitio web o nada en absoluto.

El número de páginas de Internet es extremadamente grande; Incluso los rastreadores más grandes no logran crear un índice completo. Por esta razón, los motores de búsqueda luchaban por ofrecer resultados de búsqueda relevantes en los primeros años de la World Wide Web, antes del año 2000. Hoy en día, los resultados relevantes se obtienen casi instantáneamente.

Los rastreadores pueden validar hipervínculos y código HTML . También se pueden utilizar para web scraping y programación basada en datos .

Nomenclatura

Un rastreador web también se conoce como araña , ^[2] hormiga , indexador automático , ^[3] o (en el contexto del software FOAF ) cortador web . ^[4]

Descripción general

Un rastreador web comienza con una lista de URL para visitar. Esas primeras URL se denominan semillas . A medida que el rastreador visita estas URL, al comunicarse con los servidores web que responden a esas URL, identifica todos los hipervínculos en las páginas web recuperadas y los agrega a la lista de URL para visitar, denominada frontera de rastreo . Las URL de la frontera se visitan de forma recursiva según un conjunto de políticas. Si el rastreador realiza el archivado de sitios web (o archivado web ), copia y guarda la información a medida que avanza. Los archivos generalmente se almacenan de tal manera que se puedan ver, leer y navegar como si estuvieran en la web en vivo, pero se conservan como "instantáneas". ^[5]

El archivo se conoce como repositorio y está diseñado para almacenar y administrar la colección de páginas web . El repositorio sólo almacena páginas HTML y estas páginas se almacenan como archivos distintos. Un repositorio es similar a cualquier otro sistema que almacene datos, como una base de datos moderna. La única diferencia es que un repositorio no necesita todas las funciones que ofrece un sistema de base de datos. El repositorio almacena la versión más reciente de la página web recuperada por el rastreador. ^{[ cita necesaria ]}

El gran volumen implica que el rastreador sólo puede descargar un número limitado de páginas web en un tiempo determinado, por lo que necesita priorizar sus descargas. La alta tasa de cambio puede implicar que las páginas ya se hayan actualizado o incluso eliminado.

La cantidad de posibles URL rastreadas generadas por el software del lado del servidor también ha dificultado que los rastreadores web eviten recuperar contenido duplicado . Existen infinitas combinaciones de parámetros HTTP GET (basados en URL), de las cuales sólo una pequeña selección devolverá contenido único. Por ejemplo, una simple galería de fotografías en línea puede ofrecer tres opciones a los usuarios, según lo especificado mediante los parámetros HTTP GET en la URL. Si existen cuatro formas de ordenar imágenes, tres opciones de tamaño de miniatura , dos formatos de archivo y una opción para desactivar el contenido proporcionado por el usuario, entonces se puede acceder al mismo conjunto de contenido con 48 URL diferentes, todas las cuales pueden estar vinculadas en el sitio. Esta combinación matemática crea un problema para los rastreadores, ya que deben clasificar infinitas combinaciones de cambios de script relativamente menores para recuperar contenido único.

Como Edwards et al. señaló: "Dado que el ancho de banda para realizar rastreos no es infinito ni gratuito, se está volviendo esencial rastrear la Web no sólo de una manera escalable, sino también eficiente, si se quiere mantener alguna medida razonable de calidad o frescura". ^[6] Un rastreador debe elegir cuidadosamente en cada paso qué páginas visitará a continuación.

Política de rastreo

El comportamiento de un rastreador web es el resultado de una combinación de políticas: ^[7]

una política de selección que indica las páginas a descargar,
una política de revisita que indica cuándo verificar los cambios en las páginas,
una política de cortesía que establece cómo evitar la sobrecarga de los sitios web .
una política de paralelización que establece cómo coordinar los rastreadores web distribuidos.

Política de selección

Dado el tamaño actual de la Web, incluso los grandes motores de búsqueda cubren sólo una parte de la parte disponible públicamente. Un estudio de 2009 demostró que incluso los motores de búsqueda a gran escala no indexan más del 40% al 70% de la Web indexable; ^[8] un estudio previo realizado por Steve Lawrence y Lee Giles demostró que ningún motor de búsqueda indexó más del 16% de la Web en 1999. ^[9] Como un rastreador siempre descarga sólo una fracción de las páginas Web , es muy deseable para el fracción descargada para contener las páginas más relevantes y no sólo una muestra aleatoria de la Web.

Esto requiere una métrica de importancia para priorizar las páginas web. La importancia de una página está en función de su calidad intrínseca , de su popularidad en términos de enlaces o de visitas, e incluso de su URL (este último es el caso de los buscadores verticales restringidos a un único dominio de primer nivel , o de los buscadores restringidos a un sitio web fijo). Diseñar una buena política de selección tiene una dificultad añadida: debe trabajar con información parcial, ya que durante el rastreo no se conoce el conjunto completo de páginas web.

Junghoo Cho et al. realizó el primer estudio sobre políticas de programación de rastreo. Su conjunto de datos fue un rastreo de 180.000 páginas del stanford.edudominio, en el que se realizó una simulación de rastreo con diferentes estrategias. ^[10] Las métricas de pedido probadas fueron cálculos de amplitud primero , recuento de vínculos de retroceso y cálculos parciales de PageRank . Una de las conclusiones fue que si el rastreador quiere descargar páginas con Pagerank alto al principio del proceso de rastreo, entonces la estrategia de Pagerank parcial es mejor, seguida de la amplitud primero y el recuento de vínculos de retroceso. Sin embargo, estos resultados son para un solo dominio. Cho también escribió su tesis doctoral en Stanford sobre rastreo web. ^[11]

Najork y Wiener realizaron un rastreo real en 328 millones de páginas, utilizando el orden en amplitud. ^[12] Descubrieron que un rastreo de amplitud captura páginas con Pagerank alto al principio del rastreo (pero no compararon esta estrategia con otras estrategias). La explicación dada por los autores para este resultado es que "las páginas más importantes tienen muchos enlaces desde numerosos hosts, y esos enlaces se encontrarán temprano, independientemente de en qué host o página se origine el rastreo".

Abiteboul diseñó una estrategia de rastreo basada en un algoritmo llamado OPIC (On-line Page Importance Computation). ^[13] En OPIC, a cada página se le asigna una suma inicial de "efectivo" que se distribuye equitativamente entre las páginas a las que apunta. Es similar al cálculo de PageRank, pero es más rápido y solo se realiza en un paso. Un rastreador impulsado por OPIC descarga primero las páginas en la frontera de rastreo con mayores cantidades de "efectivo". Los experimentos se llevaron a cabo en un gráfico sintético de 100.000 páginas con una distribución de ley de potencia de enlaces entrantes. Sin embargo, no hubo comparación con otras estrategias ni experimentos en la Web real.

Boldi et al. utilizó simulación en subconjuntos de la Web de 40 millones de páginas del .itdominio y 100 millones de páginas del rastreo de WebBase, probando primero la amplitud contra la profundidad, el orden aleatorio y una estrategia omnisciente. La comparación se basó en qué tan bien el PageRank calculado en un rastreo parcial se aproxima al valor real de PageRank. Algunas visitas que acumulan PageRank muy rápidamente (en particular, la visita de amplitud y la visita omnisciente) proporcionan aproximaciones progresivas muy pobres. ^[14]^[15]

Baeza-Yates et al. utilizó simulación en dos subconjuntos de la Web de 3 millones de páginas del dominio .gry .cl, probando varias estrategias de rastreo. ^[16] Demostraron que tanto la estrategia OPIC como una estrategia que utiliza la longitud de las colas por sitio son mejores que el rastreo primero en amplitud , y que también es muy efectivo utilizar un rastreo previo, cuando esté disponible, para guiar el actual.

Daneshpajouh et al. diseñó un algoritmo comunitario para descubrir buenas semillas. ^[17] Su método rastrea páginas web con PageRank alto de diferentes comunidades en menos iteraciones en comparación con el rastreo a partir de semillas aleatorias. Se puede extraer buena semilla de un gráfico web previamente rastreado utilizando este nuevo método. Con estas semillas, un nuevo rastreo puede resultar muy eficaz.

Restringir enlaces seguidos

Es posible que un rastreador sólo desee buscar páginas HTML y evitar todos los demás tipos MIME . Para solicitar solo recursos HTML, un rastreador puede realizar una solicitud HTTP HEAD para determinar el tipo MIME de un recurso web antes de solicitar el recurso completo con una solicitud GET. Para evitar realizar numerosas solicitudes HEAD, un rastreador puede examinar la URL y solo solicitar un recurso si la URL termina con ciertos caracteres como .html, .htm, .asp, .aspx, .php, .jsp, .jspx o una barra diagonal. . Esta estrategia puede provocar que se omitan involuntariamente numerosos recursos web HTML.

Algunos rastreadores también pueden evitar solicitar recursos que tengan un "?" en ellos (se producen dinámicamente) para evitar trampas de arañas que puedan hacer que el rastreador descargue una cantidad infinita de URL de un sitio web. Esta estrategia no es confiable si el sitio utiliza la reescritura de URL para simplificar sus URL.

Normalización de URL

Los rastreadores suelen realizar algún tipo de normalización de URL para evitar rastrear el mismo recurso más de una vez. El término normalización de URL , también llamado canonicalización de URL , se refiere al proceso de modificar y estandarizar una URL de manera consistente. Hay varios tipos de normalización que se pueden realizar, incluida la conversión de URL a minúsculas y la eliminación de "." y "..", y agregar barras diagonales al componente de ruta no vacía. ^[18]

Arrastre por camino ascendente

Algunos rastreadores intentan descargar/cargar tantos recursos como sea posible desde un sitio web en particular. Por lo tanto , se introdujo un rastreador de ruta ascendente que ascendería a cada ruta en cada URL que pretende rastrear. ^[19] Por ejemplo, cuando se le proporciona una URL inicial de http://llama.org/hamster/monkey/page.html, intentará rastrear /hamster/monkey/, /hamster/ y /. Descubrieron que un rastreador de ruta ascendente era muy eficaz para encontrar recursos aislados o recursos para los cuales no se habría encontrado ningún enlace entrante en un rastreo normal.

rastreo enfocado

La importancia de una página para un rastreador también se puede expresar en función de la similitud de una página con una consulta determinada. Los rastreadores web que intentan descargar páginas similares entre sí se denominan rastreadores enfocados o rastreadores temáticos . Los conceptos de rastreo tópico y enfocado fueron introducidos por primera vez por Filippo Menczer ^[20]^[21] y por Soumen Chakrabarti et al. ^[22]

El principal problema del rastreo enfocado es que en el contexto de un rastreador web, nos gustaría poder predecir la similitud del texto de una página determinada con la consulta antes de descargar la página. Un posible predictor es el texto ancla de los enlaces; este fue el enfoque adoptado por Pinkerton ^[23] en el primer rastreador web de los primeros días de la Web. Diligenti et al. ^[24] proponen utilizar el contenido completo de las páginas ya visitadas para inferir la similitud entre la consulta impulsora y las páginas que aún no han sido visitadas. El rendimiento de un rastreo enfocado depende principalmente de la riqueza de enlaces en el tema específico que se busca, y un rastreo enfocado generalmente depende de un motor de búsqueda web general para proporcionar puntos de partida.

Rastreador centrado en lo académico

Un ejemplo de rastreadores enfocados son los rastreadores académicos, que rastrean documentos académicos relacionados con acceso gratuito, como el citeseerxbot , que es el rastreador del motor de búsqueda CiteSeer ^X.Otros motores de búsqueda académica son Google Scholar y Microsoft Academic Search , etc. Debido a que la mayoría de los artículos académicos se publican en formatos PDF , este tipo de rastreador está particularmente interesado en rastrear archivos PDF, PostScript y Microsoft Word , incluidos sus formatos comprimidos . Debido a esto, los rastreadores generales de código abierto, como Heritrix , deben personalizarse para filtrar otros tipos MIME , o se debe utilizar un middleware para extraer estos documentos e importarlos a la base de datos y al repositorio de rastreo enfocados. ^[25] Identificar si estos documentos son académicos o no es un desafío y puede agregar una sobrecarga significativa al proceso de rastreo, por lo que esto se realiza como un proceso posterior al rastreo utilizando aprendizaje automático o algoritmos de expresión regular . Estos documentos académicos generalmente se obtienen de las páginas de inicio de facultades y estudiantes o de las páginas de publicaciones de institutos de investigación. Debido a que los documentos académicos representan sólo una pequeña fracción de todas las páginas web, una buena selección de semillas es importante para aumentar la eficiencia de estos rastreadores web. ^[26] Otros rastreadores académicos pueden descargar archivos de texto sin formato y HTML , que contienen metadatos de artículos académicos, como títulos, artículos y resúmenes. Esto aumenta el número total de artículos, pero es posible que una fracción significativa no proporcione descargas gratuitas de PDF.

Rastreador centrado en semántica

Otro tipo de rastreadores enfocados son los rastreadores enfocados semánticos, que utilizan ontologías de dominio para representar mapas temáticos y vincular páginas web con conceptos ontológicos relevantes para fines de selección y categorización. ^[27] Además, las ontologías se pueden actualizar automáticamente en el proceso de rastreo. Dong et al. ^[28] introdujeron un rastreador basado en el aprendizaje de ontologías que utiliza una máquina de vectores de soporte para actualizar el contenido de los conceptos ontológicos al rastrear páginas web.

Política de revisita

La Web tiene una naturaleza muy dinámica y rastrear una fracción de la Web puede llevar semanas o meses. Cuando un rastreador web finaliza su rastreo, es posible que hayan ocurrido muchos eventos, incluidas creaciones, actualizaciones y eliminaciones.

Desde el punto de vista del motor de búsqueda, existe un costo asociado con no detectar un evento y, por lo tanto, tener una copia desactualizada de un recurso. Las funciones de costos más utilizadas son frescura y edad. ^[29]

Frescura : Esta es una medida binaria que indica si la copia local es precisa o no. La frescura de una página p en el repositorio en el momento t se define como:

F_{p}(t)={\begin{cases}1&{\rm {if}}~p~{\rm {~es~igual~a~la~copia~local~en~tiempo}} ~t\\0&{\rm {de lo contrario}}\end{casos}}

Edad : Esta es una medida que indica qué tan desactualizada está la copia local. La antigüedad de una página p en el repositorio, en el momento t , se define como:

A_{p}(t)={\begin{casos}0&{\rm {if}}~p~{\rm {~no~se~modifica~en~tiempo}}~t\\t- {\rm {modificación~tiempo~de}}~p&{\rm {de lo contrario}}\end{casos}}

Coffman et al. trabajaron con una definición del objetivo de un rastreador web que es equivalente a frescura, pero usan una redacción diferente: proponen que un rastreador debe minimizar la fracción de tiempo que las páginas permanecen desactualizadas. También observaron que el problema del rastreo web se puede modelar como un sistema de sondeo de un solo servidor y múltiples colas, en el que el rastreador web es el servidor y los sitios web son las colas. Las modificaciones de página son la llegada de los clientes y los tiempos de cambio son el intervalo entre los accesos a la página de un único sitio web. Según este modelo, el tiempo medio de espera de un cliente en el sistema de votación es equivalente a la edad promedio del rastreador web. ^[30]

El objetivo del rastreador es mantener la frescura promedio de las páginas de su colección lo más alta posible o mantener la antigüedad promedio de las páginas lo más baja posible. Estos objetivos no son equivalentes: en el primer caso, al rastreador solo le preocupa cuántas páginas están desactualizadas, mientras que en el segundo caso, al rastreador le preocupa la antigüedad de las copias locales de las páginas.

Cho y García-Molina estudiaron dos políticas simples de revisión: ^[31]

Política uniforme: implica volver a visitar todas las páginas de la colección con la misma frecuencia, independientemente de sus tasas de cambio.
Política proporcional: Implica volver a visitar con más frecuencia las páginas que cambian con más frecuencia. La frecuencia de visitas es directamente proporcional a la frecuencia de cambio (estimada).

En ambos casos, el orden de rastreo repetido de las páginas se puede realizar de forma aleatoria o fija.

Cho y García-Molina demostraron el sorprendente resultado de que, en términos de frescura promedio, la política uniforme supera a la política proporcional tanto en una Web simulada como en un rastreo Web real. Intuitivamente, el razonamiento es que, como los rastreadores web tienen un límite en la cantidad de páginas que pueden rastrear en un período de tiempo determinado, (1) asignarán demasiados rastreos nuevos a páginas que cambian rápidamente a expensas de actualizar páginas con menos frecuencia, y (2) la frescura de las páginas que cambian rápidamente dura menos tiempo que la de las páginas que cambian con menos frecuencia. En otras palabras, una política proporcional asigna más recursos al rastreo de páginas que se actualizan con frecuencia, pero experimenta menos tiempo de actualización general de ellas.

Para mejorar la frescura, el rastreador debería penalizar los elementos que cambian con demasiada frecuencia. ^[32] La política óptima de revisión no es ni la política uniforme ni la política proporcional. El método óptimo para mantener alta la frescura promedio incluye ignorar las páginas que cambian con demasiada frecuencia, y el método óptimo para mantener baja la edad promedio es utilizar frecuencias de acceso que aumenten de manera monótona (y sublineal) con la tasa de cambio de cada página. En ambos casos, lo óptimo está más cerca de la política uniforme que de la política proporcional: como Coffman et al. Tenga en cuenta que "para minimizar el tiempo de obsolescencia esperado, los accesos a cualquier página en particular deben mantenerse lo más uniformemente posible". ^[30] En general, no es posible obtener fórmulas explícitas para la política de revisitas, pero se obtienen numéricamente, ya que dependen de la distribución de los cambios de página. Cho y García-Molina muestran que la distribución exponencial se ajusta bien para describir cambios de página, ^[32] mientras que Ipeirotis et al. Muestre cómo utilizar herramientas estadísticas para descubrir parámetros que afectan esta distribución. ^[33] Las políticas de revisita aquí consideradas consideran que todas las páginas son homogéneas en términos de calidad ("todas las páginas de la Web valen lo mismo"), algo que no es un escenario realista, por lo que se debe obtener más información sobre la calidad de la página Web. incluirse para lograr una mejor política de rastreo.

Política de cortesía

Los rastreadores pueden recuperar datos mucho más rápido y con mayor profundidad que los buscadores humanos, por lo que pueden tener un impacto devastador en el rendimiento de un sitio. Si un único rastreador realiza varias solicitudes por segundo y/o descarga archivos grandes, un servidor puede tener dificultades para mantenerse al día con las solicitudes de varios rastreadores.

Como señaló Koster, el uso de rastreadores web es útil para una serie de tareas, pero tiene un precio para la comunidad en general. ^[34] Los costos de utilizar rastreadores web incluyen:

recursos de red, ya que los rastreadores requieren un ancho de banda considerable y operan con un alto grado de paralelismo durante un largo período de tiempo;
sobrecarga del servidor, especialmente si la frecuencia de acceso a un servidor determinado es demasiado alta;
rastreadores mal escritos, que pueden bloquear servidores o enrutadores, o descargar páginas que no pueden manejar; y
rastreadores personales que, si son implementados por demasiados usuarios, pueden interrumpir las redes y los servidores web.

Una solución parcial a estos problemas es el protocolo de exclusión de robots , también conocido como protocolo robots.txt, que es un estándar para que los administradores indiquen a qué partes de sus servidores web no deben acceder los rastreadores. ^[35] Este estándar no incluye una sugerencia para el intervalo de visitas al mismo servidor, aunque este intervalo es la forma más efectiva de evitar la sobrecarga del servidor. Recientemente, motores de búsqueda comerciales como Google , Ask Jeeves , MSN y Yahoo! La búsqueda puede utilizar un parámetro adicional "Retraso de rastreo:" en el archivo robots.txt para indicar la cantidad de segundos de retraso entre solicitudes.

El primer intervalo propuesto entre cargas de páginas sucesivas fue de 60 segundos. ^[36] Sin embargo, si las páginas se descargaran a esta velocidad desde un sitio web con más de 100.000 páginas a través de una conexión perfecta con latencia cero y ancho de banda infinito, se necesitarían más de 2 meses para descargar solo ese sitio web completo; Además, sólo se utilizaría una fracción de los recursos de ese servidor web.

Cho usa 10 segundos como intervalo para los accesos, ^[31] y el rastreador WIRE usa 15 segundos como valor predeterminado. ^[37] El rastreador MercatorWeb sigue una política de cortesía adaptativa: si tardó t segundos en descargar un documento de un servidor determinado, el rastreador espera 10 t segundos antes de descargar la página siguiente. ^[38] Eneldo y col. use 1 segundo. ^[39]

Para quienes utilizan rastreadores web con fines de investigación, se necesita un análisis de costo-beneficio más detallado y se deben tener en cuenta consideraciones éticas al decidir dónde rastrear y con qué velocidad. ^[40]

La evidencia anecdótica de los registros de acceso muestra que los intervalos de acceso de los rastreadores conocidos varían entre 20 segundos y 3 a 4 minutos. Vale la pena señalar que incluso cuando se es muy educado y se toman todas las precauciones para evitar la sobrecarga de los servidores web, se reciben algunas quejas de los administradores de servidores web. Sergey Brin y Larry Page señalaron en 1998: "... ejecutar un rastreador que se conecta a más de medio millón de servidores... genera una buena cantidad de correos electrónicos y llamadas telefónicas. Debido al gran número de personas que se conectan , siempre hay quien no sabe qué es un rastreador, porque este es el primero que ve." ^[41]

Política de paralelización

Un rastreador paralelo es un rastreador que ejecuta múltiples procesos en paralelo. El objetivo es maximizar la tasa de descarga mientras se minimiza la sobrecarga de la paralelización y evitar descargas repetidas de la misma página. Para evitar descargar la misma página más de una vez, el sistema de rastreo requiere una política para asignar las nuevas URL descubiertas durante el proceso de rastreo, ya que dos procesos de rastreo diferentes pueden encontrar la misma URL.

Arquitecturas

Arquitectura de alto nivel de un rastreador web estándar

Un rastreador no sólo debe tener una buena estrategia de rastreo, como se señaló en las secciones anteriores, sino que también debe tener una arquitectura altamente optimizada.

Shkapenyuk y Suel señalaron que: ^[42]

Si bien es bastante fácil crear un rastreador lento que descargue unas pocas páginas por segundo durante un corto período de tiempo, crear un sistema de alto rendimiento que pueda descargar cientos de millones de páginas durante varias semanas presenta una serie de desafíos en el diseño del sistema. E/S y eficiencia de la red, y robustez y capacidad de gestión.

Los rastreadores web son una parte central de los motores de búsqueda y los detalles sobre sus algoritmos y arquitectura se mantienen como secretos comerciales. Cuando se publican diseños de rastreadores, suele haber una falta importante de detalles que impide que otros reproduzcan el trabajo. También están surgiendo preocupaciones sobre el " spamming en los motores de búsqueda ", que impide a los principales motores de búsqueda publicar sus algoritmos de clasificación.

Seguridad

Si bien la mayoría de los propietarios de sitios web desean que sus páginas estén indexadas de la forma más amplia posible para tener una fuerte presencia en los motores de búsqueda , el rastreo web también puede tener consecuencias no deseadas y provocar un compromiso o una filtración de datos si un motor de búsqueda indexa recursos que no deberían. estar disponibles públicamente, o páginas que revelen versiones de software potencialmente vulnerables.

Además de las recomendaciones estándar de seguridad de las aplicaciones web, los propietarios de sitios web pueden reducir su exposición a la piratería oportunista permitiendo que los motores de búsqueda indexen únicamente las partes públicas de sus sitios web (con robots.txt ) y bloqueándoles explícitamente la indexación de partes transaccionales (páginas de inicio de sesión, páginas privadas, etc.).

Identificación de orugas

Los rastreadores web normalmente se identifican ante un servidor web mediante el campo Usuario-agente de una solicitud HTTP . Los administradores de sitios web normalmente examinan el registro de sus servidores web y utilizan el campo del agente de usuario para determinar qué rastreadores han visitado el servidor web y con qué frecuencia. El campo del agente de usuario puede incluir una URL donde el administrador del sitio web puede encontrar más información sobre el rastreador. Examinar el registro del servidor web es una tarea tediosa y, por lo tanto, algunos administradores utilizan herramientas para identificar, rastrear y verificar los rastreadores web. Es poco probable que los robots de spam y otros rastreadores web maliciosos coloquen información de identificación en el campo del agente de usuario, o pueden enmascarar su identidad como un navegador u otro rastreador conocido.

Los administradores de sitios web prefieren que los rastreadores web se identifiquen para poder contactar al propietario si es necesario. En algunos casos, los rastreadores pueden quedar atrapados accidentalmente en una trampa de rastreador o pueden estar sobrecargando un servidor web con solicitudes y el propietario debe detener el rastreador. La identificación también es útil para los administradores que están interesados en saber cuándo pueden esperar que un motor de búsqueda en particular indexe sus páginas web .

Rastreando la web profunda

Una gran cantidad de páginas web se encuentran en la web profunda o invisible . ^[43] Por lo general, solo se puede acceder a estas páginas enviando consultas a una base de datos, y los rastreadores habituales no pueden encontrar estas páginas si no hay enlaces que apunten a ellas. El protocolo Sitemaps de Google y el mod oai ^[44] están destinados a permitir el descubrimiento de estos recursos de la Web profunda.

El rastreo web profundo también multiplica la cantidad de enlaces web que se rastrearán. Algunos rastreadores solo toman algunas de las URL en <a href="URL">forma. En algunos casos, como el robot de Google , el rastreo web se realiza en todo el texto contenido dentro del contenido, etiquetas o texto del hipertexto.

Se pueden adoptar enfoques estratégicos para apuntar al contenido de la Web profunda. Con una técnica llamada screen scraping , se puede personalizar software especializado para consultar automática y repetidamente un formulario web determinado con la intención de agregar los datos resultantes. Dicho software se puede utilizar para abarcar múltiples formularios web en múltiples sitios web. Los datos extraídos de los resultados del envío de un formulario web se pueden tomar y aplicar como entrada a otro formulario web, estableciendo así una continuidad en la Deep Web de una manera que no es posible con los rastreadores web tradicionales. ^[45]

Las páginas creadas en AJAX se encuentran entre las que causan problemas a los rastreadores web. Google ha propuesto un formato de llamadas AJAX que su bot puede reconocer e indexar. ^[46]

Rastreadores visuales versus programáticos

Hay una serie de productos de "rastreador/rastreador web visual" disponibles en la web que rastrearán páginas y estructurarán datos en columnas y filas según los requisitos de los usuarios. Una de las principales diferencias entre un rastreador clásico y uno visual es el nivel de capacidad de programación necesaria para configurar un rastreador. La última generación de "scrapers visuales" elimina la mayor parte de las habilidades de programación necesarias para poder programar e iniciar un rastreo para extraer datos web.

El método de raspado/rastreo visual se basa en que el usuario "enseñe" una pieza de tecnología de rastreo, que luego sigue patrones en fuentes de datos semiestructuradas. El método dominante para enseñar a un rastreador visual es resaltar datos en un navegador y entrenar columnas y filas. Si bien la tecnología no es nueva, por ejemplo fue la base de Needlebase, que fue comprada por Google (como parte de una adquisición mayor de ITA Labs ^[47] ), hay un crecimiento y una inversión continuos en esta área por parte de inversores y empresas finales. usuarios. ^{[ cita necesaria ]}

Lista de rastreadores web

La siguiente es una lista de arquitecturas de rastreadores publicadas para rastreadores de propósito general (excluidos los rastreadores web enfocados), con una breve descripción que incluye los nombres dados a los diferentes componentes y las características destacadas:

Rastreadores web históricos

World Wide Web Worm era un rastreador utilizado para crear un índice simple de títulos de documentos y URL. El índice se puede buscar utilizando el comando grep Unix .
Yahoo! Slurp era el nombre de Yahoo! Rastreador de búsqueda hasta Yahoo! contrató a Microsoft para utilizar Bingbot en su lugar.

Rastreadores web internos

Applebot es el rastreador web de Apple . Es compatible con Siri y otros productos. ^[48]
Bingbot es el nombre del rastreador web Bing de Microsoft . Reemplazó a Msnbot .
Baiduspider es el rastreador web de Baidu .
DuckDuckBot es el rastreador web de DuckDuckGo .
El robot de Google se describe con cierto detalle, pero la referencia es solo sobre una versión anterior de su arquitectura, que fue escrita en C++ y Python . El rastreador se integró con el proceso de indexación, porque el análisis del texto se realizó para la indexación de texto completo y también para la extracción de URL. Hay un servidor de URL que envía listas de URL para que sean recuperadas por varios procesos de rastreo. Durante el análisis, las URL encontradas se pasaron a un servidor de URL que verificó si la URL se había visto anteriormente. De lo contrario, la URL se agregó a la cola del servidor de URL.
WebCrawler se utilizó para crear el primer índice de texto completo disponible públicamente de un subconjunto de la Web. Se basó en lib-WWW para descargar páginas y en otro programa para analizar y ordenar URL para una exploración amplia del gráfico web. También incluía un rastreador en tiempo real que seguía enlaces según la similitud del texto ancla con la consulta proporcionada.
WebFountain es un rastreador modular distribuido similar a Mercator pero escrito en C++.
Xenon es un rastreador web utilizado por las autoridades fiscales gubernamentales para detectar fraudes. ^[49]^[50]

Rastreadores web comerciales

Los siguientes rastreadores web están disponibles por un precio:

Diffbot : rastreador web general programático, disponible como API
SortSite : rastreador para analizar sitios web, disponible para Windows y Mac OS
Swiftbot: el rastreador web de Swiftype , disponible como software como servicio

Rastreadores de código abierto

Apache Nutch es un rastreador web altamente extensible y escalable escrito en Java y publicado bajo una licencia Apache . Está basado en Apache Hadoop y se puede utilizar con Apache Solr o Elasticsearch .
GRUB era un rastreador de búsqueda distribuido de código abierto que Wikia Search utilizaba para rastrear la web.
Heritrix es el rastreador con calidad de archivo de Internet Archive , diseñado para archivar instantáneas periódicas de una gran parte de la Web. Fue escrito en Java .
ht://Dig incluye un rastreador web en su motor de indexación.
HTTrack utiliza un rastreador web para crear un espejo de un sitio web para verlo sin conexión. Está escrito en C y publicado bajo GPL.
Norconex Web Crawler es un rastreador web altamente extensible escrito en Java y publicado bajo una licencia Apache . Se puede utilizar con muchos repositorios como Apache Solr , Elasticsearch , Microsoft Azure Cognitive Search , Amazon CloudSearch y más.
mnoGoSearch es un rastreador, indexador y motor de búsqueda escrito en C y con licencia GPL (*solo máquinas NIX)
Open Search Server es un motor de búsqueda y software de rastreo web bajo GPL.
Scrapy , un marco de rastreo web de código abierto, escrito en Python (con licencia BSD ).
Seeks , un motor de búsqueda distribuido gratuitamente (con licencia AGPL ).
StormCrawler , una colección de recursos para crear rastreadores web escalables y de baja latencia en Apache Storm (licencia Apache).
tkWWW Robot , un rastreador basado en el navegador web tkWWW (con licencia GPL).
GNU Wget es un rastreador operado por línea de comandos escrito en C y publicado bajo GPL . Normalmente se utiliza para reflejar sitios web y FTP.
Xapian , un motor de búsqueda, escrito en c++.
YaCy , un motor de búsqueda distribuido gratuito, construido sobre los principios de las redes peer-to-peer (con licencia GPL).

Ver también

Referencias

^ "Rastreadores web: navegación web". Archivado desde el original el 6 de diciembre de 2021.
^ Spetka, Scott. "El robot TkWWW: más allá de la navegación". NCSA . Archivado desde el original el 3 de septiembre de 2004 . Consultado el 21 de noviembre de 2010 .
^ Kobayashi, M. y Takeda, K. (2000). "Recuperación de información en la web". Encuestas de Computación ACM . 32 (2): 144-173. CiteSeerX 10.1.1.126.6094 . doi :10.1145/358923.358934. S2CID 3710903.
^ Ver definición de scutter en la wiki del Proyecto FOAF Archivado el 13 de diciembre de 2009 en Wayback Machine.
^ Masanès, Julien (15 de febrero de 2007). Archivo web. Saltador. pag. 1.ISBN _ 978-3-54046332-0. Consultado el 24 de abril de 2014 .
^ Edwards, J.; McCurley, KS; y Tomlin, JA (2001). "Un modelo adaptativo para optimizar el rendimiento de un rastreador web incremental". Actas de la décima conferencia internacional sobre la World Wide Web. págs. 106-113. CiteSeerX 10.1.1.1018.1506 . doi :10.1145/371920.371960. ISBN 978-1581133486. S2CID 10316730. Archivado desde el original el 25 de junio de 2014 . Consultado el 25 de enero de 2007 .{{cite book}}: Mantenimiento CS1: varios nombres: lista de autores ( enlace )
^ Castillo, Carlos (2004). Rastreo web eficaz (tesis doctoral). Universidad de Chile . Consultado el 3 de agosto de 2010 .
^ Gaviotas, A.; A. Signori (2005). "La web indexable tiene más de 11,5 mil millones de páginas". Pistas y carteles de especial interés de la 14ª conferencia internacional sobre la World Wide Web . Prensa ACM. págs. 902–903. doi :10.1145/1062745.1062789.
^ Lorenzo, Steve; C. Lee Giles (8 de julio de 1999). "Accesibilidad de la información en la web". Naturaleza . 400 (6740): 107–9. Código Bib :1999Natur.400..107L. doi : 10.1038/21987 . PMID 10428673. S2CID 4347646.
^ Cho, J.; García-Molina, H.; Página, L. (abril de 1998). "Rastreo eficiente a través del orden de URL". Séptima Conferencia Internacional de la World Wide Web . Brisbane, Australia. doi :10.1142/3725. ISBN 978-981-02-3400-3. Consultado el 23 de marzo de 2009 .
^ Cho, Junghoo, "Rastreando la Web: descubrimiento y mantenimiento de datos web a gran escala", tesis doctoral, Departamento de Ciencias de la Computación, Universidad de Stanford, noviembre de 2001.
^ Najork, Marc y Janet L. Wiener. "El rastreo en amplitud genera páginas de alta calidad". Archivado el 24 de diciembre de 2017 en Wayback Machine en: Actas de la Décima Conferencia sobre la World Wide Web , páginas 114–118, Hong Kong, mayo de 2001. Elsevier Science.
^ Abiteboul, Serge; Mihai Preda; Gregorio Cobeña (2003). "Cálculo adaptativo de la importancia de la página en línea". Actas de la duodécima conferencia internacional sobre la World Wide Web . Budapest, Hungría: ACM. págs. 280–290. doi :10.1145/775152.775192. ISBN 1-58113-680-3. Consultado el 22 de marzo de 2009 .
^ Boldi, Paolo; Bruno Codenotti; Máximo Santini; Sebastián Vigna (2004). "UbiCrawler: un rastreador web escalable y totalmente distribuido" (PDF) . Software: práctica y experiencia . 34 (8): 711–726. CiteSeerX 10.1.1.2.5538 . doi :10.1002/spe.587. S2CID 325714. Archivado desde el original (PDF) el 20 de marzo de 2009 . Consultado el 23 de marzo de 2009 .
^ Boldi, Paolo; Máximo Santini; Sebastián Vigna (2004). "Haga lo mejor que pueda para lograr lo mejor: efectos paradójicos en los cálculos incrementales de PageRank" (PDF) . Algoritmos y modelos para Web-Graph . Apuntes de conferencias sobre informática. vol. 3243, págs. 168–180. doi :10.1007/978-3-540-30216-2_14. ISBN 978-3-540-23427-2. Archivado desde el original (PDF) el 1 de octubre de 2005 . Consultado el 23 de marzo de 2009 .
^ Baeza-Yates, R.; Castillo, C.; Marín, M. y Rodríguez, A. (2005). "Rastrear un país: mejores estrategias que la amplitud primero para el pedido de páginas web". En: Actas de la sección de experiencia práctica e industrial de la 14ª conferencia sobre la World Wide Web , páginas 864–872, Chiba, Japón. Prensa ACM.
^ Shervin Daneshpajouh, Mojtaba Mohammadi Nasiri, Mohammad Ghodsi, un algoritmo rápido basado en la comunidad para generar un conjunto de semillas rastreadoras. En: Actas de la 4ª Conferencia Internacional sobre Tecnologías y Sistemas de Información Web ( Webist -2008), Funchal, Portugal, mayo de 2008.
^ Pantalón, Gautam; Srinivasan, Padmini; Menczer, Filippo (2004). "Rastreando la Web" (PDF) . En Levene, Marcos; Poulovassilis, Alexandra (eds.). Dinámica web: adaptación al cambio de contenido, tamaño, topología y uso . Saltador. págs. 153-178. ISBN 978-3-540-40676-1. Archivado desde el original (PDF) el 20 de marzo de 2009 . Consultado el 9 de mayo de 2006 .
^ Cothey, Viv (2004). "Confiabilidad del rastreo web" (PDF) . Revista de la Sociedad Estadounidense de Ciencia y Tecnología de la Información . 55 (14): 1228-1238. CiteSeerX 10.1.1.117.185 . doi :10.1002/asi.20078.
^ Menczer, F. (1997). ARACHNID: Agentes de recuperación adaptativos que eligen entornos heurísticos para el descubrimiento de información Archivado el 21 de diciembre de 2012 en Wayback Machine . En D. Fisher, ed., Aprendizaje automático: Actas de la 14ª Conferencia Internacional (ICML97). Morgan Kaufman
^ Menczer, F. y Belew, RK (1998). Agentes de información adaptativa en entornos textuales distribuidos Archivado el 21 de diciembre de 2012 en Wayback Machine . En K. Sycara y M. Wooldridge (eds.) Proc. 2do Internacional Conf. sobre Agentes Autónomos (Agentes '98). Prensa ACM
^ Chakrabarti, Soumen; Van Den Berg, Martín; Dom, Byron (1999). "Rastreo centrado: un nuevo enfoque para el descubrimiento de recursos web sobre temas específicos" (PDF) . Red de computadoras . 31 (11-16): 1623-1640. doi :10.1016/s1389-1286(99)00052-3. Archivado desde el original (PDF) el 17 de marzo de 2004.
^ Pinkerton, B. (1994). Encontrar lo que la gente quiere: experiencias con WebCrawler. En Actas de la Primera Conferencia Mundial sobre la Web, Ginebra, Suiza.
^ Diligenti, M., Coetzee, F., Lawrence, S., Giles, CL y Gori, M. (2000). Rastreo enfocado utilizando gráficos de contexto. En Actas de la 26ª Conferencia Internacional sobre Bases de Datos Muy Grandes (VLDB), páginas 527-534, El Cairo, Egipto.
^ Wu, Jian; Teregowda, Pradeep; Khabsa, Madian; Carmen, Esteban; Jordán, Douglas; San Pedro Wandelmer, José; Lu, Xin; Mitra, Prasenjit; Giles, C. Lee (2012). "Middleware de rastreo web para bibliotecas digitales de motores de búsqueda". Actas del duodécimo taller internacional sobre gestión de datos e información web - WIDM '12 . pag. 57. doi : 10.1145/2389936.2389949. ISBN 9781450317207. S2CID 18513666.
^ Wu, Jian; Teregowda, Pradeep; Ramírez, Juan Pablo Fernández; Mitra, Prasenjit; Zheng, Shuyi; Giles, C. Lee (2012). "La evolución de una estrategia de rastreo para un motor de búsqueda de documentos académicos". Actas de la tercera conferencia anual de ciencia web de ACM on-Web Sci '12 . págs. 340–343. doi :10.1145/2380718.2380762. ISBN 9781450312288. S2CID 16718130.
^ Dong, Hai; Hussain, Farookh Khadeer; Chang, Isabel (2009). "Estado del arte en rastreadores centrados en semántica". Ciencia Computacional y sus Aplicaciones – ICCSA 2009 . Apuntes de conferencias sobre informática. vol. 5593, págs. 910–924. doi :10.1007/978-3-642-02457-3_74. hdl : 20.500.11937/48288. ISBN 978-3-642-02456-6.
^ Dong, Hai; Hussain, Farookh Khadeer (2013). "SOF: un rastreador enfocado basado en el aprendizaje de ontologías semisupervisado". Concurrencia y Computación: Práctica y Experiencia . 25 (12): 1755-1770. doi :10.1002/cpe.2980. S2CID 205690364.
^ Junghoo Cho; Héctor García-Molina (2000). "Sincronización de una base de datos para mejorar la frescura" (PDF) . Actas de la conferencia internacional ACM SIGMOD de 2000 sobre gestión de datos . Dallas, Texas, Estados Unidos: ACM. págs. 117-128. doi :10.1145/342009.335391. ISBN 1-58113-217-4. Consultado el 23 de marzo de 2009 .
^ ab EG Coffman Jr; Zhen Liu; Richard R. Weber (1998). "Programación óptima de robots para motores de búsqueda web". Diario de programación . 1 (1): 15–29. CiteSeerX 10.1.1.36.6087 . doi :10.1002/(SICI)1099-1425(199806)1:1<15::AID-JOS3>3.0.CO;2-K.
^ ab Cho, Junghoo; García-Molina, Héctor (2003). "Políticas efectivas de actualización de páginas para rastreadores web". Transacciones ACM en sistemas de bases de datos . 28 (4): 390–426. doi :10.1145/958942.958945. S2CID 147958.
^ ab Junghoo Cho; Héctor García-Molina (2003). "Estimación de la frecuencia del cambio". Transacciones ACM sobre tecnología de Internet . 3 (3): 256–290. CiteSeerX 10.1.1.59.5877 . doi :10.1145/857166.857170. S2CID 9362566.
^ Ipeirotis, P., Ntoulas, A., Cho, J., Gravano, L. (2005) Modelado y gestión de cambios de contenido en bases de datos de texto Archivado el 5 de septiembre de 2005 en Wayback Machine . En Actas de la 21ª Conferencia Internacional IEEE sobre Ingeniería de Datos, páginas 606-617, abril de 2005, Tokio.
^ Koster, M. (1995). Robots en la web: ¿amenaza o trato? Conexiones, 9(4).
^ Koster, M. (1996). Un estándar para la exclusión de robots Archivado el 7 de noviembre de 2007 en Wayback Machine .
^ Koster, M. (1993). Directrices para escritores de robots Archivado el 22 de abril de 2005 en Wayback Machine .
^ Baeza-Yates, R. y Castillo, C. (2002). Equilibrando volumen, calidad y frescura en el rastreo web. En Soft Computing Systems – Diseño, Gestión y Aplicaciones, páginas 565–572, Santiago, Chile. IOS Press Ámsterdam.
^ Heydon, Allan; Najork, Marc (26 de junio de 1999). "Mercator: un rastreador web escalable y extensible" (PDF) . Archivado desde el original (PDF) el 19 de febrero de 2006 . Consultado el 22 de marzo de 2009 . {{cite journal}}: Citar diario requiere |journal=( ayuda )
^ Eneldo, S.; Kumar, R.; McCurley, KS; Rajagopalan, S.; Sivakumar, D.; Tomkins, A. (2002). "Autosemejanza en la web" (PDF) . Transacciones ACM sobre tecnología de Internet . 2 (3): 205–223. doi :10.1145/572326.572328. S2CID 6416041.
^ M. Thelwall; D. Estuardo (2006). "Revisión de la ética del rastreo web: costo, privacidad y denegación de servicio". Revista de la Sociedad Estadounidense de Ciencia y Tecnología de la Información . 57 (13): 1771-1779. doi :10.1002/asi.20388.
^ Brin, Sergey; Página, Lawrence (1998). "La anatomía de un motor de búsqueda web hipertextual a gran escala". Redes Informáticas y Sistemas RDSI . 30 (1–7): 107–117. doi :10.1016/s0169-7552(98)00110-x. S2CID 7587743.
^ Shkapenyuk, V. y Suel, T. (2002). Diseño e implementación de un rastreador web distribuido de alto rendimiento. En Actas de la 18ª Conferencia Internacional sobre Ingeniería de Datos (ICDE), páginas 357-368, San José, California. Prensa IEEE CS.
^ Shestakov, Denis (2008). Interfaces de búsqueda en la Web: consulta y caracterización Archivado el 6 de julio de 2014 en Wayback Machine . Tesis doctorales TUCS 104, Universidad de Turku
^ Michael L Nelson; Herbert Van de Sompel; Xiaoming Liu; Terry L Harrison; Nathan McFarland (24 de marzo de 2005). "mod_oai: un módulo de Apache para la recolección de metadatos": cs/0503069. arXiv : cs/0503069 . Código Bib : 2005cs.......3069N. {{cite journal}}: Citar diario requiere |journal=( ayuda )
^ Shestakov, Denis; Bhowmick, Sourav S.; Lim, Ee-Peng (2005). "DEQUE: Consultando la Deep Web" (PDF) . Ingeniería de datos y conocimiento . 52 (3): 273–311. doi :10.1016/s0169-023x(04)00107-7.
^ "Rastreo AJAX: Guía para webmasters y desarrolladores" . Consultado el 17 de marzo de 2013 .
^ ITA Labs "Adquisición de ITA Labs" Archivado el 18 de marzo de 2014 en Wayback Machine el 20 de abril de 2011 a las 1:28 a.m.
^ "Acerca de Applebot". Apple Inc . Consultado el 18 de octubre de 2021 .
^ Norton, Quinn (25 de enero de 2007). "Los recaudadores de impuestos envían las arañas". Negocio. Cableado . Archivado desde el original el 22 de diciembre de 2016 . Consultado el 13 de octubre de 2017 .
^ "Iniciativa de rastreo web de Xenon: resumen de la evaluación del impacto en la privacidad (PIA)". Ottawa: Gobierno de Canadá. 11 de abril de 2017. Archivado desde el original el 25 de septiembre de 2017 . Consultado el 13 de octubre de 2017 .

Otras lecturas

Cho, Junghoo, "Proyecto de rastreo web", Departamento de Ciencias de la Computación de UCLA.
Una historia de los motores de búsqueda, de Wiley
WIVET es un proyecto de evaluación comparativa de OWASP , cuyo objetivo es medir si un rastreador web puede identificar todos los hipervínculos en un sitio web de destino.
Shestakov, Denis, "Current Challenges in Web Crawling" y "Intelligent Web Crawling", diapositivas de tutoriales impartidos en ICWE'13 y WI-IAT'13.