Una trampa para arañas (o trampa para rastreadores ) es un conjunto de páginas web que pueden utilizarse, intencional o involuntariamente, para provocar que un rastreador web o un robot de búsqueda realice una cantidad infinita de solicitudes o provoque que un rastreador mal construido se bloquee. Los rastreadores web también se denominan arañas web , de donde se deriva el nombre. Las trampas para arañas pueden crearse para "atrapar" robots de spam u otros rastreadores que desperdician el ancho de banda de un sitio web. También pueden crearse involuntariamente mediante calendarios que utilizan páginas dinámicas con enlaces que apuntan continuamente al día o año siguiente.
Las técnicas comunes utilizadas son:
http://example.com/bar/foo/bar/foo/bar/foo/bar/...
No existe un algoritmo que detecte todas las trampas para arañas. Algunas clases de trampas se pueden detectar automáticamente, pero aparecen rápidamente trampas nuevas que no se reconocen.
Una trampa de araña hace que un rastreador web entre en algo parecido a un bucle infinito , [3] lo que desperdicia los recursos del rastreador, [4] reduce su productividad y, en el caso de un rastreador mal escrito, puede hacer que el programa se bloquee. Los rastreadores educados alternan las solicitudes entre diferentes hosts y no solicitan documentos del mismo servidor más de una vez cada varios segundos, [5] lo que significa que un rastreador web "educado" se ve afectado en un grado mucho menor que un rastreador "maleducado". [ cita requerida ]
Además, los sitios con trampas para arañas suelen tener un archivo robots.txt que les dice a los bots que no vayan a la trampa, por lo que un bot "educado" legítimo no caería en la trampa, mientras que un bot "descortés" que ignora la configuración de robots.txt se vería afectado por la trampa. [6]
{{cite web}}
: |last=
tiene nombre genérico ( ayuda )