Una trampa de araña (o trampa de rastreador ) es un conjunto de páginas web que pueden usarse intencionalmente o no para provocar que un rastreador web o un robot de búsqueda realice una cantidad infinita de solicitudes o provocar que un rastreador mal construido falle. Los rastreadores web también se denominan arañas web , de donde deriva el nombre. Se pueden crear trampas de arañas para "atrapar" robots de spam u otros rastreadores que desperdician el ancho de banda de un sitio web. También pueden ser creados involuntariamente por calendarios que utilizan páginas dinámicas con enlaces que apuntan continuamente al día o año siguiente.
Las técnicas comunes utilizadas son:
http://example.com/bar/foo/bar/foo/bar/foo/bar/...
No existe un algoritmo para detectar todas las trampas para arañas. Algunas clases de trampas se pueden detectar automáticamente, pero rápidamente surgen nuevas trampas no reconocidas.
Una trampa de araña hace que un rastreador web entre en algo así como un bucle infinito , [3] que desperdicia los recursos de la araña, [4] reduce su productividad y, en el caso de un rastreador mal escrito, puede bloquear el programa. Las arañas educadas alternan solicitudes entre diferentes hosts y no solicitan documentos del mismo servidor más de una vez cada varios segundos, [5] lo que significa que un rastreador web "educado" se ve afectado en mucho menor grado que un rastreador "descortés". [ cita necesaria ]
Además, los sitios con trampas para arañas suelen tener un archivo robots.txt que les indica a los robots que no vayan a la trampa, por lo que un robot "educado" legítimo no caería en la trampa, mientras que un robot "descortés" que ignora la configuración del archivo robots.txt sí lo haría. verse afectado por la trampa. [6]