Trampa de araña

Una trampa de araña (o trampa de rastreador ) es un conjunto de páginas web que pueden usarse intencionalmente o no para provocar que un rastreador web o un robot de búsqueda realice una cantidad infinita de solicitudes o provocar que un rastreador mal construido falle. Los rastreadores web también se denominan arañas web , de donde deriva el nombre. Se pueden crear trampas de arañas para "atrapar" robots de spam u otros rastreadores que desperdician el ancho de banda de un sitio web. También pueden ser creados involuntariamente por calendarios que utilizan páginas dinámicas con enlaces que apuntan continuamente al día o año siguiente.

Las técnicas comunes utilizadas son:

creación de estructuras de directorios indefinidamente profundas comohttp://example.com/bar/foo/bar/foo/bar/foo/bar/...
Páginas dinámicas que producen una cantidad ilimitada de documentos que un rastreador web puede seguir. Los ejemplos incluyen calendarios ^[1] y poesía en lenguaje generada algorítmicamente . ^[2]
documentos llenos de muchos caracteres, lo que bloquea el analizador léxico que analiza el documento.
documentos con ID de sesión basados en las cookies requeridas.

No existe un algoritmo para detectar todas las trampas para arañas. Algunas clases de trampas se pueden detectar automáticamente, pero rápidamente surgen nuevas trampas no reconocidas.

Cortesía

Una trampa de araña hace que un rastreador web entre en algo así como un bucle infinito , ^[3] que desperdicia los recursos de la araña, ^[4] reduce su productividad y, en el caso de un rastreador mal escrito, puede bloquear el programa. Las arañas educadas alternan solicitudes entre diferentes hosts y no solicitan documentos del mismo servidor más de una vez cada varios segundos, ^[5] lo que significa que un rastreador web "educado" se ve afectado en mucho menor grado que un rastreador "descortés". ^{[ cita necesaria ]}

Además, los sitios con trampas para arañas suelen tener un archivo robots.txt que les indica a los robots que no vayan a la trampa, por lo que un robot "educado" legítimo no caería en la trampa, mientras que un robot "descortés" que ignora la configuración del archivo robots.txt sí lo haría. verse afectado por la trampa. ^[6]

Ver también

Referencias

^ ""¿Qué es una trampa para arañas? "". Techinfo . 27 de noviembre de 2017 . Consultado el 29 de mayo de 2018 .
^ Neil M Hennessy. "El veneno más dulce o el descubrimiento de la poesía L=A=N=G=U=A=G=E en la Web". Consultado el 26 de septiembre de 2013.
^ "Portento". Presagio . 2016-02-03 . Consultado el 16 de octubre de 2019 .
^ "Cómo configurar un archivo robots.txt para controlar las arañas de los motores de búsqueda (thesitewizard.com)". www.thesitewizard.com . Consultado el 16 de octubre de 2019 .
^ "Creación de un rastreador web educado". La comunidad DEV . 13 de abril de 2019 . Consultado el 16 de octubre de 2019 .
^ Grupo, J. Media (12 de octubre de 2017). "Cerrar una trampa para arañas: solucionar las ineficiencias del rastreo". Grupo J Media . Consultado el 16 de octubre de 2019 .