stringtranslate.com

Trampa para arañas

Una trampa para arañas (o trampa para rastreadores ) es un conjunto de páginas web que pueden utilizarse, intencional o involuntariamente, para provocar que un rastreador web o un robot de búsqueda realice una cantidad infinita de solicitudes o provoque que un rastreador mal construido se bloquee. Los rastreadores web también se denominan arañas web , de donde se deriva el nombre. Las trampas para arañas pueden crearse para "atrapar" robots de spam u otros rastreadores que desperdician el ancho de banda de un sitio web. También pueden crearse involuntariamente mediante calendarios que utilizan páginas dinámicas con enlaces que apuntan continuamente al día o año siguiente.

Las técnicas comunes utilizadas son:

No existe un algoritmo que detecte todas las trampas para arañas. Algunas clases de trampas se pueden detectar automáticamente, pero aparecen rápidamente trampas nuevas que no se reconocen.

Cortesía

Una trampa de araña hace que un rastreador web entre en algo parecido a un bucle infinito , [3] lo que desperdicia los recursos del rastreador, [4] reduce su productividad y, en el caso de un rastreador mal escrito, puede hacer que el programa se bloquee. Los rastreadores educados alternan las solicitudes entre diferentes hosts y no solicitan documentos del mismo servidor más de una vez cada varios segundos, [5] lo que significa que un rastreador web "educado" se ve afectado en un grado mucho menor que un rastreador "maleducado". [ cita requerida ]

Además, los sitios con trampas para arañas suelen tener un archivo robots.txt que les dice a los bots que no vayan a la trampa, por lo que un bot "educado" legítimo no caería en la trampa, mientras que un bot "descortés" que ignora la configuración de robots.txt se vería afectado por la trampa. [6]

Véase también

Referencias

  1. ^ "¿Qué es una trampa para arañas?". Techopedia . 27 de noviembre de 2017 . Consultado el 29 de mayo de 2018 .
  2. ^ Neil M Hennessy. "El veneno más dulce, o el descubrimiento de la poesía L=A=N=G=U=A=G=E en la Web". Consultado el 26 de septiembre de 2013.
  3. ^ "Presagio". Presagio . 2016-02-03 . Consultado el 2019-10-16 .
  4. ^ "Cómo configurar un archivo robots.txt para controlar las arañas de los motores de búsqueda (thesitewizard.com)" www.thesitewizard.com . Consultado el 16 de octubre de 2019 .
  5. ^ "Construcción de un rastreador web educado". La comunidad DEV . 13 de abril de 2019. Consultado el 16 de octubre de 2019 .
  6. ^ Group, J. Media (12 de octubre de 2017). "Cerrando una trampa de arañas: corrigiendo las ineficiencias del rastreo". J Media Group . Consultado el 16 de octubre de 2019 . {{cite web}}: |last=tiene nombre genérico ( ayuda )