robots.txt

robots.txt es el nombre de archivo utilizado para implementar el Protocolo de exclusión de robots , un estándar utilizado por los sitios web para indicar a los rastreadores web visitantes y a otros robots web qué partes del sitio web pueden visitar.

La norma, desarrollada en 1994, se basa en el cumplimiento voluntario . Los robots maliciosos pueden utilizar el archivo como directorio de las páginas que visitar, aunque los organismos de normalización desaconsejan contrarrestar esto con seguridad mediante la oscuridad . Algunos sitios de archivos ignoran el archivo robots.txt. El estándar se utilizó en la década de 1990 para mitigar la sobrecarga del servidor . En la década de 2020, muchos sitios web comenzaron a negar los bots que recopilan información para la inteligencia artificial generativa .

El archivo "robots.txt" se puede utilizar junto con sitemaps , otro estándar de inclusión de robots para sitios web.

Historia

El estándar fue propuesto por Martijn Koster , ^[1]^[2] cuando trabajaba para Nexor ^[3] en febrero de 1994 ^[4] en la lista de correo www-talk , el principal canal de comunicación para actividades relacionadas con WWW en ese momento. Charles Stross afirma haber provocado a Koster para que sugiriera robots.txt, después de que escribiera un rastreador web de mal comportamiento que sin darse cuenta provocó un ataque de denegación de servicio en el servidor de Koster. ^[5]

El estándar, inicialmente RobotsNotWanted.txt, permitía a los desarrolladores web especificar qué bots no debían acceder a su sitio web o a qué páginas no debían acceder. Internet era lo suficientemente pequeña en 1994 como para mantener una lista completa de todos los bots; La sobrecarga del servidor era una de las principales preocupaciones. En junio de 1994 se había convertido en una norma de facto ; ^[6] los más cumplidos, incluidos los operados por motores de búsqueda como WebCrawler , Lycos y AltaVista . ^[7]

El 1 de julio de 2019, Google anunció la propuesta del Protocolo de exclusión de robots como estándar oficial bajo el Internet Engineering Task Force . ^[8] En septiembre de 2022 se publicó una norma propuesta ^{[9] como RFC 9309.}

Estándar

Cuando el propietario de un sitio desea dar instrucciones a los robots web, coloca un archivo de texto llamado robots.txt en la raíz de la jerarquía del sitio web (por ejemplo, https://www.example.com/robots.txt ). Este archivo de texto contiene las instrucciones en un formato específico (ver ejemplos a continuación). Los robots que eligen seguir las instrucciones intentan buscar este archivo y leer las instrucciones antes de buscar cualquier otro archivo del sitio web . Si este archivo no existe, los robots web asumen que el propietario del sitio web no desea imponer ninguna limitación al rastreo de todo el sitio.

Un archivo robots.txt contiene instrucciones para bots que indican a qué páginas web pueden acceder y a qué no. Los archivos Robots.txt son particularmente importantes para los rastreadores web de motores de búsqueda como Google.

Un archivo robots.txt en un sitio web funcionará como una solicitud para que los robots específicos ignoren archivos o directorios específicos al rastrear un sitio. Esto podría deberse, por ejemplo, a una preferencia por la privacidad de los resultados de los motores de búsqueda, o a la creencia de que el contenido de los directorios seleccionados podría ser engañoso o irrelevante para la categorización del sitio en su conjunto, o al deseo de que un La aplicación solo opera con ciertos datos. Los enlaces a páginas enumeradas en robots.txt aún pueden aparecer en los resultados de búsqueda si están vinculados desde una página rastreada. ^[10]

Un archivo robots.txt cubre un origen . Para sitios web con múltiples subdominios, cada subdominio debe tener su propio archivo robots.txt. Si ejemplo.com tuviera un archivo robots.txt pero a.example.com no, las reglas que se aplicarían para ejemplo.com no se aplicarían a a.example.com . Además, cada protocolo y puerto necesita su propio archivo robots.txt; http://example.com/robots.txt no se aplica a páginas bajo http://example.com:8080/ o https://example.com/ .

Cumplimiento

Un archivo robots.txt no tiene ningún mecanismo de aplicación ni en la ley ni en el protocolo técnico, a pesar del cumplimiento generalizado por parte de los operadores de bots. ^[6]

Los motores de búsqueda

Algunos de los principales motores de búsqueda que siguen este estándar incluyen Ask, ^[11] AOL, ^[12] Baidu, ^[13] Bing, ^[14] DuckDuckGo, ^[15] Google, ^[16] Yahoo!, ^[17] y Yandex. ^[18]

Sitios de archivo

Algunos proyectos de archivo web ignoran el archivo robots.txt. Archive Team utiliza el archivo para descubrir más enlaces, como mapas de sitio . ^[19] El cofundador Jason Scott dijo que "si no se controla y se deja solo, el archivo robots.txt garantiza que no haya duplicación ni referencia para elementos que puedan tener un uso general y un significado más allá del contexto del sitio web". ^[20] En 2017, Internet Archive anunció que dejaría de cumplir con las directivas de robots.txt. ^[21]^[6] Según Digital Trends , esto siguió al uso generalizado de robots.txt para eliminar sitios históricos de los resultados de los motores de búsqueda, y contrastó con el objetivo de la organización sin fines de lucro de archivar "instantáneas" de Internet tal como existía anteriormente. ^[22]

Inteligencia artificial

A partir de la década de 2020, los operadores web comenzaron a utilizar robots.txt para negar el acceso a los bots que recopilan datos de entrenamiento para la IA generativa . En 2023, Originality.AI descubrió que 306 de los mil sitios web más visitados bloquearon GPTBot de OpenAI en su archivo robots.txt y 85 bloquearon Google-Extended de Google . Muchos archivos robots.txt nombraron a GPTBot como el único bot explícitamente no permitido en todas las páginas. Negar el acceso a GPTBot era común entre sitios web de noticias como la BBC y The New York Times . En 2023, el blogger Medium anunció que negaría el acceso a todos los rastreadores web de inteligencia artificial porque "las empresas de inteligencia artificial han extraído valor de los escritores para enviar spam a los lectores de Internet". ^[6]

GPTBot cumple con el estándar robots.txt y brinda consejos a los operadores web sobre cómo rechazarlo, pero David Pierce de The Verge dijo que esto sólo comenzó después de "entrenar los modelos subyacentes que lo hicieron tan poderoso". Además, algunos bots se utilizan tanto para motores de búsqueda como para inteligencia artificial, y puede resultar imposible bloquear solo una de estas opciones. ^[6]

Seguridad

A pesar del uso de los términos "permitir" y "no permitir", el protocolo es puramente consultivo y depende del cumplimiento del robot web ; no puede hacer cumplir nada de lo expresado en el expediente. ^[23] Es poco probable que los robots web maliciosos respeten el archivo robots.txt; algunos incluso pueden utilizar el archivo robots.txt como guía para encontrar enlaces no permitidos e ir directamente a ellos. Si bien a veces se afirma que esto es un riesgo para la seguridad, ^[24] los organismos de normalización desaconsejan este tipo de seguridad a través de la oscuridad . El Instituto Nacional de Estándares y Tecnología (NIST) de Estados Unidos desaconseja específicamente esta práctica: "La seguridad del sistema no debe depender del secreto de la implementación o de sus componentes". ^[25] En el contexto de los archivos robots.txt, la seguridad mediante oscuridad no se recomienda como técnica de seguridad. ^[26]

Alternativas

Muchos robots también pasan un agente de usuario especial al servidor web cuando buscan contenido. ^[27] Un administrador web también podría configurar el servidor para que devuelva automáticamente un error (o pase contenido alternativo ) cuando detecte una conexión utilizando uno de los robots. ^[28]^[29]

Algunos sitios, como Google , alojan un humans.txtarchivo que muestra información destinada a ser leída por humanos. ^[30] Algunos sitios como GitHub redirigen human.txt a una página Acerca de . ^[31]

Anteriormente, Google tenía un archivo de broma alojado en el que /killer-robots.txtse le ordenaba a Terminator que no matara a los fundadores de la empresa, Larry Page y Sergey Brin . ^[32]^[33]

Ejemplos

Este ejemplo les dice a todos los robots que pueden visitar todos los archivos porque el comodín *representa a todos los robots y la Disallowdirectiva no tiene valor, lo que significa que no se permiten páginas.

Agente de usuario: *Rechazar:

Agente de usuario: *Permitir: /

Se puede lograr el mismo resultado con un archivo robots.txt vacío o faltante.

Este ejemplo les dice a todos los robots que se mantengan fuera de un sitio web:

Agente de usuario: *No permitir: /

Este ejemplo les dice a todos los robots que no ingresen a tres directorios:

Agente de usuario: *No permitir: /cgi-bin/No permitir: /tmp/No permitir: /basura/

Este ejemplo les dice a todos los robots que se mantengan alejados de un archivo específico:

Agente de usuario: *No permitir: /directorio/archivo.html

Se procesarán todos los demás archivos en el directorio especificado.

Agente de usuario: BadBot # reemplace 'BadBot' con el agente de usuario real del botNo permitir: /

Este ejemplo le dice a dos robots específicos que no ingresen a un directorio específico:

Agente de usuario: BadBot # reemplace 'BadBot' con el agente de usuario real del botAgente de usuario: robot de GoogleNo permitir: /privado/

Ejemplo que demuestra cómo se pueden utilizar los comentarios:

# Los comentarios aparecen después del símbolo "#" al inicio de una línea o después de una directiva.Agente de usuario: * # coincide con todos los botsNo permitir: / # mantenerlos fuera

También es posible enumerar varios robots con sus propias reglas. La cadena del robot real la define el rastreador. Algunos operadores de robots, como Google , admiten varias cadenas de agentes de usuario que permiten al operador denegar el acceso a un subconjunto de sus servicios mediante el uso de cadenas de agentes de usuario específicas. ^[dieciséis]

Ejemplo que demuestra múltiples agentes de usuario:

Agente de usuario: googlebot # todos los servicios de GoogleNo permitir: /privado/ # no permitir este directorioAgente de usuario: googlebot-news # solo el servicio de noticiasNo permitir: / # no permitir todoAgente de usuario: * # cualquier robotNo permitir: /algo/ # no permitir este directorio

Extensiones no estándar

Directiva de retraso de rastreo

Algunos rastreadores admiten el valor de retraso de rastreo para limitar sus visitas al host. Dado que este valor no forma parte del estándar, su interpretación depende de que el rastreador lo lea. Se utiliza cuando la ráfaga múltiple de visitas de bots ralentiza el host. Yandex interpreta el valor como la cantidad de segundos que se deben esperar entre visitas posteriores. ^[18] Bing define el retraso de rastreo como el tamaño de una ventana de tiempo (de 1 a 30 segundos) durante la cual BingBot accederá a un sitio web solo una vez. ^[34] Google proporciona una interfaz en su consola de búsqueda para webmasters, para controlar las visitas posteriores del robot de Google . ^[35]

Agente de usuario: bingbotPermitir: /Retraso de rastreo: 10

Coincidencia universal "*"

El Estándar de exclusión de robots no menciona el carácter "*" en la Disallow:declaración. ^[37]

Metaetiquetas y encabezados

Además de los archivos robots.txt de nivel raíz, las directivas de exclusión de robots se pueden aplicar a un nivel más granular mediante el uso de metaetiquetas Robots y encabezados HTTP X-Robots-Tag. La metaetiqueta robots no se puede utilizar para archivos que no sean HTML, como imágenes, archivos de texto o documentos PDF. Por otro lado, X-Robots-Tag se puede agregar a archivos que no sean HTML mediante el uso de archivos .htaccess y httpd.conf . ^[38]

Una metaetiqueta "noindex"

< meta  nombre = "robots"  contenido = "noindex"  />

Un encabezado de respuesta HTTP "noindex"

X-Robots-Etiqueta: noindex

La etiqueta X-Robots solo es efectiva después de que se ha solicitado la página y el servidor responde, y la metaetiqueta robots solo es efectiva después de que la página se ha cargado, mientras que robots.txt es efectiva antes de que se solicite la página. Por lo tanto, si un archivo robots.txt excluye una página, cualquier metaetiqueta de robots o encabezado de X-Robots-Tag se ignora porque el robot no los verá en primer lugar. ^[38]

Tamaño máximo de un archivo robots.txt

El Protocolo de exclusión de robots exige que los rastreadores analicen al menos 500 kibibytes (512 000 bytes) de archivos robots.txt, ^[39] que Google mantiene como una restricción de tamaño de archivo de 500 kibibytes para los archivos robots.txt. ^[40]

Ver también

ads.txt, un estándar para enumerar vendedores de anuncios autorizados
security.txt, un archivo que describe el proceso que deben seguir los investigadores de seguridad para informar vulnerabilidades de seguridad
Protocolo de acceso automatizado a contenidos : una propuesta fallida para ampliar robots.txt
BotSeer : motor de búsqueda ahora inactivo para archivos robots.txt
Rastreo web distribuido
Rastreador enfocado
Archivo de Internet
Programa Nacional de Biblioteca Digital (NDLP)
Programa Nacional de Infraestructura y Preservación de la Información Digital (NDIIPP)
No seguir
Perma.cc
Metaelementos para motores de búsqueda.
Mapas del sitio
Trampa de araña
Archivo web
Rastreador web
sin índice

Referencias

^ "Histórico". Greenhills.co.uk . Archivado desde el original el 3 de abril de 2017 . Consultado el 3 de marzo de 2017 .
^ Fielding, Roy (1994). "Mantenimiento de infoestructuras de hipertexto distribuido: bienvenido a la web de MOMspider" (PostScript) . Primera Conferencia Internacional sobre la World Wide Web . Ginebra. Archivado desde el original el 27 de septiembre de 2013 . Consultado el 25 de septiembre de 2013 .
^ "Las páginas de Web Robots". Robotstxt.org. 30 de junio de 1994. Archivado desde el original el 12 de enero de 2014 . Consultado el 29 de diciembre de 2013 .
^ Koster, Martijn (25 de febrero de 1994). "Importante: arañas, robots y vagabundos web". Lista de correo de www-talk . Archivado desde el original ( mensaje archivado de Hypermail ) el 29 de octubre de 2013.
^ "Cómo llegué aquí al final, quinta parte:" ¡las cosas sólo pueden mejorar! El diario de Charlie . 19 de junio de 2006. Archivado desde el original el 25 de noviembre de 2013 . Consultado el 19 de abril de 2014 .
^ abcde Pierce, David (14 de febrero de 2024). "El archivo de texto que ejecuta Internet". El borde . Consultado el 16 de marzo de 2024 .
^ Barry Schwartz (30 de junio de 2014). "Robots.txt celebra 20 años bloqueando motores de búsqueda". Tierra de motores de búsqueda . Archivado desde el original el 7 de septiembre de 2015 . Consultado el 19 de noviembre de 2015 .
^ "Formalización de la especificación del protocolo de exclusión de robots". Blog oficial del Centro para webmasters de Google . Archivado desde el original el 10 de julio de 2019 . Consultado el 10 de julio de 2019 .
^ Koster, M.; Illyes, G.; Zeller, H.; Sassman, L. (septiembre de 2022). Protocolo de exclusión de robots. IETF . doi : 10.17487/RFC9309 . RFC 9309. Norma propuesta.
^ "URL no rastreadas en los resultados de búsqueda". YouTube. 5 de octubre de 2009. Archivado desde el original el 6 de enero de 2014 . Consultado el 29 de diciembre de 2013 .
^ "Acerca de Ask.com: webmasters". Acerca de.ask.com . Archivado desde el original el 27 de enero de 2013 . Consultado el 16 de febrero de 2013 .
^ "Acerca de la búsqueda de AOL". Buscar.aol.com . Archivado desde el original el 13 de diciembre de 2012 . Consultado el 16 de febrero de 2013 .
^ "Baidusaraña". Baidu.com . Archivado desde el original el 6 de agosto de 2013 . Consultado el 16 de febrero de 2013 .
^ "Protocolo de exclusión de robots: unirnos para proporcionar una mejor documentación". Blogs.bing.com . Archivado desde el original el 18 de agosto de 2014 . Consultado el 16 de febrero de 2013 .
^ "Bot DuckDuckGo". DuckDuckGo.com . Archivado desde el original el 16 de febrero de 2017 . Consultado el 25 de abril de 2017 .
^ ab "Webmasters: especificaciones de Robots.txt". Desarrolladores de Google . Archivado desde el original el 15 de enero de 2013 . Consultado el 16 de febrero de 2013 .
^ "Enviar su sitio web a Yahoo! Search". Archivado desde el original el 21 de enero de 2013 . Consultado el 16 de febrero de 2013 .
^ ab "Uso de robots.txt". Ayuda.yandex.com . Archivado desde el original el 25 de enero de 2013 . Consultado el 16 de febrero de 2013 .
^ "ArchiveBot: mal comportamiento". wiki.archiveteam.org . Equipo de Archivo. Archivado desde el original el 10 de octubre de 2022 . Consultado el 10 de octubre de 2022 .
^ Jason Scott . "Robots.txt es una nota de suicidio". Equipo de Archivo. Archivado desde el original el 18 de febrero de 2017 . Consultado el 18 de febrero de 2017 .
^ "Los robots.txt destinados a motores de búsqueda no funcionan bien para archivos web | Blogs de archivos de Internet". blog.archive.org . 17 de abril de 2017. Archivado desde el original el 4 de diciembre de 2018 . Consultado el 1 de diciembre de 2018 .
^ Jones, Brad (24 de abril de 2017). "Internet Archive ignorará los archivos Robots.txt para mantener la precisión". Tendencias digitales . Archivado desde el original el 16 de mayo de 2017 . Consultado el 8 de mayo de 2017 .
^ "Bloquear URL con robots.txt: obtenga información sobre los archivos robots.txt". Archivado desde el original el 14 de agosto de 2015 . Consultado el 10 de agosto de 2015 .
^ "Robots.txt les indica a los piratas informáticos los lugares que no desea que busquen". El registro . Archivado desde el original el 21 de agosto de 2015 . Consultado el 12 de agosto de 2015 .
^ Bufanda, KA; Jansen, W.; Tracy, M. (julio de 2008). "Guía de seguridad general del servidor" (PDF) . Instituto Nacional de Estándares y Tecnología . doi :10.6028/NIST.SP.800-123. Archivado (PDF) desde el original el 8 de octubre de 2011 . Consultado el 12 de agosto de 2015 .
^ Sverre H. Huseby (2004). Código inocente: una llamada de atención sobre seguridad para programadores web. John Wiley e hijos. págs. 91–92. ISBN 9780470857472. Archivado desde el original el 1 de abril de 2016 . Consultado el 12 de agosto de 2015 .
^ "Lista de agentes de usuario (arañas, robots, navegador)". Agentes de usuario.org. Archivado desde el original el 7 de enero de 2014 . Consultado el 29 de diciembre de 2013 .
^ "Control de acceso: servidor HTTP Apache". Httpd.apache.org. Archivado desde el original el 29 de diciembre de 2013 . Consultado el 29 de diciembre de 2013 .
^ "Denegar cadenas para reglas de filtrado: el sitio oficial de Microsoft IIS". Iis.net. 2013-11-06. Archivado desde el original el 1 de enero de 2014 . Consultado el 29 de diciembre de 2013 .
^ "Google humanos.txt". Archivado desde el original el 24 de enero de 2017 . Consultado el 3 de octubre de 2019 .
^ "Github humanos.txt". GitHub . Archivado desde el original el 30 de mayo de 2016 . Consultado el 3 de octubre de 2019 .
^ Newman, Lily Hay (3 de julio de 2014). "¿Es esto un huevo de Pascua de Google o una prueba de que Skynet en realidad está tramando la dominación mundial?". Revista Pizarra . Archivado desde el original el 18 de noviembre de 2018 . Consultado el 3 de octubre de 2019 .
^ "/killer-robots.txt". 2018-01-10. Archivado desde el original el 10 de enero de 2018 . Consultado el 25 de mayo de 2018 .
^ "Rastrear o no gatear, esa es la pregunta de BingBot". 3 de mayo de 2012. Archivado desde el original el 3 de febrero de 2016 . Consultado el 9 de febrero de 2016 .
^ "Cambiar la frecuencia de rastreo del robot de Google - Ayuda de Search Console". soporte.google.com . Archivado desde el original el 18 de noviembre de 2018 . Consultado el 22 de octubre de 2018 .
^ "Yahoo! Search Blog: los webmasters ahora pueden realizar descubrimientos automáticos con Sitemaps". Archivado desde el original el 5 de marzo de 2009 . Consultado el 23 de marzo de 2009 .
^ "Especificaciones de Robots.txt". Desarrolladores de Google . Archivado desde el original el 2 de noviembre de 2019 . Consultado el 15 de febrero de 2020 .
^ ab "Especificaciones de la metaetiqueta de Robots y del encabezado HTTP X-Robots-Tag - Webmasters - Desarrolladores de Google". Archivado desde el original el 8 de agosto de 2013 . Consultado el 17 de agosto de 2013 .
^ Koster, M.; Illyes, G.; Zeller, H.; Sassman, L. (septiembre de 2022). Protocolo de exclusión de robots. IETF . doi : 10.17487/RFC9309 . RFC 9309. Norma propuesta. segundo. 2.5: Límites.
^ "Cómo interpreta Google la especificación robots.txt | Documentación". Desarrolladores de Google . Archivado desde el original el 17 de octubre de 2022 . Consultado el 17 de octubre de 2022 .

enlaces externos

Página web oficial