stringtranslate.com

robot de google

Googlebot es el software de rastreo web que utiliza Google para recopilar documentos de la web a fin de crear un índice de búsqueda para el motor de búsqueda de Google . Este nombre se utiliza para referirse a dos tipos diferentes de rastreadores web: un rastreador de escritorio (para simular usuarios de escritorio) y un rastreador móvil (para simular un usuario móvil). [1]

Comportamiento

Es probable que un sitio web sea rastreado tanto por Googlebot Desktop como por Googlebot Mobile. Sin embargo, a partir de septiembre de 2020, todos los sitios pasaron a indexar primero los dispositivos móviles, lo que significa que Google rastrea la web mediante un Googlebot para teléfonos inteligentes. [2] El subtipo de Googlebot se puede identificar observando la cadena de agente de usuario en la solicitud. Sin embargo, ambos tipos de rastreadores obedecen al mismo token de producto (token useent) en robots.txt, por lo que un desarrollador no puede apuntar selectivamente ni a Googlebot Mobile ni a Googlebot Desktop mediante robots.txt.

Google ofrece varios métodos que permiten a los propietarios de sitios web gestionar el contenido que se muestra en los resultados de búsqueda de Google. Si un webmaster decide restringir la información de su sitio disponible para un robot de Google u otro robot , puede hacerlo con las directivas adecuadas en un archivo robots.txt [3] o añadiendo la etiqueta meta <meta name="Googlebot" content="nofollow" /> a la página web. [4] Las solicitudes de Googlebot a los servidores web se pueden identificar mediante una cadena de agente de usuario que contiene "Googlebot" y una dirección de host que contiene "googlebot.com". [5]

Actualmente, Googlebot sigue enlaces HREF y enlaces SRC. [3] Cada vez hay más pruebas de que Googlebot puede ejecutar JavaScript y analizar el contenido generado por llamadas Ajax . [6] Hay muchas teorías sobre cuán avanzada es la capacidad de Googlebot para procesar JavaScript, con opiniones que van desde una capacidad mínima derivada de intérpretes personalizados. [7] Actualmente, Googlebot utiliza un servicio de renderizado web (WRS) que se basa en el motor de renderizado Chromium (versión 74 al 7 de mayo de 2019). [8] Googlebot descubre páginas recopilando todos los enlaces de todas las páginas que puede encontrar. A menos que lo prohíba una etiqueta nofollow , sigue estos enlaces a otras páginas web. Las páginas web nuevas deben estar vinculadas desde otras páginas conocidas en la web para poder rastrearlas e indexarlas, o el webmaster las debe enviar manualmente.

Un problema que los webmasters con planes de alojamiento web de bajo ancho de banda [ cita requerida ] han notado a menudo con Googlebot es que ocupa una enorme cantidad de ancho de banda. [ cita requerida ] Esto puede provocar que los sitios web superen su límite de ancho de banda y se cierren temporalmente. Esto es especialmente problemático para los sitios espejo que alojan muchos gigabytes de datos. Google ofrece " Search Console " que permite a los propietarios de sitios web limitar la velocidad de rastreo. [9]

La frecuencia con la que Googlebot rastreará un sitio depende del presupuesto de rastreo. El presupuesto de rastreo es una estimación de la frecuencia con la que se actualiza un sitio web. [ cita requerida ] Técnicamente, el equipo de desarrollo de Googlebot (equipo de rastreo e indexación) utiliza varios términos definidos internamente para asumir lo que significa "presupuesto de rastreo". [10] Desde mayo de 2019, Googlebot utiliza el último motor de renderizado Chromium , que admite las funciones de ECMAScript 6. Esto hará que el bot sea un poco más "perenne" y garantizará que no dependa de un motor de renderizado obsoleto en comparación con las capacidades del navegador. [8]

Mediabot

Mediabot es el rastreador web que utiliza Google para analizar el contenido de manera que Google AdSense pueda mostrar publicidad contextualmente relevante en una página web. Mediabot se identifica con la cadena de agente de usuario "Mediapartners-Google/2.1".

A diferencia de otros rastreadores, Mediabot no sigue enlaces para descubrir nuevas URL rastreables, sino que solo visita URL que incluyen el código de AdSense. [11] Cuando ese contenido reside detrás de un inicio de sesión, se le puede dar un inicio de sesión al rastreador para que pueda rastrear contenido protegido. [12]

Orugas para herramientas de inspección

InspectionTool es el rastreador que utilizan las herramientas de prueba de búsqueda, como Rich Result Test y la inspección de URL en Google Search Console . Además del agente de usuario y el token del agente de usuario, imita a Googlebot. [13]

Se publicó de forma independiente una guía sobre los rastreadores. [14] Detalla cuatro (4) agentes de rastreadores distintivos basados ​​en los datos del índice del directorio del servidor web : uno (1) rastreador que no es Chrome y tres (3) rastreadores Chrome.

Referencias

  1. ^ "Robot de Google". Google . 2019-03-11 . Consultado el 11 de marzo de 2019 .
  2. ^ "Anunciamos la indexación móvil para toda la web". Google Developers . Consultado el 17 de marzo de 2021 .
  3. ^ ab "Consola de búsqueda de Google". Google.com .
  4. ^ "Google Search Console". search.google.com . Consultado el 11 de marzo de 2019 .
  5. ^ "¿Qué es Googlebot? | Google Search Central | Documentación". Mayo de 2022.
  6. ^ "Comprender los conceptos básicos de SEO de JavaScript | Búsqueda para desarrolladores". Google Developers . Consultado el 26 de julio de 2020 .
  7. ^ Splitt, Martin. "Cómo la Búsqueda de Google indexa sitios JavaScript - SEO de JavaScript". YouTube . Archivado desde el original el 12 de diciembre de 2021.
  8. ^ ab "El nuevo Googlebot de siempre". Blog oficial de Google Webmaster Central . Consultado el 7 de junio de 2019 .
  9. ^ "Google - Webmasters" . Consultado el 15 de diciembre de 2012 .
  10. ^ "Qué significa el presupuesto de rastreo para Googlebot". Blog oficial de Google Webmaster Central . Consultado el 4 de julio de 2018 .
  11. ^ "Acerca del rastreador de AdSense".
  12. ^ "Mostrar anuncios en páginas protegidas mediante inicio de sesión".
  13. ^ "Descripción general del rastreador de Google (agente de usuario)".
  14. ^ "La guía definitiva para los nuevos rastreadores InspectionTool".

Enlaces externos