El scraping de motores de búsqueda es el proceso de recolección de URL , descripciones u otra información de los motores de búsqueda . Se trata de una forma específica de scraping de pantalla o scraping web dedicado únicamente a los motores de búsqueda.
La mayoría de los proveedores de optimización de motores de búsqueda (SEO) más grandes dependen de la extracción regular de palabras clave de los motores de búsqueda para monitorear la posición competitiva de los sitios web de sus clientes en busca de palabras clave relevantes o su estado de indexación .
El proceso de ingresar a un sitio web y extraer datos de manera automática también se suele denominar " rastreo ". Los motores de búsqueda obtienen casi todos sus datos de robots de rastreo automático.
Google es por lejos el motor de búsqueda más grande con la mayor cantidad de usuarios, así como la mayor cantidad de ingresos en publicidad creativa, lo que hace que Google sea el motor de búsqueda más importante para las empresas relacionadas con SEO. [1]
Aunque Google no emprende acciones legales contra el scraping, utiliza una variedad de métodos defensivos que hacen que el scraping de sus resultados sea una tarea difícil, incluso cuando la herramienta de scraping está falsificando de manera realista un navegador web normal:
Cuando la defensa del motor de búsqueda piensa que un acceso podría ser automatizado, el motor de búsqueda puede reaccionar de manera diferente.
La primera capa de defensa es una página captcha [4] en la que se le pide al usuario que verifique que es una persona real y no un bot o una herramienta. Al resolver el captcha se creará una cookie que le permitirá acceder nuevamente al motor de búsqueda por un tiempo. Después de aproximadamente un día, la página captcha se mostrará nuevamente.
La segunda capa de defensa es una página de error similar pero sin captcha, en tal caso el usuario queda completamente bloqueado y no puede usar el motor de búsqueda hasta que se levante el bloqueo temporal o el usuario cambie su IP.
La tercera capa de defensa es un bloqueo a largo plazo de todo el segmento de la red. Google ha bloqueado grandes bloqueos de red durante meses. Es probable que este tipo de bloqueo lo active un administrador y solo ocurre si una herramienta de extracción de datos envía una cantidad muy elevada de solicitudes.
Todas estas formas de detección también pueden ocurrirle a un usuario normal, especialmente a usuarios que comparten la misma dirección IP o clase de red (rangos IPV4 así como rangos IPv6).
Para rastrear con éxito un motor de búsqueda, los dos factores principales son el tiempo y la cantidad.
Cuanto más palabras clave necesite extraer un usuario y cuanto menor sea el tiempo necesario para realizar la tarea, más difícil será el proceso y más desarrollado deberá ser el script o la herramienta de extracción.
Los scripts de scraping deben superar algunos desafíos técnicos: [ cita requerida ]
A la hora de desarrollar un scraper para un motor de búsqueda, se puede utilizar prácticamente cualquier lenguaje de programación, aunque, dependiendo de los requisitos de rendimiento, algunos lenguajes serán más adecuados.
PHP es un lenguaje de uso común para escribir scripts de scraping para sitios web o servicios backend, ya que tiene potentes capacidades integradas (analizadores DOM, libcURL); sin embargo, su uso de memoria es típicamente 10 veces el factor de un código C/ C++ similar . Ruby on Rails y Python también se utilizan con frecuencia para trabajos de scraping automatizados.
Además, los scripts de bash se pueden usar junto con cURL como una herramienta de línea de comandos para rastrear un motor de búsqueda.
Al extraer datos de sitios web y servicios, la parte legal suele ser una gran preocupación para las empresas. En el caso del web scraping, esto depende en gran medida del país del que procede el usuario o la empresa que extrae datos, así como de los datos o el sitio web que se están extrayendo. Existen muchas sentencias judiciales diferentes en todo el mundo. [5] [6]
Sin embargo, cuando se trata de raspar la información de los motores de búsqueda, la situación es diferente: los motores de búsqueda generalmente no enumeran la propiedad intelectual, ya que solo repiten o resumen la información que extrajeron de otros sitios web.
El mayor incidente conocido públicamente de un motor de búsqueda raspado ocurrió en 2011, cuando Microsoft fue descubierto raspando palabras clave desconocidas de Google para su propio y relativamente nuevo servicio Bing, [7] pero ni siquiera este incidente resultó en un caso judicial.