stringtranslate.com

Raspado de motores de búsqueda

El scraping de motores de búsqueda es el proceso de recopilar URL , descripciones u otra información de los motores de búsqueda . Esta es una forma específica de screen scraping o web scraping dedicada únicamente a los motores de búsqueda.

Lo más común es que los grandes proveedores de optimización de motores de búsqueda (SEO) dependan de extraer periódicamente palabras clave de los motores de búsqueda para monitorear la posición competitiva de los sitios web de sus clientes en busca de palabras clave relevantes o su estado de indexación .

El proceso de ingresar a un sitio web y extraer datos de forma automatizada también suele denominarse " rastreo ". Los motores de búsqueda obtienen casi todos sus datos de robots de rastreo automatizados.

Los motores de búsqueda son una parte integral del ecosistema en línea moderno. Proporcionan una manera para que las personas encuentren información, productos y servicios en línea de forma rápida y sencilla. De hecho, más del 90% de las experiencias en línea comienzan con un motor de búsqueda y los principales resultados de búsqueda reciben la mayoría de los clics. Por eso el SEO es fundamental para las empresas y organizaciones que quieren tener éxito en el mundo digital.

El SEO es esencial porque permite que los sitios web tengan una clasificación más alta en las páginas de resultados de búsqueda, lo que facilita que las personas los encuentren. Una clasificación más alta en los resultados de búsqueda puede aumentar la visibilidad, el tráfico y, en última instancia, los ingresos de un sitio web. El SEO también puede ayudar a las empresas y organizaciones a establecer su autoridad, credibilidad y reputación en sus respectivas industrias. [1] [2]

Dificultades

Google es, con diferencia, el motor de búsqueda más grande, con la mayor cantidad de usuarios y con la mayor cantidad de ingresos en anuncios creativos, lo que convierte a Google en el motor de búsqueda más importante para las empresas relacionadas con SEO. [3]

Aunque Google no emprende acciones legales contra el scraping, utiliza una variedad de métodos defensivos que hacen que el scraping de sus resultados sea una tarea desafiante, incluso cuando la herramienta de scraping está falsificando de manera realista un navegador web normal:

Detección

Cuando la defensa del motor de búsqueda piensa que un acceso podría estar automatizado, el motor de búsqueda puede reaccionar de manera diferente.

La primera capa de defensa es una página captcha [6] donde se solicita al usuario que verifique que es una persona real y no un bot o una herramienta. Resolver el captcha creará una cookie que permitirá volver a acceder al buscador durante un tiempo. Después de aproximadamente un día, la página captcha se muestra nuevamente.

La segunda capa de defensa es una página de error similar pero sin captcha, en tal caso el usuario queda completamente bloqueado para usar el motor de búsqueda hasta que se levante el bloqueo temporal o el usuario cambie su IP.

La tercera capa de defensa es un bloqueo a largo plazo de todo el segmento de la red. Google ha bloqueado grandes bloques de red durante meses. Es probable que un administrador active este tipo de bloqueo y solo ocurre si una herramienta de raspado envía una cantidad muy grande de solicitudes.

Todas estas formas de detección también pueden ocurrirle a un usuario normal, especialmente a los usuarios que comparten la misma dirección IP o clase de red (rangos IPV4 así como rangos IPv6).

Métodos de raspado

Para utilizar un motor de búsqueda con éxito, los dos factores principales son el tiempo y la cantidad.

Cuantas más palabras clave necesite un usuario para extraer y menor sea el tiempo para el trabajo, más difícil será el extracción y más desarrollada deberá ser una herramienta o un script de extracción.

Los scripts de scraping deben superar algunos desafíos técnicos: [7]

Un ejemplo de software de scraping de código abierto que utiliza las técnicas mencionadas anteriormente es GoogleScraper. [8] Este marco controla los navegadores a través del protocolo DevTools y dificulta que Google detecte que el navegador está automatizado.

Lenguajes de programación

Al desarrollar un raspador para un motor de búsqueda, se puede utilizar casi cualquier lenguaje de programación. Aunque, dependiendo de los requisitos de rendimiento, algunos idiomas serán favorables.

PHP es un lenguaje comúnmente utilizado para escribir scripts de scraping para sitios web o servicios backend, ya que tiene potentes capacidades integradas (analizadores DOM, libcURL); sin embargo, su uso de memoria suele ser 10 veces mayor que el de un código C/ C++ similar . Ruby on Rails y Python también se utilizan con frecuencia para trabajos de scraping automatizados. Para obtener el máximo rendimiento, se deben considerar analizadores DOM de C++.

Además, las secuencias de comandos bash se pueden utilizar junto con cURL como herramienta de línea de comandos para extraer un motor de búsqueda.

Herramientas y scripts

Al desarrollar un raspador de motor de búsqueda, existen varias herramientas y bibliotecas disponibles que pueden usarse, ampliarse o simplemente analizarse para aprender.

Legal

Cuando se raspan sitios web y servicios, la parte legal suele ser una gran preocupación para las empresas; en el caso del raspado web, depende en gran medida del país del que proviene el usuario o la empresa, así como de qué datos o sitio web se están raspando. Con muchas sentencias judiciales diferentes en todo el mundo. [17] [18] [19] Sin embargo, cuando se trata de scraping de motores de búsqueda, la situación es diferente: los motores de búsqueda generalmente no incluyen la propiedad intelectual, ya que simplemente repiten o resumen la información que extrajeron de otros sitios web.

El mayor incidente público conocido de eliminación de un motor de búsqueda ocurrió en 2011, cuando Microsoft fue sorprendido extrayendo palabras clave desconocidas de Google para su propio y bastante nuevo servicio Bing, [20] pero ni siquiera este incidente dio lugar a un caso judicial.

Una posible razón podría ser que los motores de búsqueda obtienen casi todos sus datos extrayendo millones de sitios web accesibles al público, además sin leer ni aceptar esos términos.

Ver también

Referencias

  1. ^ "Qué es el SEO y cómo funciona". ViralSEOTools.com . Consultado el 10 de marzo de 2023 .
  2. ^ Herramientas de SEO, pequeñas (20 de febrero de 2023). "Pequeñas herramientas de SEO: ¡Optimice su sitio gratis!".
  3. ^ "Google sigue siendo, con diferencia, el motor de búsqueda más popular del mundo, pero la proporción de buscadores únicos cae ligeramente". searchengineland.com . 11 de febrero de 2013.
  4. ^ "¿Google sabe que estoy usando el navegador Tor?". tor.stackexchange.com .
  5. ^ "Grupos de Google". google.com .
  6. ^ "Mi computadora envía consultas automatizadas - Ayuda reCAPTCHA". soporte.google.com . Consultado el 2 de abril de 2017 .
  7. ^ "Eliminar las clasificaciones de Google por diversión y ganancias". google-rank-checker.squabbel.com .
  8. ^ ab "Marco Python3 GoogleScraper". raspado .
  9. ^ Deniel Iblika (3 de enero de 2018). "Los expertos en marketing online de DoubleSmart". DoubleSmart (en holandés). Diensten . Consultado el 16 de enero de 2019 .
  10. ^ Jan Janssen (26 de septiembre de 2019). "Servicios de marketing online de SEO SNEL". SEO SNEL (en holandés). Servicios . Consultado el 26 de septiembre de 2019 .
  11. ^ "iMacros para extraer resultados de Google". stackoverflow.com . Consultado el 4 de abril de 2017 .
  12. ^ "libcurl: la biblioteca de transferencia de archivos multiprotocolo". curl.haxx.se.
  13. ^ "Un paquete Go para eliminar Google" - a través de GitHub.
  14. ^ "Herramientas de SEO en línea gratuitas (como Google, Yandex, Bing, Duckduckgo, ...). Incluye soporte de redes asincrónicas: NikolaiT/SEO Tools Kit". 15 de enero de 2019 - vía GitHub.
  15. ^ Eugenio, Felipe. "Software de SEO" . Consultado el 18 de marzo de 2023 .
  16. ^ Tschacher, Nikolai (17 de noviembre de 2020), NikolaiT/se-scraper , consultado el 19 de noviembre de 2020
  17. ^ "¿Es legal el web scraping?". Icreón (blog).
  18. ^ "El tribunal de apelaciones revoca la condena y sentencia" weev "del hacker/troll [Actualizado]". arstechnica.com . 11 de abril de 2014.
  19. ^ "¿Puede el scraping de contenido no infractor convertirse en una infracción de derechos de autor... debido a cómo funcionan los scrapers?". www.techdirt.com . 10 de junio de 2009.
  20. ^ Singel, Ryan. "Google detecta copias de Bing; Microsoft dice '¿Y qué?'". Cableado .

[1] herramientas de SEO