Un sitio web de scraping es un sitio web que copia contenido de otros sitios web mediante el uso de web scraping . Luego, el contenido se duplica con el objetivo de generar ingresos, generalmente a través de publicidad y, a veces, mediante la venta de datos de los usuarios.
Los sitios de scraping se presentan en varias formas: algunos brindan poco o ningún material o información y su objetivo es obtener información del usuario, como direcciones de correo electrónico, para ser el objetivo del correo no deseado. Los sitios de agregación de precios y de compras acceden a múltiples listados de un producto y permiten que el usuario compare rápidamente los precios.
Los motores de búsqueda como Google podrían considerarse un tipo de sitio web de recopilación de datos. Los motores de búsqueda recopilan contenido de otros sitios web, lo guardan en sus propias bases de datos, lo indexan y presentan el contenido recopilado a los propios usuarios de los motores de búsqueda. La mayoría del contenido recopilado por los motores de búsqueda está protegido por derechos de autor. [1]
La técnica de scraping también se ha utilizado en varios sitios web de citas. Estos sitios a menudo combinan sus actividades de scraping con el reconocimiento facial . [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [ citas excesivas ]
El raspado también se utiliza en sitios web de análisis (reconocimiento) de imágenes generales, así como en sitios web creados específicamente para identificar imágenes de cultivos con plagas y enfermedades. [12] [13]
Algunos sitios web de scraping se crean para ganar dinero mediante el uso de programas publicitarios. En ese caso, se denominan sitios creados para AdSense o MFA. Este término despectivo se refiere a sitios web que no tienen ningún valor redentor excepto atraer visitantes al sitio web con el único fin de hacer clic en los anuncios. [14]
Los sitios creados para AdSense se consideran spam de motores de búsqueda que diluyen los resultados de búsqueda con resultados de búsqueda poco satisfactorios. El contenido extraído es redundante en comparación con el contenido que muestra el motor de búsqueda en circunstancias normales, si no se hubiera encontrado ningún sitio web de MFA en los listados.
Algunos sitios web de scraping se vinculan a otros sitios para mejorar su clasificación en los motores de búsqueda a través de una red de blogs privados . Antes de la actualización de Google de su algoritmo de búsqueda conocido como Panda , un tipo de sitio web de scraping conocido como blog automático era bastante común entre los especialistas en marketing de sombrero negro que usaban un método conocido como spamdexing .
Los sitios de scraping pueden violar la ley de derechos de autor . Incluso tomar contenido de un sitio de contenido abierto puede ser una violación de los derechos de autor , si se hace de una manera que no respete la licencia. Por ejemplo, la Licencia de Documentación Libre de GNU (GFDL) [15] y las licencias Creative Commons ShareAlike (CC-BY-SA) [16] utilizadas en Wikipedia [17] requieren que un republicador de Wikipedia informe a sus lectores sobre las condiciones de estas licencias y dé crédito al autor original.
Según el objetivo del scraper, los métodos con los que se atacan los sitios web difieren. Por ejemplo, los sitios con grandes cantidades de contenido, como aerolíneas, productos electrónicos de consumo, grandes almacenes, etc., pueden ser atacados rutinariamente por la competencia solo para estar al tanto de la información sobre precios.
Otro tipo de scraper extrae fragmentos y texto de sitios web que tienen una clasificación alta para las palabras clave que han seleccionado. De esta manera, esperan obtener una clasificación alta en las páginas de resultados de los motores de búsqueda (SERP), aprovechando el PageRank de la página original . Los feeds RSS son vulnerables a los scrapers.
Otros sitios web de scraping consisten en anuncios y párrafos de palabras seleccionadas al azar de un diccionario. A menudo, un visitante hace clic en un anuncio de pago por clic en dichos sitios porque es el único texto comprensible en la página. Los operadores de estos sitios web de scraping obtienen ganancias económicas de estos clics. Las redes publicitarias afirman que están trabajando constantemente para eliminar estos sitios de sus programas, aunque estas redes se benefician directamente de los clics generados en este tipo de sitios. Desde el punto de vista de los anunciantes, las redes no parecen estar haciendo el esfuerzo suficiente para detener este problema.
Los scrapers suelen asociarse con granjas de enlaces y, a veces, se los percibe como lo mismo cuando varios scrapers enlazan al mismo sitio de destino. Un sitio víctima frecuente podría ser acusado de participar en granjas de enlaces, debido al patrón artificial de enlaces entrantes a un sitio web víctima, enlazados desde varios sitios scrapers.
Algunos programadores que crean sitios web de scraping pueden comprar un nombre de dominio que haya expirado recientemente para reutilizar su poder de SEO en Google. Las empresas enteras se centran en comprender todos los dominios expirados y utilizarlos por su capacidad de clasificación histórica. Hacerlo permitirá a los SEO utilizar los vínculos de retroceso ya establecidos al nombre de dominio. Algunos spammers pueden intentar hacer coincidir el tema del sitio expirado o copiar el contenido existente de Internet Archive para mantener la autenticidad del sitio de modo que los vínculos de retroceso no se pierdan. Por ejemplo, un sitio web expirado sobre un fotógrafo puede volver a registrarse para crear un sitio sobre consejos de fotografía o usar el nombre de dominio en su red de blogs privados para impulsar su propio sitio de fotografía.
Los servicios de algunas agencias de registro de nombres de dominio vencidos brindan la posibilidad de encontrar estos dominios vencidos y de recopilar el HTML que el nombre de dominio solía tener en su sitio web. [ cita requerida ]