Sitio raspador

Un sitio scraper es un sitio web que copia contenido de otros sitios web mediante web scraping . Luego, el contenido se refleja con el objetivo de generar ingresos, generalmente a través de publicidad y, a veces, vendiendo datos de los usuarios.

Los sitios scraper vienen en varias formas: algunos proporcionan poco o ningún material o información y están destinados a obtener información del usuario, como direcciones de correo electrónico, para enviar correos electrónicos no deseados. Los sitios de compras y agregación de precios acceden a múltiples listados de un producto y permiten al usuario comparar rápidamente los precios.

Ejemplos de sitios web scraper

Los motores de búsqueda como Google podrían considerarse un tipo de sitio raspador. Los motores de búsqueda recopilan contenido de otros sitios web, lo guardan en sus propias bases de datos, lo indexan y presentan el contenido extraído a los propios usuarios de los motores de búsqueda. La mayoría del contenido extraído por los motores de búsqueda tiene derechos de autor. ^[1]

La técnica de raspado también se ha utilizado en varios sitios web de citas. Estos sitios suelen combinar sus actividades de raspado con el reconocimiento facial . ^[2]^[3]^[4]^[5]^[6]^[7]^[8]^[9]^[10]^[11]^{[ citas excesivas ]}

El raspado también se utiliza en sitios web de análisis (reconocimiento) de imágenes generales, así como en sitios web creados específicamente para identificar imágenes de cultivos con plagas y enfermedades. ^[12]^[13]

Hecho para publicidad

Algunos sitios scraper se crean para ganar dinero mediante el uso de programas publicitarios. En tal caso, se denominan sitios Made for AdSense o MFA. Este término despectivo se refiere a sitios web que no tienen ningún valor redentor excepto atraer visitantes al sitio web con el único propósito de hacer clic en los anuncios. ^[14]

Los sitios creados para AdSense se consideran spam en los motores de búsqueda y diluyen los resultados de búsqueda con resultados poco satisfactorios. El contenido extraído es redundante en comparación con el contenido mostrado por el motor de búsqueda en circunstancias normales, si no se hubiera encontrado ningún sitio web de MFA en los listados.

Algunos sitios scraper enlazan con otros sitios para mejorar su clasificación en los motores de búsqueda a través de una red de blogs privados . Antes de la actualización de Google de su algoritmo de búsqueda conocido como Panda , un tipo de sitio de raspado conocido como blog automático era bastante común entre los especialistas en marketing de sombrero negro que utilizaban un método conocido como spamdexing .

Legalidad

Los sitios scraper pueden violar la ley de derechos de autor . Incluso tomar contenido de un sitio de contenido abierto puede constituir una violación de derechos de autor , si se hace de una manera que no respete la licencia. Por ejemplo, las licencias GNU Free Documentation License (GFDL) ^[15] y Creative Commons ShareAlike (CC-BY-SA) ^[16] utilizadas en Wikipedia ^[17] requieren que un republicador de Wikipedia informe a sus lectores de las condiciones de estas licencias. y dar crédito al autor original.

Técnicas

Dependiendo del objetivo de un scraper, los métodos en los que se dirigen los sitios web difieren. Por ejemplo, los sitios con grandes cantidades de contenido, como aerolíneas, electrónica de consumo, grandes almacenes, etc., pueden ser el objetivo habitual de la competencia sólo para mantenerse al tanto de la información sobre precios.

Otro tipo de raspador extraerá fragmentos y texto de sitios web que ocupan un lugar destacado en las palabras clave a las que se han dirigido. De esta manera, esperan obtener una clasificación alta en las páginas de resultados de los motores de búsqueda (SERP), aprovechando la clasificación de la página original . Los feeds RSS son vulnerables a los scrapers.

Otros sitios de raspado consisten en anuncios y párrafos de palabras seleccionadas al azar de un diccionario. A menudo, un visitante hará clic en un anuncio de pago por clic en dicho sitio porque es el único texto comprensible de la página. Los operadores de estos sitios scraper se benefician económicamente de estos clics. Las redes de publicidad afirman trabajar constantemente para eliminar estos sitios de sus programas, aunque estas redes se benefician directamente de los clics generados en este tipo de sitios. Desde el punto de vista de los anunciantes, las cadenas no parecen estar haciendo los esfuerzos suficientes para frenar este problema.

Los scrapers tienden a asociarse con granjas de enlaces y, a veces, se perciben como la misma cosa cuando varios scrapers se vinculan al mismo sitio de destino. Un sitio de víctima frecuente podría ser acusado de participar en una granja de enlaces, debido al patrón artificial de enlaces entrantes a un sitio web de víctima, vinculados desde múltiples sitios de raspado.

Secuestro de dominio

Algunos programadores que crean sitios scraper pueden comprar un nombre de dominio recientemente caducado para reutilizar su poder de SEO en Google. Empresas enteras se centran en comprender todos los ^{[ cita necesaria ]} dominios caducados y utilizarlos para su capacidad de clasificación histórica. Hacerlo permitirá a los SEO utilizar los vínculos de retroceso ya establecidos al nombre de dominio. Algunos spammers pueden intentar hacer coincidir el tema del sitio caducado o copiar el contenido existente de Internet Archive para mantener la autenticidad del sitio y que los vínculos de retroceso no caigan. Por ejemplo, un sitio web caducado sobre un fotógrafo puede volver a registrarse para crear un sitio sobre consejos de fotografía o utilizar el nombre de dominio en su red de blogs privados para impulsar su propio sitio de fotografía.

Los servicios de algunos agentes de registro de nombres de dominio caducados brindan tanto la posibilidad de encontrar estos dominios caducados como de recopilar el HTML que solía tener el nombre de dominio en su sitio web. ^{[ cita necesaria ]}

Ver también

Raspado
Raspado de contacto
Aparcamiento de dominio
raspado web
raspado de blogs
Mensajeros multiprotocolo : pueden conectarse a varias redes, pero requieren tener una cuenta en todas ellas, así que no viole ninguno de los términos de las redes.
Granja de contenido
Optimización de motores de búsqueda (SEO)

Referencias

^ Google 'tomó ilegalmente contenido de Amazon, Yelp y TripAdvisor', según un informe
^ "Esta aplicación te permite encontrar personas en Tinder que parecen celebridades". Noticias de BuzzFeed . 20 de junio de 2017. Archivado desde el original el 8 de mayo de 2023.
^ El jefe de la aplicación de citas no ve "ningún problema" en el emparejamiento de rostros sin consentimiento
^ La aplicación Dating.ai te conecta con personas parecidas a celebridades
^ La aplicación de reconocimiento facial relaciona a extraños con perfiles en línea
^ NameTag: aplicación de reconocimiento facial criticada por ser espeluznante e invasiva
^ Deslizar destructor
^ La aplicación compatible con acosadores, NameTag, utiliza reconocimiento facial para buscarte en línea
^ Esta aplicación inteligente (pero inquietante) te permite apuntar con tu teléfono a las personas para saber quiénes son
^ Truly.am utiliza el reconocimiento facial para ayudarle a verificar sus fechas en línea
^ 3 fascinantes motores de búsqueda que buscan rostros
^ "Wolfram ha creado un sitio web que identificará cualquier imagen que le arrojes". El borde . 2015-05-14. Archivado desde el original el 3 de junio de 2023.
^ El aprendizaje automático ayuda a los pequeños agricultores a identificar plagas y enfermedades de las plantas
^ Hecho para AdSense
^ "Texto de la licencia de documentación libre GNU".
^ "Licencia no portada Creative Commons Attribution-ShareAlike 3.0".
^ "Wikipedia: reutilización del contenido de Wikipedia".