stringtranslate.com

Raspado web

El web scraping , web harvesting o web data extraction es un tipo de extracción de datos que se utiliza para extraer datos de sitios web . [1] El software de web scraping puede acceder directamente a la World Wide Web mediante el Protocolo de transferencia de hipertexto o un navegador web. Si bien el web scraping puede ser realizado manualmente por un usuario de software, el término generalmente se refiere a procesos automatizados implementados mediante un bot o un rastreador web . Es una forma de copia en la que se recopilan y copian datos específicos de la web, generalmente en una base de datos local central o una hoja de cálculo, para su posterior recuperación o análisis .

El raspado de una página web implica obtenerla y extraer de ella. La obtención es la descarga de una página (que hace un navegador cuando un usuario ve una página). Por lo tanto, el rastreo web es un componente principal del raspado web, para obtener páginas para su posterior procesamiento. Una vez obtenidas, se puede realizar la extracción. El contenido de una página se puede analizar , buscar y reformatear, y sus datos se pueden copiar en una hoja de cálculo o cargar en una base de datos. Los raspadores web normalmente extraen algo de una página para utilizarlo con otro propósito en otro lugar. Un ejemplo sería buscar y copiar nombres y números de teléfono, empresas y sus URL o direcciones de correo electrónico a una lista (raspado de contactos).

Además del raspado de contactos , el raspado web se utiliza como un componente de aplicaciones utilizadas para indexación web , minería web y minería de datos , monitoreo de cambios de precios en línea y comparación de precios , raspado de reseñas de productos (para observar a la competencia), recopilación de listados de bienes raíces, monitoreo de datos meteorológicos, detección de cambios en sitios web , investigación, seguimiento de presencia y reputación en línea, mashup web e integración de datos web .

Las páginas web se crean utilizando lenguajes de marcado basados ​​en texto ( HTML y XHTML ) y, con frecuencia, contienen una gran cantidad de datos útiles en formato de texto. Sin embargo, la mayoría de las páginas web están diseñadas para usuarios finales humanos y no para facilitar su uso automatizado. Como resultado, se han desarrollado herramientas y software especializados para facilitar el raspado de páginas web. Las aplicaciones de raspado web incluyen investigación de mercado , comparación de precios, monitoreo de contenido y más. Las empresas confían en los servicios de raspado web para recopilar y utilizar estos datos de manera eficiente.

Las formas más nuevas de extracción de datos de la web implican el monitoreo de las fuentes de datos de los servidores web. Por ejemplo, JSON se utiliza comúnmente como mecanismo de transporte entre el cliente y el servidor web.

Existen métodos que algunos sitios web utilizan para evitar el web scraping, como detectar y evitar que los bots rastreen (visualicen) sus páginas. En respuesta, existen sistemas de web scraping que se basan en el uso de técnicas de análisis de DOM , visión artificial y procesamiento del lenguaje natural para simular la navegación humana y permitir la recopilación de contenido de páginas web para su análisis sin conexión.

Historia

Técnicas

El web scraping es el proceso de extracción automática de datos o recopilación de información de la World Wide Web. Es un campo con desarrollos activos que comparte un objetivo común con la visión de la web semántica , una iniciativa ambiciosa que aún requiere avances en el procesamiento de texto, la comprensión semántica, la inteligencia artificial y las interacciones entre humanos y computadoras .

Copiar y pegar humano

La forma más sencilla de extraer datos de la web es copiar y pegar manualmente datos de una página web en un archivo de texto o una hoja de cálculo. A veces, ni siquiera la mejor tecnología de extracción de datos de la web puede sustituir el examen manual y el copiado y pegado de datos por parte de un humano, y a veces esta puede ser la única solución viable cuando los sitios web que se van a extraer establecen barreras explícitamente para impedir la automatización de las máquinas.

Coincidencia de patrones de texto

Un enfoque simple pero poderoso para extraer información de páginas web puede basarse en el comando grep de UNIX o en las funciones de coincidencia de expresiones regulares de los lenguajes de programación (por ejemplo, Perl o Python ).

Programación HTTP

Se pueden recuperar páginas web estáticas y dinámicas enviando solicitudes HTTP al servidor web remoto mediante programación de sockets .

Análisis de HTML

Muchos sitios web tienen grandes colecciones de páginas generadas dinámicamente a partir de una fuente estructurada subyacente, como una base de datos. Los datos de la misma categoría suelen codificarse en páginas similares mediante un script o plantilla común. En minería de datos, un programa que detecta dichas plantillas en una fuente de información particular, extrae su contenido y lo traduce a una forma relacional se denomina contenedor . Los algoritmos de generación de contenedores suponen que las páginas de entrada de un sistema de inducción de contenedores se ajustan a una plantilla común y que se pueden identificar fácilmente en términos de un esquema común de URL. [3] Además, algunos lenguajes de consulta de datos semiestructurados , como XQuery y HTMLQL, se pueden utilizar para analizar páginas HTML y recuperar y transformar el contenido de las páginas.

Análisis DOM

Al incorporar un navegador web completo, como Internet Explorer o el control de navegador de Mozilla , los programas pueden recuperar el contenido dinámico generado por los scripts del lado del cliente. Estos controles de navegador también analizan las páginas web en un árbol DOM, en función del cual los programas pueden recuperar partes de las páginas. Se pueden utilizar lenguajes como Xpath para analizar el árbol DOM resultante.

Agregación vertical

Existen varias empresas que han desarrollado plataformas de recolección de datos específicas para cada sector. Estas plataformas crean y monitorean una multitud de "bots" para sectores específicos sin intervención humana directa y sin trabajo relacionado con un sitio de destino específico. La preparación implica establecer la base de conocimiento para todo el sector y luego la plataforma crea los bots automáticamente. La solidez de la plataforma se mide por la calidad de la información que recupera (generalmente, la cantidad de campos) y su escalabilidad (la rapidez con la que puede escalar hasta cientos o miles de sitios). Esta escalabilidad se utiliza principalmente para apuntar a la cola larga de sitios que los agregadores comunes consideran complicados o demasiado laboriosos para recolectar contenido.

Reconocimiento de anotación semántica

Las páginas que se están extrayendo pueden incluir metadatos o marcas semánticas y anotaciones, que se pueden utilizar para localizar fragmentos de datos específicos. Si las anotaciones están incrustadas en las páginas, como lo hace Microformat , esta técnica puede considerarse un caso especial de análisis DOM. En otro caso, las anotaciones, organizadas en una capa semántica, [4] se almacenan y se administran por separado de las páginas web, de modo que los extractores pueden recuperar el esquema de datos y las instrucciones de esta capa antes de extraer las páginas.

Análisis de páginas web mediante visión artificial

Existen esfuerzos que utilizan el aprendizaje automático y la visión por computadora que intentan identificar y extraer información de las páginas web interpretándolas visualmente como lo haría un ser humano. [5]

Comprensión de documentos impulsada por IA

Utiliza inteligencia artificial avanzada para interpretar y procesar el contenido de las páginas web en contexto, extrayendo información relevante, transformando datos y personalizando los resultados en función de la estructura y el significado del contenido. Este método permite una extracción de datos más inteligente y flexible, que se adapta a contenido web complejo y dinámico.

Software

El mundo del web scraping ofrece una variedad de herramientas de software diseñadas para simplificar y personalizar el proceso de extracción de datos de los sitios web. Estas herramientas varían en su enfoque y capacidades, lo que hace que el web scraping sea accesible tanto para usuarios novatos como para programadores avanzados.

Algunos programas avanzados de extracción de datos web pueden reconocer automáticamente la estructura de datos de una página web, lo que elimina la necesidad de codificación manual. Otros ofrecen una interfaz de grabación que permite a los usuarios grabar sus interacciones con un sitio web, creando así un script de extracción de datos sin escribir una sola línea de código. Muchas herramientas también incluyen funciones de script para una extracción y transformación de contenido más personalizada, junto con interfaces de base de datos para almacenar los datos extraídos localmente.

Las herramientas de extracción de datos web son versátiles en cuanto a su funcionalidad. Algunas pueden extraer datos directamente de las API, mientras que otras son capaces de gestionar sitios web con carga de contenido dinámico basado en AJAX o requisitos de inicio de sesión. El software de apuntar y hacer clic, por ejemplo, permite a los usuarios sin conocimientos avanzados de codificación beneficiarse del web scraping. Esto democratiza el acceso a los datos, lo que facilita que un público más amplio aproveche el poder del web scraping.

Herramientas populares de extracción de datos web

BeautifulSoup: una biblioteca de Python que proporciona métodos simples para extraer datos de archivos HTML y XML.

Scrapy: un marco de rastreo web colaborativo y de código abierto para Python que le permite extraer datos, procesarlos y almacenarlos.

Octoparse: una herramienta de raspado web sin código que ofrece una interfaz fácil de usar para extraer datos de sitios web sin necesidad de habilidades de programación.

ParseHub: Otro raspador web sin código que puede manejar contenido dinámico y funciona con sitios cargados con AJAX.

Apify: una plataforma que ofrece una amplia gama de herramientas de scraping y la capacidad de crear scrapers personalizados.

InstantAPI.ai: una herramienta impulsada por IA que transforma cualquier página web en API personalizadas al instante, ofreciendo extracción y personalización de datos avanzadas.

Plataformas de extracción de datos web

Algunas plataformas no solo ofrecen herramientas para el web scraping, sino también oportunidades para que los desarrolladores compartan y potencialmente moneticen sus soluciones de scraping. Al aprovechar estas herramientas y plataformas, los usuarios pueden aprovechar todo el potencial del web scraping, convirtiendo los datos sin procesar en información y oportunidades valiosas.

[6]

Cuestiones jurídicas

La legalidad del web scraping varía en todo el mundo. En general, el web scraping puede ir en contra de los términos de servicio de algunos sitios web, pero la aplicabilidad de estos términos no está clara. [7]

Estados Unidos

En los Estados Unidos, los propietarios de sitios web pueden utilizar tres importantes reclamaciones legales para evitar el web scraping no deseado: (1) infracción de derechos de autor (compilación), (2) violación de la Ley de Fraude y Abuso Informático ("CFAA") y (3) invasión de bienes muebles . [8] Sin embargo, la eficacia de estas reclamaciones depende del cumplimiento de varios criterios, y la jurisprudencia aún está evolucionando. Por ejemplo, con respecto a los derechos de autor, si bien la duplicación directa de la expresión original será ilegal en muchos casos, en los Estados Unidos los tribunales dictaminaron en Feist Publications v. Rural Telephone Service que la duplicación de hechos es permisible.

Los tribunales de Estados Unidos han reconocido que los usuarios de "scrapers" o "robots" pueden ser considerados responsables de cometer una violación de los derechos de propiedad intelectual , [9] [10] lo que implica que un sistema informático en sí mismo se considera propiedad personal sobre la que el usuario de un scraper está invadiendo. El más conocido de estos casos, eBay v. Bidder's Edge , resultó en una orden judicial que ordenaba a Bidder's Edge dejar de acceder, recopilar e indexar subastas del sitio web de eBay. Este caso involucraba la colocación automática de ofertas, conocida como " auction sniping" . Sin embargo, para tener éxito en una demanda por violación de los derechos de propiedad intelectual , el demandante debe demostrar que el demandado interfirió intencionalmente y sin autorización en el interés posesorio del demandante en el sistema informático y que el uso no autorizado del demandado causó daños al demandante. No todos los casos de rastreo web llevados ante los tribunales se han considerado violación de los derechos de propiedad intelectual. [11]

Una de las primeras pruebas importantes de captura de pantalla involucró a American Airlines (AA) y a una empresa llamada FareChase. [12] AA obtuvo con éxito una orden judicial de un tribunal de primera instancia de Texas, impidiendo a FareChase vender software que permite a los usuarios comparar tarifas en línea si el software también realiza búsquedas en el sitio web de AA. La aerolínea argumentó que el software de búsqueda web de FareChase invadió los servidores de AA cuando recopiló los datos disponibles públicamente. FareChase presentó una apelación en marzo de 2003. En junio, FareChase y AA acordaron llegar a un acuerdo y la apelación fue desestimada. [13]

Southwest Airlines también ha cuestionado las prácticas de raspado de pantalla y ha involucrado tanto a FareChase como a otra empresa, Outtask, en una demanda legal. Southwest Airlines denunció que el raspado de pantalla es ilegal, ya que es un ejemplo de "fraude y abuso informático" y ha provocado "daños y pérdidas" y "acceso no autorizado" al sitio de Southwest. También constituye "interferencia con las relaciones comerciales", "intrusión" y "acceso perjudicial por computadora". También afirmaron que el raspado de pantalla constituye lo que legalmente se conoce como "apropiación indebida y enriquecimiento injusto", además de ser una violación del acuerdo de usuario del sitio web. Outtask negó todas estas afirmaciones, alegando que la ley vigente, en este caso, debería ser la ley de derechos de autor de los EE. UU. y que, según los derechos de autor, la información que se raspa no estaría sujeta a la protección de los derechos de autor. Aunque los casos nunca se resolvieron en la Corte Suprema de los Estados Unidos , FareChase fue finalmente cerrada por la empresa matriz Yahoo! , y Outtask fue adquirida por la empresa de gastos de viaje Concur. [14] En 2012, una startup llamada 3Taps extrajo anuncios clasificados de viviendas de Craigslist. Craigslist envió a 3Taps una carta de cese y desistimiento y bloqueó sus direcciones IP y luego demandó, en Craigslist v. 3Taps . El tribunal sostuvo que la carta de cese y desistimiento y el bloqueo de IP fueron suficientes para que Craigslist alegara adecuadamente que 3Taps había violado la Ley de Abuso y Fraude Informático (CFAA).

Aunque se trata de decisiones tempranas sobre el scraping, y las teorías de responsabilidad no son uniformes, es difícil ignorar un patrón emergente de que los tribunales están preparados para proteger el contenido exclusivo de los sitios comerciales de usos que no son deseables para los propietarios de dichos sitios. Sin embargo, el grado de protección para dicho contenido no está establecido y dependerá del tipo de acceso que haga el scraper, la cantidad de información a la que acceda y copie, el grado en que el acceso afecte negativamente al sistema del propietario del sitio y los tipos y formas de prohibiciones sobre dicha conducta. [15]

Mientras la ley en esta área se vuelve más establecida, las entidades que contemplan el uso de programas de raspado para acceder a un sitio web público también deben considerar si dicha acción está autorizada revisando los términos de uso y otros términos o avisos publicados o disponibles a través del sitio. En un fallo de 2010 en Cvent, Inc. v. Eventbrite, Inc. En el tribunal de distrito de los Estados Unidos para el distrito este de Virginia, el tribunal dictaminó que los términos de uso deben ponerse en conocimiento de los usuarios para que se pueda hacer cumplir un contrato o licencia de navegación envolvente . [16] En un caso de 2014, presentado en el Tribunal de Distrito de los Estados Unidos para el Distrito Este de Pensilvania , [17] el sitio de comercio electrónico QVC se opuso al agregador de compras similar a Pinterest Resultly 'el raspado del sitio de QVC para obtener datos de precios en tiempo real. QVC alega que Resultly "rastreó excesivamente" el sitio minorista de QVC (supuestamente enviando entre 200 y 300 solicitudes de búsqueda al sitio web de QVC por minuto, a veces hasta 36.000 solicitudes por minuto), lo que provocó que el sitio de QVC colapsara durante dos días, lo que resultó en la pérdida de ventas para QVC. [18] La demanda de QVC alega que el demandado disfrazó su rastreador web para ocultar su dirección IP de origen y, por lo tanto, impidió que QVC reparara rápidamente el problema. Este es un caso de raspado particularmente interesante porque QVC está solicitando daños y perjuicios por la falta de disponibilidad de su sitio web, que según QVC fue causada por Resultly.

En el sitio web del demandante durante el período de este juicio, el enlace de las condiciones de uso se muestra entre todos los enlaces del sitio, en la parte inferior de la página como la mayoría de los sitios en Internet. Esta sentencia contradice la sentencia irlandesa que se describe a continuación. El tribunal también rechazó el argumento del demandante de que las restricciones de navegación en línea eran aplicables en vista de la adopción por parte de Virginia de la Ley Uniforme de Transacciones de Información Informática (UCITA), una ley uniforme que muchos creían que favorecía las prácticas comunes de contratación de navegación en línea. [19]

En Facebook, Inc. v. Power Ventures, Inc. , un tribunal de distrito dictaminó en 2012 que Power Ventures no podía extraer páginas de Facebook en nombre de un usuario de Facebook. El caso está en apelación y la Electronic Frontier Foundation presentó un escrito en 2015 pidiendo que se revocara. [20] [21] En Associated Press v. Meltwater US Holdings, Inc. , un tribunal de los EE. UU. declaró a Meltwater responsable de extraer y republicar información de noticias de Associated Press, pero un tribunal del Reino Unido falló a favor de Meltwater.

En 2019, el Noveno Circuito dictaminó que el web scraping no violaba la CFAA en el caso hiQ Labs v. LinkedIn . El caso fue apelado ante la Corte Suprema de los Estados Unidos , que lo devolvió al Noveno Circuito para que lo reconsiderara a la luz de la decisión de la Corte Suprema de 2021 en el caso Van Buren v. Estados Unidos , que restringió la aplicabilidad de la CFAA. [22] En esta revisión, el Noveno Circuito confirmó su decisión anterior. [23]

Internet Archive recopila y distribuye una cantidad significativa de páginas web disponibles públicamente sin que se considere que infringen las leyes de derechos de autor. [ cita requerida ]

unión Europea

En febrero de 2006, el Tribunal Marítimo y Comercial de Dinamarca (Copenhague) dictaminó que el rastreo, la indexación y los enlaces profundos sistemáticos realizados por el portal ofir.dk al sitio inmobiliario Home.dk no entran en conflicto con la legislación danesa ni con la directiva de bases de datos de la Unión Europea. [24]

En un caso de febrero de 2010 complicado por cuestiones de jurisdicción, el Tribunal Superior de Irlanda emitió un veredicto que ilustra el estado incipiente de la jurisprudencia en desarrollo. En el caso de Ryanair Ltd v Billigfluege.de GmbH , el Tribunal Superior de Irlanda dictaminó que el acuerdo de " click-wrap " de Ryanair era jurídicamente vinculante. En contraste con las conclusiones del Tribunal de Distrito de los Estados Unidos del Distrito Este de Virginia y las del Tribunal Marítimo y Comercial de Dinamarca, el juez Michael Hanna dictaminó que el hipervínculo a los términos y condiciones de Ryanair era claramente visible y que imponer al usuario la carga de aceptar los términos y condiciones para obtener acceso a los servicios en línea es suficiente para constituir una relación contractual. [25] La decisión está siendo apelada en el Tribunal Supremo de Irlanda. [26]

El 30 de abril de 2020, la Comisión Nacional de Informática y Libertades (CNIL) publicó nuevas directrices sobre el web scraping. [27] Las directrices de la CNIL dejaron claro que los datos disponibles públicamente siguen siendo datos personales y no se pueden reutilizar sin el conocimiento de la persona a la que pertenecen esos datos. [28]

Australia

En Australia, la Ley de Spam de 2003 prohíbe algunas formas de recolección de datos web, aunque esto sólo se aplica a las direcciones de correo electrónico. [29] [30]

India

A excepción de algunos casos relacionados con la violación de derechos de propiedad intelectual, los tribunales indios no se han pronunciado expresamente sobre la legalidad del web scraping. Sin embargo, dado que todas las formas comunes de contratos electrónicos son ejecutables en la India, violar los términos de uso que prohíben el web scraping será una violación de la ley de contratos. También violará la Ley de Tecnología de la Información de 2000 , que penaliza el acceso no autorizado a un recurso informático o la extracción de datos de un recurso informático.

Métodos para prevenir el web scraping

El administrador de un sitio web puede utilizar diversas medidas para detener o ralentizar un bot. Algunas técnicas incluyen:

Véase también

Referencias

  1. ^ Thapelo, Tsaone Swaabow; Namoshe, Molaletsa; Matsebe, Oduetse; Motshegwa, Tshiamo; Bopape, Mary-Jane Morongwa (28 de julio de 2021). "SASSCAL WebSAPI: una interfaz de programación de aplicaciones de raspado web para admitir el acceso a los datos meteorológicos de SASSCAL". Revista de ciencia de datos . 20 : 24. doi : 10.5334/dsj-2021-024 . ISSN  1683-1470. S2CID  237719804.
  2. ^ "Search Engine History.com". Historial de motores de búsqueda . Consultado el 26 de noviembre de 2019 .
  3. ^ Song, Ruihua; Microsoft Research (14 de septiembre de 2007). "Optimización conjunta de la generación de envoltorios y la detección de plantillas" (PDF) . Actas de la 13.ª conferencia internacional ACM SIGKDD sobre descubrimiento de conocimiento y minería de datos . pág. 894. doi :10.1145/1281192.1281287. ISBN. 9781595936097. S2CID  833565. Archivado desde el original (PDF) el 11 de octubre de 2016.
  4. ^ Web scraping basado en anotación semántica
  5. ^ Roush, Wade (25 de julio de 2012). "Diffbot está utilizando la visión artificial para reinventar la web semántica". www.xconomy.com . Consultado el 15 de marzo de 2013 .
  6. ^ Ciechanowski, Leon; Jemielniak, Dariusz; Gloor, Peter A. (2020). "TUTORIAL: Investigación de IA sin codificación: El arte de luchar sin luchar: Ciencia de datos para investigadores cualitativos". Revista de investigación empresarial . 117 . Elsevier BV: 322–330. doi : 10.1016/j.jbusres.2020.06.012 . ISSN  0148-2963.
  7. ^ "Preguntas frecuentes sobre enlaces: ¿Las condiciones de uso de los sitios web son contratos vinculantes?". www.chillingeffects.org. 20 de agosto de 2007. Archivado desde el original el 8 de marzo de 2002. Consultado el 20 de agosto de 2007 .
  8. ^ Kenneth, Hirschey, Jeffrey (1 de enero de 2014). "Relaciones simbióticas: aceptación pragmática del raspado de datos". Berkeley Technology Law Journal . 29 (4). doi :10.15779/Z38B39B. ISSN  1086-3818.{{cite journal}}: CS1 maint: multiple names: authors list (link)
  9. ^ "Derecho de Internet, cap. 06: Intrusión en bienes muebles". www.tomwbell.com. 20 de agosto de 2007. Consultado el 20 de agosto de 2007 .
  10. ^ "¿Cuáles son las demandas por "allanamiento de bienes muebles" que han interpuesto algunas empresas o propietarios de sitios web?". www.chillingeffects.org. 20 de agosto de 2007. Archivado desde el original el 8 de marzo de 2002. Consultado el 20 de agosto de 2007 .
  11. ^ "Ticketmaster Corp. v. Tickets.com, Inc". 20 de agosto de 2007. Consultado el 20 de agosto de 2007 .
  12. ^ "American Airlines v. FareChase" (PDF) . 20 de agosto de 2007. Archivado desde el original (PDF) el 23 de julio de 2011. Consultado el 20 de agosto de 2007 .
  13. ^ "American Airlines y FareChase llegan a un acuerdo sobre la demanda". The Free Library. 13 de junio de 2003. Archivado desde el original el 5 de marzo de 2016. Consultado el 26 de febrero de 2012 .
  14. ^ Imperva (2011). Detección y bloqueo de ataques de extracción de datos de sitios web. Libro blanco de Imperva.
  15. ^ Adler, Kenneth A. (29 de julio de 2003). "La polémica rodea a los 'capturadores de pantalla': el software ayuda a los usuarios a acceder a sitios web, pero la actividad de los competidores está bajo escrutinio". Archivado desde el original el 11 de febrero de 2011. Consultado el 27 de octubre de 2010 .
  16. ^ "QVC Inc. v. Resultly LLC, No. 14-06714 (ED Pa. filed Nov. 24, 2014)" (PDF) . 2014-11-24. Archivado desde el original (PDF) el 2013-09-21 . Consultado el 2015-11-05 .
  17. ^ "QVC Inc. v. Resultly LLC, No. 14-06714 (ED Pa. filed Nov. 24, 2014)". Tribunal de Distrito de los Estados Unidos para el Distrito Este de Pensilvania . Consultado el 5 de noviembre de 2015 .
  18. ^ Neuburger, Jeffrey D (5 de diciembre de 2014). "QVC demanda a una aplicación de compras por el uso de datos web que supuestamente provocó la interrupción del servicio del sitio". The National Law Review . Proskauer Rose LLP . Consultado el 5 de noviembre de 2015 .
  19. ^ "¿Iqbal y Twombly elevaron el nivel de las reclamaciones por Browsewrap?" (PDF) . 17 de septiembre de 2010. Archivado desde el original (PDF) el 23 de julio de 2011. Consultado el 27 de octubre de 2010 .
  20. ^ "¿Puede el scraping de contenido que no infringe derechos de autor convertirse en una infracción de derechos de autor... debido a la forma en que funcionan los scrapers? | Techdirt". Techdirt . 2009-06-10 . Consultado el 2016-05-24 .
  21. ^ "Facebook v. Power Ventures". Electronic Frontier Foundation . Consultado el 24 de mayo de 2016 .
  22. ^ Chung, Andrew (14 de junio de 2021). «La Corte Suprema de Estados Unidos revive la propuesta de LinkedIn de proteger los datos personales». Reuters . Consultado el 14 de junio de 2021 .
  23. ^ Whittaker, Zack (18 de abril de 2022). "El web scraping es legal, reafirma el tribunal de apelaciones de EE. UU.". TechCrunch .
  24. ^ "UDSKRIFT AF SØ- & HANDELSRETTENS DOMBOG" (PDF) (en danés). bvhd.dk. 2006-02-24. Archivado desde el original (PDF) el 12 de octubre de 2007 . Consultado el 30 de mayo de 2007 .
  25. ^ "Decisiones del Tribunal Superior de Irlanda >> Ryanair Ltd -v- Billigfluege.de GMBH 2010 IEHC 47 (26 de febrero de 2010)". Instituto de Información Legal Británico e Irlandés. 26 de febrero de 2010. Consultado el 19 de abril de 2012 .
  26. ^ Matthews, Áine (junio de 2010). "Propiedad intelectual: Condiciones de uso del sitio web". Número 26: junio de 2010. LK Shields Solicitors Update. p. 03. Archivado desde el original el 24 de junio de 2012. Consultado el 19 de abril de 2012 .
  27. ^ "La réutilisation des données publiquement accesss en ligne à des fins de démarchage comercial | CNIL". www.cnil.fr (en francés) . Consultado el 5 de julio de 2020 .
  28. ^ FindDataLab.com (9 de junio de 2020). "¿Aún se puede realizar web scraping con las nuevas directrices de la CNIL?". Medium . Consultado el 5 de julio de 2020 .
  29. ^ Oficina Nacional para la Economía de la Información (febrero de 2004). "Spam Act 2003: An overview for business" (Ley antispam de 2003: una visión general para las empresas). Autoridad Australiana de Comunicaciones. pág. 6. Archivado desde el original el 2019-12-03 . Consultado el 2017-12-07 .
  30. ^ Oficina Nacional para la Economía de la Información (febrero de 2004). "Spam Act 2003: A practical guide for business" (PDF) . Autoridad Australiana de Comunicaciones. pág. 20. Consultado el 7 de diciembre de 2017 .
  31. ^ "Web Scraping para principiantes: una guía para 2024". Proxyway . 2023-08-31 . Consultado el 2024-03-15 .
  32. ^ Mayank Dhiman Breaking Fraud & Bot Detection Solutions OWASP AppSec Cali' 2018 Consultado el 10 de febrero de 2018.