Prevención de bots

La prevención de bots se refiere a los métodos utilizados por los servicios web para evitar el acceso de procesos automatizados .

Tipos de bots

Los estudios sugieren que más de la mitad del tráfico en Internet es actividad de bots, de los cuales más de la mitad se clasifican además como "bots malos". ^[1]

Los bots se utilizan para diversos fines en línea. Algunos bots se utilizan de forma pasiva para fines de extracción de datos de la web , por ejemplo, para recopilar información de las aerolíneas sobre precios de vuelos y destinos. Otros bots, como los bots de zapatillas , ayudan al operador del bot a adquirir artículos de lujo de alta demanda; a veces, estos se revenden en el mercado secundario a precios más altos, en lo que comúnmente se conoce como "scalping". ^[2]^[3]^[4]

Técnicas de detección y evitación

Se utilizan diversas técnicas de identificación y comportamiento para identificar si el cliente es un usuario humano o un bot. A su vez, los bots utilizan una serie de técnicas para evitar ser detectados y aparecer como un humano ante el servidor. ^[2]

Las técnicas de toma de huellas digitales de navegadores son el componente más común en los sistemas de protección anti-bots. Los datos se suelen recopilar a través de JavaScript del lado del cliente que luego se transmite al servicio anti-bot para su análisis. Los datos recopilados incluyen resultados de las API de JavaScript (verificando si una API determinada está implementada y devuelve los resultados esperados de un navegador normal), renderizando escenas complejas de WebGL y utilizando la API Canvas . ^[1]^[5] Las técnicas de toma de huellas digitales de TLS categorizan al cliente analizando los conjuntos de cifrado admitidos durante el protocolo de enlace SSL . ^[6] Estas huellas digitales se pueden utilizar para crear listas blancas / listas negras que contienen huellas digitales de pilas de navegadores conocidas. ^[7] En 2017, Salesforce abrió el código fuente de su biblioteca de huellas digitales de TLS (JA3). ^[8] Entre agosto y septiembre de 2018, Akamai notó un gran aumento en la manipulación de TLS en su red para evadir la detección. ^[9]^[7]

También se utilizan técnicas basadas en el comportamiento, aunque con menos frecuencia que las técnicas de toma de huellas dactilares, y se basan en la idea de que los robots se comportan de manera diferente a los visitantes humanos. Un enfoque conductual común es analizar los movimientos del ratón de un cliente y determinar si son típicos de un humano. ^[1]^[10]

También se emplean a menudo técnicas más tradicionales como los CAPTCHA , aunque generalmente se consideran ineficaces y, al mismo tiempo, intrusivas para los visitantes humanos. ^[11]

El uso de JavaScript puede evitar algunos bots que dependen de solicitudes básicas (como a través de cURL ), ya que estos no cargarán el script de detección y, por lo tanto, no podrán progresar. ^[1] Un método común para evitar muchas técnicas es usar un navegador sin cabeza para simular un navegador web real y ejecutar los scripts de detección de JavaScript del lado del cliente. ^[2]^[1] Hay una variedad de navegadores sin cabeza que se utilizan; algunos son personalizados (como PhantomJS ), pero también es posible operar navegadores típicos como Google Chrome en modo sin cabeza usando un controlador. Selenium es un marco de automatización web común que facilita el control del navegador sin cabeza. ^[5]^[1] Los sistemas de detección anti-bot intentan identificar la implementación de métodos específicos de estos navegadores sin cabeza, o la falta de implementación adecuada de las API que se implementarían en los navegadores web normales. ^[1]

El código fuente de estos archivos JavaScript suele estar ofuscado para dificultar la ingeniería inversa del funcionamiento de la detección. ^[5] Las técnicas comunes incluyen: ^[12]

Minificación
Matrices de cadenas
Aplanamiento del flujo de control
Inyección de código muerto
debuggerdeclaraciones, para evitar el uso de depuradores como DevTools

Varias empresas de Internet ofrecen servicios de protección anti-bots, como Cloudflare ^[13] y Akamai . ^[14]^[15]

Ley

En Estados Unidos, en 2016 se aprobó la Ley de Mejores Ventas de Entradas en Línea (conocida comúnmente como Ley BOTS) para evitar algunos usos de bots en el comercio. ^[16] Un año después, el Reino Unido aprobó regulaciones similares en la Ley de Economía Digital de 2017. [ ^17]^[18] La eficacia de estas medidas es objeto de controversia. ^[19]

Referencias

^ abcdefg Amin Azad, Babak; Starov, Oleksii; Laperdrix, Pierre; Nikiforakis, Nick (2020). "Web Runner 2049: evaluación de servicios anti-bot de terceros". En Maurice, Clémentine; Bilge, Leyla; Stringhini, Gianluca; Neves, Nuno (eds.). Detección de intrusiones y malware, y evaluación de vulnerabilidades . Apuntes de clase en informática. Vol. 12223. Cham: Springer International Publishing. págs. 135–159. doi :10.1007/978-3-030-52683-2_7. ISBN 978-3-030-52683-2. Número de pieza 7338186 .
^ abc Chiapponi, Elisa; Dacier, Marc; Todisco, Massimiliano; Catakoglu, Onur; Thonnard, Olivier (2021). "Tamaños de botnets: cuando las matemáticas se encuentran con los mitos". Computación orientada a servicios: talleres ICSOC 2020. Apuntes de clase en informática. Vol. 12632. págs. 596–611. doi :10.1007/978-3-030-76352-7_52. ISBN 978-3-030-76351-0.S2CID232203240 .
^ Marks, Tod. "Por qué los precios de las entradas se están disparando". Consumer Reports .
^ "Bad Bot Report 2021" (PDF) . Imperva . Consultado el 23 de agosto de 2021 .
^ abc Jonker, Hugo; Krumnow, Benjamin; Vlot, Gabry (2019). "Detección de detectores de bots web basada en superficie de huellas dactilares". En Sako, Kazue; Schneider, Steve; Ryan, Peter YA (eds.). Seguridad informática – ESORICS 2019. Apuntes de clase en informática. Vol. 11736. Cham: Springer International Publishing. págs. 586–605. doi :10.1007/978-3-030-29962-0_28. ISBN 978-3-030-29962-0.S2CID202579603 .
^ "Qualys SSL Labs - Proyectos / Huella digital de cliente HTTP mediante análisis de protocolo de enlace SSL". www.ssllabs.com .
^ ab "Los bots manipulan cada vez más el protocolo TLS para burlar los filtros". The Daily Swig | Noticias y opiniones sobre ciberseguridad . 17 de mayo de 2019.
^ Althouse, John (5 de febrero de 2019). "Código abierto de JA3". Medium .
^ "Bots que alteran TLS para evitar ser detectados - Blog de investigación de amenazas e inteligencia de seguridad de Akamai". blogs.akamai.com .
^ Wei, Ang; Zhao, Yuxuan; Cai, Zhongmin (2019). "Un enfoque de aprendizaje profundo para la detección de bots web mediante biometría del comportamiento del ratón". Reconocimiento biométrico . Apuntes de clase en informática. Vol. 11818. págs. 388–395. doi :10.1007/978-3-030-31456-9_43. ISBN 978-3-030-31455-2. Número de identificación del sujeto 203847308.
^ Chu, Zi; Gianvecchio, Steven; Wang, Haining (2018). "¿Bot o humano? Un sistema de detección de bots en línea basado en el comportamiento". De la base de datos a la ciberseguridad . Apuntes de clase en informática. Vol. 11170. págs. 432–449. doi :10.1007/978-3-030-04834-1_21. ISBN 978-3-030-04833-4.
^ "Herramienta de ofuscación de JavaScript". obfuscator.io .
^ "Gestión de bots de Cloudflare". Cloudflare .
^ "Bot Manager". Akamai Technologies . Consultado el 23 de agosto de 2021 .
^ "Administrador de bots de Akamai". Akamai Technologies .
^ Sisario, Ben (9 de diciembre de 2016). "El Congreso toma medidas para frenar la reventa de entradas y prohibir el uso de bots en línea". The New York Times .
^ Keepfer, DLA Piper-Francis (10 de enero de 2018). "El gobierno del Reino Unido criminaliza el uso de bots de venta de entradas". Lexology .
^ "Nueva ley prohibirá el uso de bots para comprar entradas en masa". Which? News . 23 de abril de 2018.
^ Elefant, Sammi (2018). "Más allá de los bots: enfadados por los precios de las entradas o la eterna estafa". UCLA Entertainment Law Review . 25 (1). doi : 10.5070/LR8251039716 . ISSN 1073-2896.