stringtranslate.com

reCAPTCHA

reCAPTCHA Inc. [1] es un sistema CAPTCHA propiedad de Google . Permite a los servidores web distinguir entre el acceso humano y el automatizado a los sitios web. La versión original solicitaba a los usuarios que descifraran texto difícil de leer o que hicieran coincidir imágenes. La versión 2 también solicitaba a los usuarios que descifraran texto o hicieran coincidir imágenes si el análisis de cookies y la representación del lienzo sugerían que la página se estaba descargando automáticamente. [2] Desde la versión 3, reCAPTCHA nunca interrumpirá a los usuarios y está destinado a ejecutarse automáticamente cuando los usuarios cargan páginas o hacen clic en botones. [3]

La versión original del servicio era una plataforma de colaboración masiva diseñada para la digitalización de libros, en particular aquellos que eran demasiado ilegibles para ser escaneados por computadoras . Las indicaciones de verificación utilizaban pares de palabras de páginas escaneadas, con una palabra conocida utilizada como control para la verificación y la segunda utilizada para obtener la lectura de una palabra incierta mediante crowdsourcing . [4] reCAPTCHA fue desarrollado originalmente por Luis von Ahn , David Abraham, Manuel Blum , Michael Crawford, Ben Maurer, Colin McMillen y Edison Tan en el campus principal de la Universidad Carnegie Mellon en Pittsburgh . [5] Fue adquirido por Google en septiembre de 2009. [6] El sistema ayudó a digitalizar los archivos de The New York Times y, posteriormente, fue utilizado por Google Books para fines similares. [7]

Se informó que el sistema mostraba más de 100 millones de CAPTCHA cada día, [8] en sitios como Facebook , TicketMaster, Twitter, 4chan , CNN.com , StumbleUpon , [9] Craigslist (desde junio de 2008), [10] y el sitio web del programa de cupones para convertidores de TV digital de la Administración Nacional de Telecomunicaciones e Información de los EE. UU. (como parte de la transición a la DTV de los EE. UU. ). [11]

En 2014, Google modificó el concepto original del servicio y se centró en reducir la cantidad de interacción del usuario necesaria para verificarlo, y solo presentar desafíos de reconocimiento humano (como identificar imágenes en un conjunto que satisfagan una solicitud específica) si el análisis del comportamiento sospecha que el usuario puede ser un bot.

En octubre de 2023, se descubrió que el chatbot GPT-4 de OpenAI podía resolver CAPTCHAs. [12]

Origen

Distributed Proofreaders fue el primer proyecto que ofreció su tiempo para descifrar textos escaneados que no podían leerse con programas de reconocimiento óptico de caracteres (OCR). Trabaja con el Proyecto Gutenberg para digitalizar material de dominio público y utiliza métodos muy diferentes a los de reCAPTCHA.

El programa reCAPTCHA fue creado por el informático guatemalteco Luis von Ahn [13] y contó con la ayuda de una beca MacArthur . Fue uno de los primeros desarrolladores de CAPTCHA y se dio cuenta de que "sin darse cuenta había creado un sistema que estaba desperdiciando, en incrementos de diez segundos, millones de horas de un recurso sumamente valioso: los ciclos cerebrales humanos". [14]

Operación

RECAPTCHA v1 (OCR asistido por humanos)gato

CAPTCHA de identificación de imagen, que requiere que los usuarios seleccionen las imágenes apropiadas para verificar que son gatos humanos.

El texto escaneado se somete al análisis de dos OCR diferentes. Cualquier palabra que sea descifrada de forma diferente por los dos programas de OCR o que no esté en un diccionario de inglés se marca como "sospechosa" y se convierte en un CAPTCHA. La palabra sospechosa se muestra, fuera de contexto, a veces junto con una palabra de control ya conocida. Si el humano escribe la palabra de control correctamente, entonces la respuesta a la palabra cuestionable se acepta como probablemente válida. Si suficientes usuarios escriben correctamente la palabra de control, pero escriben incorrectamente la segunda palabra que el OCR no ha reconocido, entonces la versión digital de los documentos podría terminar conteniendo la palabra incorrecta. La identificación realizada por cada programa de OCR recibe un valor de 0,5 puntos, y cada interpretación realizada por un humano recibe un punto completo. Una vez que una identificación dada alcanza los 2,5 puntos, la palabra se considera válida. Aquellas palabras a las que los jueces humanos asignan constantemente una única identidad se reciclan más tarde como palabras de control. [15] Si las tres primeras conjeturas coinciden entre sí pero no coinciden con ninguno de los OCR, se consideran una respuesta correcta y la palabra se convierte en una palabra de control. [16] Cuando seis usuarios rechazan una palabra antes de que se elija una ortografía correcta, la palabra se descarta por ilegible. [16]

El método reCAPTCHA original fue diseñado para mostrar las palabras cuestionables por separado, como una corrección fuera de contexto, en lugar de en uso, como dentro de una frase de cinco palabras del documento original. [17] Además, la palabra de control podría confundir el contexto de la segunda palabra, como una solicitud de "/metal/ /fife/" ingresada como "metal lime " debido a la conexión lógica de limar con una herramienta de metal que se considera más común que el instrumento musical " fife ". [ cita requerida ]

En 2012, reCAPTCHA comenzó a utilizar fotografías tomadas del proyecto Google Street View , además de palabras escaneadas. [18] Le pedirá al usuario que identifique imágenes de cruces de peatones, farolas y otros objetos. Se ha planteado la hipótesis de que Waymo ( una subsidiaria de Google) utiliza los datos para entrenar vehículos autónomos, aunque un representante anónimo lo ha negado, afirmando que los datos solo se estaban utilizando para mejorar Google Maps a mediados de 2021. [19]

Google cobra por el uso de reCAPTCHA en sitios web que realizan más de un millón de consultas reCAPTCHA al mes. [20]

reCAPTCHA v1 fue declarado al final de su vida útil y cerrado el 31 de marzo de 2018. [21]

reCAPTCHA v2 (casilla de verificación)

El NoCAPTCHA reCAPTCHA

En 2013, reCAPTCHA comenzó a implementar un análisis de comportamiento de las interacciones del navegador para predecir si el usuario era un humano o un bot. El año siguiente, Google comenzó a implementar una nueva API de reCAPTCHA, que incluía el "reCAPTCHA sin CAPTCHA", en el que los usuarios considerados de bajo riesgo solo tenían que hacer clic en una única casilla de verificación para verificar su identidad. Aún se puede presentar un CAPTCHA si el sistema no está seguro del riesgo del usuario; Google también presentó un nuevo tipo de desafío CAPTCHA diseñado para ser más accesible para los usuarios móviles, en el que el usuario debe seleccionar imágenes que coincidan con un mensaje específico de una cuadrícula. [2] [22]

reCAPTCHA v3 y reCAPTCHA Enterprise (invisible)

En 2017, Google introdujo un nuevo reCAPTCHA "invisible", en el que la verificación se realiza en segundo plano y no se muestran desafíos en absoluto si se considera que el usuario presenta un riesgo bajo. [23] [24] [25] Según el ex " zar del fraude de clics " de Google, Shuman Ghosemajumder , esta capacidad "crea un nuevo tipo de desafío que los bots muy avanzados aún pueden sortear, pero introduce mucha menos fricción para el humano legítimo". [25]

Implementación

Las pruebas reCAPTCHA se muestran desde el sitio central del proyecto reCAPTCHA, que proporciona las palabras que se deben descifrar. Esto se hace a través de una API de JavaScript y el servidor realiza una devolución de llamada a reCAPTCHA después de que se haya enviado la solicitud. El proyecto reCAPTCHA proporciona bibliotecas para varios lenguajes de programación y aplicaciones para facilitar este proceso. reCAPTCHA es un servicio gratuito que se ofrece a los sitios web para ayudar con el desciframiento, [26] pero el software reCAPTCHA no es de código abierto . [27]

Además, reCAPTCHA ofrece complementos para varias plataformas de aplicaciones web, incluidas ASP.NET , Ruby y PHP , para facilitar la implementación del servicio. [28]

Seguridad

Un ejemplo de cómo se presentaron los desafíos reCAPTCHA en 2010, [29] que contenían las palabras "y cinceles"

El objetivo principal de un sistema CAPTCHA es bloquear a los robots de spam y permitir el acceso a los usuarios humanos. El 14 de diciembre de 2009, Jonathan Wilkins publicó un artículo en el que describía las debilidades de reCAPTCHA que permitían a los robots lograr una tasa de resolución del 18 %. [30] [31] [32]

El 1 de agosto de 2010, Chad Houck hizo una presentación en la conferencia de piratería DEF CON 18 en la que detallaba un método para revertir la distorsión añadida a las imágenes, lo que permitía a un programa informático determinar una respuesta válida el 10% de las veces. [33] [34] El sistema reCAPTCHA se modificó el 21 de julio de 2010, antes de que Houck hablara sobre su método. Houck modificó su método a lo que describió como un CAPTCHA "más fácil" para determinar una respuesta válida el 31,8% de las veces. Houck también mencionó las defensas de seguridad del sistema, incluido un bloqueo de alta seguridad si se da una respuesta no válida 32 veces seguidas. [35]

El 26 de mayo de 2012, Adam, CP y Jeffball de DC949 dieron una presentación en la conferencia de hackers LayerOne detallando cómo pudieron lograr una solución automatizada con una tasa de precisión del 99,1%. [36] Su táctica fue utilizar técnicas de aprendizaje automático, un subcampo de la inteligencia artificial, para analizar la versión de audio de reCAPTCHA que está disponible para personas con discapacidad visual. Google lanzó una nueva versión de reCAPTCHA solo horas antes de su charla, realizando cambios importantes tanto en la versión de audio como en la versión visual de su servicio. En esta versión, la versión de audio aumentó su duración de 8 segundos a 30 segundos y es mucho más difícil de entender, tanto para humanos como para bots. En respuesta a esta actualización y la siguiente, los miembros de DC949 lanzaron dos versiones más de Stiltwalker que superaron a reCAPTCHA con una precisión del 60,95% y el 59,4% respectivamente. Después de cada interrupción sucesiva, Google actualizó reCAPTCHA en unos pocos días. Según DC949, a menudo volvían a funciones que habían sido pirateadas previamente.

El 27 de junio de 2012, Claudia Cruz, Fernando Uceda y Leobardo Reyes publicaron un artículo que mostraba un sistema que se ejecutaba en imágenes reCAPTCHA con una precisión del 82%. [37] Los autores no han dicho si su sistema puede resolver imágenes reCAPTCHA recientes, aunque afirman que su trabajo es un OCR inteligente y robusto a algunos, si no a todos los cambios en la base de datos de imágenes.

En una presentación de agosto de 2012 en BsidesLV 2012, DC949 calificó la última versión como "inmensamente imposible para los humanos"; tampoco eran capaces de resolverlos manualmente. [36] La organización de accesibilidad web WebAIM informó en mayo de 2012 que "más del 90% de los encuestados [usuarios de lectores de pantalla] consideran que el CAPTCHA es muy o algo difícil". [38]

Crítica

La iteración original de reCAPTCHA fue criticada por ser una fuente de trabajo no remunerado para ayudar en los esfuerzos de transcripción. [39]

Google se beneficia de los usuarios de reCAPTCHA como trabajadores gratuitos para mejorar su investigación en inteligencia artificial. [40]

Privacidad

La versión actual del sistema ha sido criticada por su dependencia de cookies de seguimiento y la promoción de la dependencia de proveedores con los servicios de Google; se anima a los administradores a incluir el código de seguimiento reCAPTCHA en todas las páginas de su sitio web para analizar el comportamiento y el "riesgo" de los usuarios, lo que determina el nivel de fricción que se presenta cuando se utiliza un mensaje de reCAPTCHA. [41] Google declaró en su política de privacidad que los datos de los usuarios recopilados de esta manera no se utilizan para publicidad personalizada. También se descubrió que el sistema favorece a quienes tienen un inicio de sesión de cuenta de Google activo y muestra un mayor riesgo para quienes utilizan servidores proxy anónimos y servicios VPN. [23]

Se plantearon inquietudes respecto de la privacidad cuando Google anunció reCAPTCHA v3.0, ya que permite a Google rastrear a los usuarios en sitios web que no son de Google. [23]

En abril de 2020, Cloudflare cambió de reCAPTCHA a hCaptcha, alegando preocupaciones de privacidad sobre el posible uso por parte de Google de los datos que recopilan a través de reCAPTCHA para publicidad dirigida [42] y para reducir los costos operativos, ya que una parte considerable de los clientes de Cloudflare son clientes que no pagan. En respuesta, Google le dijo a PC Magazine que los datos de reCAPTCHA nunca se utilizan con fines publicitarios personalizados. [20]

Accesibilidad

El centro de ayuda de Google indica que reCAPTCHA no es compatible con la comunidad de sordociegos , [43] lo que impide a estos usuarios acceder a todas las páginas que utilizan el servicio. Sin embargo, actualmente reCAPTCHA tiene la lista más larga de consideraciones de accesibilidad de todos los servicios CAPTCHA. [44]

Interfaz

En una de las variantes de los desafíos CAPTCHA, las imágenes no se resaltan de forma incremental, sino que se desvanecen cuando se hace clic y se reemplazan con una nueva imagen que aparece de forma gradual, similar al juego Whack-a-mole .

Se ha criticado el largo tiempo que tardan las imágenes en aparecer y desaparecer. [45]

Proyectos derivados

reCAPTCHA también creó el proyecto Mailhide, que protege las direcciones de correo electrónico en las páginas web de ser recolectadas por spammers . [46] De forma predeterminada, la dirección de correo electrónico se convirtió a un formato que no permitía que un rastreador viera la dirección de correo electrónico completa; por ejemplo, "[email protected]" se habría convertido a "[email protected]". Luego, el visitante haría clic en "..." y resolvería el CAPTCHA para obtener la dirección de correo electrónico completa. También se podría editar el código emergente para que ninguna de las direcciones fuera visible. Mailhide se suspendió en 2018 porque dependía de reCAPTCHA v1. [47]

Referencias

  1. ^ "Recaptcha Inc". OpenCorporates . 28 de agosto de 2007. Archivado desde el original el 20 de agosto de 2023 . Consultado el 20 de agosto de 2023 .
  2. ^ ab Shet, Vinay (3 de diciembre de 2014). "¿Eres un robot? Presentamos 'CAPTCHA the ReCAPTCHA PREDATORS'". Archivado desde el original el 3 de septiembre de 2020. Consultado el 24 de febrero de 2021 .
  3. ^ "reCAPTCHA v3". Archivado desde el original el 25 de septiembre de 2020 . Consultado el 8 de septiembre de 2020 .
  4. ^ Ahn, Luis von (6 de diciembre de 2011), Colaboración en línea a gran escala, archivado del original el 15 de julio de 2020 , consultado el 14 de abril de 2020
  5. ^ "reCAPTCHA: Acerca de nosotros". Archivado desde el original el 11 de junio de 2010. Consultado el 14 de agosto de 2018 .
  6. ^ "Enseñar a leer a las computadoras: Google adquiere reCAPTCHA". Archivado desde el original el 19 de mayo de 2013. Consultado el 16 de septiembre de 2009 .
  7. ^ "Descifrando textos antiguos, una palabra curvilínea y confusa a la vez". The New York Times . 28 de marzo de 2011. Archivado desde el original el 17 de noviembre de 2017 . Consultado el 20 de noviembre de 2017 .
  8. ^ "Preguntas frecuentes sobre reCAPTCHA". Archivado desde el original el 5 de julio de 2010. Consultado el 12 de junio de 2011 .
  9. ^ Rubens, Paul (2 de octubre de 2007). «El arma antispam ayuda a preservar los libros». BBC. Archivado desde el original el 18 de mayo de 2013. Consultado el 3 de octubre de 2007 .
  10. ^ "Combata el spam, digitalice libros". Blog de Craigslist. Junio ​​de 2008. Archivado desde el original el 6 de julio de 2010. Consultado el 17 de junio de 2008 .
  11. ^ "Programa de decodificadores de televisión". dtv2009.gov . Archivado desde el original el 4 de noviembre de 2009.
  12. ^ Edwards, Benj (2 de octubre de 2023). "La solicitud de un medallón de abuela muerta engaña a la IA de Bing Chat para que resuelva un acertijo de seguridad". Ars Technica . Archivado desde el original el 10 de octubre de 2023 . Consultado el 25 de octubre de 2023 .
  13. ^ ""Entrevista completa: Luis von Ahn en Duolingo", Spark, noviembre de 2011". Canadian Broadcasting Corporation. 30 de noviembre de 2011. Archivado desde el original el 3 de junio de 2012. Consultado el 10 de julio de 2013 .
  14. ^ Hutchinson, Alex (12 de marzo de 2009). «Recursos humanos: el trabajo que ni siquiera sabías que tenías». The Walrus . Archivado desde el original el 3 de diciembre de 2015. Consultado el 7 de diciembre de 2015 .
  15. ^ Timmer, John (14 de agosto de 2008). «¿Funcionan los CAPTCHA para digitalizar textos y manuscritos antiguos y dañados?». Ars Technica . Archivado desde el original el 24 de enero de 2009. Consultado el 9 de diciembre de 2008 .
  16. ^ ab Luis; Maurer, Ben; McMillen, Colin; Abraham, David; Blum, Manuel (2008). "reCAPTCHA: Reconocimiento de caracteres basado en humanos mediante medidas de seguridad web"". Science . 321 (5895): 1465–1468. Bibcode :2008Sci...321.1465V. CiteSeerX  10.1.1.141.6563 . doi :10.1126/science.1160379. PMID  18703711. S2CID  18371056.
  17. ^ ""validez cuestionable de los resultados si las palabras se presentan fuera de contexto", Google Groups, 29 de agosto de 2008". Archivado desde el original el 30 de abril de 2011 . Consultado el 10 de julio de 2013 .
  18. ^ Perez, Sarah (29 de marzo de 2012). "Google ahora usa ReCAPTCHA para decodificar direcciones de Street View". TechCrunch . Archivado desde el original el 23 de agosto de 2012. Consultado el 10 de julio de 2013 .
  19. ^ Vega, Edward (14 de mayo de 2021). «Por qué los captchas son cada vez más difíciles». Vox . Archivado desde el original el 15 de abril de 2022. Consultado el 15 de abril de 2022 .
  20. ^ ab "Cloudflare abandona el ReCAPTCHA de Google por cuestiones de privacidad y costes". PCMag . Archivado desde el original el 19 de julio de 2020 . Consultado el 18 de julio de 2020 .
  21. ^ "La API de Google reCAPTCHA v1 dejará de funcionar en marzo de 2018". ProgrammableWeb . Archivado desde el original el 20 de junio de 2020 . Consultado el 14 de abril de 2020 .
  22. ^ Greenberg, Andy (3 de diciembre de 2014). «Google ahora puede saber que no eres un robot con un solo clic». Wired . Archivado desde el original el 2 de octubre de 2015. Consultado el 1 de octubre de 2015 .
  23. ^ abc Schwab, Katharine (27 de junio de 2019). «El nuevo reCAPTCHA de Google tiene un lado oscuro». Fast Company . Archivado desde el original el 28 de junio de 2019. Consultado el 8 de abril de 2020 .
  24. ^ Amadeo, Ron (9 de marzo de 2017). «El reCAPTCHA de Google se vuelve 'invisible' y separará a los bots de las personas sin desafíos». Ars Technica . Archivado desde el original el 6 de agosto de 2020 . Consultado el 14 de abril de 2020 .
  25. ^ ab "Google acaba de hacer que Internet sea un poquito menos molesto". Popular Science . 10 de marzo de 2017. Archivado desde el original el 5 de febrero de 2021 . Consultado el 5 de abril de 2017 .
  26. ^ "Preguntas frecuentes". reCAPTCHA.net. Archivado desde el original el 16 de julio de 2012.
  27. ^ "reCAPTCHA: Detén el spam, lee libros". Archivado desde el original el 19 de junio de 2020. Consultado el 14 de enero de 2014 .
  28. ^ "Guía para desarrolladores: reCAPTCHA". Google Inc. Archivado desde el original el 24 de noviembre de 2017 . Consultado el 14 de enero de 2014 .
  29. ^ Greenberg, Andy (18 de junio de 2010). "Esas pruebas de palabras desordenadas para detener a los robots de spam también son difíciles para los humanos". Forbes . Archivado desde el original el 9 de septiembre de 2017. Consultado el 10 de septiembre de 2017 .
  30. ^ "Strong CAPTCHA Guidelines" (PDF) . Archivado (PDF) del original el 23 de julio de 2011 . Consultado el 31 de enero de 2011 .
  31. ^ "Nuevo ataque descifra el reCAPTCHA de Google". The Register . Archivado desde el original el 10 de agosto de 2017. Consultado el 10 de agosto de 2017 .
  32. ^ "El reCAPTCHA de Google ha sido dañado". Archivado desde el original el 10 de marzo de 2010 . Consultado el 31 de enero de 2011 .
  33. ^ "Oradores de Def Con 18". defcon.org. Archivado desde el original el 20 de octubre de 2010. Consultado el 17 de noviembre de 2010 .
  34. ^ "Decodificación del documento reCAPTCHA". Chad Houck. Archivado desde el original el 19 de agosto de 2010.
  35. ^ "Decodificación de reCAPTCHA en Power Point". Chad Houck. Archivado desde el original el 24 de octubre de 2010.
  36. ^ ab "Project Stiltwalker". Archivado desde el original el 2 de julio de 2012. Consultado el 28 de mayo de 2012 .
  37. ^ Cruz-Pérez, Claudia; Starostenko, Oleg; Uceda-Ponga, Fernando; Alarcón-Aquino, Vicente; Reyes-Cabrera, Leobardo (27 de junio de 2012), Carrasco-Ochoa, Jesús Ariel; Martínez-Trinidad, José Francisco; Olvera López, José Arturo; Boyer, Kim L. (eds.), "Romper reCAPTCHA con colapso impredecible: segmentación y reconocimiento de caracteres heurísticos", Reconocimiento de patrones , vol. 7329, Berlín, Heidelberg: Springer Berlin Heidelberg, págs. 155–165, doi :10.1007/978-3-642-31149-9_16, ISBN 978-3-642-31148-2, S2CID  29097170 , consultado el 23 de enero de 2013
  38. ^ "Resultados de la encuesta de usuarios de lectores de pantalla n.° 4". Archivado desde el original el 10 de diciembre de 2017 . Consultado el 19 de abril de 2013 .
  39. ^ Harris, David L. (23 de enero de 2015). «La demanda de una mujer de Massachusetts acusa a Google de utilizar mano de obra gratuita para transcribir libros y periódicos». Boston Business Journal . Archivado desde el original el 28 de abril de 2015. Consultado el 4 de septiembre de 2015 .
  40. ^ "Sin CAPTCHA: otra artimaña más ideada por Google para extraerte trabajo digital gratuito". Archivado desde el original el 12 de noviembre de 2020 . Consultado el 3 de diciembre de 2020 .
  41. ^ Taylor, Chris (26 de febrero de 2024). "¡Deja de revelar los datos de tu sitio web!". Prosopo .
  42. ^ "Pasando de reCAPTCHA a hCaptcha". El blog de Cloudflare . 8 de abril de 2020. Archivado desde el original el 12 de agosto de 2020. Consultado el 18 de julio de 2020 .
  43. ^ "¿Qué es CAPTCHA? - Ayuda para administradores de G Suite". Archivado desde el original el 6 de agosto de 2020 . Consultado el 11 de mayo de 2020 .
  44. ^ "WCAG 1.1: Alternativas de texto [Artículo]". 6 de octubre de 2020. Archivado desde el original el 26 de noviembre de 2020. Consultado el 10 de diciembre de 2020 .
  45. ^ "ReCaptcha se desvanece extremadamente [sic] lento · Problema n.° 268 · google/recaptcha". GitHub . Archivado desde el original el 14 de octubre de 2020 . Consultado el 14 de octubre de 2020 .
  46. ^ "Mailhide: protección gratuita contra spam". Archivado desde el original el 2 de enero de 2012. Consultado el 15 de mayo de 2011 .
  47. ^ "Mailhide: Servicio discontinuado". Archivado desde el original el 7 de noviembre de 2012. Consultado el 3 de marzo de 2019 .

Lectura adicional

Enlaces externos