reCAPTCHA Inc. [1] es un sistema CAPTCHA propiedad de Google . Permite a los servidores web distinguir entre el acceso humano y el automatizado a los sitios web. La versión original solicitaba a los usuarios que descifraran texto difícil de leer o que hicieran coincidir imágenes. La versión 2 también solicitaba a los usuarios que descifraran texto o hicieran coincidir imágenes si el análisis de cookies y la representación del lienzo sugerían que la página se estaba descargando automáticamente. [2] Desde la versión 3, reCAPTCHA nunca interrumpirá a los usuarios y está destinado a ejecutarse automáticamente cuando los usuarios cargan páginas o hacen clic en botones. [3]
La versión original del servicio era una plataforma de colaboración masiva diseñada para la digitalización de libros, en particular aquellos que eran demasiado ilegibles para ser escaneados por computadoras . Las indicaciones de verificación utilizaban pares de palabras de páginas escaneadas, con una palabra conocida utilizada como control para la verificación y la segunda utilizada para obtener la lectura de una palabra incierta mediante crowdsourcing . [4] reCAPTCHA fue desarrollado originalmente por Luis von Ahn , David Abraham, Manuel Blum , Michael Crawford, Ben Maurer, Colin McMillen y Edison Tan en el campus principal de la Universidad Carnegie Mellon en Pittsburgh . [5] Fue adquirido por Google en septiembre de 2009. [6] El sistema ayudó a digitalizar los archivos de The New York Times y, posteriormente, fue utilizado por Google Books para fines similares. [7]
Se informó que el sistema mostraba más de 100 millones de CAPTCHA cada día, [8] en sitios como Facebook , TicketMaster, Twitter, 4chan , CNN.com , StumbleUpon , [9] Craigslist (desde junio de 2008), [10] y el sitio web del programa de cupones para convertidores de TV digital de la Administración Nacional de Telecomunicaciones e Información de los EE. UU. (como parte de la transición a la DTV de los EE. UU. ). [11]
En 2014, Google modificó el concepto original del servicio y se centró en reducir la cantidad de interacción del usuario necesaria para verificarlo, y solo presentar desafíos de reconocimiento humano (como identificar imágenes en un conjunto que satisfagan una solicitud específica) si el análisis del comportamiento sospecha que el usuario puede ser un bot.
En octubre de 2023, se descubrió que el chatbot GPT-4 de OpenAI podía resolver CAPTCHAs. [12]
Distributed Proofreaders fue el primer proyecto que ofreció su tiempo para descifrar textos escaneados que no podían leerse con programas de reconocimiento óptico de caracteres (OCR). Trabaja con el Proyecto Gutenberg para digitalizar material de dominio público y utiliza métodos muy diferentes a los de reCAPTCHA.
El programa reCAPTCHA fue creado por el informático guatemalteco Luis von Ahn [13] y contó con la ayuda de una beca MacArthur . Fue uno de los primeros desarrolladores de CAPTCHA y se dio cuenta de que "sin darse cuenta había creado un sistema que estaba desperdiciando, en incrementos de diez segundos, millones de horas de un recurso sumamente valioso: los ciclos cerebrales humanos". [14]
El texto escaneado se somete al análisis de dos OCR diferentes. Cualquier palabra que sea descifrada de forma diferente por los dos programas de OCR o que no esté en un diccionario de inglés se marca como "sospechosa" y se convierte en un CAPTCHA. La palabra sospechosa se muestra, fuera de contexto, a veces junto con una palabra de control ya conocida. Si el humano escribe la palabra de control correctamente, entonces la respuesta a la palabra cuestionable se acepta como probablemente válida. Si suficientes usuarios escriben correctamente la palabra de control, pero escriben incorrectamente la segunda palabra que el OCR no ha reconocido, entonces la versión digital de los documentos podría terminar conteniendo la palabra incorrecta. La identificación realizada por cada programa de OCR recibe un valor de 0,5 puntos, y cada interpretación realizada por un humano recibe un punto completo. Una vez que una identificación dada alcanza los 2,5 puntos, la palabra se considera válida. Aquellas palabras a las que los jueces humanos asignan constantemente una única identidad se reciclan más tarde como palabras de control. [15] Si las tres primeras conjeturas coinciden entre sí pero no coinciden con ninguno de los OCR, se consideran una respuesta correcta y la palabra se convierte en una palabra de control. [16] Cuando seis usuarios rechazan una palabra antes de que se elija una ortografía correcta, la palabra se descarta por ilegible. [16]
El método reCAPTCHA original fue diseñado para mostrar las palabras cuestionables por separado, como una corrección fuera de contexto, en lugar de en uso, como dentro de una frase de cinco palabras del documento original. [17] Además, la palabra de control podría confundir el contexto de la segunda palabra, como una solicitud de "/metal/ /fife/" ingresada como "metal lime " debido a la conexión lógica de limar con una herramienta de metal que se considera más común que el instrumento musical " fife ". [ cita requerida ]
En 2012, reCAPTCHA comenzó a utilizar fotografías tomadas del proyecto Google Street View , además de palabras escaneadas. [18] Le pedirá al usuario que identifique imágenes de cruces de peatones, farolas y otros objetos. Se ha planteado la hipótesis de que Waymo ( una subsidiaria de Google) utiliza los datos para entrenar vehículos autónomos, aunque un representante anónimo lo ha negado, afirmando que los datos solo se estaban utilizando para mejorar Google Maps a mediados de 2021. [19]
Google cobra por el uso de reCAPTCHA en sitios web que realizan más de un millón de consultas reCAPTCHA al mes. [20]
reCAPTCHA v1 fue declarado al final de su vida útil y cerrado el 31 de marzo de 2018. [21]
En 2013, reCAPTCHA comenzó a implementar un análisis de comportamiento de las interacciones del navegador para predecir si el usuario era un humano o un bot. El año siguiente, Google comenzó a implementar una nueva API de reCAPTCHA, que incluía el "reCAPTCHA sin CAPTCHA", en el que los usuarios considerados de bajo riesgo solo tenían que hacer clic en una única casilla de verificación para verificar su identidad. Aún se puede presentar un CAPTCHA si el sistema no está seguro del riesgo del usuario; Google también presentó un nuevo tipo de desafío CAPTCHA diseñado para ser más accesible para los usuarios móviles, en el que el usuario debe seleccionar imágenes que coincidan con un mensaje específico de una cuadrícula. [2] [22]
En 2017, Google introdujo un nuevo reCAPTCHA "invisible", en el que la verificación se realiza en segundo plano y no se muestran desafíos en absoluto si se considera que el usuario presenta un riesgo bajo. [23] [24] [25] Según el ex " zar del fraude de clics " de Google, Shuman Ghosemajumder , esta capacidad "crea un nuevo tipo de desafío que los bots muy avanzados aún pueden sortear, pero introduce mucha menos fricción para el humano legítimo". [25]
Las pruebas reCAPTCHA se muestran desde el sitio central del proyecto reCAPTCHA, que proporciona las palabras que se deben descifrar. Esto se hace a través de una API de JavaScript y el servidor realiza una devolución de llamada a reCAPTCHA después de que se haya enviado la solicitud. El proyecto reCAPTCHA proporciona bibliotecas para varios lenguajes de programación y aplicaciones para facilitar este proceso. reCAPTCHA es un servicio gratuito que se ofrece a los sitios web para ayudar con el desciframiento, [26] pero el software reCAPTCHA no es de código abierto . [27]
Además, reCAPTCHA ofrece complementos para varias plataformas de aplicaciones web, incluidas ASP.NET , Ruby y PHP , para facilitar la implementación del servicio. [28]
El objetivo principal de un sistema CAPTCHA es bloquear a los robots de spam y permitir el acceso a los usuarios humanos. El 14 de diciembre de 2009, Jonathan Wilkins publicó un artículo en el que describía las debilidades de reCAPTCHA que permitían a los robots lograr una tasa de resolución del 18 %. [30] [31] [32]
El 1 de agosto de 2010, Chad Houck hizo una presentación en la conferencia de piratería DEF CON 18 en la que detallaba un método para revertir la distorsión añadida a las imágenes, lo que permitía a un programa informático determinar una respuesta válida el 10% de las veces. [33] [34] El sistema reCAPTCHA se modificó el 21 de julio de 2010, antes de que Houck hablara sobre su método. Houck modificó su método a lo que describió como un CAPTCHA "más fácil" para determinar una respuesta válida el 31,8% de las veces. Houck también mencionó las defensas de seguridad del sistema, incluido un bloqueo de alta seguridad si se da una respuesta no válida 32 veces seguidas. [35]
El 26 de mayo de 2012, Adam, CP y Jeffball de DC949 dieron una presentación en la conferencia de hackers LayerOne detallando cómo pudieron lograr una solución automatizada con una tasa de precisión del 99,1%. [36] Su táctica fue utilizar técnicas de aprendizaje automático, un subcampo de la inteligencia artificial, para analizar la versión de audio de reCAPTCHA que está disponible para personas con discapacidad visual. Google lanzó una nueva versión de reCAPTCHA solo horas antes de su charla, realizando cambios importantes tanto en la versión de audio como en la versión visual de su servicio. En esta versión, la versión de audio aumentó su duración de 8 segundos a 30 segundos y es mucho más difícil de entender, tanto para humanos como para bots. En respuesta a esta actualización y la siguiente, los miembros de DC949 lanzaron dos versiones más de Stiltwalker que superaron a reCAPTCHA con una precisión del 60,95% y el 59,4% respectivamente. Después de cada interrupción sucesiva, Google actualizó reCAPTCHA en unos pocos días. Según DC949, a menudo volvían a funciones que habían sido pirateadas previamente.
El 27 de junio de 2012, Claudia Cruz, Fernando Uceda y Leobardo Reyes publicaron un artículo que mostraba un sistema que se ejecutaba en imágenes reCAPTCHA con una precisión del 82%. [37] Los autores no han dicho si su sistema puede resolver imágenes reCAPTCHA recientes, aunque afirman que su trabajo es un OCR inteligente y robusto a algunos, si no a todos los cambios en la base de datos de imágenes.
En una presentación de agosto de 2012 en BsidesLV 2012, DC949 calificó la última versión como "inmensamente imposible para los humanos"; tampoco eran capaces de resolverlos manualmente. [36] La organización de accesibilidad web WebAIM informó en mayo de 2012 que "más del 90% de los encuestados [usuarios de lectores de pantalla] consideran que el CAPTCHA es muy o algo difícil". [38]
La iteración original de reCAPTCHA fue criticada por ser una fuente de trabajo no remunerado para ayudar en los esfuerzos de transcripción. [39]
Google se beneficia de los usuarios de reCAPTCHA como trabajadores gratuitos para mejorar su investigación en inteligencia artificial. [40]
La versión actual del sistema ha sido criticada por su dependencia de cookies de seguimiento y la promoción de la dependencia de proveedores con los servicios de Google; se anima a los administradores a incluir el código de seguimiento reCAPTCHA en todas las páginas de su sitio web para analizar el comportamiento y el "riesgo" de los usuarios, lo que determina el nivel de fricción que se presenta cuando se utiliza un mensaje de reCAPTCHA. [41] Google declaró en su política de privacidad que los datos de los usuarios recopilados de esta manera no se utilizan para publicidad personalizada. También se descubrió que el sistema favorece a quienes tienen un inicio de sesión de cuenta de Google activo y muestra un mayor riesgo para quienes utilizan servidores proxy anónimos y servicios VPN. [23]
Se plantearon inquietudes respecto de la privacidad cuando Google anunció reCAPTCHA v3.0, ya que permite a Google rastrear a los usuarios en sitios web que no son de Google. [23]
En abril de 2020, Cloudflare cambió de reCAPTCHA a hCaptcha, alegando preocupaciones de privacidad sobre el posible uso por parte de Google de los datos que recopilan a través de reCAPTCHA para publicidad dirigida [42] y para reducir los costos operativos, ya que una parte considerable de los clientes de Cloudflare son clientes que no pagan. En respuesta, Google le dijo a PC Magazine que los datos de reCAPTCHA nunca se utilizan con fines publicitarios personalizados. [20]
El centro de ayuda de Google indica que reCAPTCHA no es compatible con la comunidad de sordociegos , [43] lo que impide a estos usuarios acceder a todas las páginas que utilizan el servicio. Sin embargo, actualmente reCAPTCHA tiene la lista más larga de consideraciones de accesibilidad de todos los servicios CAPTCHA. [44]
En una de las variantes de los desafíos CAPTCHA, las imágenes no se resaltan de forma incremental, sino que se desvanecen cuando se hace clic y se reemplazan con una nueva imagen que aparece de forma gradual, similar al juego Whack-a-mole .
Se ha criticado el largo tiempo que tardan las imágenes en aparecer y desaparecer. [45]
reCAPTCHA también creó el proyecto Mailhide, que protege las direcciones de correo electrónico en las páginas web de ser recolectadas por spammers . [46] De forma predeterminada, la dirección de correo electrónico se convirtió a un formato que no permitía que un rastreador viera la dirección de correo electrónico completa; por ejemplo, "[email protected]" se habría convertido a "[email protected]". Luego, el visitante haría clic en "..." y resolvería el CAPTCHA para obtener la dirección de correo electrónico completa. También se podría editar el código emergente para que ninguna de las direcciones fuera visible. Mailhide se suspendió en 2018 porque dependía de reCAPTCHA v1. [47]