reCAPTCHA Inc. [1] es un sistema CAPTCHA propiedad de Google . Permite a los servidores web distinguir entre el acceso humano y el automatizado a los sitios web. La versión original pedía a los usuarios que descifraran textos difíciles de leer o unieran imágenes. La versión 2 también pedía a los usuarios que descifraran texto o relacionaran imágenes si el análisis de las cookies y la representación del lienzo sugerían que la página se estaba descargando automáticamente. [2] Desde la versión 3, reCAPTCHA nunca interrumpirá a los usuarios y está diseñado para ejecutarse automáticamente cuando los usuarios cargan páginas o hacen clic en botones. [3]
La versión original del servicio era una plataforma de colaboración masiva diseñada para la digitalización de libros, en particular aquellos que eran demasiado ilegibles para ser escaneados por computadoras . Las indicaciones de verificación utilizaron pares de palabras de páginas escaneadas, con una palabra conocida utilizada como control para la verificación y la segunda utilizada para la lectura colectiva de una palabra incierta. [4] reCAPTCHA fue desarrollado originalmente por Luis von Ahn , David Abraham, Manuel Blum , Michael Crawford, Ben Maurer, Colin McMillen y Edison Tan en el campus principal de Pittsburgh de la Universidad Carnegie Mellon . [5] Fue adquirido por Google en septiembre de 2009. [6] El sistema ayudó a digitalizar los archivos de The New York Times y posteriormente fue utilizado por Google Books para fines similares. [7]
Se informó que el sistema muestra más de 100 millones de CAPTCHA todos los días, [8] en sitios como Facebook , TicketMaster , Twitter , 4chan , CNN.com , StumbleUpon , [9] Craigslist (desde junio de 2008), [10] y EE. UU. Sitio web del programa de cupones para cajas convertidoras de TV digital de la Administración Nacional de Telecomunicaciones e Información (como parte de la transición a DTV de EE. UU .). [11]
En 2014, Google alejó el servicio de su concepto original, enfocándose en reducir la cantidad de interacción del usuario necesaria para verificar a un usuario, y solo presenta desafíos de reconocimiento humano (como identificar imágenes en un conjunto que satisfacen un mensaje específico) si El análisis de comportamiento sospecha que el usuario puede ser un bot.
En octubre de 2023, se descubrió que el chatbot GPT-4 de Bing Chat podía resolver CAPTCHA. [12]
Distributed Proofreaders fue el primer proyecto que ofreció su tiempo para descifrar texto escaneado que no podía leerse mediante programas de reconocimiento óptico de caracteres (OCR). Trabaja con el Proyecto Gutenberg para digitalizar material de dominio público y utiliza métodos bastante diferentes a reCAPTCHA.
El programa reCAPTCHA se originó con el informático guatemalteco Luis von Ahn , [13] y contó con la ayuda de una beca MacArthur . Uno de los primeros desarrolladores de CAPTCHA, se dio cuenta de que "sin saberlo, había creado un sistema que estaba desperdiciando, en incrementos de diez segundos, millones de horas de un recurso muy preciado: los ciclos del cerebro humano". [14]
El texto escaneado se somete a análisis mediante dos OCR diferentes. Cualquier palabra que sea descifrada de manera diferente por los dos programas OCR o que no esté en un diccionario de inglés se marca como "sospechosa" y se convierte en un CAPTCHA. La palabra sospechosa se muestra, fuera de contexto, a veces junto con una palabra de control ya conocida. Si el humano escribe la palabra de control correctamente, entonces la respuesta a la palabra cuestionable se acepta como probablemente válida. Si suficientes usuarios escribieran correctamente la palabra de control, pero escribieran incorrectamente la segunda palabra que el OCR no pudo reconocer, entonces la versión digital de los documentos podría terminar conteniendo la palabra incorrecta. La identificación realizada por cada programa OCR recibe un valor de 0,5 puntos, y cada interpretación realizada por un humano recibe un punto completo. Una vez que una identificación determinada alcanza los 2,5 puntos, la palabra se considera válida. Aquellas palabras a las que los jueces humanos les dan constantemente una identidad única se reciclan posteriormente como palabras de control. [16] Si las tres primeras conjeturas coinciden pero no coinciden con ninguno de los OCR, se consideran una respuesta correcta y la palabra se convierte en una palabra de control. [17] Cuando seis usuarios rechazan una palabra antes de elegir la ortografía correcta, la palabra se descarta como ilegible. [17]
El método reCAPTCHA original fue diseñado para mostrar las palabras cuestionables por separado, como corrección fuera de contexto, en lugar de en uso, como dentro de una frase de cinco palabras del documento original. [18] Además, la palabra de control puede inducir a error en el contexto de la segunda palabra, como por ejemplo si se ingresa una solicitud de "/metal/ /fife/" como " archivo de metal " debido a que se considera más la conexión lógica del archivo con una herramienta de metal. común que el instrumento musical " pífano ". [ cita necesaria ]
En 2012, reCAPTCHA comenzó a utilizar fotografías tomadas del proyecto Google Street View , además de palabras escaneadas. [19] Le pedirá al usuario que identifique imágenes de pasos de peatones, farolas y otros objetos. Se ha planteado la hipótesis de que Waymo (una filial de Google) utiliza los datos para entrenar vehículos autónomos, aunque un representante anónimo lo ha negado, afirmando que los datos solo se estaban utilizando para mejorar Google Maps a partir de mediados de 2021. [20]
Google cobra por el uso de reCAPTCHA en sitios web que realizan más de un millón de consultas de reCAPTCHA al mes. [21]
En 2013, reCAPTCHA comenzó a implementar análisis de comportamiento de las interacciones del navegador para predecir si el usuario era un humano o un robot. Al año siguiente, Google comenzó a implementar una nueva API reCAPTCHA, que presentaba "no CAPTCHA reCAPTCHA", donde los usuarios considerados de bajo riesgo solo necesitan hacer clic en una única casilla de verificación para verificar su identidad. Aún se puede presentar un CAPTCHA si el sistema no está seguro del riesgo del usuario; Google también introdujo un nuevo tipo de desafío CAPTCHA diseñado para ser más accesible para los usuarios de dispositivos móviles, donde el usuario debe seleccionar imágenes que coincidan con un mensaje específico de una cuadrícula. [2] [22]
En 2017, Google introdujo un nuevo reCAPTCHA "invisible", donde la verificación se produce en segundo plano y no se muestra ningún desafío si se considera que el usuario tiene un riesgo bajo. [23] [24] [25] Según el ex " zar del fraude de clics " de Google, Shuman Ghosemajumder , esta capacidad "crea un nuevo tipo de desafío que los robots muy avanzados aún pueden superar, pero introduce mucha menos fricción con el ser humano legítimo. " [25]
reCAPTCHA v1 fue declarado final de vida útil y cerrado el 31 de marzo de 2018. [26]
Las pruebas de reCAPTCHA se muestran desde el sitio central del proyecto reCAPTCHA, que proporciona las palabras a descifrar. Esto se hace a través de una API de JavaScript y el servidor realiza una devolución de llamada a reCAPTCHA después de enviar la solicitud. El proyecto reCAPTCHA proporciona bibliotecas para varios lenguajes de programación y aplicaciones para facilitar este proceso. reCAPTCHA es un servicio gratuito que se proporciona a los sitios web para ayudar con el descifrado, [27] pero el software reCAPTCHA no es de código abierto . [28]
Además, reCAPTCHA ofrece complementos para varias plataformas de aplicaciones web, incluidas ASP.NET , Ruby y PHP , para facilitar la implementación del servicio. [29]
El objetivo principal de un sistema CAPTCHA es bloquear los robots de spam y permitir el acceso a usuarios humanos. El 14 de diciembre de 2009, Jonathan Wilkins publicó un artículo que describía las debilidades de reCAPTCHA que permitían a los bots alcanzar una tasa de resolución del 18%. [31] [32] [33]
El 1 de agosto de 2010, Chad Houck hizo una presentación en la Conferencia de Hacking DEF CON 18 detallando un método para revertir la distorsión agregada a las imágenes que permitió a un programa de computadora determinar una respuesta válida el 10% de las veces. [34] [35] El sistema reCAPTCHA se modificó el 21 de julio de 2010, antes de que Houck hablara sobre su método. Houck modificó su método a lo que describió como un CAPTCHA "más fácil" para determinar una respuesta válida el 31,8% de las veces. Houck también mencionó las defensas de seguridad en el sistema, incluido un bloqueo de alta seguridad si se da una respuesta no válida 32 veces seguidas. [36]
El 26 de mayo de 2012, Adam, CP y Jeffball de DC949 dieron una presentación en la conferencia de hackers LayerOne detallando cómo pudieron lograr una solución automatizada con una tasa de precisión del 99,1%. [37] Su táctica fue utilizar técnicas de aprendizaje automático, un subcampo de la inteligencia artificial, para analizar la versión de audio de reCAPTCHA que está disponible para personas con discapacidad visual. Google lanzó una nueva versión de reCAPTCHA apenas unas horas antes de su charla, realizando cambios importantes tanto en la versión de audio como en la visual de su servicio. En esta versión, la duración de la versión de audio aumentó de 8 segundos a 30 segundos y es mucho más difícil de entender, tanto para humanos como para robots. En respuesta a esta actualización y a la siguiente, los miembros de DC949 lanzaron dos versiones más de Stiltwalker que superaron a reCAPTCHA con una precisión del 60,95% y 59,4% respectivamente. Después de cada pausa sucesiva, Google actualizó reCAPTCHA a los pocos días. Según DC949, a menudo volvían a funciones que habían sido previamente pirateadas.
El 27 de junio de 2012, Claudia Cruz, Fernando Uceda y Leobardo Reyes publicaron un artículo que muestra un sistema que se ejecuta en imágenes reCAPTCHA con una precisión del 82%. [38] Los autores no han dicho si su sistema puede resolver imágenes reCAPTCHA recientes, aunque afirman que su trabajo es OCR inteligente y resistente a algunos, si no a todos, los cambios en la base de datos de imágenes.
En una presentación de agosto de 2012 realizada en BsidesLV 2012, DC949 calificó la última versión como "insondablemente imposible para los humanos": tampoco pudieron resolverlos manualmente. [37] La organización de accesibilidad web WebAIM informó en mayo de 2012: "Más del 90% de los encuestados [usuarios de lectores de pantalla] consideran que CAPTCHA es muy o algo difícil". [39]
La versión original de reCAPTCHA fue criticada por ser una fuente de trabajo no remunerado para ayudar en los esfuerzos de transcripción. [40]
Google se beneficia de los usuarios de reCAPTCHA como trabajadores gratuitos para mejorar su investigación de IA. [41]
La versión actual del sistema ha sido criticada por su dependencia de las cookies de seguimiento y la promoción de la dependencia del proveedor con los servicios de Google; Se anima a los administradores a incluir el código de seguimiento reCAPTCHA en todas las páginas de su sitio web para analizar el comportamiento y el "riesgo" de los usuarios, lo que determina el nivel de fricción que se presenta cuando se utiliza un mensaje reCAPTCHA. Google declaró en su política de privacidad que los datos de usuario recopilados de esta manera no se utilizan para publicidad personalizada. También se descubrió que el sistema favorece a quienes tienen un inicio de sesión activo en una cuenta de Google y muestra un mayor riesgo para quienes utilizan servidores proxy anónimos y servicios VPN. [23]
Surgieron preocupaciones con respecto a la privacidad cuando Google anunció reCAPTCHA v3.0, ya que permite a Google rastrear a los usuarios en sitios web que no son de Google. [23]
En abril de 2020, Cloudflare cambió de reCAPTCHA a hCaptcha, citando preocupaciones de privacidad sobre el uso potencial por parte de Google de los datos que recopilan a través de reCAPTCHA para publicidad dirigida [42] y para reducir los costos operativos, ya que una parte considerable de los clientes de Cloudflare son clientes que no pagan. . En respuesta, Google le dijo a PC Magazine que los datos de reCAPTCHA nunca se utilizan con fines publicitarios personalizados. [21]
El centro de ayuda de Google afirma que reCAPTCHA no es compatible con la comunidad de sordociegos , [43] bloqueando efectivamente a dichos usuarios fuera de todas las páginas que utilizan el servicio. Sin embargo, reCAPTCHA tiene actualmente la lista más larga de consideraciones de accesibilidad de cualquier servicio CAPTCHA. [44]
En una de las variantes de los desafíos CAPTCHA, las imágenes no se resaltan de forma incremental, sino que se desvanecen al hacer clic y se reemplazan con una nueva imagen que aparece gradualmente, parecida a un golpe a un topo .
Las críticas se han dirigido a la larga duración que tardan las imágenes en desaparecer y aparecer. [45]
reCAPTCHA también creó el proyecto Mailhide, que protege las direcciones de correo electrónico de las páginas web para que no sean recopiladas por spammers . [46] De forma predeterminada, la dirección de correo electrónico se convertía a un formato que no permitía que un rastreador viera la dirección de correo electrónico completa; por ejemplo, "[email protected]" se habría convertido en "[email protected]". Luego, el visitante haría clic en "..." y resolvería el CAPTCHA para obtener la dirección de correo electrónico completa. También se puede editar el código emergente para que ninguna dirección sea visible. Mailhide se suspendió en 2018 porque dependía de reCAPTCHA v1. [47]
{{cite book}}
: Mantenimiento CS1: falta el editor de la ubicación ( enlace )