reCAPTCHA

reCAPTCHA Inc. ^[1] es un sistema CAPTCHA propiedad de Google . Permite a los servidores web distinguir entre el acceso humano y el automatizado a los sitios web. La versión original pedía a los usuarios que descifraran textos difíciles de leer o unieran imágenes. La versión 2 también pedía a los usuarios que descifraran texto o relacionaran imágenes si el análisis de las cookies y la representación del lienzo sugerían que la página se estaba descargando automáticamente. ^[2] Desde la versión 3, reCAPTCHA nunca interrumpirá a los usuarios y está diseñado para ejecutarse automáticamente cuando los usuarios cargan páginas o hacen clic en botones. ^[3]

La versión original del servicio era una plataforma de colaboración masiva diseñada para la digitalización de libros, en particular aquellos que eran demasiado ilegibles para ser escaneados por computadoras . Las indicaciones de verificación utilizaron pares de palabras de páginas escaneadas, con una palabra conocida utilizada como control para la verificación y la segunda utilizada para la lectura colectiva de una palabra incierta. ^[4] reCAPTCHA fue desarrollado originalmente por Luis von Ahn , David Abraham, Manuel Blum , Michael Crawford, Ben Maurer, Colin McMillen y Edison Tan en el campus principal de Pittsburgh de la Universidad Carnegie Mellon . ^[5] Fue adquirido por Google en septiembre de 2009. ^[6] El sistema ayudó a digitalizar los archivos de The New York Times y posteriormente fue utilizado por Google Books para fines similares. ^[7]

Se informó que el sistema muestra más de 100 millones de CAPTCHA todos los días, ^[8] en sitios como Facebook , TicketMaster , Twitter , 4chan , CNN.com , StumbleUpon , ^[9] Craigslist (desde junio de 2008), ^[10] y EE. UU. Sitio web del programa de cupones para cajas convertidoras de TV digital de la Administración Nacional de Telecomunicaciones e Información (como parte de la transición a DTV de EE. UU .). ^[11]

En 2014, Google alejó el servicio de su concepto original, enfocándose en reducir la cantidad de interacción del usuario necesaria para verificar a un usuario, y solo presenta desafíos de reconocimiento humano (como identificar imágenes en un conjunto que satisfacen un mensaje específico) si El análisis de comportamiento sospecha que el usuario puede ser un bot.

En octubre de 2023, se descubrió que el chatbot GPT-4 de Bing Chat podía resolver CAPTCHA. ^[12]

Origen

Distributed Proofreaders fue el primer proyecto que ofreció su tiempo para descifrar texto escaneado que no podía leerse mediante programas de reconocimiento óptico de caracteres (OCR). Trabaja con el Proyecto Gutenberg para digitalizar material de dominio público y utiliza métodos bastante diferentes a reCAPTCHA.

El programa reCAPTCHA se originó con el informático guatemalteco Luis von Ahn , ^[13] y contó con la ayuda de una beca MacArthur . Uno de los primeros desarrolladores de CAPTCHA, se dio cuenta de que "sin saberlo, había creado un sistema que estaba desperdiciando, en incrementos de diez segundos, millones de horas de un recurso muy preciado: los ciclos del cerebro humano". ^[14]

Operación

ReCAPTCHA v1 (OCR asistido por humanos)

Un ejemplo de cómo se veía un desafío reCAPTCHA en 2007, ^[15] que contenía las palabras "seguir" y "encontrar". Se agregaron ondulaciones y trazos horizontales para aumentar la dificultad de romper el CAPTCHA con un programa de computadora.

El texto escaneado se somete a análisis mediante dos OCR diferentes. Cualquier palabra que sea descifrada de manera diferente por los dos programas OCR o que no esté en un diccionario de inglés se marca como "sospechosa" y se convierte en un CAPTCHA. La palabra sospechosa se muestra, fuera de contexto, a veces junto con una palabra de control ya conocida. Si el humano escribe la palabra de control correctamente, entonces la respuesta a la palabra cuestionable se acepta como probablemente válida. Si suficientes usuarios escribieran correctamente la palabra de control, pero escribieran incorrectamente la segunda palabra que el OCR no pudo reconocer, entonces la versión digital de los documentos podría terminar conteniendo la palabra incorrecta. La identificación realizada por cada programa OCR recibe un valor de 0,5 puntos, y cada interpretación realizada por un humano recibe un punto completo. Una vez que una identificación determinada alcanza los 2,5 puntos, la palabra se considera válida. Aquellas palabras a las que los jueces humanos les dan constantemente una identidad única se reciclan posteriormente como palabras de control. ^[16] Si las tres primeras conjeturas coinciden pero no coinciden con ninguno de los OCR, se consideran una respuesta correcta y la palabra se convierte en una palabra de control. ^[17] Cuando seis usuarios rechazan una palabra antes de elegir la ortografía correcta, la palabra se descarta como ilegible. ^[17]

El método reCAPTCHA original fue diseñado para mostrar las palabras cuestionables por separado, como corrección fuera de contexto, en lugar de en uso, como dentro de una frase de cinco palabras del documento original. ^[18] Además, la palabra de control puede inducir a error en el contexto de la segunda palabra, como por ejemplo si se ingresa una solicitud de "/metal/ /fife/" como " archivo de metal " debido a que se considera más la conexión lógica del archivo con una herramienta de metal. común que el instrumento musical " pífano ". ^{[ cita necesaria ]}

En 2012, reCAPTCHA comenzó a utilizar fotografías tomadas del proyecto Google Street View , además de palabras escaneadas. ^[19] Le pedirá al usuario que identifique imágenes de pasos de peatones, farolas y otros objetos. Se ha planteado la hipótesis de que Waymo (una filial de Google) utiliza los datos para entrenar vehículos autónomos, aunque un representante anónimo lo ha negado, afirmando que los datos solo se estaban utilizando para mejorar Google Maps a partir de mediados de 2021. ^[20]

Google cobra por el uso de reCAPTCHA en sitios web que realizan más de un millón de consultas de reCAPTCHA al mes. ^[21]

Sin CAPTCHA reCAPTCHA (v2+)

El NoCAPTCHA reCAPTCHA

En 2013, reCAPTCHA comenzó a implementar análisis de comportamiento de las interacciones del navegador para predecir si el usuario era un humano o un robot. Al año siguiente, Google comenzó a implementar una nueva API reCAPTCHA, que presentaba "no CAPTCHA reCAPTCHA", donde los usuarios considerados de bajo riesgo solo necesitan hacer clic en una única casilla de verificación para verificar su identidad. Aún se puede presentar un CAPTCHA si el sistema no está seguro del riesgo del usuario; Google también introdujo un nuevo tipo de desafío CAPTCHA diseñado para ser más accesible para los usuarios de dispositivos móviles, donde el usuario debe seleccionar imágenes que coincidan con un mensaje específico de una cuadrícula. ^[2]^[22]

En 2017, Google introdujo un nuevo reCAPTCHA "invisible", donde la verificación se produce en segundo plano y no se muestra ningún desafío si se considera que el usuario tiene un riesgo bajo. ^[23]^[24]^[25] Según el ex " zar del fraude de clics " de Google, Shuman Ghosemajumder , esta capacidad "crea un nuevo tipo de desafío que los robots muy avanzados aún pueden superar, pero introduce mucha menos fricción con el ser humano legítimo. " ^[25]

reCAPTCHA v1 fue declarado final de vida útil y cerrado el 31 de marzo de 2018. ^[26]

Implementación

Las pruebas de reCAPTCHA se muestran desde el sitio central del proyecto reCAPTCHA, que proporciona las palabras a descifrar. Esto se hace a través de una API de JavaScript y el servidor realiza una devolución de llamada a reCAPTCHA después de enviar la solicitud. El proyecto reCAPTCHA proporciona bibliotecas para varios lenguajes de programación y aplicaciones para facilitar este proceso. reCAPTCHA es un servicio gratuito que se proporciona a los sitios web para ayudar con el descifrado, ^[27] pero el software reCAPTCHA no es de código abierto . ^[28]

Además, reCAPTCHA ofrece complementos para varias plataformas de aplicaciones web, incluidas ASP.NET , Ruby y PHP , para facilitar la implementación del servicio. ^[29]

Seguridad

Un ejemplo de cómo se presentaron los desafíos reCAPTCHA en 2010, ^[30] que contiene las palabras "y cinceles"

El objetivo principal de un sistema CAPTCHA es bloquear los robots de spam y permitir el acceso a usuarios humanos. El 14 de diciembre de 2009, Jonathan Wilkins publicó un artículo que describía las debilidades de reCAPTCHA que permitían a los bots alcanzar una tasa de resolución del 18%. ^[31]^[32]^[33]

El 1 de agosto de 2010, Chad Houck hizo una presentación en la Conferencia de Hacking DEF CON 18 detallando un método para revertir la distorsión agregada a las imágenes que permitió a un programa de computadora determinar una respuesta válida el 10% de las veces. ^[34]^[35] El sistema reCAPTCHA se modificó el 21 de julio de 2010, antes de que Houck hablara sobre su método. Houck modificó su método a lo que describió como un CAPTCHA "más fácil" para determinar una respuesta válida el 31,8% de las veces. Houck también mencionó las defensas de seguridad en el sistema, incluido un bloqueo de alta seguridad si se da una respuesta no válida 32 veces seguidas. ^[36]

El 26 de mayo de 2012, Adam, CP y Jeffball de DC949 dieron una presentación en la conferencia de hackers LayerOne detallando cómo pudieron lograr una solución automatizada con una tasa de precisión del 99,1%. ^[37] Su táctica fue utilizar técnicas de aprendizaje automático, un subcampo de la inteligencia artificial, para analizar la versión de audio de reCAPTCHA que está disponible para personas con discapacidad visual. Google lanzó una nueva versión de reCAPTCHA apenas unas horas antes de su charla, realizando cambios importantes tanto en la versión de audio como en la visual de su servicio. En esta versión, la duración de la versión de audio aumentó de 8 segundos a 30 segundos y es mucho más difícil de entender, tanto para humanos como para robots. En respuesta a esta actualización y a la siguiente, los miembros de DC949 lanzaron dos versiones más de Stiltwalker que superaron a reCAPTCHA con una precisión del 60,95% y 59,4% respectivamente. Después de cada pausa sucesiva, Google actualizó reCAPTCHA a los pocos días. Según DC949, a menudo volvían a funciones que habían sido previamente pirateadas.

El 27 de junio de 2012, Claudia Cruz, Fernando Uceda y Leobardo Reyes publicaron un artículo que muestra un sistema que se ejecuta en imágenes reCAPTCHA con una precisión del 82%. ^[38] Los autores no han dicho si su sistema puede resolver imágenes reCAPTCHA recientes, aunque afirman que su trabajo es OCR inteligente y resistente a algunos, si no a todos, los cambios en la base de datos de imágenes.

En una presentación de agosto de 2012 realizada en BsidesLV 2012, DC949 calificó la última versión como "insondablemente imposible para los humanos": tampoco pudieron resolverlos manualmente. ^[37] La organización de accesibilidad web WebAIM informó en mayo de 2012: "Más del 90% de los encuestados [usuarios de lectores de pantalla] consideran que CAPTCHA es muy o algo difícil". ^[39]

Crítica

La versión original de reCAPTCHA fue criticada por ser una fuente de trabajo no remunerado para ayudar en los esfuerzos de transcripción. ^[40]

Google se beneficia de los usuarios de reCAPTCHA como trabajadores gratuitos para mejorar su investigación de IA. ^[41]

Privacidad

La versión actual del sistema ha sido criticada por su dependencia de las cookies de seguimiento y la promoción de la dependencia del proveedor con los servicios de Google; Se anima a los administradores a incluir el código de seguimiento reCAPTCHA en todas las páginas de su sitio web para analizar el comportamiento y el "riesgo" de los usuarios, lo que determina el nivel de fricción que se presenta cuando se utiliza un mensaje reCAPTCHA. Google declaró en su política de privacidad que los datos de usuario recopilados de esta manera no se utilizan para publicidad personalizada. También se descubrió que el sistema favorece a quienes tienen un inicio de sesión activo en una cuenta de Google y muestra un mayor riesgo para quienes utilizan servidores proxy anónimos y servicios VPN. ^[23]

Surgieron preocupaciones con respecto a la privacidad cuando Google anunció reCAPTCHA v3.0, ya que permite a Google rastrear a los usuarios en sitios web que no son de Google. ^[23]

En abril de 2020, Cloudflare cambió de reCAPTCHA a hCaptcha, citando preocupaciones de privacidad sobre el uso potencial por parte de Google de los datos que recopilan a través de reCAPTCHA para publicidad dirigida ^[42] y para reducir los costos operativos, ya que una parte considerable de los clientes de Cloudflare son clientes que no pagan. . En respuesta, Google le dijo a PC Magazine que los datos de reCAPTCHA nunca se utilizan con fines publicitarios personalizados. ^[21]

Accesibilidad

El centro de ayuda de Google afirma que reCAPTCHA no es compatible con la comunidad de sordociegos , ^[43] bloqueando efectivamente a dichos usuarios fuera de todas las páginas que utilizan el servicio. Sin embargo, reCAPTCHA tiene actualmente la lista más larga de consideraciones de accesibilidad de cualquier servicio CAPTCHA. ^[44]

Interfaz

En una de las variantes de los desafíos CAPTCHA, las imágenes no se resaltan de forma incremental, sino que se desvanecen al hacer clic y se reemplazan con una nueva imagen que aparece gradualmente, parecida a un golpe a un topo .

Las críticas se han dirigido a la larga duración que tardan las imágenes en desaparecer y aparecer. ^[45]

Proyectos derivados

reCAPTCHA también creó el proyecto Mailhide, que protege las direcciones de correo electrónico de las páginas web para que no sean recopiladas por spammers . ^[46] De forma predeterminada, la dirección de correo electrónico se convertía a un formato que no permitía que un rastreador viera la dirección de correo electrónico completa; por ejemplo, "[email protected]" se habría convertido en "[email protected]". Luego, el visitante haría clic en "..." y resolvería el CAPTCHA para obtener la dirección de correo electrónico completa. También se puede editar el código emergente para que ninguna dirección sea visible. Mailhide se suspendió en 2018 porque dependía de reCAPTCHA v1. ^[47]

Referencias

^ "Recaptcha Inc". OpenCorporates . 28 de agosto de 2007. Archivado desde el original el 20 de agosto de 2023 . Consultado el 20 de agosto de 2023 .
^ ab Shet, Vinay (3 de diciembre de 2014). "¿Eres un robot? Presentamos 'CAPTCHA the ReCAPTCHA PREDATORS". Archivado desde el original el 3 de septiembre de 2020 . Consultado el 24 de febrero de 2021 .
^ "reCAPTCHAv3". Archivado desde el original el 25 de septiembre de 2020 . Consultado el 8 de septiembre de 2020 .
^ Ahn, Luis von (6 de diciembre de 2011), Colaboración en línea a gran escala, archivado desde el original el 15 de julio de 2020 , recuperado 14 de abril 2020
^ "reCAPTCHA: Acerca de nosotros". Archivado desde el original el 11 de junio de 2010 . Consultado el 14 de agosto de 2018 .
^ "Enseñar a leer a las computadoras: Google adquiere reCAPTCHA". Archivado desde el original el 19 de mayo de 2013 . Consultado el 16 de septiembre de 2009 .
^ "Descifrando textos antiguos, una palabra mareada y con curvas a la vez". Los New York Times . 28 de marzo de 2011. Archivado desde el original el 17 de noviembre de 2017 . Consultado el 20 de noviembre de 2017 .
^ "Preguntas frecuentes sobre reCAPTCHA". Archivado desde el original el 5 de julio de 2010 . Consultado el 12 de junio de 2011 .
^ Rubens, Paul (2 de octubre de 2007). "El arma del spam ayuda a preservar los libros". BBC. Archivado desde el original el 18 de mayo de 2013 . Consultado el 3 de octubre de 2007 .
^ "Luchar contra el spam, digitalizar libros". Blog de Craigslist. Junio de 2008. Archivado desde el original el 6 de julio de 2010 . Consultado el 17 de junio de 2008 .
^ "Programa de caja convertidora de TV". dtv2009.gov . Archivado desde el original el 4 de noviembre de 2009.
^ Edwards, Benj (2 de octubre de 2023). "La solicitud del relicario de la abuela muerta engaña a la IA de Bing Chat para que resuelva el acertijo de seguridad". Ars Técnica . Archivado desde el original el 10 de octubre de 2023 . Consultado el 25 de octubre de 2023 .
^ ""Entrevista completa: Luis von Ahn en Duolingo", Spark, noviembre de 2011". Corporación Canadiense de Radiodifusión. 30 de noviembre de 2011. Archivado desde el original el 3 de junio de 2012 . Consultado el 10 de julio de 2013 .
^ Hutchinson, Alex (12 de marzo de 2009). "Recursos Humanos: El trabajo que ni siquiera sabías que tenías". La Morsa . Archivado desde el original el 3 de diciembre de 2015 . Consultado el 7 de diciembre de 2015 .
^ "reCAPTCHA: uso de captchas para digitalizar libros". TechCrunch . 16 de septiembre de 2007. Archivado desde el original el 3 de junio de 2017 . Consultado el 25 de junio de 2017 .
^ Timmer, John (14 de agosto de 2008). "¿Los CAPTCHA funcionan? Para digitalizar textos y manuscritos antiguos y dañados". Ars Técnica . Archivado desde el original el 24 de enero de 2009 . Consultado el 9 de diciembre de 2008 .
^ ab Luis; Maurer, Ben; McMillen, Colin; Abrahán, David; Blum, Manuel (2008). "reCAPTCHA: Reconocimiento de caracteres basado en humanos mediante medidas de seguridad web"". Ciencia . 321 (5895): 1465–1468. Bibcode : 2008Sci...321.1465V. CiteSeerX 10.1.1.141.6563 . doi : 10.1126/science.1160379. PMID 18703711. S2CID 18371056.
^ ""validez cuestionable de los resultados si las palabras se presentan fuera de contexto", Grupos de Google, 29 de agosto de 2008". Archivado desde el original el 30 de abril de 2011 . Consultado el 10 de julio de 2013 .
^ Pérez, Sarah (29 de marzo de 2012). "Google ahora usa ReCAPTCHA para decodificar direcciones de Street View". TechCrunch . Archivado desde el original el 23 de agosto de 2012 . Consultado el 10 de julio de 2013 .
^ Vega, Edward (14 de mayo de 2021). "Por qué los captchas son cada vez más difíciles". Vox . Archivado desde el original el 15 de abril de 2022 . Consultado el 15 de abril de 2022 .
^ ab "Cloudflare abandona ReCAPTCHA de Google por preocupaciones de privacidad y costos". PCMag . Archivado desde el original el 19 de julio de 2020 . Consultado el 18 de julio de 2020 .
^ Greenberg, Andy (3 de diciembre de 2014). "Google ahora puede saber que no eres un robot con un solo clic". Cableado . Archivado desde el original el 2 de octubre de 2015 . Consultado el 1 de octubre de 2015 .
^ abc Schwab, Katharine (27 de junio de 2019). "El nuevo reCAPTCHA de Google tiene un lado oscuro". Empresa Rápida . Archivado desde el original el 28 de junio de 2019 . Consultado el 8 de abril de 2020 .
^ Amadeo, Ron (9 de marzo de 2017). "El reCAPTCHA de Google se vuelve 'invisible' y separará a los bots de las personas sin desafíos". Ars Técnica . Archivado desde el original el 6 de agosto de 2020 . Consultado el 14 de abril de 2020 .
^ ab "Google acaba de hacer que Internet sea un poco menos molesto". Ciencia popular . 10 de marzo de 2017. Archivado desde el original el 5 de febrero de 2021 . Consultado el 5 de abril de 2017 .
^ "La API de Google reCAPTCHA v1 se cerrará en marzo de 2018". Web programable . Archivado desde el original el 20 de junio de 2020 . Consultado el 14 de abril de 2020 .
^ "Preguntas frecuentes". reCAPTCHA.net. Archivado desde el original el 16 de julio de 2012.
^ "reCAPTCHA: detener el spam, leer libros". Archivado desde el original el 19 de junio de 2020 . Consultado el 14 de enero de 2014 .
^ "Guía para desarrolladores: reCAPTCHA". Google Inc. Archivado desde el original el 24 de noviembre de 2017 . Consultado el 14 de enero de 2014 .
^ Greenberg, Andy (18 de junio de 2010). "Esas pruebas de palabras revueltas para detener los robots de spam también son difíciles para los humanos". Forbes . Archivado desde el original el 9 de septiembre de 2017 . Consultado el 10 de septiembre de 2017 .
^ "Directrices sólidas de CAPTCHA" (PDF) . Archivado (PDF) desde el original el 23 de julio de 2011 . Consultado el 31 de enero de 2011 .
^ "ReCAPTCHA de Google destruido por un nuevo ataque". El registro . Archivado desde el original el 10 de agosto de 2017 . Consultado el 10 de agosto de 2017 .
^ "ReCAPTCHA de Google abollado". Archivado desde el original el 10 de marzo de 2010 . Consultado el 31 de enero de 2011 .
^ "Def Con 18 oradores". defcon.org. Archivado desde el original el 20 de octubre de 2010 . Consultado el 17 de noviembre de 2010 .
^ "Decodificación del papel reCAPTCHA". Chad Houck. Archivado desde el original el 19 de agosto de 2010.
^ "Decodificación de reCAPTCHA Power Point". Chad Houck. Archivado desde el original el 24 de octubre de 2010.
^ ab "Proyecto Zancudo". Archivado desde el original el 2 de julio de 2012 . Consultado el 28 de mayo de 2012 .
^ Claudia Cruz-Pérez; Oleg Staróstenko; Fernando Uceda Ponga; Vicente Alarcón Aquino; Leobardo Reyes-Cabrera (30 de junio de 2012). "Romper reCAPTCHA con colapso impredecible: reconocimiento y segmentación de caracteres heurísticos". En Carrasco-Ochoa, Jesús Ariel; Martínez-Trinidad, José Francisco; Olvera López, José Arturo; Boyer, Kim L (eds.). Reconocimiento de patrones . Apuntes de conferencias sobre informática. vol. 7329. México. págs. 155-165. doi :10.1007/978-3-642-31149-9_16. ISBN 978-3-642-31148-2. S2CID 29097170.{{cite book}}: Mantenimiento CS1: falta el editor de la ubicación ( enlace )
^ "Resultados de la encuesta n.º 4 para usuarios de lectores de pantalla". Archivado desde el original el 10 de diciembre de 2017 . Consultado el 19 de abril de 2013 .
^ Harris, David L. (23 de enero de 2015). "La demanda de una mujer de Massachusetts acusa a Google de utilizar mano de obra gratuita para transcribir libros y periódicos". Diario de negocios de Boston . Archivado desde el original el 28 de abril de 2015 . Consultado el 4 de septiembre de 2015 .
^ "Sin CAPTCHA: otra artimaña más ideada por Google para extraerle trabajo digital gratuito". Archivado desde el original el 12 de noviembre de 2020 . Consultado el 3 de diciembre de 2020 .
^ "Pasar de reCAPTCHA a hCaptcha". El blog de Cloudflare . 8 de abril de 2020. Archivado desde el original el 12 de agosto de 2020 . Consultado el 18 de julio de 2020 .
^ "¿Qué es CAPTCHA? - Ayuda del administrador de G Suite". Archivado desde el original el 6 de agosto de 2020 . Consultado el 11 de mayo de 2020 .
^ "WCAG 1.1: Alternativas de texto [artículo]". 6 de octubre de 2020. Archivado desde el original el 26 de noviembre de 2020 . Consultado el 10 de diciembre de 2020 .
^ "ReCaptcha se desvanece extremadamente [sic] lentamente · Número 268 · google/recaptcha". GitHub . Archivado desde el original el 14 de octubre de 2020 . Consultado el 14 de octubre de 2020 .
^ "Mailhide: protección gratuita contra spam". Archivado desde el original el 2 de enero de 2012 . Consultado el 15 de mayo de 2011 .
^ "Mailhide: servicio discontinuado". Archivado desde el original el 7 de noviembre de 2012 . Consultado el 3 de marzo de 2019 .

Otras lecturas

Dzieza, Josh (1 de febrero de 2019). "Por qué los CAPTCHA se han vuelto tan difíciles". El borde .
Schwab, Katharine (27 de junio de 2019). "El nuevo reCAPTCHA de Google tiene un lado oscuro". Empresa Rápida .

enlaces externos

Wikimedia Commons tiene medios relacionados con ReCAPTCHA .

Página web oficial