Hashing perceptivo

El hash perceptual es el uso de un algoritmo de huellas digitales que produce un fragmento, hash o huella digital de varias formas de multimedia . ^[1]^[2] Un hash perceptual es un tipo de hash sensible a la localidad , que es análogo si las características del multimedia son similares. Esto contrasta con el hash criptográfico , que se basa en el efecto de avalancha de un pequeño cambio en el valor de entrada que crea un cambio drástico en el valor de salida. Las funciones hash perceptuales se utilizan ampliamente para encontrar casos de infracción de derechos de autor en línea , así como en la investigación forense digital debido a la capacidad de tener una correlación entre hashes para que se puedan encontrar datos similares (por ejemplo, con una marca de agua diferente ).

Desarrollo

El trabajo de 1980 de Marr y Hildreth es un artículo seminal en este campo. ^[3]

En 2009, Microsoft Corporation desarrolló PhotoDNA en colaboración con Hany Farid , profesor del Dartmouth College . PhotoDNA es una capacidad de hash perceptual desarrollada para combatir la distribución de material de abuso sexual infantil (CSAM) en línea. PhotoDNA, que Microsoft ofrece sin costo, sigue siendo una herramienta fundamental utilizada por las principales empresas de software, ONG y agencias de aplicación de la ley en todo el mundo. ^[4]

La tesis de julio de 2010 de Christoph Zauner es una introducción bien escrita al tema. ^[5]

En junio de 2016, Azadeh Amir Asgari publicó un trabajo sobre la suplantación robusta de hash de imágenes. Asgari señala que la función hash perceptiva, como cualquier otro algoritmo, es propensa a errores. ^[6]

Los investigadores comentaron en diciembre de 2017 que la búsqueda de imágenes de Google se basa en un hash perceptivo. ^[7]

En una investigación publicada en noviembre de 2021, los investigadores se centraron en una imagen manipulada de Stacey Abrams que se publicó en Internet antes de su derrota en las elecciones a gobernador de Georgia de 2018. Descubrieron que el algoritmo pHash era vulnerable a actores maliciosos. ^[8]

Características

Una investigación publicada en enero de 2019 en la Universidad de Northumbria ha demostrado que, en el caso de los vídeos, se puede utilizar para identificar simultáneamente contenidos similares para la detección de copias de vídeos y para detectar manipulaciones maliciosas para la autenticación de vídeos. El sistema propuesto funciona mejor que las técnicas actuales de hash de vídeo tanto en términos de identificación como de autenticación. ^[9]

Una investigación publicada en mayo de 2020 por la Universidad de Houston sobre el hash perceptual basado en aprendizaje profundo para audio ha demostrado un mejor rendimiento que los métodos tradicionales de huellas dactilares de audio para la detección de audio similar/copiado sujeto a transformaciones. ^[10]

Además de sus usos en la ciencia forense digital, una investigación realizada por un grupo ruso en 2019 ha demostrado que el hash perceptual se puede aplicar a una amplia variedad de situaciones. De manera similar a la comparación de imágenes para detectar infracciones de derechos de autor, el grupo descubrió que se podía utilizar para comparar y hacer coincidir imágenes en una base de datos. Su algoritmo propuesto demostró ser no solo eficaz, sino más eficiente que los medios estándar de búsqueda de imágenes en bases de datos. ^[11]

En julio de 2019, un equipo chino informó que había descubierto un algoritmo hash perceptivo para el cifrado de voz que resultó eficaz. Pudieron crear un sistema en el que el cifrado no solo era más preciso, sino también más compacto. ^[12]

Apple Inc. informó en agosto de 2021 sobre un sistema de material de abuso sexual infantil (CSAM, por sus siglas en inglés) que ellos conocen como NeuralHash. Un documento de resumen técnico, que explica muy bien el sistema con abundantes diagramas y fotografías de ejemplo, ofrece que "en lugar de escanear imágenes en los servidores de iCloud [corporativos], el sistema realiza una comparación en el dispositivo utilizando una base de datos de hashes de imágenes CSAM conocidos proporcionados por [el Centro Nacional para Niños Desaparecidos y Explotados ] (NCMEC, por sus siglas en inglés) y otras organizaciones de seguridad infantil. Apple transforma además esta base de datos en un conjunto ilegible de hashes, que se almacena de forma segura en los dispositivos de los usuarios". ^[13]

En un ensayo titulado "El problema con los hashes perceptuales", Oliver Kuederle produce una colisión sorprendente generada por un software comercial de redes neuronales , del tipo NeuralHash. Un retrato fotográfico de una mujer real (Adobe Stock #221271979) se reduce mediante el algoritmo de prueba a un hash similar al de la fotografía de una mariposa pintada con acuarela (de la base de datos "deposit photos"). Ambas imágenes de muestra están en bases de datos comerciales. A Kuederle le preocupan colisiones como esta. "Estos casos se revisarán manualmente. Es decir, según Apple, un empleado de Apple mirará sus fotos (marcadas)... Los hashes perceptuales son confusos. Cuando se utilizan estos algoritmos para detectar actividades delictivas, especialmente a escala de Apple, muchas personas inocentes pueden enfrentarse potencialmente a graves problemas... No hace falta decir que estoy bastante preocupado por esto". ^[14]

Los investigadores han seguido publicando un análisis exhaustivo titulado "Aprender a romper el hash perceptual profundo: el caso de uso NeuralHash", en el que investigan la vulnerabilidad de NeuralHash como representante de los algoritmos de hash perceptual profundo a varios ataques. Sus resultados muestran que las colisiones de hash entre diferentes imágenes se pueden lograr con cambios menores aplicados a las imágenes. Según los autores, estos resultados demuestran la posibilidad real de tales ataques y permiten la señalización y posible procesamiento de usuarios inocentes. También afirman que la detección de material ilegal se puede evitar fácilmente y el sistema puede ser burlado por transformaciones de imágenes simples, como las proporcionadas por editores de imágenes de uso gratuito. Los autores suponen que sus resultados también se pueden aplicar a otros algoritmos de hash perceptual profundo, cuestionando su eficacia y funcionalidad generales en aplicaciones como el escaneo del lado del cliente y los controles de chat. ^[15]

Galería

Comparación con la suma de comprobación de pHash

Véase también

Referencias

^ Buldas, Ahto; Kroonmaa, Andres; Laanoja, Risto (2013). "Infraestructura de firmas sin clave: cómo construir árboles hash distribuidos globales". En Riis, Nielson H.; Gollmann, D. (eds.). Sistemas de TI seguros. NordSec 2013. Apuntes de clase en informática. Vol. 8208. Berlín, Heidelberg: Springer. doi :10.1007/978-3-642-41488-6_21. ISBN. 978-3-642-41487-9. ISSN 0302-9743. La Infraestructura de Firmas Sin Clave (KSI) es un sistema distribuido globalmente para proporcionar servicios de sellado de tiempo y firma digital con soporte de servidor. Se crean árboles hash globales por segundo y se publican sus valores hash raíz. Analizamos algunos problemas de calidad del servicio que surgen en la implementación práctica del servicio y presentamos soluciones para evitar puntos únicos de falla y garantizar un servicio con un retraso razonable y estable. Guardtime AS ha estado operando una Infraestructura de KSI durante 5 años. Resumimos cómo se construye la Infraestructura de KSI y las lecciones aprendidas durante el período operativo del servicio.
^ Klinger, Evan; Starkweather, David. "pHash.org: Home of pHash, the open source perceptual hash library" (pHash.org: hogar de pHash, la biblioteca de hash perceptual de código abierto). pHash.org . Consultado el 5 de julio de 2018. pHash es una biblioteca de software de código abierto publicada bajo la licencia GPLv3 que implementa varios algoritmos de hash perceptual y proporciona una API similar a C para usar esas funciones en sus propios programas. pHash está escrito en C++.
^ Marr, D. ; Hildreth, E. (29 de febrero de 1980). "Teoría de la detección de bordes". Actas de la Royal Society de Londres. Serie B, Ciencias biológicas . 207 (1167): 187–217. Bibcode :1980RSPSB.207..187M. doi :10.1098/rspb.1980.0020. PMID 6102765. S2CID 2150419.
^ Lohr, Steve (diciembre de 2009). "Microsoft aborda el problema de la pornografía infantil". New York Times.
^ Zauner, Christoph (julio de 2010). Implementación y evaluación comparativa de funciones hash de imágenes perceptuales (PDF) . Universidad de Ciencias Aplicadas de Alta Austria, campus de Hagenberg.
^ Asgari, Azadeh Amir (junio de 2016). Robust image hash spoofing (PDF) . Instituto Tecnológico de Blekinge.
^ "Explicación de la búsqueda de imágenes en Google". Medium. 26 de diciembre de 2017.
^ Hao, Qingying; Luo, Licheng; Jan, Steve TK; Wang, Gang (noviembre de 2021). "No es lo que parece: manipulación de aplicaciones basadas en hash perceptual" (PDF) . Actas de la Conferencia ACM SIGSAC 2021 sobre seguridad informática y de las comunicaciones (CCS '21), 15 al 19 de noviembre de 2021, evento virtual, República de Corea . Association for Computing Machinery.
^ Khelifi, Fouad; Bouridane, Ahmed (enero de 2019). "Hash de video perceptual para identificación y autenticación de contenido" (PDF) . IEEE Transactions on Circuits and Systems for Video Technology . 29 (1): 50–67. doi :10.1109/TCSVT.2017.2776159. S2CID 55725934.
^ Báez-Suárez, Abraham; Shah, Nolan; Nolazco-Flores, Juan Arturo; Huang, Shou-Hsuan S.; Gnawali, Omprakash; Shi, Weidong (19 de mayo de 2020). "SAMAF: modelo de autocodificador secuencia a secuencia para la identificación de audio". ACM Transactions on Multimedia Computing, Communications, and Applications . 16 (2): 43:1–43:23. doi :10.1145/3380828. ISSN 1551-6857.
^ Zakharov, Victor; Kirikova, Anastasia; Munerman, Victor; Samoilova, Tatyana (2019). "Arquitectura del complejo software-hardware para buscar imágenes en bases de datos". Conferencia IEEE de 2019 de jóvenes investigadores rusos en ingeniería eléctrica y electrónica (EICon Rus ) . IEEE. págs. 1735–1739. doi :10.1109/EIConRus.2019.8657241. ISBN. 978-1-7281-0339-6.S2CID 71152337 .
^ Zhang, Qiu-yu; Zhou, Liang; Zhang, Tao; Zhang, Deng-hai (julio de 2019). "Un algoritmo de recuperación de voz cifrada basado en correlación cruzada a corto plazo y hash perceptual". Herramientas y aplicaciones multimedia . 78 (13): 17825–17846. doi :10.1007/s11042-019-7180-9. S2CID 58010160.
^ "Detección de CSAM: resumen técnico" (PDF) . Apple Inc. Agosto de 2021.
^ Kuederle, Oliver (nd). "EL PROBLEMA CON LOS HASHES PERCEPTUALES". rentafounder.com . Consultado el 23 de mayo de 2022 .
^ Struppek, Lukas; Hintersdorf, Dominik; Neider, Daniel; Kersting, Kristian (2022). "Aprender a romper el hash perceptual profundo: el hash neuronal de casos de uso ". Conferencia ACM de 2022 sobre equidad, responsabilidad y transparencia . Actas de la Conferencia ACM sobre equidad, responsabilidad y transparencia (FAccT). págs. 58–69. arXiv : 2111.06628 . doi :10.1145/3531146.3533073. ISBN 9781450393522.S2CID244102645 .

Enlaces externos

pHash: una biblioteca de hash perceptual de código abierto
Blockhash.io: un estándar abierto para hashes perceptuales
Insight: un tutorial de hash perceptivo