hash perceptivo

El hash perceptual es el uso de un algoritmo de huellas dactilares que produce un fragmento, hash o huella digital de varias formas de multimedia . ^[1]^[2] Un hash perceptual es un tipo de hash sensible a la localidad , que es análogo si las características del multimedia son similares. Esto contrasta con el hash criptográfico , que se basa en el efecto de avalancha de un pequeño cambio en el valor de entrada que crea un cambio drástico en el valor de salida. Las funciones hash de percepción se utilizan ampliamente para encontrar casos de infracción de derechos de autor en línea , así como en análisis forense digital debido a la capacidad de tener una correlación entre hashes para que se puedan encontrar datos similares (por ejemplo, con una marca de agua diferente ).

Desarrollo

El trabajo de 1980 de Marr y Hildreth es un artículo fundamental en este campo. ^[3]

La tesis de julio de 2010 de Christoph Zauner es una introducción bien escrita al tema. ^[4]

En junio de 2016, Azadeh Amir Asgari publicó un trabajo sobre suplantación de hash de imágenes robusta. Asgari señala que la función hash perceptual, como cualquier otro algoritmo, es propensa a errores. ^[5]

Los investigadores comentaron en diciembre de 2017 que la búsqueda de imágenes de Google se basa en un hash perceptivo. ^[6]

En una investigación publicada en noviembre de 2021, los investigadores se centraron en una imagen manipulada de Stacey Abrams que se publicó en Internet antes de su derrota en las elecciones para gobernadora de Georgia de 2018 . Descubrieron que el algoritmo pHash era vulnerable a actores nefastos. ^[7]

Características

Una investigación publicada en enero de 2019 en la Universidad de Northumbria ha demostrado que el vídeo se puede utilizar para identificar simultáneamente contenidos similares para la detección de copias de vídeo y detectar manipulaciones maliciosas para la autenticación de vídeo. El sistema propuesto funciona mejor que las técnicas actuales de hash de vídeo en términos de identificación y autenticación. ^[8]

Una investigación informada en mayo de 2020 por la Universidad de Houston sobre hash perceptivo para audio basado en aprendizaje profundo ha demostrado un mejor rendimiento que los métodos tradicionales de toma de huellas dactilares de audio para la detección de audio similar/copiado sujeto a transformaciones. ^[9]

Además de sus usos en ciencia forense digital, una investigación realizada por un grupo ruso informada en 2019 ha demostrado que el hash perceptual se puede aplicar a una amplia variedad de situaciones. De manera similar a comparar imágenes por infracción de derechos de autor, el grupo descubrió que podría usarse para comparar y comparar imágenes en una base de datos. El algoritmo propuesto demostró ser no sólo efectivo, sino más eficiente que los medios estándar de búsqueda de imágenes en bases de datos. ^[10]

Un equipo chino informó en julio de 2019 que había descubierto un hash de percepción para el cifrado de voz que resultó ser eficaz. Pudieron crear un sistema en el que el cifrado no sólo era más preciso, sino también más compacto. ^[11]

Apple Inc informó ya en agosto de 2021 sobre un sistema de material de abuso sexual infantil (CSAM) que conocen como NeuralHash. Un documento de resumen técnico, que explica muy bien el sistema con abundantes diagramas y fotografías de ejemplo, ofrece que "en lugar de escanear imágenes [en los [servidores] iCloud [corporativos], el sistema realiza coincidencias en el dispositivo utilizando una base de datos de hashes de imágenes CSAM conocidos proporcionados por [el Centro Nacional para Niños Desaparecidos y Explotados ] (NCMEC) y otras organizaciones de seguridad infantil Apple transforma aún más esta base de datos en un conjunto ilegible de hashes, que se almacena de forma segura en los dispositivos de los usuarios". ^[12]

En un ensayo titulado "El problema de los hashes perceptivos", Oliver Kuederle produce una sorprendente colisión generada por un software comercial de red neuronal , del tipo NeuralHash. Un retrato fotográfico de una mujer real (Adobe Stock #221271979) se reduce mediante el algoritmo de prueba a un hash similar al de la fotografía de una mariposa pintada en acuarela (de la base de datos "deposit photos"). Ambas imágenes de muestra se encuentran en bases de datos comerciales. A Kuederle le preocupan este tipo de colisiones. "Estos casos se revisarán manualmente. Es decir, según Apple, un empleado de Apple luego mirará sus imágenes (marcadas)... Los hashes de percepción son confusos. Cuando tales algoritmos se utilizan para detectar actividades delictivas, especialmente a escala de Apple, Muchas personas inocentes pueden enfrentarse potencialmente a problemas graves... No hace falta decir que esto me preocupa bastante". ^[13]

Los investigadores han seguido publicando un análisis exhaustivo titulado "Learning to Break Deep Perceptual Hashing: The Use Case NeuralHash", en el que investigan la vulnerabilidad de NeuralHash como representante de los algoritmos de hash de percepción profunda ante diversos ataques. Sus resultados muestran que se pueden lograr colisiones hash entre diferentes imágenes aplicando cambios menores a las imágenes. Según los autores, estos resultados demuestran la posibilidad real de que se produzcan este tipo de ataques y permiten señalar y posiblemente procesar a usuarios inocentes. También afirman que la detección de material ilegal se puede evitar fácilmente y que el sistema puede ser burlado mediante simples transformaciones de imágenes, como las que proporcionan los editores de imágenes de uso gratuito. Los autores suponen que sus resultados también se aplican a otros algoritmos de hash de percepción profunda, cuestionando su efectividad y funcionalidad generales en aplicaciones como el escaneo del lado del cliente y los controles de chat. ^[14]

Galería

comparación con la suma de comprobación de pHash

Ver también

Referencias

^ Buldas, Ahto; Kroonmaa, Andrés; Laanoja, Risto (2013). "Infraestructura de firmas sin llave: cómo construir árboles hash distribuidos globalmente". En Riis, Nielson H.; Gollmann, D. (eds.). Sistemas TI seguros. NordSec 2013 . Apuntes de conferencias sobre informática. vol. 8208. Berlín, Heidelberg: Springer. doi :10.1007/978-3-642-41488-6_21. ISBN 978-3-642-41487-9. ISSN 0302-9743. Keyless Signatures Infrastructure (KSI) es un sistema distribuido globalmente para proporcionar servicios de firma digital respaldados por servidor y sellado de tiempo. Se crean árboles hash globales por segundo y se publican sus valores hash raíz. Discutimos algunos problemas de calidad del servicio que surgen en la implementación práctica del servicio y presentamos soluciones para evitar puntos únicos de falla y garantizar un servicio con demoras razonables y estables. Guardtime AS opera una infraestructura KSI desde hace 5 años. Resumimos cómo se construye la infraestructura KSI y las lecciones aprendidas durante el período operativo del servicio.
^ Klinger, Evan; Starkweather, David. "pHash.org: hogar de pHash, la biblioteca de hash perceptual de código abierto". pHash.org . Consultado el 5 de julio de 2018 . pHash es una biblioteca de software de código abierto publicada bajo la licencia GPLv3 que implementa varios algoritmos hash de percepción y proporciona una API similar a C para usar esas funciones en sus propios programas. El propio pHash está escrito en C++.
^ Marr, D .; Hildreth, E. (29 de febrero de 1980). "Teoría de la detección de bordes". Actas de la Royal Society de Londres. Serie B, Ciencias Biológicas . 207 (1167): 187–217. Código Bib : 1980RSPSB.207..187M. doi :10.1098/rspb.1980.0020. PMID 6102765. S2CID 2150419.
^ Zauner, Christoph (julio de 2010). Implementación y evaluación comparativa de funciones hash de imágenes perceptuales (PDF) . Universidad de Ciencias Aplicadas de Alta Austria, Campus Hagenberg.
^ Asgari, Azadeh Amir (junio de 2016). Robusta suplantación de hash de imágenes (PDF) . Instituto de Tecnología de Blekinge.
^ "Explicación de la búsqueda de imágenes de Google". Medio. 26 de diciembre de 2017.
^ Hao, Qingying; Luo, Licheng; Enero, Steve TK; Wang, Gang (noviembre de 2021). "No es lo que parece: manipulación de aplicaciones basadas en hash perceptual" (PDF) . Actas de la Conferencia ACM SIGSAC de 2021 sobre seguridad informática y de las comunicaciones (CCS '21), 15 al 19 de noviembre de 2021, evento virtual, República de Corea . Asociación de Maquinaria de Computación.
^ Khelifi, Fouad; Bouridane, Ahmed (enero de 2019). "Hash de vídeo perceptual para identificación y autenticación de contenido" (PDF) . Transacciones IEEE sobre circuitos y sistemas para tecnología de vídeo . 29 (1): 50–67. doi :10.1109/TCSVT.2017.2776159. S2CID 55725934.
^ Báez-Suárez, Abraham; Shah, Nolan; Nolazco-Flores, Juan Arturo; Huang, Shou-Hsuan S.; Gnawali, Omprakash; Shi, Weidong (19 de mayo de 2020). "SAMAF: modelo de codificador automático secuencia a secuencia para huellas dactilares de audio". Transacciones ACM sobre informática, comunicaciones y aplicaciones multimedia . 16 (2): 43:1–43:23. doi :10.1145/3380828. ISSN 1551-6857.
^ Zakharov, Víctor; Kirikova, Anastasia; Munerman, Víctor; Samoilova, Tatyana (2019). "Arquitectura del complejo software-hardware para la búsqueda de imágenes en bases de datos". Conferencia IEEE 2019 de jóvenes investigadores rusos en ingeniería eléctrica y electrónica (EICon Rus ) . IEEE. págs. 1735-1739. doi :10.1109/EIConRus.2019.8657241. ISBN 978-1-7281-0339-6. S2CID 71152337.
^ Zhang, Qiu-yu; Zhou, Liang; Zhang, Tao; Zhang, Deng-hai (julio de 2019). "Un algoritmo de recuperación de voz cifrada basado en correlación cruzada a corto plazo y hash perceptual". Herramientas y aplicaciones multimedia . 78 (13): 17825–17846. doi :10.1007/s11042-019-7180-9. S2CID 58010160.
^ "Detección de CSAM: resumen técnico" (PDF) . Apple Inc. Agosto de 2021.
^ Kuederle, Oliver (sin fecha). "EL PROBLEMA CON LOS HASHES PERCEPTUALES". rentafounder.com . Consultado el 23 de mayo de 2022 .
^ Struppek, Lucas; Hintersdorf, Dominik; Nieder, Daniel; Kersting, Kristian (2022). "Aprender a romper el hash perceptual profundo: el caso de uso del hash neuronal ". Conferencia ACM 2022 sobre equidad, responsabilidad y transparencia . Actas de la Conferencia ACM sobre Equidad, Responsabilidad y Transparencia (FAccT). págs. 58–69. arXiv : 2111.06628 . doi :10.1145/3531146.3533073. ISBN 9781450393522. S2CID 244102645.

Enlaces externos

pHash: una biblioteca de hash perceptual de código abierto
Blockhash.io: un estándar abierto para hashes perceptivos
Insight: un tutorial de hash perceptual