Un audio deepfake (también conocido como clonación de voz o audio deepfake ) es un producto de inteligencia artificial [1] que se utiliza para crear oraciones convincentes que suenan como si personas específicas dijeran cosas que no dijeron. [2] [3] [4] Esta tecnología se desarrolló inicialmente para diversas aplicaciones para mejorar la vida humana. Por ejemplo, se puede utilizar para producir audiolibros [5] y también para ayudar a las personas que han perdido la voz (debido a una enfermedad de garganta u otros problemas médicos) a recuperarla. [6] [7] Comercialmente, ha abierto la puerta a varias oportunidades. Esta tecnología también puede crear asistentes digitales más personalizados y servicios de texto a voz con sonido natural , así como de traducción de voz .
Los deepfakes de audio, conocidos como manipulaciones de audio a partir de principios de la década de 2020, se están volviendo ampliamente accesibles mediante simples dispositivos móviles o computadoras personales . [8] Estas herramientas también se han utilizado para difundir información errónea mediante audio. [3] Esto ha generado preocupaciones de ciberseguridad entre el público mundial sobre los efectos secundarios del uso de deepfakes de audio, incluido su posible papel en la difusión de información errónea y desinformación en plataformas de redes sociales basadas en audio. [9] La gente puede usarlos como una técnica de suplantación de voz de acceso lógico , [10] donde pueden usarse para manipular la opinión pública con fines de propaganda, difamación o terrorismo . Diariamente se transmiten grandes cantidades de grabaciones de voz a través de Internet y la detección de suplantaciones de identidad es un desafío. [11] Los atacantes de audio deepfake se han dirigido a personas y organizaciones, incluidos políticos y gobiernos. [12]
En 2019, unos estafadores que utilizaban IA se hicieron pasar por la voz del director general de una empresa energética alemana y ordenaron al director general de su filial en el Reino Unido que transfiriera 220.000 euros . [13] A principios de 2020, la misma técnica se hizo pasar por el director de una empresa como parte de un elaborado plan que convenció al gerente de una sucursal para que transfiriera 35 millones de dólares. [14]
Según una encuesta global de McAfee de 2023 , una de cada diez personas informó haber sido objeto de una estafa de clonación de voz mediante IA; El 77% de estos objetivos informaron haber perdido dinero debido a la estafa. [15] [16] Los deepfakes de audio también podrían representar un peligro para los sistemas de identificación por voz que utilizan actualmente las instituciones financieras. [17] [18] En marzo de 2023, la Comisión Federal de Comercio de Estados Unidos emitió una advertencia a los consumidores sobre el uso de IA para falsificar la voz de un familiar en apuros pidiendo dinero. [19]
En octubre de 2023, durante el inicio de la conferencia del Partido Laborista Británico en Liverpool , se publicó un audio falso del líder laborista Keir Starmer que lo retrataba falsamente abusando verbalmente de su personal y criticando a Liverpool. [20] Ese mismo mes, un audio deepfake del político eslovaco Michal Šimečka afirmó falsamente haberlo capturado discutiendo formas de manipular las próximas elecciones. [21]
Durante la campaña para las primarias presidenciales demócratas de New Hampshire de 2024 , más de 20.000 votantes recibieron llamadas automáticas de un presidente Joe Biden suplantado por una IA instándolos a no votar. [22] [23] El fiscal general de New Hampshire dijo que esto violaba las leyes electorales estatales y la supuesta participación de Life Corporation y Lingo Telecom. [24] En febrero de 2024, la Comisión Federal de Comunicaciones de los Estados Unidos prohibió el uso de IA para falsificar voces en llamadas automáticas. [25] [26] Ese mismo mes, el consultor político Steve Kramer admitió que había encargado las convocatorias por 500 dólares. Dijo que quería llamar la atención sobre la necesidad de normas que regulen el uso de la IA en las campañas políticas. [27] En mayo, la FCC dijo que Kramer había violado la ley federal al falsificar el número de una figura política local y propuso una multa de 6 millones de dólares. Cuatro condados de New Hampshire acusaron a Kramer de delitos graves de supresión de votantes y de hacerse pasar por un candidato, un delito menor. [28]
Los deepfakes de audio se pueden dividir en tres categorías diferentes:
Los deepfakes basados en repeticiones son trabajos maliciosos cuyo objetivo es reproducir una grabación de la voz del interlocutor. [29]
Hay dos tipos: detección de campo lejano y detección de cortar y pegar . En la detección de campo lejano, se reproduce una grabación de micrófono de la víctima como segmento de prueba en un teléfono manos libres. [30] Por otro lado, cortar y pegar implica falsificar la oración solicitada de un sistema dependiente del texto. [11] La verificación del hablante dependiente del texto se puede utilizar para defenderse de ataques basados en repetición. [29] [31] Una técnica actual que detecta ataques de repetición de un extremo a otro es el uso de redes neuronales convolucionales profundas . [32]
La categoría basada en síntesis de voz se refiere a la producción artificial del habla humana, utilizando programas de sistema de software o hardware. La síntesis de voz incluye Text-To-Speech, cuyo objetivo es transformar el texto en un discurso aceptable y natural en tiempo real, [33] haciendo que el discurso suene en consonancia con el texto introducido, utilizando las reglas de descripción lingüística del texto.
Un sistema clásico de este tipo consta de tres módulos: un modelo de análisis de texto, un modelo acústico y un vocoder . La generación suele tener que seguir dos pasos esenciales. Es necesario recopilar audio sin procesar limpio y bien estructurado con el texto transcrito de la oración de audio del discurso original. En segundo lugar, el modelo Text-To-Speech debe entrenarse utilizando estos datos para construir un modelo de generación de audio sintético.
Específicamente, el texto transcrito con la voz del hablante objetivo es la entrada del modelo de generación. El módulo de análisis de texto procesa el texto ingresado y lo convierte en características lingüísticas. Luego, el módulo acústico extrae los parámetros del hablante objetivo de los datos de audio en función de las características lingüísticas generadas por el módulo de análisis de texto. [8] Finalmente, el vocoder aprende a crear formas de onda vocales basadas en los parámetros de las características acústicas. Se genera el archivo de audio final, incluido el audio de simulación sintético en formato de forma de onda, creando audio de voz en la voz de muchos hablantes, incluso aquellos que no están en formación.
El primer avance en este sentido lo introdujo WaveNet , [34] una red neuronal para generar formas de onda de audio sin procesar capaces de emular las características de muchos altavoces diferentes. Esta red ha sido superada a lo largo de los años por otros sistemas [35] [36] [37] [38] [39] [40] que sintetizan voces artificiales muy realistas y al alcance de todos. [41]
Text-To-Speech depende en gran medida de la calidad del corpus de voz utilizado para realizar el sistema, y crear un corpus de voz completo es costoso. [ cita necesaria ] Otra desventaja es que los sistemas de síntesis de voz no reconocen puntos ni caracteres especiales. Además, los problemas de ambigüedad son persistentes, ya que dos palabras escritas de la misma manera pueden tener significados diferentes. [ cita necesaria ]
El audio deepfake basado en la imitación es una forma de transformar un discurso original de un hablante (el original) para que suene como otro hablante (el objetivo). [42] Un algoritmo basado en imitación toma una señal hablada como entrada y la altera cambiando su estilo, entonación o prosodia, tratando de imitar la voz objetivo sin cambiar la información lingüística. [43] Esta técnica también se conoce como conversión de voz.
Este método a menudo se confunde con el método anterior basado en sintéticos, ya que no existe una separación clara entre los dos enfoques con respecto al proceso de generación. De hecho, ambos métodos modifican las características acústico-espectrales y de estilo de la señal de audio del habla, pero el basado en imitación generalmente mantiene inalterado el texto de entrada y salida. Esto se obtiene cambiando la forma en que se pronuncia esta oración para que coincida con las características del hablante objetivo. [44]
Las voces se pueden imitar de varias maneras, como utilizando humanos con voces similares que puedan imitar al hablante original. En los últimos años, el enfoque más popular implica el uso de redes neuronales particulares llamadas Redes Generativas Adversarias (GAN) debido a su flexibilidad y a sus resultados de alta calidad. [29] [42]
Luego, la señal de audio original se transforma para decir un discurso en el audio de destino utilizando un método de generación de imitación que genera un nuevo discurso, que se muestra en el falso.
La tarea de detección de audio deepfake determina si el audio del discurso dado es real o falso.
Recientemente, este se ha convertido en un tema candente en la comunidad de investigación forense , que intenta mantenerse al día con la rápida evolución de las técnicas de falsificación.
En general, los métodos de detección de deepfake se pueden dividir en dos categorías según el aspecto que aprovechan para realizar la tarea de detección. El primero se centra en aspectos de bajo nivel, buscando artefactos introducidos por los generadores a nivel de muestra. Los segundos, en cambio, se centran en características de nivel superior que representan aspectos más complejos como el contenido semántico de la grabación de audio del habla.
Se han desarrollado muchos modelos de aprendizaje automático y aprendizaje profundo utilizando diferentes estrategias para detectar audio falso. La mayoría de las veces, estos algoritmos siguen un procedimiento de tres pasos:
A lo largo de los años, muchos investigadores han demostrado que los enfoques de aprendizaje automático son más precisos que los métodos de aprendizaje profundo, independientemente de las funciones utilizadas. [8] Sin embargo, la escalabilidad de los métodos de aprendizaje automático no está confirmada debido a la capacitación excesiva y la extracción manual de funciones, especialmente con muchos archivos de audio. En cambio, cuando se utilizan algoritmos de aprendizaje profundo, se requieren transformaciones específicas en los archivos de audio para garantizar que los algoritmos puedan manejarlos.
Existen varias implementaciones de código abierto de diferentes métodos de detección, [46] [47] [48] y, por lo general, muchos grupos de investigación las publican en un servicio de alojamiento público como GitHub .
El audio deepfake es un campo de investigación muy reciente. Por este motivo, existen muchas posibilidades de desarrollo y mejora, así como las posibles amenazas que la adopción de esta tecnología puede traer a nuestra vida diaria. Los más importantes se enumeran a continuación.
En cuanto a la generación, el aspecto más significativo es la credibilidad de la víctima, es decir, la calidad de percepción del audio deepfake.
Varias métricas determinan el nivel de precisión de la generación de audio deepfake, y la más utilizada es el MOS (Mean Opinion Score) , que es el promedio aritmético de las calificaciones de los usuarios. Generalmente, la prueba a calificar implica una evaluación perceptiva de oraciones elaboradas mediante diferentes algoritmos de generación de habla. Este índice mostró que el audio generado por algoritmos entrenados en un solo altavoz tiene un MOS más alto. [44] [34] [49] [50] [39]
La frecuencia de muestreo también juega un papel esencial en la detección y generación de deepfakes de audio. Actualmente, los conjuntos de datos disponibles tienen una frecuencia de muestreo de alrededor de 16 kHz, lo que reduce significativamente la calidad de la voz. Un aumento en la tasa de muestreo podría conducir a una generación de mayor calidad. [37]
Centrándonos en la parte de detección, una de las principales debilidades que afectan a los modelos recientes es el lenguaje adoptado.
La mayoría de los estudios se centran en detectar audio deepfake en el idioma inglés, sin prestar mucha atención a los idiomas más hablados como el chino y el español, [51] así como al hindi y el árabe.
También es fundamental considerar más factores relacionados con los diferentes acentos que representan la forma de pronunciación estrictamente asociada a un individuo, lugar o nación en particular. En otros campos del audio, como el reconocimiento del hablante , se ha descubierto que el acento influye significativamente en el rendimiento, [52] por lo que se espera que esta característica pueda afectar el rendimiento de los modelos incluso en esta tarea de detección.
Además, el preprocesamiento excesivo de los datos de audio ha provocado un coste computacional muy elevado y a menudo insostenible. Por esta razón, muchos investigadores han sugerido seguir un enfoque de Aprendizaje Autosupervisado , [53] tratando con datos sin etiquetar para trabajar de manera efectiva en tareas de detección y mejorar la escalabilidad del modelo y, al mismo tiempo, disminuir el costo computacional.
Entrenar y probar modelos con datos de audio reales es todavía un área poco desarrollada. De hecho, el uso de audio con ruidos de fondo del mundo real puede aumentar la solidez de los modelos de detección de audio falso.
Además, la mayor parte del esfuerzo se centra en detectar deepfakes de audio de base sintética, y pocos estudios analizan los basados en imitaciones debido a su dificultad intrínseca en el proceso de generación. [11]
A lo largo de los años, ha habido un aumento en las técnicas destinadas a defenderse contra acciones maliciosas que podría traer el audio deepfake, como el robo de identidad y la manipulación de los discursos de los gobernadores de la nación.
Para evitar deepfakes, algunos sugieren utilizar blockchain y otras tecnologías de contabilidad distribuida (DLT) para identificar la procedencia de los datos y rastrear la información. [8] [54] [55] [56]
También se ha propuesto extraer y comparar señales afectivas correspondientes a las emociones percibidas del contenido digital para combatir los deepfakes. [57] [58] [59]
Otro aspecto crítico se refiere a la mitigación de este problema. Se ha sugerido que sería mejor mantener algunas herramientas de detección patentadas sólo para quienes las necesitan, como los verificadores de datos para periodistas. [29] De esa manera, quienes crean los modelos de generación, tal vez con fines nefastos, no sabrían con precisión qué características facilitan la detección de un deepfake, [29] desalentando a posibles atacantes.
En cambio, para mejorar la detección, los investigadores están intentando generalizar el proceso, [60] buscando técnicas de preprocesamiento que mejoren el rendimiento y probando diferentes funciones de pérdida utilizadas para el entrenamiento. [10] [61]
Numerosos grupos de investigación en todo el mundo están trabajando para reconocer las manipulaciones de los medios; es decir, deepfakes de audio pero también deepfakes de imágenes y vídeos. Estos proyectos suelen contar con financiación pública o privada y están en estrecho contacto con universidades e instituciones de investigación.
Para ello, la Agencia de Proyectos de Investigación Avanzada de Defensa (DARPA) ejecuta la Semántica Forense (SemaFor). [62] [63] Aprovechando algunas de las investigaciones del programa Media Forensics (MediFor) [64] [65] , también de DARPA, estos algoritmos de detección semántica tendrán que determinar si un objeto multimedia ha sido generado o manipulado, para automatizarlo. el análisis de la procedencia de los medios y descubrir la intención detrás de la falsificación de diversos contenidos. [66] [62]
Otro programa de investigación es el programa Preservando la confiabilidad de los medios en la era de la inteligencia artificial (PREMIER) [67] , financiado por el Ministerio italiano de Educación, Universidad e Investigación (MIUR) y dirigido por cinco universidades italianas. PREMIER buscará enfoques híbridos novedosos para obtener detectores forenses que sean más interpretables y seguros. [68]
DEEP-VOICE [69] es un conjunto de datos disponible públicamente destinado a fines de investigación para desarrollar sistemas que detecten cuándo se ha generado voz con redes neuronales a través de un proceso llamado Conversión de voz basada en recuperación (RVC). La investigación preliminar mostró numerosas diferencias estadísticamente significativas entre las características encontradas en el habla humana y las generadas por algoritmos de Inteligencia Artificial.
En los últimos años, se han organizado numerosos desafíos para impulsar aún más este campo de la investigación del deepfake de audio.
El desafío mundial más famoso es el ASVspoof, [45] el desafío de contramedidas y falsificación de verificación automática de locutores. Este desafío es una iniciativa bianual liderada por la comunidad que tiene como objetivo promover la consideración de la suplantación de identidad y el desarrollo de contramedidas. [70]
Otro desafío reciente es el ADD [71] —Audio Deepfake Detección—que considera situaciones falsas en un escenario más real. [72]
Además, el Desafío de Conversión de Voz [73] es un desafío bianual, creado con la necesidad de comparar diferentes sistemas y enfoques de conversión de voz que utilizan los mismos datos de voz.
{{cite book}}
: Mantenimiento CS1: fecha y año ( enlace ){{cite news}}
: Mantenimiento CS1: estado de la URL ( enlace )