Un deepfake de audio (también conocido como clonación de voz o audio deepfake ) es un producto de inteligencia artificial [1] que se utiliza para crear frases de voz convincentes que suenan como si personas específicas dijeran cosas que no dijeron. [2] [3] [4] Esta tecnología se desarrolló inicialmente para varias aplicaciones para mejorar la vida humana. Por ejemplo, se puede utilizar para producir audiolibros, [5] y también para ayudar a las personas que han perdido la voz (debido a enfermedades de garganta u otros problemas médicos) a recuperarla. [6] [7] Comercialmente, ha abierto la puerta a varias oportunidades. Esta tecnología también puede crear asistentes digitales más personalizados y servicios de conversión de texto a voz con un sonido natural, así como servicios de traducción de voz .
Las falsificaciones profundas de audio, conocidas como manipulaciones de audio a principios de la década de 2020, se están volviendo ampliamente accesibles mediante dispositivos móviles simples o computadoras personales . [8] Estas herramientas también se han utilizado para difundir información errónea mediante audio. [3] Esto ha generado inquietudes de ciberseguridad entre el público global sobre los efectos secundarios del uso de falsificaciones profundas de audio, incluido su posible papel en la difusión de información errónea y desinformación en plataformas de redes sociales basadas en audio. [9] Las personas pueden usarlos como una técnica de suplantación de voz de acceso lógico , [10] donde pueden usarse para manipular la opinión pública para propaganda, difamación o terrorismo . Diariamente se transmiten grandes cantidades de grabaciones de voz a través de Internet, y la detección de suplantaciones es un desafío. [11] Los atacantes de falsificaciones profundas de audio han apuntado a individuos y organizaciones, incluidos políticos y gobiernos. [12]
En 2019, unos estafadores que utilizaban inteligencia artificial suplantaron la voz del director ejecutivo de una empresa energética alemana y ordenaron al director ejecutivo de su filial del Reino Unido que transfiriera 220.000 euros . [13] A principios de 2020, la misma técnica suplantó a un director de la empresa como parte de un elaborado plan que convenció a un gerente de sucursal para que transfiriera 35 millones de dólares. [14]
Según una encuesta global de McAfee de 2023 , una de cada diez personas informó haber sido víctima de una estafa de clonación de voz mediante IA; el 77 % de estas víctimas informó haber perdido dinero a causa de la estafa. [15] [16] Las falsificaciones de audio también podrían representar un peligro para los sistemas de identificación de voz que utilizan actualmente las instituciones financieras. [17] [18] En marzo de 2023, la Comisión Federal de Comercio de los Estados Unidos emitió una advertencia a los consumidores sobre el uso de IA para falsificar la voz de un familiar en apuros que pide dinero. [19]
En octubre de 2023, durante el inicio de la conferencia del Partido Laborista británico en Liverpool , se publicó un audio falso del líder laborista Keir Starmer que lo retrataba falsamente abusando verbalmente de sus empleados y criticando a Liverpool. [20] Ese mismo mes, un audio falso del político eslovaco Michal Šimečka afirmaba falsamente haberlo capturado discutiendo formas de manipular las próximas elecciones. [21]
Durante la campaña para las primarias presidenciales demócratas de New Hampshire de 2024 , más de 20.000 votantes recibieron llamadas automáticas de un presidente Joe Biden que se hizo pasar por una IA instándolos a no votar. [22] [23] El fiscal general de New Hampshire dijo que esto violaba las leyes electorales estatales y la presunta participación de Life Corporation y Lingo Telecom. [24] En febrero de 2024, la Comisión Federal de Comunicaciones de los Estados Unidos prohibió el uso de IA para falsificar voces en llamadas automáticas. [25] [26] Ese mismo mes, el consultor político Steve Kramer admitió que había encargado las llamadas por 500 dólares. Dijo que quería llamar la atención sobre la necesidad de normas que regulen el uso de IA en campañas políticas. [27] En mayo, la FCC dijo que Kramer había violado la ley federal al falsificar el número de una figura política local y propuso una multa de 6 millones de dólares. Cuatro condados de New Hampshire acusaron a Kramer de delitos graves de supresión de votantes y de hacerse pasar por un candidato, un delito menor. [28]
Los deepfakes de audio se pueden dividir en tres categorías diferentes:
Los deepfakes basados en repeticiones son obras maliciosas que tienen como objetivo reproducir una grabación de la voz del interlocutor. [29]
Existen dos tipos: detección de campo lejano y detección de cortar y pegar . En la detección de campo lejano, se reproduce una grabación de micrófono de la víctima como segmento de prueba en un teléfono manos libres. [30] Por otro lado, cortar y pegar implica falsificar la oración solicitada a partir de un sistema dependiente del texto. [11] La verificación del hablante dependiente del texto se puede utilizar para defenderse de los ataques basados en la reproducción. [29] [31] Una técnica actual que detecta ataques de reproducción de extremo a extremo es el uso de redes neuronales convolucionales profundas . [32]
La categoría basada en la síntesis de voz se refiere a la producción artificial del habla humana, mediante programas de sistemas de software o hardware. La síntesis de voz incluye la síntesis de texto a voz, cuyo objetivo es transformar el texto en un habla aceptable y natural en tiempo real, [33] haciendo que el habla suene en consonancia con el texto de entrada, utilizando las reglas de descripción lingüística del texto.
Un sistema clásico de este tipo consta de tres módulos: un modelo de análisis de texto, un modelo acústico y un vocoder . La generación suele tener que seguir dos pasos esenciales. Es necesario recoger un audio crudo limpio y bien estructurado con el texto transcrito de la frase de audio del habla original. En segundo lugar, el modelo Text-To-Speech debe entrenarse utilizando estos datos para construir un modelo de generación de audio sintético.
En concreto, el texto transcrito con la voz del hablante de destino es la entrada del modelo de generación. El módulo de análisis de texto procesa el texto de entrada y lo convierte en características lingüísticas. A continuación, el módulo acústico extrae los parámetros del hablante de destino a partir de los datos de audio basándose en las características lingüísticas generadas por el módulo de análisis de texto. [8] Por último, el vocoder aprende a crear formas de onda vocales basándose en los parámetros de las características acústicas. Se genera el archivo de audio final, que incluye el audio de simulación sintético en formato de forma de onda, creando audio de voz en la voz de muchos hablantes, incluso de aquellos que no están en formación.
El primer gran avance en este sentido lo introdujo WaveNet [34] , una red neuronal para generar formas de onda de audio en bruto capaces de emular las características de muchos hablantes diferentes. Esta red ha sido superada a lo largo de los años por otros sistemas [35] [36] [37] [38] [39] [40] que sintetizan voces artificiales de gran realismo al alcance de todos. [41]
El sistema Text-To-Speech depende en gran medida de la calidad del corpus de voz utilizado para implementar el sistema, y crear un corpus de voz completo es costoso. [ cita requerida ] Otra desventaja es que los sistemas de síntesis de voz no reconocen puntos ni caracteres especiales. Además, los problemas de ambigüedad son persistentes, ya que dos palabras escritas de la misma manera pueden tener significados diferentes. [ cita requerida ]
La falsificación profunda de audio basada en imitación es una forma de transformar un discurso original de un hablante (el original) para que suene como si lo hubiera dicho otro hablante (el de destino). [42] Un algoritmo basado en imitación toma una señal hablada como entrada y la altera cambiando su estilo, entonación o prosodia, tratando de imitar la voz de destino sin cambiar la información lingüística. [43] Esta técnica también se conoce como conversión de voz.
Este método se confunde a menudo con el método sintético anterior, ya que no hay una separación clara entre los dos enfoques en lo que respecta al proceso de generación. De hecho, ambos métodos modifican las características acústicas, espectrales y de estilo de la señal de audio del habla, pero el método basado en imitación generalmente mantiene inalterado el texto de entrada y salida. Esto se obtiene modificando la forma en que se pronuncia esta oración para que coincida con las características del hablante de destino. [44]
Las voces se pueden imitar de varias maneras, como por ejemplo utilizando personas con voces similares que puedan imitar al hablante original. En los últimos años, el enfoque más popular implica el uso de redes neuronales particulares llamadas redes generativas antagónicas (GAN) debido a su flexibilidad y a la alta calidad de sus resultados. [29] [42]
Luego, la señal de audio original se transforma para decir un discurso en el audio de destino utilizando un método de generación de imitación que genera un nuevo discurso, que se muestra en el falso.
La tarea de detección de audio deepfake determina si el audio de voz dado es real o falso.
Recientemente, este se ha convertido en un tema candente en la comunidad de investigación forense , que intenta mantenerse al día con la rápida evolución de las técnicas de falsificación.
En general, los métodos de detección de deepfakes se pueden dividir en dos categorías según el aspecto que aprovechan para realizar la tarea de detección. La primera se centra en aspectos de bajo nivel, buscando artefactos introducidos por los generadores a nivel de muestra. La segunda, en cambio, se centra en características de nivel superior que representan aspectos más complejos como el contenido semántico de la grabación de audio de voz.
Se han desarrollado muchos modelos de aprendizaje automático y aprendizaje profundo que utilizan diferentes estrategias para detectar audio falso. La mayoría de las veces, estos algoritmos siguen un procedimiento de tres pasos:
A lo largo de los años, muchos investigadores han demostrado que los métodos de aprendizaje automático son más precisos que los métodos de aprendizaje profundo, independientemente de las características utilizadas. [8] Sin embargo, la escalabilidad de los métodos de aprendizaje automático no está confirmada debido al entrenamiento excesivo y la extracción manual de características, especialmente con muchos archivos de audio. En cambio, cuando se utilizan algoritmos de aprendizaje profundo, se requieren transformaciones específicas en los archivos de audio para garantizar que los algoritmos puedan manejarlos.
Existen varias implementaciones de código abierto de diferentes métodos de detección, [46] [47] [48] y normalmente muchos grupos de investigación los publican en un servicio de alojamiento público como GitHub .
El deepfake de audio es un campo de investigación muy reciente, por lo que existen muchas posibilidades de desarrollo y mejora, así como posibles amenazas que la adopción de esta tecnología puede traer a nuestra vida cotidiana. A continuación, enumeramos las más importantes.
Respecto a la generación, el aspecto más significativo es la credibilidad de la víctima, es decir, la calidad perceptiva del audio deepfake.
Varias métricas determinan el nivel de precisión de la generación de deepfakes de audio, y la más utilizada es el MOS (Mean Opinion Score) , que es el promedio aritmético de las calificaciones de los usuarios. Por lo general, la prueba a calificar implica una evaluación perceptiva de oraciones realizadas por diferentes algoritmos de generación de voz. Este índice mostró que el audio generado por algoritmos entrenados en un solo hablante tiene un MOS más alto. [44] [34] [49] [50] [39]
La frecuencia de muestreo también desempeña un papel esencial en la detección y generación de deepfakes de audio. Actualmente, los conjuntos de datos disponibles tienen una frecuencia de muestreo de alrededor de 16 kHz, lo que reduce significativamente la calidad del habla. Un aumento en la frecuencia de muestreo podría conducir a una generación de mayor calidad. [37]
Centrándonos en la parte de detección, una de las principales debilidades que afectan a los modelos recientes es el lenguaje adoptado.
La mayoría de los estudios se centran en detectar audios deepfake en inglés, sin prestar mucha atención a los idiomas más hablados, como el chino y el español [51] , así como el hindi y el árabe.
También es esencial considerar más factores relacionados con los diferentes acentos que representan la forma de pronunciación estrictamente asociada con un individuo, ubicación o nación en particular. En otros campos del audio, como el reconocimiento de hablantes , se ha encontrado que el acento influye significativamente en el rendimiento, [52] por lo que se espera que esta característica pueda afectar el rendimiento de los modelos incluso en esta tarea de detección.
Además, el excesivo preprocesamiento de los datos de audio ha supuesto un coste computacional muy elevado y a menudo insostenible. Por este motivo, muchos investigadores han sugerido seguir un enfoque de aprendizaje autosupervisado , [53] tratando con datos no etiquetados para trabajar de forma eficaz en tareas de detección y mejorando la escalabilidad del modelo y, al mismo tiempo, disminuyendo el coste computacional.
El entrenamiento y la prueba de modelos con datos de audio reales es un área aún poco desarrollada. De hecho, el uso de audio con ruidos de fondo del mundo real puede aumentar la solidez de los modelos de detección de audio falso.
Además, la mayor parte del esfuerzo se centra en detectar deepfakes de audio sintéticos, y pocos estudios analizan los basados en imitaciones debido a su dificultad intrínseca en el proceso de generación. [11]
A lo largo de los años, ha habido un aumento de técnicas destinadas a defenderse de acciones maliciosas que el deepfake de audio podría traer, como el robo de identidad y la manipulación de discursos de los gobernadores de la nación.
Para evitar las falsificaciones profundas, algunos sugieren utilizar blockchain y otras tecnologías de contabilidad distribuida (DLT) para identificar la procedencia de los datos y rastrear la información. [8] [54] [55] [56]
También se ha propuesto extraer y comparar señales afectivas correspondientes a las emociones percibidas a partir de contenido digital para combatir los deepfakes. [57] [58] [59]
Otro aspecto crítico se refiere a la mitigación de este problema. Se ha sugerido que sería mejor mantener algunas herramientas de detección propietarias solo para quienes las necesitan, como los verificadores de datos para periodistas. [29] De esa manera, quienes crean los modelos de generación, quizás con fines nefastos, no sabrían con precisión qué características facilitan la detección de un deepfake, [29] desalentando a posibles atacantes.
Para mejorar la detección, en cambio, los investigadores están intentando generalizar el proceso, [60] buscando técnicas de preprocesamiento que mejoren el rendimiento y probando diferentes funciones de pérdida utilizadas para el entrenamiento. [10] [61]
Numerosos grupos de investigación en todo el mundo trabajan para identificar las manipulaciones de los medios de comunicación, es decir, las falsificaciones de audio, pero también de imagen y vídeo. Estos proyectos suelen contar con financiación pública o privada y están en estrecho contacto con universidades e instituciones de investigación.
Para este propósito, la Agencia de Proyectos de Investigación Avanzada de Defensa (DARPA) ejecuta el programa Semantic Forensics (SemaFor). [62] [63] Aprovechando algunas de las investigaciones del programa Media Forensics (MediFor) [64] [65] , también de DARPA, estos algoritmos de detección semántica tendrán que determinar si un objeto multimedia ha sido generado o manipulado, para automatizar el análisis de la procedencia de los medios y descubrir la intención detrás de la falsificación de varios contenidos. [66] [62]
Otro programa de investigación es el programa Preserving Media Trustworthiness in the Artificial Intelligence Era (PREMIER) [67] , financiado por el Ministerio de Educación, Universidad e Investigación de Italia (MIUR) y dirigido por cinco universidades italianas. PREMIER buscará nuevos enfoques híbridos para obtener detectores forenses que sean más interpretables y seguros. [68]
DEEP-VOICE [69] es un conjunto de datos de acceso público destinado a fines de investigación para desarrollar sistemas que detecten cuándo se ha generado el habla con redes neuronales a través de un proceso llamado Conversión de Voz Basada en Recuperación (RVC). La investigación preliminar mostró numerosas diferencias estadísticamente significativas entre las características encontradas en el habla humana y las generadas por algoritmos de Inteligencia Artificial.
En los últimos años se han organizado numerosos desafíos para impulsar aún más este campo de investigación de deepfakes de audio.
El desafío más famoso del mundo es el ASVspoof, [45] el Automatic Speaker Verification Spoofing and Countermeasures Challenge. Este desafío es una iniciativa comunitaria bianual que tiene como objetivo promover la consideración de la suplantación de identidad y el desarrollo de contramedidas. [70]
Otro desafío reciente es el ADD [71] —Audio Deepfake Detection— que considera situaciones falsas en un escenario más real. [72]
Además, el Voice Conversion Challenge [73] es un desafío bianual, creado con la necesidad de comparar diferentes sistemas y enfoques de conversión de voz utilizando los mismos datos de voz.
{{cite book}}
: Mantenimiento CS1: fecha y año ( enlace ){{cite news}}
: CS1 maint: estado de la URL ( enlace )