stringtranslate.com

Audio falso

Un audio deepfake (también conocido como clonación de voz o audio deepfake ) es un producto de inteligencia artificial [1] que se utiliza para crear oraciones convincentes que suenan como si personas específicas dijeran cosas que no dijeron. [2] [3] [4] Esta tecnología se desarrolló inicialmente para diversas aplicaciones para mejorar la vida humana. Por ejemplo, se puede utilizar para producir audiolibros [5] y también para ayudar a las personas que han perdido la voz (debido a una enfermedad de garganta u otros problemas médicos) a recuperarla. [6] [7] Comercialmente, ha abierto la puerta a varias oportunidades. Esta tecnología también puede crear asistentes digitales más personalizados y servicios de texto a voz con sonido natural , así como de traducción de voz .

Incidentes de fraude

Los deepfakes de audio, conocidos como manipulaciones de audio a partir de principios de la década de 2020, se están volviendo ampliamente accesibles mediante simples dispositivos móviles o computadoras personales . [8] Estas herramientas también se han utilizado para difundir información errónea mediante audio. [3] Esto ha generado preocupaciones de ciberseguridad entre el público mundial sobre los efectos secundarios del uso de deepfakes de audio, incluido su posible papel en la difusión de información errónea y desinformación en plataformas de redes sociales basadas en audio. [9] La gente puede usarlos como una técnica de suplantación de voz de acceso lógico , [10] donde pueden usarse para manipular la opinión pública con fines de propaganda, difamación o terrorismo . Diariamente se transmiten grandes cantidades de grabaciones de voz a través de Internet y la detección de suplantaciones de identidad es un desafío. [11] Los atacantes de audio deepfake se han dirigido a personas y organizaciones, incluidos políticos y gobiernos. [12]

En 2019, unos estafadores que utilizaban IA se hicieron pasar por la voz del director general de una empresa energética alemana y ordenaron al director general de su filial en el Reino Unido que transfiriera 220.000 euros . [13] A principios de 2020, la misma técnica se hizo pasar por el director de una empresa como parte de un elaborado plan que convenció al gerente de una sucursal para que transfiriera 35 millones de dólares. [14]

Según una encuesta global de McAfee de 2023 , una de cada diez personas informó haber sido objeto de una estafa de clonación de voz mediante IA; El 77% de estos objetivos informaron haber perdido dinero debido a la estafa. [15] [16] Los deepfakes de audio también podrían representar un peligro para los sistemas de identificación por voz que utilizan actualmente las instituciones financieras. [17] [18] En marzo de 2023, la Comisión Federal de Comercio de Estados Unidos emitió una advertencia a los consumidores sobre el uso de IA para falsificar la voz de un familiar en apuros pidiendo dinero. [19]

En octubre de 2023, durante el inicio de la conferencia del Partido Laborista Británico en Liverpool , se publicó un audio falso del líder laborista Keir Starmer que lo retrataba falsamente abusando verbalmente de su personal y criticando a Liverpool. [20] Ese mismo mes, un audio deepfake del político eslovaco Michal Šimečka afirmó falsamente haberlo capturado discutiendo formas de manipular las próximas elecciones. [21]

Durante la campaña para las primarias presidenciales demócratas de New Hampshire de 2024 , más de 20.000 votantes recibieron llamadas automáticas de un presidente Joe Biden suplantado por una IA instándolos a no votar. [22] [23] El fiscal general de New Hampshire dijo que esto violaba las leyes electorales estatales y la supuesta participación de Life Corporation y Lingo Telecom. [24] En febrero de 2024, la Comisión Federal de Comunicaciones de los Estados Unidos prohibió el uso de IA para falsificar voces en llamadas automáticas. [25] [26] Ese mismo mes, el consultor político Steve Kramer admitió que había encargado las convocatorias por 500 dólares. Dijo que quería llamar la atención sobre la necesidad de normas que regulen el uso de la IA en las campañas políticas. [27] En mayo, la FCC dijo que Kramer había violado la ley federal al falsificar el número de una figura política local y propuso una multa de 6 millones de dólares. Cuatro condados de New Hampshire acusaron a Kramer de delitos graves de supresión de votantes y de hacerse pasar por un candidato, un delito menor. [28]

Categorías

Los deepfakes de audio se pueden dividir en tres categorías diferentes:

Basado en repetición

Los deepfakes basados ​​en repeticiones son trabajos maliciosos cuyo objetivo es reproducir una grabación de la voz del interlocutor. [29]

Hay dos tipos: detección de campo lejano y detección de cortar y pegar . En la detección de campo lejano, se reproduce una grabación de micrófono de la víctima como segmento de prueba en un teléfono manos libres. [30] Por otro lado, cortar y pegar implica falsificar la oración solicitada de un sistema dependiente del texto. [11] La verificación del hablante dependiente del texto se puede utilizar para defenderse de ataques basados ​​en repetición. [29] [31] Una técnica actual que detecta ataques de repetición de un extremo a otro es el uso de redes neuronales convolucionales profundas . [32]

De base sintética

Un diagrama de bloques que ilustra el enfoque sintético para generar deepfakes de audio
El diagrama de enfoque basado en sintéticos

La categoría basada en síntesis de voz se refiere a la producción artificial del habla humana, utilizando programas de sistema de software o hardware. La síntesis de voz incluye Text-To-Speech, cuyo objetivo es transformar el texto en un discurso aceptable y natural en tiempo real, [33] haciendo que el discurso suene en consonancia con el texto introducido, utilizando las reglas de descripción lingüística del texto.

Un sistema clásico de este tipo consta de tres módulos: un modelo de análisis de texto, un modelo acústico y un vocoder . La generación suele tener que seguir dos pasos esenciales. Es necesario recopilar audio sin procesar limpio y bien estructurado con el texto transcrito de la oración de audio del discurso original. En segundo lugar, el modelo Text-To-Speech debe entrenarse utilizando estos datos para construir un modelo de generación de audio sintético.

Específicamente, el texto transcrito con la voz del hablante objetivo es la entrada del modelo de generación. El módulo de análisis de texto procesa el texto ingresado y lo convierte en características lingüísticas. Luego, el módulo acústico extrae los parámetros del hablante objetivo de los datos de audio en función de las características lingüísticas generadas por el módulo de análisis de texto. [8] Finalmente, el vocoder aprende a crear formas de onda vocales basadas en los parámetros de las características acústicas. Se genera el archivo de audio final, incluido el audio de simulación sintético en formato de forma de onda, creando audio de voz en la voz de muchos hablantes, incluso aquellos que no están en formación.

El primer avance en este sentido lo introdujo WaveNet , [34] una red neuronal para generar formas de onda de audio sin procesar capaces de emular las características de muchos altavoces diferentes. Esta red ha sido superada a lo largo de los años por otros sistemas [35] [36] [37] [38] [39] [40] que sintetizan voces artificiales muy realistas y al alcance de todos. [41]

Text-To-Speech depende en gran medida de la calidad del corpus de voz utilizado para realizar el sistema, y ​​crear un corpus de voz completo es costoso. [ cita necesaria ] Otra desventaja es que los sistemas de síntesis de voz no reconocen puntos ni caracteres especiales. Además, los problemas de ambigüedad son persistentes, ya que dos palabras escritas de la misma manera pueden tener significados diferentes. [ cita necesaria ]

Basado en imitación

Un diagrama de bloques que ilustra el enfoque basado en la imitación para generar deepfakes de audio
El diagrama del enfoque basado en la imitación

El audio deepfake basado en la imitación es una forma de transformar un discurso original de un hablante (el original) para que suene como otro hablante (el objetivo). [42] Un algoritmo basado en imitación toma una señal hablada como entrada y la altera cambiando su estilo, entonación o prosodia, tratando de imitar la voz objetivo sin cambiar la información lingüística. [43] Esta técnica también se conoce como conversión de voz.

Este método a menudo se confunde con el método anterior basado en sintéticos, ya que no existe una separación clara entre los dos enfoques con respecto al proceso de generación. De hecho, ambos métodos modifican las características acústico-espectrales y de estilo de la señal de audio del habla, pero el basado en imitación generalmente mantiene inalterado el texto de entrada y salida. Esto se obtiene cambiando la forma en que se pronuncia esta oración para que coincida con las características del hablante objetivo. [44]

Las voces se pueden imitar de varias maneras, como utilizando humanos con voces similares que puedan imitar al hablante original. En los últimos años, el enfoque más popular implica el uso de redes neuronales particulares llamadas Redes Generativas Adversarias (GAN) debido a su flexibilidad y a sus resultados de alta calidad. [29] [42]

Luego, la señal de audio original se transforma para decir un discurso en el audio de destino utilizando un método de generación de imitación que genera un nuevo discurso, que se muestra en el falso.

Métodos de detección

La tarea de detección de audio deepfake determina si el audio del discurso dado es real o falso.

Recientemente, este se ha convertido en un tema candente en la comunidad de investigación forense , que intenta mantenerse al día con la rápida evolución de las técnicas de falsificación.

En general, los métodos de detección de deepfake se pueden dividir en dos categorías según el aspecto que aprovechan para realizar la tarea de detección. El primero se centra en aspectos de bajo nivel, buscando artefactos introducidos por los generadores a nivel de muestra. Los segundos, en cambio, se centran en características de nivel superior que representan aspectos más complejos como el contenido semántico de la grabación de audio del habla.

Un diagrama que ilustra el marco habitual utilizado para realizar la tarea de detección de audio deepfake.
Un marco genérico de detección de audio deepfake

Se han desarrollado muchos modelos de aprendizaje automático y aprendizaje profundo utilizando diferentes estrategias para detectar audio falso. La mayoría de las veces, estos algoritmos siguen un procedimiento de tres pasos:

  1. Cada grabación de audio de voz debe ser preprocesada y transformada en funciones de audio apropiadas;
  2. Las características calculadas se introducen en el modelo de detección, que realiza las operaciones necesarias, como el proceso de entrenamiento, esencial para discriminar entre audio de voz real y falso;
  3. La salida se introduce en el módulo final para producir una probabilidad de predicción de la clase Falsa o Real . Siguiendo la nomenclatura del desafío ASVspoof [45] , el audio falso se indica con el término "Spoof", mientras que el real se llama "Bonafide".

A lo largo de los años, muchos investigadores han demostrado que los enfoques de aprendizaje automático son más precisos que los métodos de aprendizaje profundo, independientemente de las funciones utilizadas. [8] Sin embargo, la escalabilidad de los métodos de aprendizaje automático no está confirmada debido a la capacitación excesiva y la extracción manual de funciones, especialmente con muchos archivos de audio. En cambio, cuando se utilizan algoritmos de aprendizaje profundo, se requieren transformaciones específicas en los archivos de audio para garantizar que los algoritmos puedan manejarlos.

Existen varias implementaciones de código abierto de diferentes métodos de detección, [46] [47] [48] y, por lo general, muchos grupos de investigación las publican en un servicio de alojamiento público como GitHub .

Desafíos abiertos y dirección futura de la investigación

El audio deepfake es un campo de investigación muy reciente. Por este motivo, existen muchas posibilidades de desarrollo y mejora, así como las posibles amenazas que la adopción de esta tecnología puede traer a nuestra vida diaria. Los más importantes se enumeran a continuación.

Generación profunda

En cuanto a la generación, el aspecto más significativo es la credibilidad de la víctima, es decir, la calidad de percepción del audio deepfake.

Varias métricas determinan el nivel de precisión de la generación de audio deepfake, y la más utilizada es el MOS (Mean Opinion Score) , que es el promedio aritmético de las calificaciones de los usuarios. Generalmente, la prueba a calificar implica una evaluación perceptiva de oraciones elaboradas mediante diferentes algoritmos de generación de habla. Este índice mostró que el audio generado por algoritmos entrenados en un solo altavoz tiene un MOS más alto. [44] [34] [49] [50] [39]

La frecuencia de muestreo también juega un papel esencial en la detección y generación de deepfakes de audio. Actualmente, los conjuntos de datos disponibles tienen una frecuencia de muestreo de alrededor de 16 kHz, lo que reduce significativamente la calidad de la voz. Un aumento en la tasa de muestreo podría conducir a una generación de mayor calidad. [37]

Detección de falsificaciones

Centrándonos en la parte de detección, una de las principales debilidades que afectan a los modelos recientes es el lenguaje adoptado.

La mayoría de los estudios se centran en detectar audio deepfake en el idioma inglés, sin prestar mucha atención a los idiomas más hablados como el chino y el español, [51] así como al hindi y el árabe.

También es fundamental considerar más factores relacionados con los diferentes acentos que representan la forma de pronunciación estrictamente asociada a un individuo, lugar o nación en particular. En otros campos del audio, como el reconocimiento del hablante , se ha descubierto que el acento influye significativamente en el rendimiento, [52] por lo que se espera que esta característica pueda afectar el rendimiento de los modelos incluso en esta tarea de detección.

Además, el preprocesamiento excesivo de los datos de audio ha provocado un coste computacional muy elevado y a menudo insostenible. Por esta razón, muchos investigadores han sugerido seguir un enfoque de Aprendizaje Autosupervisado , [53] tratando con datos sin etiquetar para trabajar de manera efectiva en tareas de detección y mejorar la escalabilidad del modelo y, al mismo tiempo, disminuir el costo computacional.

Entrenar y probar modelos con datos de audio reales es todavía un área poco desarrollada. De hecho, el uso de audio con ruidos de fondo del mundo real puede aumentar la solidez de los modelos de detección de audio falso.

Además, la mayor parte del esfuerzo se centra en detectar deepfakes de audio de base sintética, y pocos estudios analizan los basados ​​en imitaciones debido a su dificultad intrínseca en el proceso de generación. [11]

Defensa contra deepfakes

A lo largo de los años, ha habido un aumento en las técnicas destinadas a defenderse contra acciones maliciosas que podría traer el audio deepfake, como el robo de identidad y la manipulación de los discursos de los gobernadores de la nación.

Para evitar deepfakes, algunos sugieren utilizar blockchain y otras tecnologías de contabilidad distribuida (DLT) para identificar la procedencia de los datos y rastrear la información. [8] [54] [55] [56]

También se ha propuesto extraer y comparar señales afectivas correspondientes a las emociones percibidas del contenido digital para combatir los deepfakes. [57] [58] [59]

Otro aspecto crítico se refiere a la mitigación de este problema. Se ha sugerido que sería mejor mantener algunas herramientas de detección patentadas sólo para quienes las necesitan, como los verificadores de datos para periodistas. [29] De esa manera, quienes crean los modelos de generación, tal vez con fines nefastos, no sabrían con precisión qué características facilitan la detección de un deepfake, [29] desalentando a posibles atacantes.

En cambio, para mejorar la detección, los investigadores están intentando generalizar el proceso, [60] buscando técnicas de preprocesamiento que mejoren el rendimiento y probando diferentes funciones de pérdida utilizadas para el entrenamiento. [10] [61]

Programas de investigación

Numerosos grupos de investigación en todo el mundo están trabajando para reconocer las manipulaciones de los medios; es decir, deepfakes de audio pero también deepfakes de imágenes y vídeos. Estos proyectos suelen contar con financiación pública o privada y están en estrecho contacto con universidades e instituciones de investigación.

Para ello, la Agencia de Proyectos de Investigación Avanzada de Defensa (DARPA) ejecuta la Semántica Forense (SemaFor). [62] [63] Aprovechando algunas de las investigaciones del programa Media Forensics (MediFor) [64] [65] , también de DARPA, estos algoritmos de detección semántica tendrán que determinar si un objeto multimedia ha sido generado o manipulado, para automatizarlo. el análisis de la procedencia de los medios y descubrir la intención detrás de la falsificación de diversos contenidos. [66] [62]

Otro programa de investigación es el programa Preservando la confiabilidad de los medios en la era de la inteligencia artificial (PREMIER) [67] , financiado por el Ministerio italiano de Educación, Universidad e Investigación (MIUR) y dirigido por cinco universidades italianas. PREMIER buscará enfoques híbridos novedosos para obtener detectores forenses que sean más interpretables y seguros. [68]

DEEP-VOICE [69] es un conjunto de datos disponible públicamente destinado a fines de investigación para desarrollar sistemas que detecten cuándo se ha generado voz con redes neuronales a través de un proceso llamado Conversión de voz basada en recuperación (RVC). La investigación preliminar mostró numerosas diferencias estadísticamente significativas entre las características encontradas en el habla humana y las generadas por algoritmos de Inteligencia Artificial.

Desafíos públicos

En los últimos años, se han organizado numerosos desafíos para impulsar aún más este campo de la investigación del deepfake de audio.

El desafío mundial más famoso es el ASVspoof, [45] el desafío de contramedidas y falsificación de verificación automática de locutores. Este desafío es una iniciativa bianual liderada por la comunidad que tiene como objetivo promover la consideración de la suplantación de identidad y el desarrollo de contramedidas. [70]

Otro desafío reciente es el ADD [71] —Audio Deepfake Detección—que considera situaciones falsas en un escenario más real. [72]

Además, el Desafío de Conversión de Voz [73] es un desafío bianual, creado con la necesidad de comparar diferentes sistemas y enfoques de conversión de voz que utilizan los mismos datos de voz.

Ver también

Referencias

  1. ^ Smith, Hannah; Mansted, Katherine (1 de abril de 2020). Deep fakes armados: seguridad nacional y democracia . vol. 28. Instituto Australiano de Política Estratégica . págs. 11-13. ISSN  2209-9689.{{cite book}}: Mantenimiento CS1: fecha y año ( enlace )
  2. ^ Lyu, Siwei (2020). "Detección de deepfake: desafíos actuales y próximos pasos". Conferencia internacional IEEE 2020 sobre talleres multimedia y de exposición (ICMEW) . págs. 1–6. arXiv : 2003.09234 . doi : 10.1109/icmew46912.2020.9105991. ISBN 978-1-7281-1485-9. S2CID  214605906 . Consultado el 29 de junio de 2022 .
  3. ^ ab Diakopoulos, Nicolás; Johnson, Deborah (junio de 2020). "Anticipar y abordar las implicaciones éticas de los deepfakes en el contexto de las elecciones". Nuevos medios y sociedad . 23 (7) (publicado el 5 de junio de 2020): 2072–2098. doi :10.1177/1461444820925811. ISSN  1461-4448. S2CID  226196422.
  4. ^ Murphy, Margi (20 de febrero de 2024). "Deepfake Audio Boom explota la inteligencia artificial de una startup valorada en mil millones de dólares". Bloomberg.
  5. ^ Chadha, Anupama; Kumar, Vaibhav; Kashyap, Sonu; Gupta, Mayank (2021), Singh, Pradeep Kumar; Wierzchoń, Sławomir T.; Tanwar, Sudeep; Ganzha, Maria (eds.), "Deepfake: An Overview", Actas de la Segunda Conferencia Internacional sobre Computación, Comunicaciones y Ciberseguridad , Lecture Notes in Networks and Systems, vol. 203, Singapur: Springer Singapur, págs. 557–566, doi :10.1007/978-981-16-0733-2_39, ISBN 978-981-16-0732-5, S2CID  236666289 , consultado el 29 de junio de 2022
  6. ^ "La IA le devolvió la voz a Val Kilmer. Pero a los críticos les preocupa que se pueda hacer un mal uso de la tecnología". El Correo de Washington . ISSN  0190-8286 . Consultado el 29 de junio de 2022 .
  7. ^ Etienne, Vanessa (19 de agosto de 2021). "Val Kilmer recupera su voz después de la batalla contra el cáncer de garganta utilizando tecnología de inteligencia artificial: escuche los resultados". GENTE.com . Consultado el 1 de julio de 2022 .
  8. ^ abcd Almutairi, Zaynab; Elgibreen, Hebah (4 de mayo de 2022). "Una revisión de los métodos modernos de detección de audio deepfake: desafíos y direcciones futuras". Algoritmos . 15 (5): 155. doi : 10.3390/a15050155 . ISSN  1999-4893.
  9. ^ Caramancion, Kevin Matthe (junio de 2022). "Una exploración de la información errónea o desinformación en formato de audio difundida en podcasts: estudio de caso de Spotify". 2022 Conferencia internacional IEEE IOT, Electrónica y Mecatrónica (IEMTRONICS) . págs. 1–6. doi :10.1109/IEMTRONICS55184.2022.9795760. ISBN 978-1-6654-8684-2. S2CID  249903722.
  10. ^ ab Chen, Tianxiang; Kumar, Avrosh; Nagarsheth, Parav; Sivaraman, Ganesh; Khoury, Elie (1 de noviembre de 2020). "Generalización de la detección de audio deepfake". El Taller de Hablante y Reconocimiento de la Lengua (Odisea 2020) . ISCA: 132-137. doi : 10.21437/Odisea.2020-19. S2CID  219492826.
  11. ^ abc Ballesteros, Dora M.; Rodríguez-Ortega, Yohanna; Renza, Diego; Arce, Gonzalo (01-12-2021). "Deep4SNet: aprendizaje profundo para la clasificación de discursos falsos". Sistemas Expertos con Aplicaciones . 184 : 115465. doi : 10.1016/j.eswa.2021.115465. ISSN  0957-4174. S2CID  237659479.
  12. ^ Suwajanakorn, Supasorn; Seitz, Steven M.; Kemelmacher-Shlizerman, Ira (20 de julio de 2017). "Sintetizando a Obama: aprender a sincronizar los labios a partir del audio". Transacciones ACM sobre gráficos . 36 (4): 95:1–95:13. doi :10.1145/3072959.3073640. ISSN  0730-0301. S2CID  207586187.
  13. ^ Stupp, Catalina. "Los estafadores utilizaron la inteligencia artificial para imitar la voz del director ejecutivo en un caso inusual de ciberdelito". WSJ . Consultado el 26 de mayo de 2024 .
  14. ^ Brewster, Thomas. "Estafadores clonaron la voz del director de la empresa en un atraco a un banco de 35 millones de dólares, según encuentra la policía". Forbes . Consultado el 29 de junio de 2022 .
  15. ^ "La IA generativa hace que las estafas de voz sean más fáciles de creer". Axios . 13 de junio de 2023 . Consultado el 16 de junio de 2023 .
  16. ^ Bunn, Amy (15 de mayo de 2023). "Impostores artificiales: los ciberdelincuentes recurren a la clonación de voz mediante IA para una nueva generación de estafas". Blog de McAfee . Consultado el 16 de junio de 2023 .
  17. ^ Cox, Joseph (23 de febrero de 2023). "Cómo entré en una cuenta bancaria con una voz generada por IA". Vicio . Consultado el 16 de junio de 2023 .
  18. ^ Evershed, Nick; Taylor, Josh (16 de marzo de 2023). "La IA puede engañar al reconocimiento de voz utilizado por Centrelink y la oficina de impuestos australiana para verificar la identidad". El guardián . Consultado el 16 de junio de 2023 .
  19. ^ "Los estafadores utilizan la inteligencia artificial para mejorar sus planes de emergencia familiares". Asesoramiento al Consumidor . 2023-03-17 . Consultado el 26 de mayo de 2024 .
  20. ^ "Audio deepfake de Sir Keir Starmer publicado el primer día de la conferencia laborista".
  21. ^ Más débil, Morgan. "Los deepfakes electorales de Eslovaquia muestran que la IA es un peligro para la democracia". Cableado .
  22. ^ "El consultor político detrás de la falsa llamada automática de IA de Biden enfrenta cargos en New Hampshire".
  23. ^ "Consultor político acusado de contratar a un mago para enviar spam a los votantes con llamadas deepfake de Biden". Ley y crimen . 2024-03-15 . Consultado el 23 de mayo de 2024 .
  24. ^ David Wright; Brian Fung; Brian Fung (6 de febrero de 2024). "Robocall falsa de Biden vinculada a empresas con sede en Texas, anuncia el fiscal general de New Hampshire". CNN .
  25. ^ Brian Fung (8 de febrero de 2024). "La FCC vota para prohibir las llamadas automáticas fraudulentas que utilizan voces generadas por IA". CNN.{{cite news}}: Mantenimiento CS1: estado de la URL ( enlace )
  26. ^ "La FCC hace que las voces generadas por IA en llamadas automáticas sean ilegales | Comisión Federal de Comunicaciones". www.fcc.gov . 2024-02-08 . Consultado el 26 de mayo de 2024 .
  27. ^ Kramer, Marcia (26 de febrero de 2024). "Steve Kramer explica por qué utilizó IA para hacerse pasar por el presidente Biden en New Hampshire - CBS New York". www.cbsnews.com . Consultado el 23 de mayo de 2024 .
  28. ^ "Un consultor político enfrenta cargos y multas por las llamadas automáticas falsas de Biden".
  29. ^ abcde Khanjani, Zahra; Watson, Gabrielle; Janeja, Vandana P. (28 de noviembre de 2021). "¿Qué profundidad tienen las falsificaciones? Centrándose en el audio Deepfake: una encuesta". arXiv : 2111.14203 [cs.SD].
  30. ^ Pradhan, Swadhin; Sol, Wei; Baig, Ghufran; Qiu, Lili (9 de septiembre de 2019). "Combatir ataques de repetición contra asistentes de voz". Actas de la ACM sobre tecnologías interactivas, móviles, portátiles y ubicuas . 3 (3): 100:1–100:26. doi :10.1145/3351258. S2CID  202159551.
  31. ^ Villalba, Jesús; Lleida, Eduardo (2011). "Prevención de ataques de repetición en sistemas de verificación de hablantes". Conferencia de Carnahan 2011 sobre tecnología de seguridad. págs. 1–8. doi :10.1109/CCST.2011.6095943. ISBN 978-1-4577-0903-6. S2CID  17048213 . Consultado el 29 de junio de 2022 .
  32. ^ Tom, Francisco; Jainista, Mohit; Dey, Prasenjit (2 de septiembre de 2018). "Detección de ataques de reproducción de audio de un extremo a otro utilizando redes convolucionales profundas con atención". Interdiscurso 2018 . ISCA: 681–685. doi : 10.21437/Interspeech.2018-2279. S2CID  52187155.
  33. ^ Bronceado, Xu; Qin, Tao; Pronto, Frank; Liu, Tie-Yan (23 de julio de 2021). "Una encuesta sobre la síntesis neuronal del habla". arXiv : 2106.15561 [eess.AS].
  34. ^ ab Oord, Aaron van den; Dieleman, Sander; Zen, Heiga; Simonyan, Karen; Vinyals, Oriol; Tumbas, Alex; Kalchbrenner, Nal; Mayor, Andrés; Kavukcuoglu, Koray (19 de septiembre de 2016). "WaveNet: un modelo generativo para audio sin formato". arXiv : 1609.03499 [cs.SD].
  35. ^ Kuchaiev, Oleksii; Li, Jason; Nguyen, Huyen; Hrinchuk, Oleksii; Leary, Ryan; Ginsburg, Boris; Kriman, Samuel; Beliaev, Stanislav; Lavrukhin, Vitaly; Cocinero, Jack; Castonguay, Patrice (13 de septiembre de 2019). "NeMo: un conjunto de herramientas para crear aplicaciones de inteligencia artificial utilizando módulos neuronales". arXiv : 1909.09577 [cs.LG].
  36. ^ Wang, Yuxuan; Skerry-Ryan, RJ; Stanton, Margarita; Wu, Yonghui; Weiss, Ron J.; Jaitly, Navdeep; Yang, Zongheng; Xiao, Ying; Chen, Zhifeng; Bengio, Samy; Le, Quoc (6 de abril de 2017). "Tacotron: hacia la síntesis del habla de un extremo a otro". arXiv : 1703.10135 [cs.CL].
  37. ^ ab Prenger, Ryan; Valle, Rafael; Catanzaro, Bryan (30 de octubre de 2018). "WaveGlow: una red generativa basada en flujo para la síntesis del habla". arXiv : 1811.00002 [cs.SD].
  38. ^ Vásquez, Sean; Lewis, Mike (4 de junio de 2019). "MelNet: un modelo generativo para audio en el dominio de la frecuencia". arXiv : 1906.01083 [eess.AS].
  39. ^ ab Ping, Wei; Peng, Kainan; Gibiansky, Andrés; Arik, Sercan O.; Kannan, Ajay; Narang, Sharan; Raiman, Jonathan; Molinero, John (22 de febrero de 2018). "Deep Voice 3: ampliación de la conversión de texto a voz con aprendizaje de secuencias convolucionales". arXiv : 1710.07654 [cs.SD].
  40. ^ Ren, Yi; Ruan, Yangjun; Tan, Xu; Qin, Tao; Zhao, Sheng; Zhao, Zhou; Liu, Tie-Yan (20 de noviembre de 2019). "FastSpeech: texto a voz rápido, robusto y controlable". arXiv : 1905.09263 [cs.CL].
  41. ^ Ning, Yishuang; Él, Sheng; Wu, Zhiyong; Xing, Chunxiao; Zhang, Liang-Jie (enero de 2019). "Una revisión de la síntesis del habla basada en el aprendizaje profundo". Ciencias Aplicadas . 9 (19): 4050. doi : 10.3390/app9194050 . ISSN  2076-3417.
  42. ^ ab Rodríguez-Ortega, Yohanna; Ballesteros, Dora María; Renza, Diego (2020). "Un modelo de aprendizaje automático para detectar voces falsas". En Flórez, Héctor; Misra, Sanjay (eds.). Informática Aplicada . Comunicaciones en Informática y Ciencias de la Información. vol. 1277. Cham: Editorial Internacional Springer. págs. 3-13. doi :10.1007/978-3-030-61702-8_1. ISBN 978-3-030-61702-8. S2CID  226283369.
  43. ^ Zhang, Mingyang; Wang, Xin; Colmillo, echando humo; Li, Haizhou; Yamagishi, Junichi (7 de abril de 2019). "Marco de formación conjunto para la conversión de voz y texto a voz utilizando Tacotron y WaveNet de múltiples fuentes". arXiv : 1903.12389 [eess.AS].
  44. ^ ab Sercan, Ö Arık; Jitong, Chen; Kainan, Peng; Wei, Ping; Yanqi, Zhou (2018). "Clonación de voces neuronales con algunas muestras". Avances en sistemas de procesamiento de información neuronal (NeurIPS 2018) . 31 (publicado el 12 de octubre de 2018): 10040–10050. arXiv : 1802.06006 .
  45. ^ ab "| ASV parodia". www.asvspoof.org . Consultado el 1 de julio de 2022 .
  46. ^ similar-ai / Resemblyzer, Reemble AI, 30 de junio de 2022 , consultado el 1 de julio de 2022
  47. ^ mendaxfz (28 de junio de 2022), Detección de voz sintética , consultado el 1 de julio de 2022
  48. ^ HUA, Guang (29 de junio de 2022), Detección de voz sintética de extremo a extremo , consultado el 1 de julio de 2022
  49. ^ Kong, Jungil; Kim, Jaehyeon; Bae, Jaekyoung (23 de octubre de 2020). "HiFi-GAN: redes generativas adversas para una síntesis de voz eficiente y de alta fidelidad". arXiv : 2010.05646 [cs.SD].
  50. ^ Kumar, Kundan; Kumar, Rithesh; de Boissière, Thibault; Gestín, Lucas; Teoh, Wei Zhen; Sotelo, José; de Brébisson, Alexandre; Bengio, Yoshua; Courville, Aaron (8 de diciembre de 2019). "MelGAN: redes generativas adversarias para síntesis de formas de onda condicionales". arXiv : 1910.06711 [eess.AS].
  51. ^ Babbel.com; GmbH, Lección Nueve. "Los 10 idiomas más hablados del mundo". Revista Babbel . Consultado el 30 de junio de 2022 .
  52. ^ Najafian, Maryam; Russell, Martín (septiembre de 2020). "Identificación automática de acentos como herramienta analítica para el reconocimiento automático de voz robusto de acentos". Comunicación del habla . 122 : 44–55. doi : 10.1016/j.specom.2020.05.003. S2CID  225778214.
  53. ^ Liu, Xiao; Zhang, Fanjin; Hou, Zhenyu; Mian, Li; Wang, Zhaoyu; Zhang, Jing; Tang, Jie (2021). "Aprendizaje autosupervisado: generativo o contrastivo". Transacciones IEEE sobre conocimiento e ingeniería de datos . 35 (1): 857–876. arXiv : 2006.08218 . doi :10.1109/TKDE.2021.3090866. ISSN  1558-2191. S2CID  219687051.
  54. ^ Rashid, doctor Mamunur; Lee, Suk-Hwan; Kwon, Ki-Ryong (2021). "Tecnología Blockchain para combatir los deepfake y proteger la integridad de las imágenes y vídeos". Revista de la Sociedad Multimedia de Corea . 24 (8): 1044-1058. doi :10.9717/kmms.2021.24.8.1044. ISSN  1229-7771.
  55. ^ Fraga-Lamas, Paula; Fernández-Caramés, Tiago M. (2019-10-20). "Noticias falsas, desinformación y deepfakes: aprovechamiento de las tecnologías de contabilidad distribuida y blockchain para combatir el engaño digital y la realidad falsificada". Profesional de TI . 22 (2): 53–59. arXiv : 1904.05386 . doi :10.1109/MITP.2020.2977589.
  56. ^ Ki Chan, Christopher Chun; Kumar, Vimal; Delaney, Steven; Gochoo, Munkhjargal (septiembre de 2020). "Combatir los Deepfakes: Multi-LSTM y Blockchain como prueba de autenticidad para los medios digitales". Conferencia Internacional IEEE/ITU 2020 sobre Inteligencia Artificial para el Bien (AI4G) . págs. 55–62. doi :10.1109/AI4G50087.2020.9311067. ISBN 978-1-7281-7031-2. S2CID  231618774.
  57. ^ Mittal, Trisha; Bhattacharya, Uttaran; Chandra, Rohan; Bera, Aniket; Manocha, Dinesh (12 de octubre de 2020), "Las emociones no mienten: un método de detección audiovisual de deepfake utilizando señales afectivas", Actas de la 28.ª Conferencia Internacional ACM sobre Multimedia , Nueva York, NY, EE. UU.: Association for Computing Maquinaria, págs. 2823–2832, doi :10.1145/3394171.3413570, ISBN 978-1-4503-7988-5, S2CID  220935571 , consultado el 29 de junio de 2022
  58. ^ Conti, Emanuele; Salvi, Davide; Borrelli, Clara; Hosler, Brian; Bestagini, Paolo; Antonacci, Fabio; Sarti, Augusto; Stamm, Mateo C.; Tubaro, Stefano (23 de mayo de 2022). "Detección de voz deepfake mediante el reconocimiento de emociones: un enfoque semántico". ICASSP 2022 - 2022 Conferencia internacional IEEE sobre acústica, habla y procesamiento de señales (ICASSP) . Singapur, Singapur: IEEE. págs. 8962–8966. doi :10.1109/ICASSP43922.2022.9747186. hdl :11311/1220518. ISBN 978-1-6654-0540-9. S2CID  249436701.
  59. ^ Hosler, Brian; Salvi, Davide; Murray, Antonio; Antonacci, Fabio; Bestagini, Paolo; Tubaro, Stefano; Stamm, Matthew C. (junio de 2021). "¿Los Deepfakes sienten emociones? Un enfoque semántico para detectar Deepfakes a través de inconsistencias emocionales". Conferencia IEEE/CVF 2021 sobre talleres de reconocimiento de patrones y visión por computadora (CVPRW) . Nashville, Tennessee, EE.UU.: IEEE. págs. 1013-1022. doi :10.1109/CVPRW53098.2021.00112. hdl :11311/1183572. ISBN 978-1-6654-4899-4. S2CID  235679849.
  60. ^ Müller, Nicolás M.; Czempin, Pavel; Dieckmann, Franziska; Froghyar, Adán; Böttinger, Konstantin (21 de abril de 2022). "¿Se generaliza la detección de audio deepfake?". arXiv : 2203.16263 [cs.SD].
  61. ^ Zhang, tú; Jiang, Fei; Duan, Zhiyao (2021). "Aprendizaje de una clase hacia la detección de suplantación de voz sintética". Cartas de procesamiento de señales IEEE . 28 : 937–941. arXiv : 2010.13995 . Código Bib : 2021ISPL...28..937Z. doi :10.1109/LSP.2021.3076358. ISSN  1558-2361. S2CID  235077416.
  62. ^ ab "SAM.gov". sam.gov . Consultado el 29 de junio de 2022 .
  63. ^ "El programa SemaFor". www.darpa.mil . Consultado el 1 de julio de 2022 .
  64. ^ "El programa DARPA MediFor". govtribe.com . Consultado el 29 de junio de 2022 .
  65. ^ "El programa MediFor". www.darpa.mil . Consultado el 1 de julio de 2022 .
  66. ^ "DARPA anuncia equipos de investigación seleccionados para el programa de análisis forense semántico". www.darpa.mil . Consultado el 1 de julio de 2022 .
  67. ^ "ESTRENO". sitios.google.com . Consultado el 1 de julio de 2022 .
  68. ^ "PREMIER - Proyecto". sitios.google.com . Consultado el 29 de junio de 2022 .
  69. ^ Pájaro, Jordan J.; Lotfi, Ahmad (2023). "Detección en tiempo real de voz generada por IA para conversión de voz DeepFake". arXiv : 2308.12734 [cs.SD].
  70. ^ Yamagishi, Junichi; Wang, Xin; Todisco, Massimiliano; Sahidullah, Maryland; Patiño, José; Nautsch, Andreas; Liu, Xuechen; Lee, Kong Aik; Kinnunen, Tomi; Evans, Nicolás; Delgado, Héctor (01-09-2021). "ASVspoof 2021: acelerando el progreso en la detección de voz falsificada y ultrafalsa". arXiv : 2109.00537 [eess.AS].
  71. ^ "Detección de audio deepfake: ICASSP 2022". Sociedad de procesamiento de señales IEEE . 2021-12-17 . Consultado el 1 de julio de 2022 .
  72. ^ Yi, Jiangyan; Fu, Ruibo; Tao, Jianhua; Nie, Shuai; Mamá, Haoxin; Wang, Chenglong; Wang, Tao; Tian, ​​Zhengkun; Bai, Ye; Fan, Cunhang; Liang, Shan (26 de febrero de 2022). "ADD 2022: el primer desafío de detección de síntesis profunda de audio". arXiv : 2202.08433 [cs.SD].
  73. ^ "Taller conjunto para Blizzard Challenge y Voice Conversion Challenge 2020 - SynSIG". www.synsig.org . Archivado desde el original el 2 de julio de 2022 . Consultado el 1 de julio de 2022 .