Audio falso

Un deepfake de audio (también conocido como clonación de voz o audio deepfake ) es un producto de inteligencia artificial ^[1] que se utiliza para crear frases de voz convincentes que suenan como si personas específicas dijeran cosas que no dijeron. ^[2]^[3]^[4] Esta tecnología se desarrolló inicialmente para varias aplicaciones para mejorar la vida humana. Por ejemplo, se puede utilizar para producir audiolibros, ^[5] y también para ayudar a las personas que han perdido la voz (debido a enfermedades de garganta u otros problemas médicos) a recuperarla. ^[6]^[7] Comercialmente, ha abierto la puerta a varias oportunidades. Esta tecnología también puede crear asistentes digitales más personalizados y servicios de conversión de texto a voz con un sonido natural, así como servicios de traducción de voz .

Incidentes de fraude

Las falsificaciones profundas de audio, conocidas como manipulaciones de audio a principios de la década de 2020, se están volviendo ampliamente accesibles mediante dispositivos móviles simples o computadoras personales . ^[8] Estas herramientas también se han utilizado para difundir información errónea mediante audio. ^[3] Esto ha generado inquietudes de ciberseguridad entre el público global sobre los efectos secundarios del uso de falsificaciones profundas de audio, incluido su posible papel en la difusión de información errónea y desinformación en plataformas de redes sociales basadas en audio. ^[9] Las personas pueden usarlos como una técnica de suplantación de voz de acceso lógico , ^[10] donde pueden usarse para manipular la opinión pública para propaganda, difamación o terrorismo . Diariamente se transmiten grandes cantidades de grabaciones de voz a través de Internet, y la detección de suplantaciones es un desafío. ^[11] Los atacantes de falsificaciones profundas de audio han apuntado a individuos y organizaciones, incluidos políticos y gobiernos. ^[12]

En 2019, unos estafadores que utilizaban inteligencia artificial suplantaron la voz del director ejecutivo de una empresa energética alemana y ordenaron al director ejecutivo de su filial del Reino Unido que transfiriera 220.000 euros . ^[13] A principios de 2020, la misma técnica se hizo pasar por un director de la empresa como parte de un elaborado plan que convenció a un gerente de sucursal para que transfiriera 35 millones de dólares. ^[14]

Según una encuesta global de McAfee de 2023 , una de cada diez personas informó haber sido víctima de una estafa de clonación de voz mediante IA; el 77 % de estas víctimas informó haber perdido dinero a causa de la estafa. ^[15]^[16] Las falsificaciones de audio también podrían representar un peligro para los sistemas de identificación de voz que utilizan actualmente las instituciones financieras. ^[17]^{[18] En marzo de 2023, la}Comisión Federal de Comercio de los Estados Unidos emitió una advertencia a los consumidores sobre el uso de IA para falsificar la voz de un familiar en apuros que pide dinero. ^[19]

En octubre de 2023, durante el inicio de la conferencia del Partido Laborista británico en Liverpool , se publicó un audio falso del líder laborista Keir Starmer que lo retrataba falsamente abusando verbalmente de sus empleados y criticando a Liverpool. ^[20] Ese mismo mes, un audio falso del político eslovaco Michal Šimečka afirmó falsamente haberlo capturado discutiendo formas de manipular las próximas elecciones. ^[21]

Durante la campaña para las primarias presidenciales demócratas de New Hampshire de 2024 , más de 20.000 votantes recibieron llamadas automáticas de un presidente Joe Biden que se hizo pasar por una IA instándolos a no votar. ^[22]^[23] El fiscal general de New Hampshire dijo que esto violaba las leyes electorales estatales y la presunta participación de Life Corporation y Lingo Telecom. ^{[24] En febrero de 2024, la}Comisión Federal de Comunicaciones de los Estados Unidos prohibió el uso de IA para falsificar voces en llamadas automáticas. ^[25]^[26] Ese mismo mes, el consultor político Steve Kramer admitió que había encargado las llamadas por 500 dólares. Dijo que quería llamar la atención sobre la necesidad de normas que regulen el uso de IA en campañas políticas. ^[27] En mayo, la FCC dijo que Kramer había violado la ley federal al falsificar el número de una figura política local y propuso una multa de 6 millones de dólares. Cuatro condados de New Hampshire acusaron a Kramer de delitos graves de supresión de votantes y de hacerse pasar por un candidato, un delito menor. ^[28]

Categorías

Los deepfakes de audio se pueden dividir en tres categorías diferentes:

Basado en repeticiones

Los deepfakes basados en repeticiones son obras maliciosas que tienen como objetivo reproducir una grabación de la voz del interlocutor. ^[29]

Existen dos tipos: detección de campo lejano y detección de cortar y pegar . En la detección de campo lejano, se reproduce una grabación de micrófono de la víctima como segmento de prueba en un teléfono manos libres. ^[30] Por otro lado, cortar y pegar implica falsificar la oración solicitada de un sistema dependiente del texto. ^[11] La verificación del hablante dependiente del texto se puede utilizar para defenderse de los ataques basados en la reproducción. ^[29]^[31] Una técnica actual que detecta ataques de reproducción de extremo a extremo es el uso de redes neuronales convolucionales profundas . ^[32]

De base sintética

La categoría basada en la síntesis de voz se refiere a la producción artificial del habla humana, mediante programas de sistemas de software o hardware. La síntesis de voz incluye la síntesis de texto a voz, cuyo objetivo es transformar el texto en un habla aceptable y natural en tiempo real, ^[33] haciendo que el habla suene en consonancia con el texto de entrada, utilizando las reglas de descripción lingüística del texto.

Un sistema clásico de este tipo consta de tres módulos: un modelo de análisis de texto, un modelo acústico y un vocoder . La generación suele tener que seguir dos pasos esenciales. Es necesario recoger un audio crudo limpio y bien estructurado con el texto transcrito de la frase de audio del habla original. En segundo lugar, el modelo Text-To-Speech debe entrenarse utilizando estos datos para construir un modelo de generación de audio sintético.

En concreto, el texto transcrito con la voz del hablante de destino es la entrada del modelo de generación. El módulo de análisis de texto procesa el texto de entrada y lo convierte en características lingüísticas. A continuación, el módulo acústico extrae los parámetros del hablante de destino a partir de los datos de audio basándose en las características lingüísticas generadas por el módulo de análisis de texto. ^[8] Por último, el vocoder aprende a crear formas de onda vocales basándose en los parámetros de las características acústicas. Se genera el archivo de audio final, que incluye el audio de simulación sintético en formato de forma de onda, creando audio de voz en la voz de muchos hablantes, incluso de aquellos que no están en formación.

El primer avance en este sentido lo introdujo WaveNet ^[34], una red neuronal para generar formas de onda de audio en bruto capaces de emular las características de muchos hablantes diferentes. Esta red ha sido superada a lo largo de los años por otros sistemas ^[35]^[36]^[37]^[38]^[39]^[40] que sintetizan voces artificiales de gran realismo al alcance de todos. ^[41]

La conversión de texto a voz depende en gran medida de la calidad del corpus de voz utilizado para implementar el sistema, y crear un corpus de voz completo es costoso. ^{[ cita requerida ]} Otra desventaja es que los sistemas de síntesis de voz no reconocen puntos ni caracteres especiales. Además, los problemas de ambigüedad son persistentes, ya que dos palabras escritas de la misma manera pueden tener significados diferentes. ^{[ cita requerida ]}

Basado en la imitación

La falsificación profunda de audio basada en imitación es una forma de transformar un discurso original de un hablante (el original) para que suene como si lo hubiera dicho otro hablante (el de destino). ^[42] Un algoritmo basado en imitación toma una señal hablada como entrada y la altera cambiando su estilo, entonación o prosodia, tratando de imitar la voz de destino sin cambiar la información lingüística. ^[43] Esta técnica también se conoce como conversión de voz.

Este método se confunde a menudo con el método sintético anterior, ya que no hay una separación clara entre los dos enfoques en lo que respecta al proceso de generación. De hecho, ambos métodos modifican las características acústicas, espectrales y de estilo de la señal de audio del habla, pero el método basado en imitación generalmente mantiene inalterado el texto de entrada y salida. Esto se obtiene modificando la forma en que se pronuncia esta oración para que coincida con las características del hablante de destino. ^[44]

Las voces se pueden imitar de varias maneras, como por ejemplo utilizando personas con voces similares que puedan imitar al hablante original. En los últimos años, el enfoque más popular implica el uso de redes neuronales particulares llamadas redes generativas antagónicas (GAN) debido a su flexibilidad y a la alta calidad de sus resultados. ^[29]^[42]

Luego, la señal de audio original se transforma para decir un discurso en el audio de destino utilizando un método de generación de imitación que genera un nuevo discurso, que se muestra en el falso.

Métodos de detección

La tarea de detección de audio deepfake determina si el audio de voz dado es real o falso.

Recientemente, este se ha convertido en un tema candente en la comunidad de investigación forense , que intenta mantenerse al día con la rápida evolución de las técnicas de falsificación.

En general, los métodos de detección de deepfakes se pueden dividir en dos categorías según el aspecto que aprovechan para realizar la tarea de detección. La primera se centra en aspectos de bajo nivel, buscando artefactos introducidos por los generadores a nivel de muestra. La segunda, en cambio, se centra en características de nivel superior que representan aspectos más complejos como el contenido semántico de la grabación de audio de voz.

Se han desarrollado muchos modelos de aprendizaje automático y aprendizaje profundo que utilizan diferentes estrategias para detectar audio falso. La mayoría de las veces, estos algoritmos siguen un procedimiento de tres pasos:

Cada grabación de audio de voz debe ser preprocesada y transformada en características de audio apropiadas;
Las características calculadas se introducen en el modelo de detección, que realiza las operaciones necesarias, como el proceso de entrenamiento, esencial para discriminar entre audio de voz real y falso;
La salida se introduce en el módulo final para generar una probabilidad de predicción de la clase Fake o la clase Real . Siguiendo la nomenclatura del desafío ASVspoof ^[45] , el audio Fake se indica con el término "Spoof", mientras que el Real se denomina "Bonafide".

A lo largo de los años, muchos investigadores han demostrado que los métodos de aprendizaje automático son más precisos que los métodos de aprendizaje profundo, independientemente de las características utilizadas. ^[8] Sin embargo, la escalabilidad de los métodos de aprendizaje automático no está confirmada debido al entrenamiento excesivo y la extracción manual de características, especialmente con muchos archivos de audio. En cambio, cuando se utilizan algoritmos de aprendizaje profundo, se requieren transformaciones específicas en los archivos de audio para garantizar que los algoritmos puedan manejarlos.

Existen varias implementaciones de código abierto de diferentes métodos de detección, ^[46]^[47]^[48] y normalmente muchos grupos de investigación los publican en un servicio de alojamiento público como GitHub .

Desafíos abiertos y dirección futura de la investigación

El deepfake de audio es un campo de investigación muy reciente. Por ello, existen muchas posibilidades de desarrollo y mejora, así como posibles amenazas que la adopción de esta tecnología puede traer a nuestra vida cotidiana. A continuación, enumeramos las más importantes.

Generación de deepfakes

Respecto a la generación, el aspecto más significativo es la credibilidad de la víctima, es decir, la calidad perceptiva del audio deepfake.

Varias métricas determinan el nivel de precisión de la generación de deepfakes de audio, y la más utilizada es el MOS (Mean Opinion Score) , que es el promedio aritmético de las calificaciones de los usuarios. Por lo general, la prueba a calificar implica una evaluación perceptiva de oraciones realizadas por diferentes algoritmos de generación de voz. Este índice mostró que el audio generado por algoritmos entrenados en un solo hablante tiene un MOS más alto. ^[44]^[34]^[49]^[50]^[39]

La frecuencia de muestreo también desempeña un papel esencial en la detección y generación de deepfakes de audio. Actualmente, los conjuntos de datos disponibles tienen una frecuencia de muestreo de alrededor de 16 kHz, lo que reduce significativamente la calidad del habla. Un aumento en la frecuencia de muestreo podría conducir a una generación de mayor calidad. ^[37]

Detección de deepfakes

Centrándonos en la parte de detección, una de las principales debilidades que afectan a los modelos recientes es el lenguaje adoptado.

La mayoría de los estudios se centran en detectar audios deepfake en inglés, sin prestar mucha atención a los idiomas más hablados, como el chino y el español, ^[51] así como el hindi y el árabe.

También es esencial considerar más factores relacionados con los diferentes acentos que representan la forma de pronunciación estrictamente asociada con un individuo, ubicación o nación en particular. En otros campos del audio, como el reconocimiento de hablantes , se ha encontrado que el acento influye significativamente en el rendimiento, ^[52] por lo que se espera que esta característica pueda afectar el rendimiento de los modelos incluso en esta tarea de detección.

Además, el excesivo preprocesamiento de los datos de audio ha supuesto un coste computacional muy elevado y a menudo insostenible. Por este motivo, muchos investigadores han sugerido seguir un enfoque de aprendizaje autosupervisado , ^[53] tratando con datos no etiquetados para trabajar de forma eficaz en tareas de detección y mejorando la escalabilidad del modelo y, al mismo tiempo, disminuyendo el coste computacional.

El entrenamiento y la prueba de modelos con datos de audio reales es un área aún poco desarrollada. De hecho, el uso de audio con ruidos de fondo del mundo real puede aumentar la solidez de los modelos de detección de audio falso.

Además, la mayor parte del esfuerzo se centra en detectar deepfakes de audio basados en sintéticos, y pocos estudios analizan los basados en imitaciones debido a su dificultad intrínseca en el proceso de generación. ^[11]

Defensa contra deepfakes

A lo largo de los años, ha habido un aumento de técnicas destinadas a defenderse de acciones maliciosas que el deepfake de audio podría traer, como el robo de identidad y la manipulación de discursos de los gobernadores de la nación.

Para evitar las falsificaciones profundas, algunos sugieren utilizar blockchain y otras tecnologías de contabilidad distribuida (DLT) para identificar la procedencia de los datos y rastrear la información. ^[8]^[54]^[55]^[56]

También se ha propuesto extraer y comparar señales afectivas correspondientes a las emociones percibidas a partir de contenido digital para combatir los deepfakes. ^[57]^[58]^[59]

Otro aspecto crítico se refiere a la mitigación de este problema. Se ha sugerido que sería mejor mantener algunas herramientas de detección propietarias solo para quienes las necesitan, como los verificadores de datos para periodistas. ^[29] De esa manera, quienes crean los modelos de generación, tal vez con fines nefastos, no sabrían con precisión qué características facilitan la detección de un deepfake, ^[29] desalentando a posibles atacantes.

Para mejorar la detección, en cambio, los investigadores están intentando generalizar el proceso, ^[60] buscando técnicas de preprocesamiento que mejoren el rendimiento y probando diferentes funciones de pérdida utilizadas para el entrenamiento. ^[10]^[61]

Programas de investigación

Numerosos grupos de investigación en todo el mundo trabajan para identificar las manipulaciones de los medios de comunicación, es decir, las falsificaciones de audio, pero también de imagen y vídeo. Estos proyectos suelen contar con financiación pública o privada y están en estrecho contacto con universidades e instituciones de investigación.

Para este propósito, la Agencia de Proyectos de Investigación Avanzada de Defensa (DARPA) ejecuta el programa Semantic Forensics (SemaFor). ^[62]^[63] Aprovechando algunas de las investigaciones del programa Media Forensics (MediFor) ^[64]^[65] , también de DARPA, estos algoritmos de detección semántica tendrán que determinar si un objeto multimedia ha sido generado o manipulado, para automatizar el análisis de la procedencia de los medios y descubrir la intención detrás de la falsificación de varios contenidos. ^[66]^[62]

Otro programa de investigación es el programa Preserving Media Trustworthiness in the Artificial Intelligence Era (PREMIER) ^[67] , financiado por el Ministerio de Educación, Universidad e Investigación de Italia (MIUR) y dirigido por cinco universidades italianas. PREMIER buscará nuevos enfoques híbridos para obtener detectores forenses que sean más interpretables y seguros. ^[68]

DEEP-VOICE ^[69] es un conjunto de datos de acceso público destinado a fines de investigación para desarrollar sistemas que detecten cuándo se ha generado el habla con redes neuronales a través de un proceso llamado Conversión de Voz Basada en Recuperación (RVC). La investigación preliminar mostró numerosas diferencias estadísticamente significativas entre las características encontradas en el habla humana y las generadas por algoritmos de Inteligencia Artificial.

Desafíos públicos

En los últimos años se han organizado numerosos desafíos para impulsar aún más este campo de investigación de deepfakes de audio.

El desafío más famoso del mundo es el ASVspoof, ^[45] el Automatic Speaker Verification Spoofing and Countermeasures Challenge. Este desafío es una iniciativa comunitaria bianual que tiene como objetivo promover la consideración de la suplantación de identidad y el desarrollo de contramedidas. ^[70]

Otro desafío reciente es el ADD ^[71] —Audio Deepfake Detection— que considera situaciones falsas en un escenario más real. ^[72]

Además, el Voice Conversion Challenge ^[73] es un desafío bianual, creado con la necesidad de comparar diferentes sistemas y enfoques de conversión de voz utilizando los mismos datos de voz.

Véase también

Referencias

^ Smith, Hannah; Mansted, Katherine (1 de abril de 2020). Falsificaciones profundas armadas: seguridad nacional y democracia . Vol. 28. Instituto Australiano de Política Estratégica . Págs. 11-13. ISSN 2209-9689.{{cite book}}: Mantenimiento CS1: fecha y año ( enlace )
^ Lyu, Siwei (2020). "Detección de deepfake: desafíos actuales y próximos pasos". Conferencia internacional sobre multimedia y talleres de exposiciones del IEEE de 2020 (ICMEW) . págs. 1–6. arXiv : 2003.09234 . doi :10.1109/icmew46912.2020.9105991. ISBN . 978-1-7281-1485-9. S2CID 214605906 . Consultado el 29 de junio de 2022 .
^ ab Diakopoulos, Nicholas; Johnson, Deborah (junio de 2020). "Anticipar y abordar las implicaciones éticas de los deepfakes en el contexto de las elecciones". New Media & Society . 23 (7) (publicado el 5 de junio de 2020): 2072–2098. doi :10.1177/1461444820925811. ISSN 1461-4448. S2CID 226196422.
^ Murphy, Margi (20 de febrero de 2024). "El auge del audio deepfake explota la inteligencia artificial de una startup de mil millones de dólares". Bloomberg.
^ Chadha, Anupama; Kumar, Vaibhav; Kashyap, Sonu; Gupta, Mayank (2021), Singh, Pradeep Kumar; Wierzchoń, Sławomir T.; Tanwar, Sudeep; Ganzha, Maria (eds.), "Deepfake: una descripción general", Actas de la Segunda Conferencia Internacional sobre Informática, Comunicaciones y Ciberseguridad , Lecture Notes in Networks and Systems, vol. 203, Singapur: Springer Singapur, págs. 557–566, doi :10.1007/978-981-16-0733-2_39, ISBN 978-981-16-0732-5, S2CID 236666289 , consultado el 29 de junio de 2022
^ "La inteligencia artificial le devolvió la voz a Val Kilmer, pero los críticos temen que la tecnología pueda ser mal utilizada". Washington Post . ISSN 0190-8286 . Consultado el 29 de junio de 2022 .
^ Etienne, Vanessa (19 de agosto de 2021). "Val Kilmer recupera su voz después de luchar contra el cáncer de garganta gracias a la tecnología de inteligencia artificial: escuche los resultados". PEOPLE.com . Consultado el 1 de julio de 2022 .
^ abcd Almutairi, Zaynab; Elgibreen, Hebah (4 de mayo de 2022). "Una revisión de los métodos modernos de detección de deepfakes de audio: desafíos y direcciones futuras". Algorithms . 15 (5): 155. doi : 10.3390/a15050155 . ISSN 1999-4893.
^ Caramancion, Kevin Matthe (junio de 2022). "Una exploración de la desinformación en formato de audio difundido en podcasts: estudio de caso de Spotify". Conferencia internacional IEEE sobre IoT, electrónica y mecatrónica (IEMTRONICS) de 2022. págs. 1–6. doi :10.1109/IEMTRONICS55184.2022.9795760. ISBN 978-1-6654-8684-2.S2CID249903722 .
^ ab Chen, Tianxiang; Kumar, Avrosh; Nagarsheth, Parav; Sivaraman, Ganesh; Khoury, Elie (1 de noviembre de 2020). "Generalización de la detección de deepfakes de audio". Taller de reconocimiento de hablantes y lenguaje (Odyssey 2020) . ISCA: 132–137. doi :10.21437/Odyssey.2020-19. S2CID 219492826.
^ abc Ballesteros, Dora M.; Rodriguez-Ortega, Yohanna; Renza, Diego; Arce, Gonzalo (2021-12-01). "Deep4SNet: aprendizaje profundo para la clasificación de discursos falsos". Sistemas expertos con aplicaciones . 184 : 115465. doi :10.1016/j.eswa.2021.115465. ISSN 0957-4174. S2CID 237659479.
^ Suwajanakorn, Supasorn; Seitz, Steven M.; Kemelmacher-Shlizerman, Ira (20 de julio de 2017). "Sintetizando a Obama: aprendiendo a hacer playback a partir del audio". ACM Transactions on Graphics . 36 (4): 95:1–95:13. doi :10.1145/3072959.3073640. ISSN 0730-0301. S2CID 207586187.
^ Stupp, Catherine. "Los estafadores utilizaron inteligencia artificial para imitar la voz del director ejecutivo en un caso inusual de ciberdelito". WSJ . Consultado el 26 de mayo de 2024 .
^ Brewster, Thomas. "La policía descubre que los estafadores clonaron la voz del director de la empresa en un robo bancario de 35 millones de dólares". Forbes . Consultado el 29 de junio de 2022 .
^ "La IA generativa hace que las estafas de voz sean más fáciles de creer". Axios . 13 de junio de 2023 . Consultado el 16 de junio de 2023 .
^ Bunn, Amy (15 de mayo de 2023). "Impostores artificiales: los cibercriminales recurren a la clonación de voz con inteligencia artificial para crear una nueva clase de estafa". Blog de McAfee . Consultado el 16 de junio de 2023 .
^ Cox, Joseph (23 de febrero de 2023). "Cómo entré en una cuenta bancaria con una voz generada por IA". Vice . Consultado el 16 de junio de 2023 .
^ Evershed, Nick; Taylor, Josh (16 de marzo de 2023). "La IA puede engañar al reconocimiento de voz utilizado para verificar la identidad por Centrelink y la oficina de impuestos de Australia". The Guardian . Consultado el 16 de junio de 2023 .
^ "Los estafadores utilizan la inteligencia artificial para mejorar sus planes de emergencia familiar". Consumer Advice . 2023-03-17 . Consultado el 2024-05-26 .
^ "Se publica un audio deepfake de Sir Keir Starmer el primer día de la conferencia laborista".
^ Meaker, Morgan. "Las falsificaciones de las elecciones en Eslovaquia muestran que la inteligencia artificial es un peligro para la democracia". Wired .
^ "El consultor político detrás de la falsa llamada automática de inteligencia artificial de Biden enfrenta cargos en New Hampshire".
^ "Consultor político acusado de contratar a un mago para enviar spam a votantes con llamadas deepfake de Biden". Ley y crimen . 2024-03-15 . Consultado el 2024-05-23 .
^ David Wright; Brian Fung; Brian Fung (6 de febrero de 2024). "El fiscal general de New Hampshire anuncia que una falsa llamada automática de Biden está vinculada a empresas con sede en Texas". CNN .
^ Brian Fung (8 de febrero de 2024). "La FCC vota a favor de prohibir las llamadas automáticas fraudulentas que utilizan voces generadas por inteligencia artificial". CNN.{{cite news}}: CS1 maint: estado de la URL ( enlace )
^ "La FCC declara ilegales las voces generadas por IA en las llamadas automáticas | Comisión Federal de Comunicaciones" www.fcc.gov . 2024-02-08 . Consultado el 2024-05-26 .
^ Kramer, Marcia (26 de febrero de 2024). "Steve Kramer explica por qué utilizó inteligencia artificial para hacerse pasar por el presidente Biden en New Hampshire - CBS New York". www.cbsnews.com . Consultado el 23 de mayo de 2024 .
^ "Un consultor político enfrenta cargos y multas por llamadas automáticas deepfake de Biden".
^ abcde Khanjani, Zahra; Watson, Gabrielle; Janeja, Vandana P. (28 de noviembre de 2021). "¿Qué tan profundas son las falsificaciones? Centrándonos en las falsificaciones profundas de audio: una encuesta". arXiv : 2111.14203 [cs.SD].
^ Pradhan, Swadhin; Sun, Wei; Baig, Ghufran; Qiu, Lili (9 de septiembre de 2019). "Combatir los ataques de repetición contra los asistentes de voz". Actas de la ACM sobre tecnologías interactivas, móviles, ponibles y ubicuas . 3 (3): 100:1–100:26. doi :10.1145/3351258. S2CID 202159551.
^ Villalba, Jesús; Lleida, Eduardo (2011). "Prevención de ataques de repetición en sistemas de verificación de hablantes". Conferencia Carnahan sobre Tecnología de Seguridad de 2011. págs. 1–8. doi :10.1109/CCST.2011.6095943. ISBN 978-1-4577-0903-6. S2CID 17048213 . Consultado el 29 de junio de 2022 .
^ Tom, Francis; Jain, Mohit; Dey, Prasenjit (2 de septiembre de 2018). "Detección de ataques de repetición de audio de extremo a extremo mediante redes convolucionales profundas con atención". Interspeech 2018 . ISCA: 681–685. doi :10.21437/Interspeech.2018-2279. S2CID 52187155.
^ Tan, Xu; Qin, Tao; Soong, Frank; Liu, Tie-Yan (23 de julio de 2021). "Una encuesta sobre la síntesis neuronal del habla". arXiv : 2106.15561 [eess.AS].
^ ab Oord, Aaron van den; Dieleman, Sander; Zen, Heiga; Simonyan, Karen; Vinyals, Oriol; Tumbas, Alex; Kalchbrenner, Nal; Mayor, Andrés; Kavukcuoglu, Koray (19 de septiembre de 2016). "WaveNet: un modelo generativo para audio sin formato". arXiv : 1609.03499 [cs.SD].
^ Kuchaiev, Oleksii; Li, Jason; Nguyen, Huyen; Hrinchuk, Oleksii; Leary, Ryan; Ginsburg, Boris; Kriman, Samuel; Beliaev, Stanislav; Lavrukhin, Vitaly; Cocinero, Jack; Castonguay, Patrice (13 de septiembre de 2019). "NeMo: un conjunto de herramientas para crear aplicaciones de inteligencia artificial utilizando módulos neuronales". arXiv : 1909.09577 [cs.LG].
^ Wang, Yuxuan; Skerry-Ryan, RJ; Stanton, Daisy; Wu, Yonghui; Weiss, Ron J.; Jaitly, Navdeep; Yang, Zongheng; Xiao, Ying; Chen, Zhifeng; Bengio, Samy; Le, Quoc (6 de abril de 2017). "Tacotron: Hacia la síntesis de voz de extremo a extremo". arXiv : 1703.10135 [cs.CL].
^ ab Prenger, Ryan; Valle, Rafael; Catanzaro, Bryan (30 de octubre de 2018). "WaveGlow: una red generativa basada en flujo para la síntesis de voz". arXiv : 1811.00002 [cs.SD].
^ Vasquez, Sean; Lewis, Mike (4 de junio de 2019). "MelNet: un modelo generativo para audio en el dominio de la frecuencia". arXiv : 1906.01083 [eess.AS].
^ ab Ping, Wei; Peng, Kainan; Gibiansky, Andrew; Arik, Sercan O.; Kannan, Ajay; Narang, Sharan; Raiman, Jonathan; Miller, John (22 de febrero de 2018). "Deep Voice 3: escalamiento de texto a voz con aprendizaje de secuencia convolucional". arXiv : 1710.07654 [cs.SD].
^ Ren, Yi; Ruan, Yangjun; Tan, Xu; Qin, Tao; Zhao, Sheng; Zhao, Zhou; Liu, Tie-Yan (20 de noviembre de 2019). "FastSpeech: texto a voz rápido, robusto y controlable". arXiv : 1905.09263 [cs.CL].
^ Ning, Yishuang; Él, Sheng; Wu, Zhiyong; Xing, Chunxiao; Zhang, Liang-Jie (enero de 2019). "Una revisión de la síntesis del habla basada en el aprendizaje profundo". Ciencias Aplicadas . 9 (19): 4050. doi : 10.3390/app9194050 . ISSN 2076-3417.
^ ab Rodríguez-Ortega, Yohanna; Ballesteros, Dora María; Renza, Diego (2020). "Un modelo de aprendizaje automático para detectar voces falsas". En Florez, Hector; Misra, Sanjay (eds.). Informática Aplicada . Comunicaciones en Ciencias de la Computación y la Información. Vol. 1277. Cham: Springer International Publishing. págs. 3–13. doi :10.1007/978-3-030-61702-8_1. ISBN 978-3-030-61702-8. Número de identificación del sujeto 226283369.
^ Zhang, Mingyang; Wang, Xin; Fang, Fuming; Li, Haizhou; Yamagishi, Junichi (7 de abril de 2019). "Marco de entrenamiento conjunto para la conversión de texto a voz y voz utilizando Tacotron y WaveNet de múltiples fuentes". arXiv : 1903.12389 [eess.AS].
^ ab Sercan, Ö Arık; Jitong, Chen; Kainan, Peng; Wei, Ping; Yanqi, Zhou (2018). "Clonación de voz neuronal con algunas muestras". Avances en sistemas de procesamiento de información neuronal (NeurIPS 2018) . 31 (publicado el 12 de octubre de 2018): 10040–10050. arXiv : 1802.06006 .
^ ab "| ASVspoof". www.asvspoof.org . Consultado el 1 de julio de 2022 .
^ resemble-ai/Resemblyzer, Resemble AI, 30 de junio de 2022 , consultado el 1 de julio de 2022
^ mendaxfz (28 de junio de 2022), Detección de voz sintética , consultado el 1 de julio de 2022
^ HUA, Guang (29 de junio de 2022), Detección de voz sintética de extremo a extremo , consultado el 1 de julio de 2022
^ Kong, Jungil; Kim, Jaehyeon; Bae, Jaekyoung (23 de octubre de 2020). "HiFi-GAN: redes generativas antagónicas para síntesis de voz eficiente y de alta fidelidad". arXiv : 2010.05646 [cs.SD].
^ Kumar, Kundan; Kumar, Rithesh; de Boissiere, Thibault; Gestin, Lucas; Teoh, Wei Zhen; Sotelo, Jose; de Brebisson, Alexandre; Bengio, Yoshua; Courville, Aaron (8 de diciembre de 2019). "MelGAN: redes generativas antagónicas para síntesis de formas de onda condicionales". arXiv : 1910.06711 [eess.AS].
^ Babbel.com; GmbH, Lección nueve. «Los 10 idiomas más hablados del mundo». Revista Babbel . Consultado el 30 de junio de 2022 .
^ Najafian, Maryam; Russell, Martin (septiembre de 2020). "Identificación automática del acento como herramienta analítica para el reconocimiento automático del habla robusto al acento". Comunicación del habla . 122 : 44–55. doi :10.1016/j.specom.2020.05.003. S2CID 225778214.
^ Liu, Xiao; Zhang, Fanjin; Hou, Zhenyu; Mian, Li; Wang, Zhaoyu; Zhang, Jing; Tang, Jie (2021). "Aprendizaje autosupervisado: generativo o contrastivo". Transacciones IEEE sobre conocimiento e ingeniería de datos . 35 (1): 857–876. arXiv : 2006.08218 . doi :10.1109/TKDE.2021.3090866. ISSN 1558-2191. S2CID 219687051.
^ Rashid, Md Mamunur; Lee, Suk-Hwan; Kwon, Ki-Ryong (2021). "Tecnología blockchain para combatir las falsificaciones profundas y proteger la integridad de los videos y las imágenes". Revista de la Sociedad Multimedia de Corea . 24 (8): 1044–1058. doi :10.9717/kmms.2021.24.8.1044. ISSN 1229-7771.
^ Fraga-Lamas, Paula; Fernández-Caramés, Tiago M. (2019-10-20). "Noticias falsas, desinformación y deepfakes: aprovechamiento de las tecnologías de registros distribuidos y blockchain para combatir el engaño digital y la realidad falsificada". IT Professional . 22 (2): 53–59. arXiv : 1904.05386 . doi :10.1109/MITP.2020.2977589.
^ Ki Chan, Christopher Chun; Kumar, Vimal; Delaney, Steven; Gochoo, Munkhjargal (septiembre de 2020). "Combatiendo las deepfakes: Multi-LSTM y blockchain como prueba de autenticidad para los medios digitales". Conferencia internacional IEEE/ITU de 2020 sobre inteligencia artificial para el bien (AI4G) . págs. 55–62. doi :10.1109/AI4G50087.2020.9311067. ISBN 978-1-7281-7031-2. Número de identificación del sujeto 231618774.
^ Mittal, Trisha; Bhattacharya, Uttaran; Chandra, Rohan; Bera, Aniket; Manocha, Dinesh (12 de octubre de 2020), "Las emociones no mienten: un método de detección de deepfakes audiovisuales utilizando señales afectivas", Actas de la 28.ª Conferencia Internacional de Multimedia de la ACM , Nueva York, EE. UU.: Association for Computing Machinery, págs. 2823–2832, doi :10.1145/3394171.3413570, ISBN 978-1-4503-7988-5, S2CID 220935571 , consultado el 29 de junio de 2022
^ Conti, Emanuele; Salvi, Davide; Borrelli, Clara; Hosler, Brian; Bestagini, Paolo; Antonacci, Fabio; Sarti, Augusto; Stamm, Matthew C.; Tubaro, Stefano (23 de mayo de 2022). "Detección de voz deepfake mediante reconocimiento de emociones: un enfoque semántico". ICASSP 2022 - 2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) . Singapur, Singapur: IEEE. págs. 8962–8966. doi :10.1109/ICASSP43922.2022.9747186. hdl :11311/1220518. ISBN . 978-1-6654-0540-9.S2CID249436701 .
^ Hosler, Brian; Salvi, Davide; Murray, Anthony; Antonacci, Fabio; Bestagini, Paolo; Tubaro, Stefano; Stamm, Matthew C. (junio de 2021). "¿Los deepfakes sienten emociones? Un enfoque semántico para detectar deepfakes mediante inconsistencias emocionales". 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW) . Nashville, TN, EE. UU.: IEEE. págs. 1013–1022. doi :10.1109/CVPRW53098.2021.00112. hdl :11311/1183572. ISBN 978-1-6654-4899-4. Número de identificación del sujeto 235679849.
^ Müller, Nicolás M.; Czempin, Pavel; Dieckmann, Franziska; Froghyar, Adán; Böttinger, Konstantin (21 de abril de 2022). "¿Se generaliza la detección de audio deepfake?". arXiv : 2203.16263 [cs.SD].
^ Zhang, You; Jiang, Fei; Duan, Zhiyao (2021). "Aprendizaje de una clase hacia la detección de suplantación de voz sintética". IEEE Signal Processing Letters . 28 : 937–941. arXiv : 2010.13995 . Bibcode :2021ISPL...28..937Z. doi :10.1109/LSP.2021.3076358. ISSN 1558-2361. S2CID 235077416.
^ ab "SAM.gov". sam.gov . Consultado el 29 de junio de 2022 .
^ "El programa SemaFor". www.darpa.mil . Consultado el 1 de julio de 2022 .
^ "El programa MediFor de DARPA". govtribe.com . Consultado el 29 de junio de 2022 .
^ "El programa MediFor". www.darpa.mil . Consultado el 1 de julio de 2022 .
^ "DARPA anuncia los equipos de investigación seleccionados para el programa de análisis forense semántico". www.darpa.mil . Consultado el 1 de julio de 2022 .
^ "PREMIER". sites.google.com . Consultado el 1 de julio de 2022 .
^ "PREMIER - Proyecto". sites.google.com . Consultado el 29 de junio de 2022 .
^ Bird, Jordan J.; Lotfi, Ahmad (2023). "Detección en tiempo real de voz generada por IA para conversión de voz DeepFake". arXiv : 2308.12734 [cs.SD].
^ Yamagishi, Junichi; Wang, Xin; Todisco, Massimiliano; Sahidullah, Md; Patino, Jose; Nautsch, Andreas; Liu, Xuechen; Lee, Kong Aik; Kinnunen, Tomi; Evans, Nicholas; Delgado, Héctor (1 de septiembre de 2021). "ASVspoof 2021: acelerando el progreso en la detección de discursos falsificados y deepfake". arXiv : 2109.00537 [eess.AS].
^ "Detección de deepfake de audio: ICASSP 2022". Sociedad de procesamiento de señales IEEE . 2021-12-17 . Consultado el 2022-07-01 .
^ Yi, Jiangyan; Fu, Ruibo; Tao, Jianhua; Nie, Shuai; Mamá, Haoxin; Wang, Chenglong; Wang, Tao; Tian, Zhengkun; Bai, Ye; Fan, Cunhang; Liang, Shan (26 de febrero de 2022). "ADD 2022: el primer desafío de detección profunda de síntesis de audio". arXiv : 2202.08433 [cs.SD].
^ "Taller conjunto para el Blizzard Challenge y el Voice Conversion Challenge 2020 - SynSIG". www.synsig.org . Archivado desde el original el 2022-07-02 . Consultado el 2022-07-01 .