La síntesis de imágenes humanas es una tecnología que se puede aplicar para hacer representaciones creíbles e incluso fotorrealistas [1] [2] de personajes humanos, en movimiento o estáticos. Existe efectivamente desde principios de la década de 2000. Muchas películas que utilizan imágenes generadas por computadora han presentado imágenes sintéticas de personajes similares a humanos compuestas digitalmente sobre el material cinematográfico real u otro material simulado. Hacia fines de la década de 2010, se aplicó la inteligencia artificial de aprendizaje profundo para sintetizar imágenes y videos que parecen humanos, sin necesidad de asistencia humana, una vez que se ha completado la fase de entrenamiento, mientras que la ruta 7D de la vieja escuela requería cantidades masivas de trabajo humano.
La película de 1994 El cuervo fue la primera producción cinematográfica en utilizar la composición digital de una representación simulada por ordenador de un rostro en escenas filmadas con un doble . La necesidad fue la inspiración, ya que el actor Brandon Lee, que interpretaba al protagonista, murió trágicamente de forma accidental en el escenario.
En 1999, Paul Debevec y otros, de la USC, capturaron el campo de reflectancia de un rostro humano con su primera versión de un plató de luz . Presentaron su método en SIGGRAPH 2000 [5].
En 2005 se creó el proyecto Face of the Future [7] , creado por la Universidad de St Andrews y el Laboratorio de Percepción y financiado por el EPSRC . [8] El sitio web contiene un "Face Transformer", que permite a los usuarios transformar su rostro en una imagen de cualquier etnia y edad , así como la posibilidad de transformar su rostro en una pintura (al estilo de Sandro Botticelli o Amedeo Modigliani ). [9] Este proceso se logra combinando la fotografía del usuario con un rostro promedio . [8]
En 2009, Debevec et al. presentaron nuevas semejanzas digitales, realizadas por Image Metrics , esta vez de la actriz Emily O'Brien, cuya reflectancia fue capturada con la etapa de luz USC 5 [10]. El movimiento parece bastante convincente en contraste con la torpe ejecución en Animatrix: Final Flight of the Osiris, que era lo último en tecnología en 2003 si el fotorrealismo era la intención de los animadores.
En 2009, se realizó un retrato digital de un joven Arnold Schwarzenegger para la película Terminator Salvation, aunque el resultado final fue criticado por no ser convincente. La geometría facial se obtuvo a partir de un molde de Schwarzenegger de 1984.
En SIGGGRAPH 2013, Activision y USC presentaron en tiempo real un "Ira digital", una imitación digital del rostro de Ari Shapiro, un científico investigador de TIC de USC, [11] que utilizó la etapa de iluminación USC X de Ghosh et al. para el campo de reflectancia y la captura de movimiento. [12] El resultado final, tanto precalculado como renderizado en tiempo real con la GPU de juegos más moderna que se muestra aquí, parece bastante realista.
En 2014, el retrato presidencial del Instituto de Tecnologías Creativas de la USC en colaboración con el Instituto Smithsonian se realizó utilizando el último escenario de iluminación móvil de la USC, en el que el presidente Barack Obama capturó su geometría, texturas y reflectancia. [13]
Para la película Furious 7 de 2015, Weta Digital realizó una réplica digital del actor Paul Walker , quien murió en un accidente durante el rodaje , para permitir la finalización de la película. [14]
En 2016, se creó una réplica digital de Peter Cushing para la película Rogue One , donde parecería tener la misma edad que el actor durante el rodaje de la película original de Star Wars de 1977 .
En SIGGRAPH 2017, investigadores de la Universidad de Washington presentaron una imitación digital del torso superior de Barack Obama impulsada por audio . [16] Fue impulsada únicamente por una pista de voz como datos de origen para la animación después de que se completó la fase de entrenamiento para adquirir sincronización de labios e información facial más amplia a partir del material de entrenamiento que consistía en videos 2D con audio. [17]
A finales de 2017 [18] y principios de 2018 surgió la controversia de los deepfakes , en los que se manipulaban videos pornográficos mediante aprendizaje automático profundo para que el rostro de la actriz fuera reemplazado por la opinión del software de cómo se vería el rostro de otra persona en la misma pose e iluminación.
En 2018, en la Conferencia Mundial de Internet en Wuzhen, la Agencia de Noticias Xinhua presentó dos dobles digitales hechos con el mismo parecido a sus presentadores de noticias reales, Qiu Hao (idioma chino) [20] y Zhang Zhao (idioma inglés). Los dobles digitales se hicieron en conjunto con Sogou . [21] Ni la síntesis de voz utilizada ni los gestos de los presentadores dobles digitales fueron lo suficientemente buenos como para engañar al espectador y confundirlos con humanos reales fotografiados con una cámara de televisión.
En septiembre de 2018, Google añadió "imágenes pornográficas sintéticas involuntarias" a su lista de prohibiciones, lo que permite a cualquier persona solicitar al motor de búsqueda que bloquee los resultados que los representan falsamente como "desnudos o en una situación sexual explícita". [22]
En febrero de 2019, Nvidia publicó el código fuente abierto de StyleGAN , una novedosa red generativa antagónica . [23] Inmediatamente después, Phillip Wang creó el sitio web ThisPersonDoesNotExist.com con StyleGAN para demostrar que se pueden crear automáticamente cantidades ilimitadas de retratos faciales de personas que a menudo parecen fotorrealistas usando una GAN. [24] StyleGAN de Nvidia se presentó en un artículo aún no revisado por pares a fines de 2018. [24]
En junio de 2019 , el CSAIL del MIT presentó un sistema llamado "Speech2Face: Learning the Face Behind a Voice" (Aprender el rostro detrás de una voz) que sintetiza rostros probables basándose únicamente en la grabación de una voz. Se entrenó con enormes cantidades de videos de personas hablando.
Desde el 1 de julio de 2019 [25] Virginia ha tipificado como delito la venta y difusión de pornografía sintética no autorizada, pero no la fabricación. [26] , como § 18.2–386.2 titulado 'Difusión o venta ilegal de imágenes de otra persona; pena.' pasó a formar parte del Código de Virginia . El texto de la ley establece: " Cualquier persona que, con la intención de coaccionar , acosar o intimidar , difunda o venda maliciosamente cualquier videográfico o imagen fija creada por cualquier medio que represente a otra persona totalmente desnuda o en un estado de desnudez de modo que exponga los genitales , el área púbica, las nalgas o el pecho femenino , cuando dicha persona sepa o tenga motivos para saber que no tiene licencia o autorización para difundir o vender dicho videográfico o imagen fija es culpable de un delito menor de Clase 1. " . [26] Los proyectos de ley idénticos fueron el Proyecto de Ley de la Cámara 2678 presentado por el delegado Marcus Simon a la Cámara de Delegados de Virginia el 14 de enero de 2019 y tres días después, un proyecto de ley idéntico del Senado 1736 fue presentado al Senado de Virginia por el senador Adam Ebbin .
Desde el 1 de septiembre de 2019, el proyecto de ley SB 751 del Senado de Texas , que modifica el código electoral, otorga a los candidatos un período de protección de 30 días durante el cual la creación y distribución de imitaciones digitales o falsificaciones sintéticas de los candidatos constituye un delito. El texto de la ley define el objeto de la ley como " un vídeo, creado con la intención de engañar, que parece mostrar a una persona real realizando una acción que no ocurrió en la realidad " [27]
En septiembre de 2019, Yle , la empresa de radiodifusión pública finlandesa , emitió un resultado de periodismo experimental, un deepfake del presidente en ejercicio Sauli Niinistö en su principal emisión de noticias con el propósito de resaltar el avance de la tecnología de desinformación y los problemas que surgen de ella.
El 1 de enero de 2020 entró en vigor la ley china que exige que las imágenes falsificadas sintéticamente incluyan un aviso claro sobre su falsedad. El incumplimiento de esta ley podría considerarse un delito, según declaró la Administración del Ciberespacio de China en su sitio web. China anunció esta nueva ley en noviembre de 2019. [30] El gobierno chino parece reservarse el derecho de procesar tanto a los usuarios como a las plataformas de vídeo en línea que no respeten las normas. [31] 12 de noviembre [deepfake]
Un avance clave para el fotorrealismo: la captura de reflectancia
En 1999, Paul Debevec et al. de la USC realizaron la primera captura de reflectancia conocida sobre el rostro humano con su platina de luz extremadamente simple . Presentaron su método y resultados en SIGGRAPH 2000. [5]
El avance científico requirió encontrar el componente de luz del subsuelo (los modelos de simulación brillan ligeramente desde adentro), lo que se puede encontrar utilizando el conocimiento de que la luz que se refleja desde la capa de petróleo y aire conserva su polarización y la luz del subsuelo pierde su polarización. Así que, equipados únicamente con una fuente de luz móvil, una cámara de video móvil, 2 polarizadores y un programa de computadora que realizaba cálculos matemáticos extremadamente simples, se adquirió la última pieza necesaria para alcanzar el fotorrealismo. [5]
Para obtener un resultado creíble, se deben capturar y simular tanto la luz reflejada desde la piel ( BRDF ) como la luz dentro de la piel (un caso especial de BTDF ), que juntas forman la BSDF .
Para obtener resultados creíbles, también se debe capturar el campo de reflectancia o se debe elegir una aproximación de las bibliotecas para formar un modelo de reflectancia 7D del objetivo.
Síntesis
Todo el proceso de crear imitaciones digitales, es decir, personajes tan reales y vívidos que puedan hacerse pasar por imágenes de humanos, es una tarea muy compleja, ya que requiere modelado fotorrealista , animación, mapeo cruzado y representación de la dinámica corporal blanda de la apariencia humana.
La síntesis con un actor y algoritmos adecuados se aplica mediante potentes ordenadores. La parte del actor en la síntesis es encargarse de imitar las expresiones humanas en la síntesis de imágenes fijas y también el movimiento humano en la síntesis de imágenes en movimiento. Se necesitan algoritmos para simular las leyes de la física y la fisiología y para representar los modelos y su apariencia, movimientos e interacción en consecuencia.
A menudo , en la parte de síntesis se emplean tanto modelos y renderizados basados en la física o la fisiología (es decir, la animación esquelética ) como en imágenes. Los modelos híbridos que emplean ambos enfoques han demostrado los mejores resultados en cuanto a realismo y facilidad de uso. La animación de objetivos de transformación reduce la carga de trabajo al brindar un mayor nivel de control, donde las diferentes expresiones faciales se definen como deformaciones del modelo, lo que permite ajustar las expresiones de manera intuitiva. La animación de objetivos de transformación puede transformar el modelo entre diferentes expresiones faciales definidas o poses corporales sin mucha necesidad de intervención humana.
El uso del mapeo de desplazamiento juega un papel importante para obtener un resultado realista con detalles finos de la piel, como poros y arrugas tan pequeñas como 100 μm .
Enfoque de aprendizaje automático
A finales de la década de 2010, NVIDIA utilizó el aprendizaje automático y, más precisamente, las redes generativas antagónicas (GAN) para producir retratos aleatorios pero fotorrealistas similares a los humanos. El sistema, llamado StyleGAN , se entrenó en una base de datos de 70.000 imágenes del sitio web de depósito de imágenes Flickr . El código fuente se hizo público en GitHub en 2019. [32] Los resultados de la red generadora a partir de una entrada aleatoria se pusieron a disposición del público en varios sitios web. [33] [34]
De manera similar, desde 2018, la tecnología deepfake ha permitido a las GAN intercambiar caras entre actores; combinada con la capacidad de falsificar voces, las GAN pueden generar videos falsos que parecen convincentes. [35]
Además, algunas investigaciones sugieren que puede tener efectos terapéuticos ya que " los psicólogos y consejeros también han comenzado a usar avatares para brindar terapia a clientes que tienen fobias , antecedentes de trauma , adicciones, síndrome de Asperger o ansiedad social ". [38] La fuerte huella de memoria y los efectos de activación cerebral causados por ver un avatar digital parecido a uno mismo se denominan efecto Doppelgänger . [38] El efecto doppelgänger puede curar cuando un ataque de desinformación encubierto se expone como tal a los objetivos del ataque.
Cuestiones relacionadas
La síntesis de voz ha estado al borde de ser completamente indistinguible de una grabación de la voz de un humano real desde la introducción en 2016 del software de edición y generación de voz Adobe Voco , un prototipo programado para ser parte de Adobe Creative Suite y DeepMind WaveNet , un prototipo de Google. [39]
La capacidad de robar y manipular las voces de otras personas plantea preocupaciones éticas obvias. [40]
La obtención de imágenes para el entrenamiento de IA plantea una cuestión de privacidad, ya que las personas que se utilizan para el entrenamiento no dieron su consentimiento. [42]
^ Modelo muscular basado en la física para el control de la forma de la boca en IEEE Explore (requiere membresía)
^ Animación facial 3D realista en una teleconferencia virtual en IEEE Explore (requiere membresía)
^ Berlín, Isabelle (14 de septiembre de 2008). "Imágenes de síntesis: palma de la longévité pour l'ombrage de Gouraud". Intersticios (en francés) . Consultado el 3 de octubre de 2024 .
^ "Imágenes de síntesis: palma de la longévité pour l'ombrage de Gouraud". 14 de septiembre de 2008.
^ abc Debevec, Paul (2000). "Adquisición del campo de reflectancia de un rostro humano". Actas de la 27.ª conferencia anual sobre gráficos por ordenador y técnicas interactivas - SIGGRAPH '00 . ACM. págs. 145-156. doi :10.1145/344779.344855. ISBN978-1581132083. S2CID 2860203 . Consultado el 24 de mayo de 2017 .
^ Pighin, Frédéric. "Siggraph 2005 Digital Face Cloning Course Notes" (PDF) . Consultado el 24 de mayo de 2017 .
^ "St. Andrews Face Transformer". Futility Closet . 30 de enero de 2005. Consultado el 7 de diciembre de 2020 .
^ ab West, Marc (4 de diciembre de 2007). «Cambiando la cara de la ciencia». Revista Plus . Consultado el 7 de diciembre de 2020 .
^ Goddard, John (27 de enero de 2010). "Las múltiples caras de la investigación racial". thestar.com . Consultado el 7 de diciembre de 2020 .
^ En este video de la charla TED en 00:04:59 puedes ver dos clips, uno con la Emily real filmado con una cámara real y otro con una doble digital de Emily, filmado con una simulación de una cámara. Es difícil decir cuál es cuál . Bruce Lawmen fue escaneado usando la etapa de luz USC 6 en posición fija y también grabado corriendo allí en una cinta de correr . Se ven muchos, muchos dobles digitales de Bruce corriendo con fluidez y con un aspecto natural en la secuencia final del video de la charla TED.
^ ReForm – Hollywood está creando clones digitales (youtube). The Creators Project. 24 de mayo de 2017.
^ Debevec, Paul. «Digital Ira SIGGRAPH 2013 Real-Time Live». Archivado desde el original el 21 de febrero de 2015. Consultado el 24 de mayo de 2017 .
^ "Escaneo e impresión de un retrato en 3D del presidente Barack Obama". Universidad del Sur de California. 2013. Archivado desde el original el 17 de septiembre de 2015. Consultado el 24 de mayo de 2017 .
^ Giardina, Carolyn (25 de marzo de 2015). «'Furious 7' y cómo Weta de Peter Jackson creó al Paul Walker digital». The Hollywood Reporter . Consultado el 24 de mayo de 2017 .
^ ab Thies, Justus (2016). "Face2Face: captura de rostros en tiempo real y recreación de videos RGB". Proc. Computer Vision and Pattern Recognition (CVPR), IEEE . Consultado el 24 de mayo de 2017 .
^ "Sintetizando a Obama: aprendiendo a sincronizar los labios con el audio". grail.cs.washington.edu . Consultado el 3 de octubre de 2024 .
^ Suwajanakorn, Supasorn; Seitz, Steven; Kemelmacher-Shlizerman, Ira (2017), Sintetizando a Obama: Aprendiendo a sincronizar los labios con el audio, Universidad de Washington , consultado el 2 de marzo de 2018
^ Roettgers, Janko (21 de febrero de 2018). "Productores de pornografía ofrecen ayuda a Hollywood para eliminar los vídeos deepfake". Variety . Consultado el 28 de febrero de 2018 .
^ Takahashi, Dean (21 de marzo de 2018). "Epic Games muestra un asombroso humano digital en tiempo real con la demostración de Siren". VentureBeat . Consultado el 10 de septiembre de 2018 .
^ Kuo, Lily (9 de noviembre de 2018). «Se presentó en China el primer presentador de noticias con inteligencia artificial del mundo». TheGuardian.com . Consultado el 9 de noviembre de 2018 .
^ Hamilton, Isobel Asher (9 de noviembre de 2018). "China creó lo que afirma es el primer presentador de noticias con inteligencia artificial: mírelo en acción aquí". Business Insider . Consultado el 9 de noviembre de 2018 .
^ Harwell, Drew (30 de diciembre de 2018). "Los videos pornográficos falsos se están utilizando como arma para acosar y humillar a las mujeres: 'Todo el mundo es un objetivo potencial'". The Washington Post . Consultado el 14 de marzo de 2019. En septiembre [de 2018], Google agregó "imágenes pornográficas sintéticas involuntarias" a su lista de prohibiciones .
^ "NVIDIA crea un generador de rostros hiperrealistas StyleGAN de código abierto". Medium.com . 9 de febrero de 2019 . Consultado el 3 de octubre de 2019 .
^ ab Paez, Danny (13 de febrero de 2019). "Esta persona no existe es el mejor sitio web único de 2019". Inverse . Consultado el 5 de marzo de 2018 .
^ "Las nuevas leyes estatales entran en vigor el 1 de julio". 24 de junio de 2019.
^ ab "§ 18.2–386.2. Difusión o venta ilícita de imágenes de otra persona; sanción". Virginia . Consultado el 1 de enero de 2020 .
^ "Relacionado con la creación de un delito penal por fabricar un video engañoso con la intención de influir en el resultado de una elección". Texas . 14 de junio de 2019 . Consultado el 2 de enero de 2020 . En esta sección, "video deep fake" significa un video, creado con la intención de engañar, que parece mostrar a una persona real realizando una acción que no ocurrió en la realidad
^ Johnson, RJ (30 de diciembre de 2019). "Estas son las nuevas leyes de California que entrarán en vigor en 2020". KFI . iHeartMedia . Consultado el 1 de enero de 2020 .
^ Mihalcik, Carrie (4 de octubre de 2019). "Las leyes de California buscan acabar con los deepfakes en la política y la pornografía". cnet.com . CNET . Consultado el 14 de octubre de 2019 .
^ "China busca erradicar las noticias falsas y los deepfakes con nuevas reglas de contenido en línea". Reuters.com . Reuters . 29 de noviembre de 2019 . Consultado el 8 de diciembre de 2019 .
^ Statt, Nick (29 de noviembre de 2019). "China tipifica como delito la publicación de deepfakes o noticias falsas sin divulgación". The Verge . Consultado el 8 de diciembre de 2019 .
^ Sincronizado (9 de febrero de 2019). «NVIDIA crea el generador de rostros hiperrealistas StyleGAN de código abierto». Sincronizado . Consultado el 4 de agosto de 2020 .
^ Sitio web de presentación pública de StyleGAN
^ ab Porter, Jon (20 de septiembre de 2019). "100.000 retratos gratuitos generados por IA ponen en alerta a las empresas de fotografías de stock". The Verge . Consultado el 7 de agosto de 2020 .
^ "¿Qué es un deepfake?". PCMAG.com . Marzo de 2020. Consultado el 8 de junio de 2020 .
^ Harwell, Drew. "Las aplicaciones de citas necesitan mujeres. Los anunciantes necesitan diversidad. Las empresas de inteligencia artificial ofrecen una solución: personas falsas". Washington Post . Consultado el 4 de agosto de 2020 .
^ "Las redes neuronales necesitan datos para aprender. Incluso si son falsos". Revista Quanta . 11 de diciembre de 2023 . Consultado el 18 de junio de 2023 .
^ ab Murphy, Samantha (2023). "Scientific American: Your Avatar, Your Guide" (.pdf) . Scientific American / Universidad de Stanford . Consultado el 11 de diciembre de 2023 .
^ "WaveNet: un modelo generativo para audio sin procesar". Deepmind.com . 8 de septiembre de 2016. Archivado desde el original el 27 de mayo de 2017. Consultado el 24 de mayo de 2017 .
^ "El 'Photoshop para voz' de Adobe Voco genera preocupación". BBC.com . BBC . 7 de noviembre de 2016 . Consultado el 5 de julio de 2016 .
^ Jia, Ye; Zhang, Yu; Weiss, Ron J. (12 de junio de 2018), "Transferencia de aprendizaje desde la verificación de habla a la síntesis de texto a voz de múltiples hablantes", Advances in Neural Information Processing Systems , 31 : 4485–4495, arXiv : 1806.04558 , Bibcode :2018arXiv180604558J
^ Rachel Metz (19 de abril de 2019). "Si tu imagen está en línea, es posible que esté entrenando a una IA de reconocimiento facial". CNN . Consultado el 4 de agosto de 2020 .
^ "Las voces falsas 'ayudan a los cibercriminales a robar dinero'". bbc.com . BBC . 8 de julio de 2019 . Consultado el 16 de abril de 2020 .
^ Drew, Harwell (16 de abril de 2020). "Una primicia en inteligencia artificial: software que imita la voz supuestamente utilizado en un importante robo". Washington Post . Consultado el 8 de septiembre de 2019 .