stringtranslate.com

Síntesis de imágenes humanas

En este sistema de animación de objetivos de transformación se han definido cuatro "expresiones" como deformaciones de la geometría del modelo. Se puede utilizar cualquier combinación de estas cuatro expresiones para animar la forma de la boca. Se pueden aplicar controles similares para animar un modelo completo de apariencia humana.

La síntesis de imágenes humanas es una tecnología que se puede aplicar para hacer representaciones creíbles e incluso fotorrealistas [1] [2] de personajes humanos, en movimiento o estáticos. Existe efectivamente desde principios de la década de 2000. Muchas películas que utilizan imágenes generadas por computadora han presentado imágenes sintéticas de personajes similares a humanos compuestas digitalmente sobre el material cinematográfico real u otro material simulado. Hacia fines de la década de 2010, se aplicó la inteligencia artificial de aprendizaje profundo para sintetizar imágenes y videos que parecen humanos, sin necesidad de asistencia humana, una vez que se ha completado la fase de entrenamiento, mientras que la ruta 7D de la vieja escuela requería cantidades masivas de trabajo humano.

Cronología de la síntesis de imágenes humanas

Un avance clave para el fotorrealismo: la captura de reflectancia

ESPER LightCage es un ejemplo de un escenario de luz esférica con una configuración de múltiples cámaras alrededor de la esfera adecuada para capturar un modelo de reflectancia 7D.

En 1999, Paul Debevec et al. de la USC realizaron la primera captura de reflectancia conocida sobre el rostro humano con su platina de luz extremadamente simple . Presentaron su método y resultados en SIGGRAPH 2000. [4]

La función de distribución de dispersión bidireccional (BSDF) para asemejar la piel humana requiere tanto BRDF como el caso especial de BTDF, donde la luz ingresa a la piel, se transmite y sale de la piel .

El avance científico requirió encontrar el componente de luz del subsuelo (los modelos de simulación brillan ligeramente desde adentro), lo que se puede encontrar utilizando el conocimiento de que la luz que se refleja desde la capa de petróleo y aire conserva su polarización y la luz del subsuelo pierde su polarización. Así que, equipados únicamente con una fuente de luz móvil, una cámara de video móvil, 2 polarizadores y un programa de computadora que realizaba cálculos matemáticos extremadamente simples, se adquirió la última pieza necesaria para alcanzar el fotorrealismo. [4]

Para obtener un resultado creíble, se deben capturar y simular tanto la luz reflejada desde la piel ( BRDF ) como la luz dentro de la piel (un caso especial de BTDF ), que juntas forman la BSDF .

Capturando

Síntesis

Todo el proceso de crear imitaciones digitales, es decir, personajes tan reales y vívidos que puedan hacerse pasar por imágenes de humanos, es una tarea muy compleja, ya que requiere modelado fotorrealista , animación, mapeo cruzado y representación de la dinámica corporal blanda de la apariencia humana.

La síntesis con un actor y algoritmos adecuados se aplica mediante potentes ordenadores. La parte del actor en la síntesis es encargarse de imitar las expresiones humanas en la síntesis de imágenes fijas y también el movimiento humano en la síntesis de imágenes en movimiento. Se necesitan algoritmos para simular las leyes de la física y la fisiología y para representar los modelos y su apariencia, movimientos e interacción en consecuencia.

A menudo , en la parte de síntesis se emplean tanto modelos y renderizados basados ​​en la física o la fisiología (es decir, la animación esquelética ) como en imágenes. Los modelos híbridos que emplean ambos enfoques han demostrado los mejores resultados en cuanto a realismo y facilidad de uso. La animación de objetivos de transformación reduce la carga de trabajo al brindar un mayor nivel de control, donde las diferentes expresiones faciales se definen como deformaciones del modelo, lo que permite ajustar las expresiones de manera intuitiva. La animación de objetivos de transformación puede transformar el modelo entre diferentes expresiones faciales definidas o poses corporales sin mucha necesidad de intervención humana.

El uso del mapeo de desplazamiento juega un papel importante para obtener un resultado realista con detalles finos de la piel, como poros y arrugas tan pequeñas como 100 μm .

Enfoque de aprendizaje automático

A finales de la década de 2010, NVIDIA utilizó el aprendizaje automático y, más precisamente, las redes generativas antagónicas (GAN) para producir retratos aleatorios pero fotorrealistas similares a los humanos. El sistema, llamado StyleGAN , se entrenó en una base de datos de 70.000 imágenes del sitio web de depósito de imágenes Flickr . El código fuente se hizo público en GitHub en 2019. [30] Los resultados de la red generadora a partir de una entrada aleatoria se pusieron a disposición del público en varios sitios web. [31] [32]

De manera similar, desde 2018, la tecnología deepfake ha permitido a las GAN intercambiar caras entre actores; combinada con la capacidad de falsificar voces, las GAN pueden generar videos falsos que parecen convincentes. [33]

Aplicaciones

Las principales aplicaciones se encuentran en los dominios de la fotografía de archivo , los conjuntos de datos sintéticos , la cinematografía virtual , los juegos de computadora y de video y los ataques encubiertos de desinformación . [34] [32] Algunas IA de reconocimiento facial utilizan imágenes generadas por otras IA como datos sintéticos para el entrenamiento. [35]

Además, algunas investigaciones sugieren que puede tener efectos terapéuticos ya que " los psicólogos y consejeros también han comenzado a usar avatares para brindar terapia a clientes que tienen fobias , antecedentes de trauma , adicciones, síndrome de Asperger o ansiedad social ". [36] La fuerte huella de memoria y los efectos de activación cerebral causados ​​​​por ver un avatar digital parecido a uno mismo se denominan efecto Doppelgänger . [36] El efecto doppelgänger puede curar cuando un ataque de desinformación encubierto se expone como tal a los objetivos del ataque.

Cuestiones relacionadas

La síntesis de voz ha estado al borde de ser completamente indistinguible de una grabación de la voz de un humano real desde la introducción en 2016 del software de edición y generación de voz Adobe Voco , un prototipo programado para ser parte de Adobe Creative Suite y DeepMind WaveNet , un prototipo de Google. [37] La ​​capacidad de robar y manipular las voces de otras personas plantea preocupaciones éticas obvias. [38]

En la Conferencia sobre Sistemas de Procesamiento de Información Neural (NeurIPS) de 2018, investigadores de Google presentaron el trabajo 'Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis', que transfiere el aprendizaje de la verificación del hablante para lograr una síntesis de texto a voz, que puede hacerse sonar casi como cualquier persona a partir de una muestra de voz de solo 5 segundos (escuchar). [39]

La obtención de imágenes para el entrenamiento de IA plantea una cuestión de privacidad, ya que las personas que se utilizan para el entrenamiento no dieron su consentimiento. [40]

La tecnología de sonidos digitales similares llegó a manos de delincuentes: en 2019, los investigadores de Symantec conocieron tres casos en los que se utilizó esta tecnología para cometer delitos. [41] [42]

Esto, sumado al hecho de que (a partir de 2016) se han demostrado de manera creíble técnicas que permiten la falsificación casi en tiempo real de expresiones faciales en videos 2D existentes, aumenta la presión sobre la situación de desinformación. [14]

Véase también

Referencias

  1. ^ Modelo muscular basado en la física para el control de la forma de la boca en IEEE Explore (requiere membresía)
  2. ^ Animación facial 3D realista en una teleconferencia virtual en IEEE Explore (requiere membresía)
  3. ^ "Imágenes de síntesis: palma de la longévité pour l'ombrage de Gouraud". 14 de septiembre de 2008.
  4. ^ abc Debevec, Paul (2000). "Adquisición del campo de reflectancia de un rostro humano". Actas de la 27.ª conferencia anual sobre gráficos por ordenador y técnicas interactivas - SIGGRAPH '00 . ACM. págs. 145-156. doi :10.1145/344779.344855. ISBN 978-1581132083. S2CID  2860203 . Consultado el 24 de mayo de 2017 .
  5. ^ Pighin, Frédéric. "Siggraph 2005 Digital Face Cloning Course Notes" (PDF) . Consultado el 24 de mayo de 2017 .
  6. ^ "Transformador de rostro de St. Andrews". Futility Closet . 30 de enero de 2005. Consultado el 7 de diciembre de 2020 .
  7. ^ ab West, Marc (4 de diciembre de 2007). «Cambiando la cara de la ciencia». Revista Plus . Consultado el 7 de diciembre de 2020 .
  8. ^ Goddard, John (27 de enero de 2010). "Las múltiples caras de la investigación racial". thestar.com . Consultado el 7 de diciembre de 2020 .
  9. ^ En este video de la charla TED en 00:04:59 puedes ver dos clips, uno con la Emily real filmado con una cámara real y otro con una doble digital de Emily, filmado con una simulación de una cámara. Es difícil decir cuál es cuál . Bruce Lawmen fue escaneado usando la etapa de luz USC 6 en posición fija y también grabado corriendo allí en una cinta de correr . Se ven muchos, muchos dobles digitales de Bruce corriendo con fluidez y con un aspecto natural en la secuencia final del video de la charla TED.
  10. ^ ReForm – Hollywood está creando clones digitales (youtube). The Creators Project. 24 de mayo de 2017.
  11. ^ Debevec, Paul. «Digital Ira SIGGRAPH 2013 Real-Time Live». Archivado desde el original el 21 de febrero de 2015. Consultado el 24 de mayo de 2017 .
  12. ^ "Escaneo e impresión de un retrato en 3D del presidente Barack Obama". Universidad del Sur de California. 2013. Archivado desde el original el 17 de septiembre de 2015. Consultado el 24 de mayo de 2017 .
  13. ^ Giardina, Carolyn (25 de marzo de 2015). «'Furious 7' y cómo Weta de Peter Jackson creó al Paul Walker digital». The Hollywood Reporter . Consultado el 24 de mayo de 2017 .
  14. ^ ab Thies, Justus (2016). "Face2Face: captura de rostros en tiempo real y recreación de videos RGB". Proc. Computer Vision and Pattern Recognition (CVPR), IEEE . Consultado el 24 de mayo de 2017 .
  15. ^ Suwajanakorn, Supasorn; Seitz, Steven; Kemelmacher-Shlizerman, Ira (2017), Sintetizando a Obama: Aprendiendo a sincronizar los labios con el audio, Universidad de Washington , consultado el 2 de marzo de 2018
  16. ^ Roettgers, Janko (21 de febrero de 2018). "Productores de pornografía ofrecen ayuda a Hollywood para eliminar los vídeos deepfake". Variety . Consultado el 28 de febrero de 2018 .
  17. ^ Takahashi, Dean (21 de marzo de 2018). "Epic Games muestra un asombroso humano digital en tiempo real con la demostración de Siren". VentureBeat . Consultado el 10 de septiembre de 2018 .
  18. ^ Kuo, Lily (9 de noviembre de 2018). «Se presentó en China el primer presentador de noticias con inteligencia artificial del mundo». TheGuardian.com . Consultado el 9 de noviembre de 2018 .
  19. ^ Hamilton, Isobel Asher (9 de noviembre de 2018). "China creó lo que afirma es el primer presentador de noticias con inteligencia artificial: mírelo en acción aquí". Business Insider . Consultado el 9 de noviembre de 2018 .
  20. ^ Harwell, Drew (30 de diciembre de 2018). "Los videos pornográficos falsos se están utilizando como arma para acosar y humillar a las mujeres: 'Todo el mundo es un objetivo potencial'". The Washington Post . Consultado el 14 de marzo de 2019. En septiembre [de 2018], Google agregó "imágenes pornográficas sintéticas involuntarias" a su lista de prohibiciones .
  21. ^ "NVIDIA crea un generador de rostros hiperrealistas StyleGAN de código abierto". Medium.com . 9 de febrero de 2019 . Consultado el 3 de octubre de 2019 .
  22. ^ ab Paez, Danny (13 de febrero de 2019). «Esta persona no existe es el mejor sitio web único de 2019». Inverse . Consultado el 5 de marzo de 2018 .
  23. ^ "Las nuevas leyes estatales entran en vigor el 1 de julio". 24 de junio de 2019.
  24. ^ ab "§ 18.2–386.2. Difusión o venta ilícita de imágenes de otra persona; sanción". Virginia . Consultado el 1 de enero de 2020 .
  25. ^ "Relacionado con la creación de un delito penal por fabricar un video engañoso con la intención de influir en el resultado de una elección". Texas . 14 de junio de 2019 . Consultado el 2 de enero de 2020 . En esta sección, "video deep fake" significa un video, creado con la intención de engañar, que parece mostrar a una persona real realizando una acción que no ocurrió en la realidad
  26. ^ Johnson, RJ (30 de diciembre de 2019). "Estas son las nuevas leyes de California que entrarán en vigor en 2020". KFI . iHeartMedia . Consultado el 1 de enero de 2020 .
  27. ^ Mihalcik, Carrie (4 de octubre de 2019). "Las leyes de California buscan acabar con los deepfakes en la política y la pornografía". cnet.com . CNET . Consultado el 14 de octubre de 2019 .
  28. ^ "China busca erradicar las noticias falsas y los deepfakes con nuevas reglas de contenido en línea". Reuters.com . Reuters . 29 de noviembre de 2019 . Consultado el 8 de diciembre de 2019 .
  29. ^ Statt, Nick (29 de noviembre de 2019). «China tipifica como delito la publicación de deepfakes o noticias falsas sin divulgación». The Verge . Consultado el 8 de diciembre de 2019 .
  30. ^ Sincronizado (9 de febrero de 2019). «NVIDIA crea el generador de rostros hiperrealistas StyleGAN de código abierto». Sincronizado . Consultado el 4 de agosto de 2020 .
  31. ^ Sitio web de presentación pública de StyleGAN
  32. ^ ab Porter, Jon (20 de septiembre de 2019). "100.000 retratos gratuitos generados por IA ponen en alerta a las empresas de fotografías de stock". The Verge . Consultado el 7 de agosto de 2020 .
  33. ^ "¿Qué es un deepfake?". PCMAG.com . Marzo de 2020. Consultado el 8 de junio de 2020 .
  34. ^ Harwell, Drew. "Las aplicaciones de citas necesitan mujeres. Los anunciantes necesitan diversidad. Las empresas de inteligencia artificial ofrecen una solución: personas falsas". Washington Post . Consultado el 4 de agosto de 2020 .
  35. ^ "Las redes neuronales necesitan datos para aprender. Incluso si son falsos". Revista Quanta . 11 de diciembre de 2023 . Consultado el 18 de junio de 2023 .
  36. ^ ab Murphy, Samantha (2023). "Scientific American: Your Avatar, Your Guide" (.pdf) . Scientific American / Universidad de Stanford . Consultado el 11 de diciembre de 2023 .
  37. ^ "WaveNet: un modelo generativo para audio sin procesar". Deepmind.com . 8 de septiembre de 2016. Archivado desde el original el 27 de mayo de 2017. Consultado el 24 de mayo de 2017 .
  38. ^ "El 'Photoshop para voz' de Adobe Voco genera preocupación". BBC.com . BBC . 7 de noviembre de 2016 . Consultado el 5 de julio de 2016 .
  39. ^ Jia, Ye; Zhang, Yu; Weiss, Ron J. (12 de junio de 2018), "Transferencia de aprendizaje desde la verificación de habla a la síntesis de texto a voz de múltiples hablantes", Advances in Neural Information Processing Systems , 31 : 4485–4495, arXiv : 1806.04558 , Bibcode :2018arXiv180604558J
  40. ^ Rachel Metz (19 de abril de 2019). "Si tu imagen está en línea, es posible que esté entrenando a una IA de reconocimiento facial". CNN . Consultado el 4 de agosto de 2020 .
  41. ^ "Las voces falsas 'ayudan a los cibercriminales a robar dinero'". bbc.com . BBC . 8 de julio de 2019 . Consultado el 16 de abril de 2020 .
  42. ^ Drew, Harwell (16 de abril de 2020). "Una primicia en inteligencia artificial: software que imita la voz supuestamente utilizado en un importante robo". Washington Post . Consultado el 8 de septiembre de 2019 .