Aunque el desarrollo de métodos de gráficos por computadora para la animación facial comenzó a principios de la década de 1970, los principales logros en este campo son más recientes y ocurrieron desde fines de la década de 1980.
El trabajo en torno a la animación facial por computadora se puede dividir en dos áreas principales: técnicas para generar datos de animación y métodos para aplicar dichos datos a un personaje. Las técnicas como la captura de movimiento y los fotogramas clave pertenecen al primer grupo, mientras que la animación de objetivos de transformación (más comúnmente conocida como animación de formas combinadas) y la animación esquelética pertenecen al segundo. La animación facial se ha vuelto conocida y popular a través de largometrajes animados y juegos de computadora , pero sus aplicaciones incluyen muchas más áreas, como la comunicación , la educación , la simulación científica y los sistemas basados en agentes (por ejemplo, representantes de servicio al cliente en línea). Con los recientes avances en potencia computacional en dispositivos personales y móviles , la animación facial ha pasado de aparecer en contenido pre-renderizado a ser creada en tiempo de ejecución.
Historia
La expresión facial humana ha sido objeto de investigación científica durante más de cien años. El estudio de los movimientos y expresiones faciales comenzó desde un punto de vista biológico. Después de algunas investigaciones más antiguas, por ejemplo, la de John Bulwer a finales de la década de 1640, el libro de Charles Darwin La expresión de las emociones en los hombres y los animales puede considerarse un gran avance para la investigación moderna en biología del comportamiento .
El modelado y la animación de expresiones faciales por ordenador no es una actividad nueva. Los primeros trabajos con representaciones faciales por ordenador se realizaron a principios de los años 70. La primera animación facial tridimensional fue creada por Parke en 1972. En 1973, Gillenson desarrolló un sistema interactivo para ensamblar y editar imágenes faciales dibujadas con líneas. En 1974, Parke desarrolló un modelo facial tridimensional parametrizado.
Uno de los intentos más importantes de describir los movimientos faciales fue el Sistema de Codificación de Acciones Faciales (FACS, por sus siglas en inglés). Originalmente desarrollado por Carl-Herman Hjortsjö [1] en la década de 1960 y actualizado por Ekman y Friesen en 1978, el FACS define 46 Unidades de Acción (UA) faciales básicas. Un grupo importante de estas Unidades de Acción representa movimientos primitivos de los músculos faciales en acciones como levantar las cejas, guiñar el ojo y hablar. Ocho UA son para movimientos rígidos tridimensionales de la cabeza (es decir, girar e inclinar hacia la izquierda y la derecha y subir, bajar, avanzar y retroceder). El FACS se ha utilizado con éxito para describir movimientos deseados de rostros sintéticos y también para rastrear actividades faciales.
A principios de los años 80, Platt desarrolló el primer modelo facial controlado por músculos y Brennan desarrolló técnicas para caricaturas faciales. En 1985, el cortometraje animado Tony de Peltrie marcó un hito en la animación facial. Fue la primera vez que la expresión facial por computadora y la animación del habla fueron una parte fundamental para contar una historia.
A finales de los años 1980 se produjo el desarrollo de un nuevo modelo basado en los músculos por parte de Waters , el desarrollo de un modelo abstracto de acción muscular por parte de Magnenat-Thalmann y sus colegas, y los enfoques de sincronización automática del habla por parte de Lewis y Hill. En los años 1990 se ha producido una actividad creciente en el desarrollo de técnicas de animación facial y el uso de la animación facial por ordenador como un componente clave de la narración, como se ilustra en películas animadas como Toy Story (1995), Antz (1998), Shrek y Monsters, Inc. (ambas de 2001), y juegos de ordenador como Sims . Casper (1995), un hito en esta década, fue la primera película en la que se produjo un actor principal exclusivamente utilizando animación facial digital.
La captura de movimiento utiliza cámaras colocadas alrededor de un sujeto. El sujeto generalmente está equipado con reflectores (captura de movimiento pasiva) o fuentes (captura de movimiento activa) que determinan con precisión la posición del sujeto en el espacio. Los datos registrados por las cámaras se digitalizan y se convierten en un modelo informático tridimensional del sujeto. Hasta hace poco, el tamaño de los detectores/fuentes utilizados por los sistemas de captura de movimiento hacía que la tecnología fuera inadecuada para la captura facial. Sin embargo, la miniaturización y otros avances han hecho de la captura de movimiento una herramienta viable para la animación facial por computadora. La captura de movimiento facial se utilizó ampliamente en Polar Express de Imageworks, donde se capturaron cientos de puntos de movimiento. Esta película fue muy lograda y, si bien intentó recrear el realismo, fue criticada por haber caído en el " valle inquietante ", el reino donde el realismo de la animación es suficiente para el reconocimiento humano y para transmitir el mensaje emocional, pero donde los personajes no logran ser percibidos como realistas. Las principales dificultades de la captura de movimiento son la calidad de los datos, que pueden incluir vibración, así como la reorientación de la geometría de los puntos.
La captura de movimiento sin marcadores tiene como objetivo simplificar el proceso de captura de movimiento evitando sobrecargar al actor con marcadores. Recientemente, han surgido varias técnicas que aprovechan diferentes sensores, entre ellos cámaras de vídeo estándar, Kinect y sensores de profundidad u otros dispositivos basados en luz estructurada. Los sistemas basados en luz estructurada pueden lograr un rendimiento en tiempo real sin el uso de ningún marcador utilizando un escáner de luz estructurada de alta velocidad. El sistema se basa en una sólida etapa de seguimiento de rostros fuera de línea que entrena al sistema con diferentes expresiones faciales. Las secuencias coincidentes se utilizan para construir un modelo de rostro lineal específico de la persona que posteriormente se utiliza para el seguimiento de rostros en línea y la transferencia de expresiones.
Las técnicas basadas en audio son particularmente adecuadas para la animación del habla. El habla generalmente se trata de una manera diferente a la animación de expresiones faciales, esto se debe a que los enfoques de animación basados en fotogramas clave simples generalmente brindan una aproximación pobre a la dinámica del habla real. A menudo , se utilizan visemas para representar las poses clave en el habla observada (es decir, la posición de los labios, la mandíbula y la lengua al producir un fonema en particular ), sin embargo, existe una gran cantidad de variación en la realización de visemas durante la producción del habla natural. La fuente de esta variación se denomina coarticulación , que es la influencia de los visemas circundantes sobre el visema actual (es decir, el efecto del contexto). Para tener en cuenta la coarticulación, los sistemas actuales tienen en cuenta explícitamente el contexto al combinar fotogramas clave de visema [2] o usan unidades más largas como difono , trifono , sílaba o incluso unidades de longitud de palabra y oración . Uno de los enfoques más comunes para la animación del habla es el uso de funciones de dominancia introducidas por Cohen y Massaro. Cada función de dominancia representa la influencia a lo largo del tiempo que tiene un visema en un enunciado del habla. Por lo general, la influencia será mayor en el centro del visema y se degradará con la distancia desde el centro del visema. Las funciones de dominancia se combinan para generar una trayectoria de habla de la misma manera que las funciones de base spline se combinan para generar una curva. La forma de cada función de dominancia será diferente según el visema que represente y el aspecto de la cara que se esté controlando (por ejemplo, ancho de los labios, rotación de la mandíbula, etc.). Este enfoque de la animación de habla generada por computadora se puede ver en la cabeza parlante de Baldi. Otros modelos de habla utilizan unidades base que incluyen contexto (por ejemplo, difonos , trifonos , etc.) en lugar de visemas. Como las unidades base ya incorporan la variación de cada visema según el contexto y, hasta cierto punto, la dinámica de cada visema, no se requiere ningún modelo de coarticulación . El habla se genera simplemente seleccionando unidades apropiadas de una base de datos y combinando las unidades. Esto es similar a las técnicas concatenativas en la síntesis de voz de audio . La desventaja de estos modelos es que se requiere una gran cantidad de datos capturados para producir resultados naturales y, si bien las unidades más largas producen resultados más naturales, el tamaño de la base de datos requerida se expande con la longitud promedio de cada unidad. Finalmente, algunos modelos generan animaciones de voz directamente a partir del audio. Estos sistemas generalmente utilizan modelos ocultos de Markov oRedes neuronales para transformar parámetros de audio en un flujo de parámetros de control para un modelo facial. La ventaja de este método es la capacidad de manejar el contexto de voz, el ritmo natural, el tempo, las emociones y la dinámica sin algoritmos de aproximación complejos. No es necesario etiquetar la base de datos de entrenamiento, ya que no se necesitan fonemas ni visemas; los únicos datos necesarios son la voz y los parámetros de animación.
La animación de fotogramas clave es el proceso menos automatizado para crear datos de animación, aunque ofrece la máxima cantidad de control sobre la animación. A menudo se utiliza en combinación con otras técnicas para dar el acabado final a la animación. Los datos de fotogramas clave pueden estar formados por valores escalares que definen los coeficientes de los objetivos de transformación o los valores de rotación y traslación de los huesos en modelos con un aparejo basado en huesos. A menudo, para acelerar el proceso de animación de fotogramas clave , la animación utiliza un aparejo de control. El aparejo de control representa un nivel superior de abstracción que puede actuar sobre múltiples coeficientes de objetivos de transformación o huesos al mismo tiempo. Por ejemplo, un control de "sonrisa" puede actuar simultáneamente sobre la forma de la boca que se curva hacia arriba y los ojos que se entrecierran.
Los sistemas basados en objetivos de morfología (también llamados "blendshapes" ) ofrecen una reproducción rápida, así como un alto grado de fidelidad de las expresiones. La técnica implica modelar porciones de la malla de la cara para aproximarse a las expresiones y visemas y luego mezclar las diferentes submallas, conocidas como objetivos de morfología o blendshapes. Quizás el personaje más logrado que utilizó esta técnica fue Gollum, de El Señor de los Anillos . Los inconvenientes de esta técnica son que implica un trabajo manual intensivo y son específicos de cada personaje. Recientemente, han comenzado a surgir nuevos conceptos en el modelado 3D. Recientemente, comienza a surgir una nueva tecnología que se aleja de las técnicas tradicionales, como el Modelado Controlado por Curvas [3] que enfatiza el modelado del movimiento de un objeto 3D en lugar del modelado tradicional de la forma estática.
La animación basada en huesos se utiliza ampliamente en los juegos. La configuración de los huesos puede variar desde unos pocos huesos hasta cerca de cien para permitir todas las expresiones faciales sutiles. Las principales ventajas de la animación basada en huesos es que la misma animación se puede utilizar para diferentes personajes siempre que la morfología de sus caras sea similar y, en segundo lugar, no es necesario cargar en la memoria todos los datos de los objetivos de Morph . La animación basada en huesos es la más compatible con los motores de juegos 3D. La animación basada en huesos se puede utilizar tanto para la animación 2D como para la 3D. Por ejemplo, es posible manipular y animar utilizando huesos un personaje 2D con Adobe Flash .
La animación basada en texturas utiliza el color de los píxeles para crear la animación en la cara del personaje. La animación facial 2D se basa comúnmente en la transformación de imágenes, incluidas tanto imágenes de fotografías fijas como secuencias de vídeo. La transformación de imágenes es una técnica que permite generar imágenes de transición intermedia entre un par de imágenes fijas de destino o entre fotogramas de secuencias de vídeo. Estas técnicas de transformación suelen consistir en una combinación de una técnica de deformación geométrica, que alinea las imágenes de destino, y un fundido cruzado que crea una transición suave en la textura de la imagen. Un ejemplo temprano de transformación de imágenes se puede ver en el vídeo de Michael Jackson "Black Or White". En la animación 3D, la animación basada en texturas se puede lograr animando la propia textura o el mapeo UV. En el último caso, se crea un mapa de textura de todas las expresiones faciales y la animación del mapa UV se utiliza para realizar la transición de una expresión a la siguiente.
Los modelos fisiológicos , como los sistemas de músculos esqueléticos y los modelos de cabeza basados físicamente, forman otro enfoque para modelar la cabeza y la cara . [4] Aquí, lascaracterísticas físicas y anatómicas de los huesos , los tejidos y la piel se simulan para proporcionar una apariencia realista (por ejemplo, elasticidad similar a un resorte). Estos métodos pueden ser muy poderosos para crear realismo, pero la complejidad de las estructuras faciales los hace computacionalmente costosos y difíciles de crear. Considerando la efectividad de los modelos parametrizados para fines comunicativos (como se explica en la siguiente sección), se puede argumentar que los modelos basados físicamente no son una opción muy eficiente en muchas aplicaciones. Esto no niega las ventajas de los modelos basados físicamente y el hecho de que incluso se pueden usar dentro del contexto de modelos parametrizados para proporcionar detalles locales cuando sea necesario.
Lenguajes de animación facial
Se utilizan muchos lenguajes de animación facial para describir el contenido de la animación facial. Se pueden introducir en un software de "reproducción" compatible que luego crea las acciones solicitadas. Los lenguajes de animación facial están estrechamente relacionados con otros lenguajes de presentación multimedia como SMIL y VRML . Debido a la popularidad y eficacia de XML como mecanismo de representación de datos, la mayoría de los lenguajes de animación facial se basan en XML. Por ejemplo, este es un ejemplo de lenguaje de marcado humano virtual (VHML):
<vhml> <person disposition= "angry" > Primero hablo con voz enojada y parezco muy enojado , <surprised intensity = "50" > pero de repente cambio a parecer más sorprendido . </surprised> </person> </vhml>
^ Hjortsjö, CH (1969). Rostro de hombre y lenguaje mímico Archivado el 6 de agosto de 2022 en Wayback Machine .
^ Aprendizaje de dinámicas de visemas basadas en audio para animación de rostros en 3D
^ Ding, H.; Hong, Y. (2003). "Modelado controlado por curvas NURBS para animación facial". Computers and Graphics . 27 (3): 373–385. doi :10.1016/S0097-8493(03)00033-5.
^ Lucero, JC; Munhall, KG (1999). "Un modelo de biomecánica facial para la producción del habla". Revista de la Sociedad Acústica de América . 106 (5): 2834–2842. Bibcode :1999ASAJ..106.2834L. doi :10.1121/1.428108. PMID 10573899.
^ ab "iFACE". Carleton University. 6 de junio de 2007. Archivado desde el original el 6 de junio de 2007 . Consultado el 16 de junio de 2019 .
Lectura adicional
Animación facial por computadora de Frederic I. Parke, Keith Waters 2008 ISBN 1-56881-448-8
Animación facial 3D basada en datos por Zhigang Deng, Ulrich Neumann 2007 ISBN 1-84628-906-8
Manual de humanos virtuales de Nadia Magnenat-Thalmann y Daniel Thalmann, 2004 ISBN 0-470-02316-3
Osipa, Jason (2005). Deje de mirar fijamente: modelado y animación facial bien hechos (2.ª ed.). John Wiley & Sons. ISBN 978-0-471-78920-8.
Enlaces externos
Face/Off: Live Facial Puppetry: tecnología de animación facial sin marcadores en tiempo real desarrollada en la ETH de Zúrich
Proyecto “Actores Artificiales” – Instituto de Animación
iFACE
Baldi animado
Descargar Carl-Herman Hjortsjö, El rostro del hombre y el lenguaje facial" Archivado el 6 de agosto de 2022 en Wayback Machine (el título original en sueco del libro es: "Människans ansikte och mimiska språket". La traducción correcta sería: "El rostro del hombre y el lenguaje facial")