La captura de movimiento facial es el proceso de convertir electrónicamente los movimientos del rostro de una persona en una base de datos digital mediante cámaras o escáneres láser . Esta base de datos puede utilizarse para producir gráficos por computadora (CG), animación por computadora para películas, juegos o avatares en tiempo real. Debido a que el movimiento de los personajes CG se deriva de los movimientos de personas reales, el resultado es una animación de personajes por computadora más realista y con más matices que si la animación se creara manualmente.
Una base de datos de captura de movimientos faciales describe las coordenadas o posiciones relativas de puntos de referencia en la cara del actor. La captura puede ser en dos dimensiones, en cuyo caso el proceso de captura a veces se denomina " seguimiento de expresiones ", o en tres dimensiones. La captura bidimensional se puede lograr utilizando una sola cámara y un software de captura. Esto produce un seguimiento menos sofisticado y no puede capturar completamente movimientos tridimensionales como la rotación de la cabeza. La captura tridimensional se logra utilizando plataformas multicámara o un sistema de marcadores láser. Estos sistemas suelen ser mucho más caros, complicados y requieren mucho tiempo de uso. Existen dos tecnologías predominantes: sistemas de seguimiento con marcadores y sin marcadores.
La captura de movimiento facial está relacionada con la captura de movimiento corporal, pero es más desafiante debido a los requisitos de mayor resolución para detectar y rastrear expresiones sutiles posibles a partir de pequeños movimientos de los ojos y los labios. Estos movimientos suelen ser de menos de unos pocos milímetros, lo que requiere una resolución y fidelidad aún mayores y técnicas de filtrado diferentes a las que se utilizan habitualmente en la captura de cuerpo completo. Las restricciones adicionales del rostro también permiten más oportunidades para usar modelos y reglas.
La captura de expresiones faciales es similar a la captura de movimientos faciales. Es un proceso que utiliza medios visuales o mecánicos para manipular caracteres generados por computadora con información de rostros humanos o para reconocer emociones de un usuario.
Uno de los primeros artículos que analizaba la animación basada en el rendimiento fue publicado por Lance Williams en 1990. Allí, describe "un medio para adquirir las expresiones de caras reales y aplicarlas a caras generadas por computadora". [1]
Los sistemas tradicionales basados en marcadores aplican hasta 350 marcadores a la cara de los actores y rastrean el movimiento del marcador con cámaras de alta resolución . Esto se ha utilizado en películas como El expreso polar y Beowulf para permitir que un actor como Tom Hanks controle las expresiones faciales de varios personajes diferentes. Desafortunadamente, esto es relativamente engorroso y hace que las expresiones de los actores estén demasiado controladas una vez que se han realizado el suavizado y el filtrado. Los sistemas de próxima generación, como CaptiveMotion, utilizan derivaciones del sistema tradicional basado en marcadores con mayores niveles de detalle.
Actualmente, la tecnología de marcador LED activo se utiliza para impulsar la animación facial en tiempo real para proporcionar retroalimentación al usuario.
Las tecnologías sin marcadores utilizan las características del rostro, como las fosas nasales , las comisuras de los labios y los ojos, y las arrugas, y luego las rastrean. Esta tecnología se analiza y se demuestra en CMU , [2] IBM , [3] la Universidad de Manchester (donde gran parte de esto comenzó con Tim Cootes, [4] Gareth Edwards y Chris Taylor) y otros lugares, utilizando modelos de apariencia activa , análisis de componentes principales , seguimiento propio , modelos de superficies deformables y otras técnicas para rastrear las características faciales deseadas de fotograma a fotograma. Esta tecnología es mucho menos engorrosa y permite una mayor expresión para el actor.
Estos enfoques basados en la visión también tienen la capacidad de rastrear el movimiento de las pupilas, los párpados y la oclusión de los dientes por los labios y la lengua, que son problemas obvios en la mayoría de las películas animadas por computadora. Las limitaciones típicas de los enfoques basados en la visión son la resolución y la velocidad de cuadros, que están disminuyendo a medida que surgen problemas como las cámaras CMOS de alta velocidad y alta resolución de múltiples fuentes.
La tecnología para el seguimiento de rostros sin marcadores está relacionada con la de un sistema de reconocimiento facial , ya que un sistema de reconocimiento facial puede aplicarse potencialmente de forma secuencial a cada fotograma de vídeo, lo que da como resultado el seguimiento de rostros. Por ejemplo, el sistema Neven Vision [5] (anteriormente Eyematics, ahora adquirido por Google) permitió el seguimiento de rostros en 2D en tiempo real sin entrenamiento específico de la persona; su sistema también estuvo entre los sistemas de reconocimiento facial de mejor rendimiento en la Prueba de Reconocimiento Facial de Proveedores (FRVT) de 2002 del Gobierno de los EE. UU. Por otro lado, algunos sistemas de reconocimiento no rastrean explícitamente las expresiones o incluso fallan en expresiones no neutrales, por lo que no son adecuados para el seguimiento. Por el contrario, sistemas como los modelos de superficies deformables agrupan información temporal para desambiguar y obtener resultados más sólidos, y por lo tanto no podrían aplicarse a partir de una sola fotografía.
El seguimiento de rostros sin marcadores ha progresado hasta convertirse en sistemas comerciales como Image Metrics , que se ha aplicado en películas como las secuelas de Matrix [6] y El curioso caso de Benjamin Button . Esta última utilizó el sistema Mova para capturar un modelo facial deformable, que luego se animó con una combinación de seguimiento manual y visual. [7] Avatar fue otra película destacada de captura de movimiento, sin embargo, utilizó marcadores pintados en lugar de no tener marcadores. Dynamixyz [ enlace muerto permanente ] es otro sistema comercial actualmente en uso.
Los sistemas sin marcadores se pueden clasificar según varios criterios distintivos:
Hasta la fecha, ningún sistema es ideal en lo que respecta a todos estos criterios. Por ejemplo, el sistema Neven Vision era completamente automático y no requería patrones ocultos ni entrenamiento por persona, pero era 2D. El sistema Face/Off [8] es 3D, automático y en tiempo real, pero requiere patrones proyectados.
Los métodos basados en vídeo digital son cada vez más preferidos, ya que los sistemas mecánicos tienden a ser engorrosos y difíciles de usar.
Utilizando cámaras digitales , las expresiones del usuario de entrada se procesan para proporcionar la pose de la cabeza , lo que permite que el software encuentre los ojos, la nariz y la boca. La cara se calibra inicialmente utilizando una expresión neutra. Luego, dependiendo de la arquitectura, las cejas, los párpados, las mejillas y la boca se pueden procesar como diferencias de la expresión neutra. Esto se hace buscando los bordes de los labios, por ejemplo, y reconociéndolos como un objeto único. A menudo se usa maquillaje o marcadores que mejoran el contraste, o algún otro método para acelerar el procesamiento. Al igual que el reconocimiento de voz, las mejores técnicas solo son buenas el 90 por ciento del tiempo, lo que requiere una gran cantidad de ajustes a mano o tolerancia a los errores.
Como los personajes generados por ordenador no tienen músculos , se utilizan diferentes técnicas para conseguir los mismos resultados. Algunos animadores crean huesos u objetos que se controlan mediante el software de captura y los mueven en consecuencia, lo que, cuando el personaje está correctamente manipulado, da una buena aproximación. Como los rostros son muy elásticos, esta técnica suele combinarse con otras, ajustando los pesos de forma diferente para la elasticidad de la piel y otros factores en función de las expresiones deseadas.
Varias empresas comerciales están desarrollando productos que ya se han utilizado, pero son bastante caros. [ cita requerida ]
Se espera que este se convierta en un dispositivo de entrada importante para los juegos de computadora una vez que el software esté disponible en un formato asequible, pero el hardware y el software aún no existen, a pesar de que la investigación de los últimos 15 años ha producido resultados que son casi utilizables. [ cita requerida ]
La primera aplicación que tuvo una amplia adopción fue la comunicación. Inicialmente, la telefonía por vídeo y la mensajería multimedia, y más tarde, en 3D, con cascos de realidad mixta.
Con el avance del aprendizaje automático , la potencia informática y los sensores avanzados, especialmente en los teléfonos móviles, la tecnología de captura de movimiento facial se volvió ampliamente disponible. Dos ejemplos notables son la función de lente de Snapchat y Memoji de Apple [9] que se pueden usar para grabar mensajes con avatares o en vivo a través de la aplicación FaceTime . ¡Con estas aplicaciones (y muchas otras), la mayoría de los teléfonos móviles modernos de hoy son capaces de realizar capturas de movimiento facial en tiempo real! Más recientemente, se introdujo la captura de movimiento facial en tiempo real, combinada con avatares 3D realistas para permitir la comunicación inmersiva en realidad mixta (MR) y realidad virtual (VR). Meta demostró sus Codec Avatars para comunicarse a través de su auricular MR Meta Quest Pro para grabar un podcast con dos participantes remotos. [10] El auricular MR de Apple Apple Vision Pro también admite la captura de movimiento facial en tiempo real que se puede usar con aplicaciones como FaceTime . Las aplicaciones de comunicación en tiempo real priorizan la baja latencia para facilitar la conversación natural y la facilidad de uso, con el objetivo de hacer que la tecnología sea accesible para una amplia audiencia. Estas consideraciones pueden limitar la posible precisión de la captura de movimiento.