La captura de movimiento (a veces denominada mo-cap o mocap , para abreviar) es el proceso de registrar el movimiento de objetos o personas. Se utiliza en aplicaciones militares , de entretenimiento , deportivas , médicas y para la validación de visión por computadora [3] y robots. [4] En el cine y el desarrollo de videojuegos , se refiere a grabar acciones de actores humanos y usar esa información para animar modelos de personajes digitales en animación por computadora 2D o 3D . [5] [6] [7] Cuando incluye cara y dedos o captura expresiones sutiles, a menudo se lo denomina captura de rendimiento . [8] En muchos campos, la captura de movimiento a veces se denomina seguimiento de movimiento , pero en el cine y los juegos, el seguimiento de movimiento generalmente se refiere más a igualar el movimiento .
En las sesiones de captura de movimiento, los movimientos de uno o más actores se muestrean muchas veces por segundo. Mientras que las primeras técnicas utilizaban imágenes de múltiples cámaras para calcular posiciones 3D , [9] a menudo el propósito de la captura de movimiento es registrar solo los movimientos del actor, no su apariencia visual. Estos datos de animación se asignan a un modelo 3D para que el modelo realice las mismas acciones que el actor. Este proceso puede contrastarse con la técnica más antigua de rotoscopia .
Los movimientos de la cámara también se pueden capturar de modo que una cámara virtual en la escena se mueva, se incline o se mueva alrededor del escenario conducida por un operador de cámara mientras el actor actúa. Al mismo tiempo, el sistema de captura de movimiento puede capturar la cámara y los accesorios, así como la actuación del actor. Esto permite que los personajes, imágenes y escenarios generados por computadora tengan la misma perspectiva que las imágenes de video de la cámara. Una computadora procesa los datos y muestra los movimientos del actor, proporcionando las posiciones deseadas de la cámara en términos de objetos en el escenario. La obtención retroactiva de datos de movimiento de la cámara a partir del metraje capturado se conoce como movimiento de coincidencia o seguimiento de cámara .
El primer actor virtual animado mediante captura de movimiento fue producido en 1993 por Didier Pourcel y su equipo de Gribouille. Se trataba de "clonar" el cuerpo y el rostro del comediante francés Richard Bohringer y luego animarlos con herramientas de captura de movimiento aún incipientes.
La captura de movimiento ofrece varias ventajas sobre la animación por computadora tradicional de un modelo 3D:
Hay muchas aplicaciones de Motion Capture. Los más comunes son para videojuegos, películas y captura de movimiento, sin embargo existe una aplicación de investigación para esta tecnología que se utiliza en la Universidad Purdue en el desarrollo de robótica.
Los videojuegos suelen utilizar la captura de movimiento para animar a atletas, artistas marciales y otros personajes del juego. [13] [14] Ya en 1988, se utilizó una forma temprana de captura de movimiento para animar los personajes jugadores 2D del videojuego Vixen de Martech (realizado por la modelo Corinne Russell ) [15] y la lucha arcade 2D de Magical Company. juego Last Apostle Puppet Show (para animar sprites digitalizados ). [16] La captura de movimiento se utilizó posteriormente para animar los modelos de personajes 3D en los juegos arcade de Sega Model Virtua Fighter (1993) [17] [18] y Virtua Fighter 2 (1994). [19] A mediados de 1995, el desarrollador y editor Acclaim Entertainment tenía su propio estudio de captura de movimiento incorporado en su sede. [14] El juego arcade de Namco de 1995 , Soul Edge, utilizaba marcadores de sistema óptico pasivo para la captura de movimiento. [20] La captura de movimiento también utiliza atletas en juegos animados basados en, como Crash Bandicoot de Naughty Dog , Spyro the Dragon de Insomniac Games y Dinosaur Planet de Rare .
El posicionamiento en interiores es otra aplicación de los sistemas ópticos de captura de movimiento. Los investigadores de robótica suelen utilizar sistemas de captura de movimiento al desarrollar y evaluar algoritmos y hardware de control, estimación y percepción. En espacios exteriores, es posible lograr una precisión centimétrica utilizando el Sistema Global de Navegación por Satélite ( GNSS ) junto con la Cinemática en Tiempo Real ( RTK ). Sin embargo, esto se reduce significativamente cuando no hay línea de visión hacia los satélites, como en ambientes interiores. La mayoría de los proveedores que venden sistemas comerciales de captura de movimiento óptico ofrecen controladores accesibles de código abierto que se integran con el popular marco del Sistema Operativo Robótico ( ROS ), lo que permite a los investigadores y desarrolladores probar eficazmente sus robots durante el desarrollo.
En el campo de la investigación en robótica aérea, los sistemas de captura de movimiento también se utilizan ampliamente para el posicionamiento. Las regulaciones sobre el uso del espacio aéreo limitan la viabilidad de realizar experimentos al aire libre con sistemas aéreos no tripulados ( UAS ). Las pruebas en interiores pueden eludir tales restricciones. Muchos laboratorios e instituciones de todo el mundo han construido volúmenes interiores de captura de movimiento para este fin.
La Universidad Purdue alberga el sistema de captura de movimiento interior más grande del mundo, dentro de las instalaciones de Purdue UAS Research and Test (PURT). PURT se dedica a la investigación de UAS y proporciona un volumen de seguimiento de 600.000 pies cúbicos utilizando 60 cámaras de captura de movimiento. [21] El sistema óptico de captura de movimiento es capaz de rastrear objetivos en su volumen con precisión milimétrica, proporcionando efectivamente la verdadera posición de los objetivos: la base de referencia de la “verdad sobre el terreno” en investigación y desarrollo. Los resultados derivados de otros sensores y algoritmos se pueden comparar con los datos reales para evaluar su rendimiento.
Las películas utilizan la captura de movimiento para efectos CGI, en algunos casos reemplazando la animación celular tradicional, y para criaturas completamente CGI , como Gollum , La Momia , King Kong , Davy Jones de Piratas del Caribe , los Na'vi de la película Avatar y Clu de Tron: Legacy . El Gran Duende, los tres Trolls de Piedra , muchos de los orcos y duendes de la película de 2012 El Hobbit: Un viaje inesperado y Smaug fueron creados mediante captura de movimiento.
La película Batman Forever (1995) utilizó algo de captura de movimiento para ciertos efectos visuales. Warner Bros. había adquirido tecnología de captura de movimiento de la empresa de videojuegos arcade Acclaim Entertainment para utilizarla en la producción de la película. [22] El videojuego de Acclaim de 1995 del mismo nombre también utilizó la misma tecnología de captura de movimiento para animar los gráficos de sprites digitalizados . [23]
Star Wars: Episodio I – La amenaza fantasma (1999) fue el primer largometraje que incluyó un personaje principal creado mediante captura de movimiento (ese personaje es Jar Jar Binks , interpretado por Ahmed Best ), yla película indio - estadounidense Sinbad: Beyond. The Veil of Mists (2000) fue el primer largometraje realizado principalmente con captura de movimiento, aunque muchos animadores de personajes también trabajaron en la película, que tuvo un estreno muy limitado. Final Fantasy: The Spirits Within de 2001fue la primera película de gran difusión realizada con tecnología de captura de movimiento. A pesar de su pobre ingreso de taquilla, los partidarios de la tecnología de captura de movimiento se dieron cuenta. Total Recall ya había utilizado la técnica, en la escena del escáner de rayos X y los esqueletos.
El Señor de los Anillos: Las Dos Torres fue el primer largometraje que utilizó un sistema de captura de movimiento en tiempo real. Este método transmitía las acciones del actor Andy Serkis a la piel de imágenes generadas por computadora de Gollum/Smeagol mientras se realizaba. [24]
Storymind Entertainment, que es un estudio ucraniano independiente , creó un videojuego neo-noir de disparos en tercera persona llamado My Eyes On You, utilizando captura de movimiento para animar a su personaje principal, Jordan Adalien, y junto con personajes no jugables. [25]
De los tres nominados al Premio de la Academia 2006 a la Mejor Película Animada , dos de los nominados ( Monster House y el ganador Happy Feet ) utilizaron captura de movimiento, y sólo Cars de Disney · Pixar fue animada sin captura de movimiento. En los créditos finales de la película Ratatouille de Pixar , aparece un sello que etiqueta la película como "Animación 100% genuina - ¡Sin captura de movimiento!".
Desde 2001, la captura de movimiento se ha utilizado ampliamente para simular o aproximar el aspecto del teatro de acción real, con modelos de personajes digitales casi fotorrealistas . Polar Express utilizó captura de movimiento para permitir que Tom Hanks actuara como varios personajes digitales distintos (en los que también proporcionó las voces). La adaptación de 2007 de la saga Beowulf animaba personajes digitales cuyas apariciones se basaban en parte en los actores que aportaban sus movimientos y voces. El muy popular Avatar de James Cameron utilizó esta técnica para crear los Na'vi que habitan en Pandora. The Walt Disney Company ha producido Cuento de Navidad de Robert Zemeckis utilizando esta técnica. En 2007, Disney adquirió ImageMovers Digital de Zemeckis (que produce películas de captura de movimiento), pero luego la cerró en 2011, tras el fracaso de taquilla de Mars Needs Moms .
Las series de televisión producidas íntegramente con animación de captura de movimiento incluyen Laflaque en Canadá, Sprookjesboom y Cafe de Wereld [nl] en los Países Bajos y Headcases en el Reino Unido.
Los proveedores de realidad virtual y realidad aumentada , como uSens y Gestigon , permiten a los usuarios interactuar con contenido digital en tiempo real capturando los movimientos de las manos. Esto puede resultar útil para simulaciones de entrenamiento, pruebas de percepción visual o realizar recorridos virtuales en un entorno 3D. La tecnología de captura de movimiento se utiliza con frecuencia en los sistemas de títeres digitales para controlar personajes generados por computadora en tiempo real.
El análisis de la marcha es una aplicación de la captura de movimiento en la medicina clínica . Las técnicas permiten a los médicos evaluar el movimiento humano a través de varios factores biomecánicos, a menudo mientras transmiten esta información en vivo a un software analítico.
Un uso innovador es la detección de posturas, que puede empoderar a los pacientes durante la recuperación posquirúrgica o la rehabilitación después de lesiones. Este enfoque permite una monitorización continua, orientación en tiempo real y programas personalizados para mejorar los resultados de los pacientes. [26]
Algunas clínicas de fisioterapia utilizan la captura de movimiento como una forma objetiva de cuantificar el progreso del paciente. [27]
Durante el rodaje de Avatar de James Cameron, todas las escenas que involucraban captura de movimiento fueron dirigidas en tiempo real usando el software Autodesk MotionBuilder para renderizar una imagen en pantalla que permitió al director y al actor ver cómo se verían en la película, haciéndola más fácil. dirigir la película tal y como la vería el espectador. Este método permitía vistas y ángulos que no eran posibles en una animación prerenderizada. Cameron estaba tan orgulloso de sus resultados que invitó a Steven Spielberg y George Lucas al set para ver el sistema en acción.
En Los Vengadores de Marvel , Mark Ruffalo usó la captura de movimiento para poder interpretar a su personaje, Hulk , en lugar de que fuera solo CGI como en películas anteriores, lo que convirtió a Ruffalo en el primer actor en interpretar tanto la versión humana como la de Hulk de Bruce Banner.
El software FaceRig utiliza tecnología de reconocimiento facial de ULSee.Inc para mapear las expresiones faciales de un jugador y la tecnología de seguimiento corporal de Perception Neuron para mapear el movimiento del cuerpo en el movimiento de un personaje 2D o 3D en la pantalla. [28] [29]
Durante la Game Developers Conference 2016 en San Francisco, Epic Games demostró la captura de movimiento de cuerpo completo en vivo en Unreal Engine. Toda la escena, del próximo juego Hellblade sobre una mujer guerrera llamada Senua, se representó en tiempo real. La conferencia magistral [30] fue una colaboración entre Unreal Engine , Ninja Theory , 3Lateral , Cubic Motion , IKinema y Xsens .
En 2020, el dos veces campeón olímpico de patinaje artístico Yuzuru Hanyu se graduó en la Universidad de Waseda . En su tesis, a partir de los datos proporcionados por 31 sensores colocados en su cuerpo, analizó sus saltos. Evaluó el uso de la tecnología tanto para mejorar el sistema de puntuación como para ayudar a los patinadores a mejorar su técnica de salto. [31] [32] En marzo de 2021 se publicó un resumen de la tesis en la revista académica. [33]
El seguimiento o captura de movimiento comenzó como una herramienta de análisis fotogramétrico en la investigación biomecánica en las décadas de 1970 y 1980, y se expandió a la educación, el entrenamiento, los deportes y recientemente a la animación por computadora para televisión , cine y videojuegos a medida que la tecnología maduró. Desde el siglo XX, el intérprete tiene que usar marcadores cerca de cada articulación para identificar el movimiento mediante las posiciones o ángulos entre los marcadores. Se rastrean marcadores acústicos, inerciales, LED , magnéticos o reflectantes, o combinaciones de cualquiera de estos, de manera óptima al menos dos veces la tasa de frecuencia del movimiento deseado. La resolución del sistema es importante tanto en la resolución espacial como en la resolución temporal, ya que el desenfoque de movimiento causa casi los mismos problemas que la baja resolución. Desde principios del siglo XXI, y debido al rápido crecimiento de la tecnología, se han desarrollado nuevos métodos. La mayoría de los sistemas modernos pueden extraer la silueta del artista del fondo. Después se calculan todos los ángulos de las articulaciones encajando un modelo matemático en la silueta. Para los movimientos no se ve un cambio de silueta, hay sistemas híbridos disponibles que pueden hacer ambas cosas (marcador y silueta), pero con menos marcador. [ cita necesaria ] En robótica, algunos sistemas de captura de movimiento se basan en localización y mapeo simultáneos . [34]
Los sistemas ópticos utilizan datos capturados de sensores de imagen para triangular la posición 3D de un sujeto entre dos o más cámaras calibradas para proporcionar proyecciones superpuestas. La adquisición de datos se implementa tradicionalmente mediante marcadores especiales adjuntos a un actor; sin embargo, los sistemas más recientes pueden generar datos precisos mediante el seguimiento de las características de la superficie identificadas dinámicamente para cada sujeto en particular. El seguimiento de una gran cantidad de artistas o la ampliación del área de captura se logra agregando más cámaras. Estos sistemas producen datos con tres grados de libertad para cada marcador, y la información rotacional debe inferirse de la orientación relativa de tres o más marcadores; por ejemplo, marcadores de hombro, codo y muñeca que proporcionan el ángulo del codo. Los sistemas híbridos más nuevos combinan sensores inerciales con sensores ópticos para reducir la oclusión, aumentar la cantidad de usuarios y mejorar la capacidad de seguimiento sin tener que limpiar los datos manualmente. [35]
Los sistemas ópticos pasivos utilizan marcadores recubiertos con un material retrorreflectante para reflejar la luz que se genera cerca de la lente de la cámara. El umbral de la cámara se puede ajustar de modo que solo se muestreen los marcadores reflectantes brillantes, ignorando la piel y la tela.
El centroide del marcador se estima como una posición dentro de la imagen bidimensional que se captura. El valor de escala de grises de cada píxel se puede utilizar para proporcionar precisión de subpíxel al encontrar el centroide del gaussiano .
Se utiliza un objeto con marcadores colocados en posiciones conocidas para calibrar las cámaras y obtener sus posiciones, y se mide la distorsión de la lente de cada cámara. Si dos cámaras calibradas ven un marcador, se puede obtener una solución tridimensional. Normalmente, un sistema constará de entre 2 y 48 cámaras. Existen sistemas de más de trescientas cámaras para intentar reducir el intercambio de marcadores. Se requieren cámaras adicionales para una cobertura completa alrededor del sujeto capturado y de múltiples sujetos.
Los proveedores tienen software de restricciones para reducir el problema del intercambio de marcadores, ya que todos los marcadores pasivos parecen idénticos. A diferencia de los sistemas de marcadores activos y los sistemas magnéticos, los sistemas pasivos no requieren que el usuario use cables ni equipos electrónicos. [36] En cambio, cientos de pelotas de goma están unidas con cinta reflectante, que debe reemplazarse periódicamente. Los marcadores generalmente se adhieren directamente a la piel (como en la biomecánica), o se fijan con velcro a un artista que usa un traje de spandex/lycra de cuerpo completo diseñado específicamente para la captura de movimiento . Este tipo de sistema puede capturar una gran cantidad de marcadores a velocidades de cuadro generalmente de entre 120 y 160 fps, aunque al reducir la resolución y rastrear una región de interés más pequeña pueden rastrear hasta 10,000 fps.
Los sistemas ópticos activos triangulan posiciones iluminando un LED a la vez muy rápidamente o varios LED con software para identificarlos por sus posiciones relativas, algo parecido a la navegación celeste. En lugar de reflejar la luz generada externamente, los propios marcadores funcionan para emitir su propia luz. Dado que la ley del cuadrado inverso proporciona un cuarto de la potencia a dos veces la distancia, esto puede aumentar las distancias y el volumen de captura. Esto también permite una alta relación señal-ruido, lo que resulta en una fluctuación de marcador muy baja y una alta resolución de medición resultante (a menudo hasta 0,1 mm dentro del volumen calibrado).
La serie de televisión Stargate SG1 produjo episodios utilizando un sistema óptico activo para VFX que permitía al actor caminar alrededor de accesorios que dificultarían la captura de movimiento para otros sistemas ópticos no activos. [ cita necesaria ]
ILM usó marcadores activos en Van Helsing para permitir la captura de las novias voladoras de Drácula en conjuntos muy grandes, similar al uso de marcadores activos por parte de Weta en Rise of the Planet of the Apes . La energía a cada marcador se puede proporcionar secuencialmente en fase con el sistema de captura proporcionando una identificación única de cada marcador para un cuadro de captura determinado con un costo para la velocidad de cuadro resultante. La capacidad de identificar cada marcador de esta manera es útil en aplicaciones en tiempo real. El método alternativo para identificar marcadores es hacerlo algorítmicamente, lo que requiere un procesamiento adicional de los datos.
También hay posibilidades de encontrar la posición mediante marcadores LED de colores. En estos sistemas, cada color se asigna a un punto concreto del cuerpo.
Uno de los primeros sistemas de marcadores activos en la década de 1980 fue un sistema mocap híbrido pasivo-activo con espejos giratorios y marcadores reflectantes de vidrio de colores y que utilizaba detectores de matriz lineal enmascarados.
Los sistemas de marcadores activos se pueden perfeccionar aún más activando un marcador a la vez, o rastreando múltiples marcadores a lo largo del tiempo y modulando la amplitud o el ancho del pulso para proporcionar una identificación del marcador. Los sistemas modulados con resolución espacial de 12 megapíxeles muestran movimientos más sutiles que los sistemas ópticos de 4 megapíxeles al tener una resolución espacial y temporal más alta. Los directores pueden ver la actuación del actor en tiempo real y observar los resultados en el personaje generado por computadora mediante captura de movimiento. Las identificaciones de marcador únicas reducen el tiempo de entrega, al eliminar el intercambio de marcadores y proporcionar datos mucho más limpios que otras tecnologías. Los LED con procesamiento integrado y sincronización de radio permiten capturar movimiento en exteriores bajo la luz solar directa mientras capturan de 120 a 960 fotogramas por segundo gracias a un obturador electrónico de alta velocidad. El procesamiento informático de identificaciones moduladas permite una menor limpieza manual o resultados filtrados para reducir los costos operativos. Esta mayor precisión y resolución requiere más procesamiento que las tecnologías pasivas, pero el procesamiento adicional se realiza en la cámara para mejorar la resolución mediante procesamiento de subpíxeles o centroide, lo que proporciona alta resolución y alta velocidad. Estos sistemas de captura de movimiento suelen costar 20.000 dólares por un sistema de ocho cámaras, resolución espacial de 12 megapíxeles y 120 hercios con un actor.
Se puede invertir el enfoque tradicional basado en cámaras de alta velocidad. Sistemas como Prakash utilizan proyectores multi-LED de alta velocidad y económicos. Los proyectores IR multi-LED especialmente construidos codifican ópticamente el espacio. En lugar de marcadores de diodos emisores de luz (LED) retrorreflectantes o activos, el sistema utiliza etiquetas marcadoras fotosensibles para decodificar las señales ópticas. Al colocar etiquetas con fotosensores en puntos de la escena, las etiquetas pueden calcular no sólo sus propias ubicaciones de cada punto, sino también su propia orientación, iluminación incidente y reflectancia.
Estas etiquetas de seguimiento funcionan en condiciones de iluminación natural y pueden incrustarse imperceptiblemente en prendas u otros objetos. El sistema admite una cantidad ilimitada de etiquetas en una escena, y cada etiqueta se identifica de forma única para eliminar problemas de readquisición de marcadores. Dado que el sistema elimina una cámara de alta velocidad y el correspondiente flujo de imágenes de alta velocidad, requiere un ancho de banda de datos significativamente menor. Las etiquetas también proporcionan datos de iluminación incidente que pueden usarse para igualar la iluminación de la escena al insertar elementos sintéticos. La técnica parece ideal para la captura de movimiento en el set o la transmisión en tiempo real de escenarios virtuales, pero aún no se ha probado.
La tecnología de captura de movimiento ha estado disponible para investigadores y científicos durante algunas décadas, lo que ha aportado nuevos conocimientos en muchos campos.
La parte vital del sistema, la cámara subacuática, tiene una carcasa impermeable. La carcasa tiene un acabado resistente a la corrosión y al cloro, lo que la hace perfecta para su uso en lavabos y piscinas. Hay dos tipos de cámaras. Las cámaras industriales de alta velocidad también se pueden utilizar como cámaras de infrarrojos. Las cámaras infrarrojas subacuáticas vienen con una luz estroboscópica cian en lugar de la típica luz IR para una caída mínima bajo el agua y cámaras de alta velocidad con luz LED o con la opción de utilizar procesamiento de imágenes.
Una cámara subacuática suele ser capaz de medir entre 15 y 20 metros, según la calidad del agua, la cámara y el tipo de marcador utilizado. Como era de esperar, el mejor alcance se consigue cuando el agua está clara y, como siempre, el volumen de medición también depende del número de cámaras. Hay disponible una gama de marcadores submarinos para diferentes circunstancias.
Diferentes piscinas requieren diferentes montajes y accesorios. Por lo tanto, todos los sistemas de captura de movimiento bajo el agua están diseñados exclusivamente para adaptarse a cada instalación específica de la piscina. Para las cámaras colocadas en el centro de la piscina, se proporcionan trípodes especialmente diseñados, que utilizan ventosas.
Las técnicas e investigaciones emergentes en visión por computadora están conduciendo al rápido desarrollo del enfoque sin marcadores para la captura de movimiento. Los sistemas sin marcadores, como los desarrollados en la Universidad de Stanford , la Universidad de Maryland , el MIT y el Instituto Max Planck , no requieren que los sujetos usen equipo especial para el seguimiento. Se han diseñado algoritmos informáticos especiales para permitir que el sistema analice múltiples flujos de entrada óptica e identifique formas humanas, dividiéndolas en partes constituyentes para su seguimiento. ESC Entertainment, una subsidiaria de Warner Brothers Pictures creada especialmente para permitir la cinematografía virtual , incluidas imitaciones digitales fotorrealistas para filmar las películas The Matrix Reloaded y The Matrix Revolutions , utilizó una técnica llamada Universal Capture que utilizaba una configuración de 7 cámaras y el seguimiento del flujo óptico. de todos los píxeles en todos los planos 2-D de las cámaras para capturar movimientos, gestos y expresiones faciales, lo que conduce a resultados fotorrealistas.
Tradicionalmente, el seguimiento óptico del movimiento sin marcadores se utiliza para realizar un seguimiento de diversos objetos, incluidos aviones, vehículos de lanzamiento, misiles y satélites. Muchas de estas aplicaciones de seguimiento óptico del movimiento se realizan en exteriores y requieren diferentes configuraciones de lentes y cámaras. De este modo, las imágenes de alta resolución del objetivo que se está rastreando pueden proporcionar más información que solo datos de movimiento. La imagen obtenida por el sistema de seguimiento de largo alcance de la NASA en el fatal lanzamiento del transbordador espacial Challenger proporcionó pruebas cruciales sobre la causa del accidente. Los sistemas de seguimiento óptico también se utilizan para identificar naves espaciales y desechos espaciales conocidos, a pesar de que tienen la desventaja en comparación con el radar de que los objetos deben reflejar o emitir suficiente luz. [37]
Un sistema de seguimiento óptico normalmente consta de tres subsistemas: el sistema de imágenes ópticas, la plataforma de seguimiento mecánico y la computadora de seguimiento.
El sistema de imágenes ópticas es responsable de convertir la luz del área objetivo en una imagen digital que la computadora de seguimiento puede procesar. Dependiendo del diseño del sistema de seguimiento óptico, el sistema de imágenes ópticas puede variar desde tan simple como una cámara digital estándar hasta tan especializado como un telescopio astronómico en la cima de una montaña. La especificación del sistema de imágenes ópticas determina el límite superior del alcance efectivo del sistema de seguimiento.
La plataforma de seguimiento mecánico sostiene el sistema de imágenes ópticas y es responsable de manipular el sistema de imágenes ópticas de tal manera que siempre apunte al objetivo que se está rastreando. La dinámica de la plataforma de seguimiento mecánico combinada con el sistema de imágenes ópticas determina la capacidad del sistema de seguimiento para mantener fijo un objetivo que cambia de velocidad rápidamente.
La computadora de seguimiento es responsable de capturar las imágenes del sistema de imágenes ópticas, analizar la imagen para extraer la posición del objetivo y controlar la plataforma de seguimiento mecánico para seguir el objetivo. Hay varios desafíos. En primer lugar, el ordenador de seguimiento debe poder capturar la imagen a una velocidad de fotogramas relativamente alta. Esto supone un requisito en el ancho de banda del hardware de captura de imágenes. El segundo desafío es que el software de procesamiento de imágenes debe poder extraer la imagen objetivo de su fondo y calcular su posición. Para esta tarea se han diseñado varios algoritmos de procesamiento de imágenes de libros de texto. Este problema se puede simplificar si el sistema de seguimiento puede esperar ciertas características que sean comunes en todos los objetivos que rastreará. El siguiente problema es controlar la plataforma de seguimiento para seguir al objetivo. Este es un problema típico de diseño de sistemas de control más que un desafío, que implica modelar la dinámica del sistema y diseñar controladores para controlarlo. Sin embargo, esto se convertirá en un desafío si la plataforma de seguimiento con la que debe trabajar el sistema no está diseñada para funcionar en tiempo real.
El software que ejecuta dichos sistemas también está personalizado para los componentes de hardware correspondientes. Un ejemplo de este tipo de software es OpticTracker, que controla telescopios computarizados para rastrear objetos en movimiento a grandes distancias, como aviones y satélites. Otra opción es el software SimiShape, que también se puede utilizar de forma híbrida en combinación con marcadores.
Las cámaras RGB-D como Kinect capturan imágenes tanto en color como en profundidad. Al fusionar las dos imágenes, se pueden capturar vóxeles de colores en 3D , lo que permite la captura del movimiento humano en 3D y la superficie humana en tiempo real.
Debido al uso de una cámara de visión única, los movimientos capturados suelen ser ruidosos. Se han propuesto técnicas de aprendizaje automático para reconstruir automáticamente esos movimientos ruidosos en otros de mayor calidad, utilizando métodos como el aprendizaje diferido [38] y modelos gaussianos . [39] Este método genera un movimiento lo suficientemente preciso para aplicaciones serias como la evaluación ergonómica. [40]
La tecnología de captura de movimiento inercial [41] se basa en sensores inerciales en miniatura, modelos biomecánicos y algoritmos de fusión de sensores . [42] Los datos de movimiento de los sensores inerciales ( sistema de guía inercial ) a menudo se transmiten de forma inalámbrica a una computadora, donde se registra o visualiza el movimiento. La mayoría de los sistemas inerciales utilizan unidades de medición inercial (IMU) que contienen una combinación de giroscopio, magnetómetro y acelerómetro para medir las velocidades de rotación. Estas rotaciones se traducen en un esqueleto en el software. Al igual que los marcadores ópticos, cuantos más sensores IMU, más naturales serán los datos. No se necesitan cámaras, emisores o marcadores externos para movimientos relativos, aunque sí son necesarios para proporcionar la posición absoluta del usuario si se desea. Los sistemas de captura de movimiento inercial capturan los seis grados de libertad del movimiento corporal de un ser humano en tiempo real y pueden proporcionar información de dirección limitada si incluyen un sensor de rumbo magnético, aunque tienen una resolución mucho menor y son susceptibles al ruido electromagnético. Los beneficios de utilizar sistemas inerciales incluyen: captura en una variedad de entornos, incluidos espacios reducidos, sin resolución, portabilidad y grandes áreas de captura. Las desventajas incluyen una menor precisión posicional y una deriva posicional que puede agravarse con el tiempo. Estos sistemas son similares a los controladores de Wii pero son más sensibles y tienen mayor resolución y tasas de actualización. Pueden medir con precisión la dirección al suelo con una precisión de un grado. La popularidad de los sistemas inerciales está aumentando entre los desarrolladores de juegos, [10] principalmente debido a su configuración rápida y sencilla que da como resultado un proceso rápido. Actualmente hay disponible una gama de trajes de varios fabricantes y los precios base oscilan entre 1.000 y 80.000 dólares estadounidenses.
Los sistemas mecánicos de captura de movimiento rastrean directamente los ángulos de las articulaciones del cuerpo y, a menudo, se les conoce como sistemas de captura de movimiento de exoesqueleto, debido a la forma en que los sensores están conectados al cuerpo. Un artista fija la estructura esquelética a su cuerpo y, a medida que se mueve, también lo hacen las partes mecánicas articuladas, midiendo el movimiento relativo del artista. Los sistemas mecánicos de captura de movimiento son sistemas en tiempo real, de costo relativamente bajo, libres de oclusión e inalámbricos (sin ataduras) que tienen un volumen de captura ilimitado. Por lo general, son estructuras rígidas de varillas rectas de metal o plástico articuladas unidas entre sí con potenciómetros que se articulan en las articulaciones del cuerpo. Estos trajes tienden a costar entre 25.000 y 75.000 dólares más un sistema de posicionamiento absoluto externo. Algunos trajes proporcionan retroalimentación de fuerza o entrada háptica limitada .
Los sistemas magnéticos calculan la posición y la orientación mediante el flujo magnético relativo de tres bobinas ortogonales tanto en el transmisor como en cada receptor. [43] La intensidad relativa del voltaje o corriente de las tres bobinas permite a estos sistemas calcular tanto el alcance como la orientación mapeando meticulosamente el volumen de seguimiento. La salida del sensor es 6DOF , lo que proporciona resultados útiles obtenidos con dos tercios de la cantidad de marcadores necesarios en los sistemas ópticos; uno en la parte superior del brazo y otro en la parte inferior del brazo para la posición y el ángulo del codo. [ cita necesaria ] Los marcadores no están ocluidos por objetos no metálicos, pero son susceptibles a interferencias magnéticas y eléctricas de objetos metálicos en el medio ambiente, como barras de refuerzo (barras de refuerzo de acero en concreto) o cableado, que afectan el campo magnético, y fuentes eléctricas como monitores, luces, cables y computadoras. La respuesta del sensor no es lineal, especialmente hacia los bordes del área de captura. El cableado de los sensores tiende a impedir movimientos extremos de rendimiento. [43] Con los sistemas magnéticos, es posible monitorear los resultados de una sesión de captura de movimiento en tiempo real. [43] Los volúmenes de captura para los sistemas magnéticos son dramáticamente más pequeños que para los sistemas ópticos. En los sistemas magnéticos, existe una distinción entre sistemas de corriente alterna (CA) y corriente continua (CC): el sistema de CC usa pulsos cuadrados, los sistemas de CA usan pulsos de onda sinusoidal.
Los sensores de estiramiento son capacitores de placas paralelas flexibles que miden el estiramiento, la flexión, el corte o la presión y generalmente se fabrican a partir de silicona. Cuando el sensor se estira o aprieta, su valor de capacitancia cambia. Estos datos pueden transmitirse a través de Bluetooth o entrada directa y usarse para detectar cambios mínimos en el movimiento del cuerpo. Los sensores de estiramiento no se ven afectados por las interferencias magnéticas y no presentan oclusión. La naturaleza extensible de los sensores también significa que no sufren deriva posicional, que es común en los sistemas inerciales. Los sensores extensibles, por otro lado, debido a las propiedades materiales de sus sustratos y materiales conductores, sufren de una relación señal-ruido relativamente baja , lo que requiere filtrado o aprendizaje automático para que sean utilizables para la captura de movimiento. Estas soluciones dan como resultado una mayor latencia en comparación con sensores alternativos.
La mayoría de los proveedores tradicionales de hardware de captura de movimiento ofrecen algún tipo de captura facial de baja resolución utilizando entre 32 y 300 marcadores con un sistema de marcadores activo o pasivo. Todas estas soluciones están limitadas por el tiempo que lleva aplicar los marcadores, calibrar las posiciones y procesar los datos. En última instancia, la tecnología también limita su resolución y sus niveles de calidad de salida sin procesar.
La captura de movimiento facial de alta fidelidad, también conocida como captura de desempeño , es la próxima generación de fidelidad y se utiliza para registrar los movimientos más complejos de un rostro humano con el fin de capturar grados más altos de emoción. Actualmente, la captura facial se está organizando en varios campos distintos, incluidos los datos de captura de movimiento tradicionales, las soluciones basadas en formas combinadas, la captura de la topología real de la cara de un actor y los sistemas propietarios.
Las dos técnicas principales son sistemas estacionarios con una serie de cámaras que capturan las expresiones faciales desde múltiples ángulos y utilizan software como el solucionador de malla estéreo de OpenCV para crear una malla de superficie 3D, o también utilizan matrices de luz para calcular las normales de la superficie a partir de la variación en el brillo a medida que cambian la fuente de luz, la posición de la cámara o ambas. Estas técnicas tienden a estar limitadas en la resolución de características únicamente por la resolución de la cámara, el tamaño aparente del objeto y la cantidad de cámaras. Si la cara del usuario ocupa el 50 por ciento del área de trabajo de la cámara y una cámara tiene una resolución de megapíxeles, entonces se pueden detectar movimientos faciales submilimétricos comparando fotogramas. El trabajo reciente se centra en aumentar la velocidad de fotogramas y crear un flujo óptico para permitir que los movimientos se redireccionen a otras caras generadas por computadora, en lugar de simplemente crear una malla 3D del actor y sus expresiones.
Los sistemas de posicionamiento por radiofrecuencia se están volviendo más viables [ cita requerida ] ya que los dispositivos de radiofrecuencia de mayor frecuencia permiten una mayor precisión que tecnologías más antiguas como el radar . La velocidad de la luz es de 30 centímetros por nanosegundo (milmillonésima de segundo), por lo que una señal de radiofrecuencia de 10 gigahercios (mil millones de ciclos por segundo) permite una precisión de unos 3 centímetros. Midiendo la amplitud hasta un cuarto de longitud de onda, es posible mejorar la resolución hasta aproximadamente 8 mm. Para lograr la resolución de los sistemas ópticos, se necesitan frecuencias de 50 gigahercios o superiores, que dependen casi tanto de la línea de visión y son tan fáciles de bloquear como los sistemas ópticos. Es probable que la trayectoria múltiple y la rerradiación de la señal causen problemas adicionales, pero estas tecnologías serán ideales para rastrear volúmenes más grandes con una precisión razonable, ya que la resolución requerida a distancias de 100 metros probablemente no sea tan alta. Muchos científicos [ ¿quién? ] creen que la radiofrecuencia nunca producirá la precisión necesaria para la captura de movimiento.
Investigadores del Instituto de Tecnología de Massachusetts dijeron en 2015 que habían creado un sistema que rastrea el movimiento mediante señales de radiofrecuencia. [44]
Se desarrolló un enfoque alternativo en el que al actor se le da un área ilimitada para caminar mediante el uso de una esfera giratoria, similar a una bola de hámster , que contiene sensores internos que registran los movimientos angulares, eliminando la necesidad de cámaras externas y otros equipos. Aunque esta tecnología podría generar costos mucho más bajos para la captura de movimiento, la esfera básica solo es capaz de registrar una única dirección continua. Se necesitarían sensores adicionales colocados en la persona para registrar algo más.
Otra alternativa es utilizar una plataforma de movimiento 6DOF (grados de libertad) con una cinta de correr omnidireccional integrada con captura óptica de movimiento de alta resolución para lograr el mismo efecto. La persona capturada puede caminar en un área ilimitada, sorteando diferentes terrenos desnivelados. Las aplicaciones incluyen rehabilitación médica para entrenamiento del equilibrio, investigación biomecánica y realidad virtual. [ cita necesaria ]
En la estimación de pose 3D , la pose de un actor se puede reconstruir a partir de una imagen o un mapa de profundidad . [45]