La captura de movimiento (a veces denominada mo-cap o mocap , para abreviar) es el proceso de registrar el movimiento de objetos o personas. Se utiliza en aplicaciones militares , de entretenimiento , deportivas , médicas y para la validación de visión por computadora [3] y robots. [4] En películas, programas de televisión y videojuegos, la captura de movimiento se refiere a registrar acciones de actores humanos y usar esa información para animar modelos de personajes digitales en animación por computadora 2D o 3D . [5] [6] [7] Cuando incluye rostro y dedos o captura expresiones sutiles, a menudo se lo denomina captura de desempeño . [8] En muchos campos, la captura de movimiento a veces se denomina seguimiento de movimiento , pero en la realización de películas y juegos, el seguimiento de movimiento generalmente se refiere más a igualar el movimiento .
En las sesiones de captura de movimiento, los movimientos de uno o más actores se muestrean muchas veces por segundo. Mientras que las primeras técnicas utilizaban imágenes de varias cámaras para calcular posiciones 3D , [9] a menudo el propósito de la captura de movimiento es registrar solo los movimientos del actor, no su apariencia visual. Estos datos de animación se asignan a un modelo 3D para que el modelo realice las mismas acciones que el actor. Este proceso puede contrastarse con la técnica más antigua de rotoscopia .
Los movimientos de cámara también pueden capturarse mediante captura de movimiento, de modo que una cámara virtual en la escena se desplace, incline o se mueva por el escenario, controlada por un operador de cámara, mientras el actor está actuando. Al mismo tiempo, el sistema de captura de movimiento puede capturar la cámara y los accesorios, así como la actuación del actor. Esto permite que los personajes, imágenes y decorados generados por ordenador tengan la misma perspectiva que las imágenes de vídeo de la cámara. Un ordenador procesa los datos y muestra los movimientos del actor, proporcionando las posiciones de cámara deseadas en términos de objetos en el decorado. La obtención retroactiva de datos de movimiento de la cámara a partir del metraje capturado se conoce como match moving o camera tracking .
El primer actor virtual animado por captura de movimiento fue creado en 1993 por Didier Pourcel y su equipo en Gribouille. Se trataba de "clonar" el cuerpo y el rostro del comediante francés Richard Bohringer y luego animarlo con herramientas de captura de movimiento aún incipientes.
La captura de movimiento ofrece varias ventajas sobre la animación por computadora tradicional de un modelo 3D:
Existen muchas aplicaciones de Motion Capture. Las más comunes son para videojuegos, películas y captura de movimiento, sin embargo, existe una aplicación de investigación para esta tecnología que se está utilizando en la Universidad de Purdue en el desarrollo de robótica.
Los videojuegos suelen utilizar la captura de movimiento para animar a atletas, artistas marciales y otros personajes del juego. [13] [14] Ya en 1988, se utilizó una forma temprana de captura de movimiento para animar los personajes de los jugadores en 2D del videojuego Vixen de Martech (interpretado por la modelo Corinne Russell ) [15] y el juego de lucha arcade en 2D de Magical Company Last Apostle Puppet Show (para animar sprites digitalizados ). [16] La captura de movimiento se utilizó más tarde para animar los modelos de personajes en 3D en los juegos arcade de Sega Model Virtua Fighter (1993) [17] [18] y Virtua Fighter 2 (1994). [19] A mediados de 1995, el desarrollador/editor Acclaim Entertainment tenía su propio estudio de captura de movimiento interno integrado en su sede. [14] El juego arcade Soul Edge de Namco de 1995 utilizó marcadores de sistema óptico pasivo para la captura de movimiento. [20] La captura de movimiento también utiliza atletas en juegos animados basados en ellos, como Crash Bandicoot de Naughty Dog , Spyro the Dragon de Insomniac Games y Dinosaur Planet de Rare .
El posicionamiento en interiores es otra aplicación de los sistemas de captura óptica de movimiento. Los investigadores en robótica suelen utilizar sistemas de captura de movimiento al desarrollar y evaluar algoritmos y hardware de control, estimación y percepción. En espacios exteriores, es posible lograr una precisión de centímetros utilizando el Sistema Global de Navegación por Satélite ( GNSS ) junto con la Cinemática en Tiempo Real ( RTK ). Sin embargo, esto se reduce significativamente cuando no hay línea de visión hacia los satélites, como en entornos interiores. La mayoría de los proveedores que venden sistemas comerciales de captura óptica de movimiento proporcionan controladores de código abierto accesibles que se integran con el popular marco del Sistema Operativo Robótico ( ROS ), lo que permite a los investigadores y desarrolladores probar eficazmente sus robots durante el desarrollo.
En el campo de la investigación en robótica aérea, los sistemas de captura de movimiento también se utilizan ampliamente para el posicionamiento. Las regulaciones sobre el uso del espacio aéreo limitan la posibilidad de realizar experimentos al aire libre con sistemas aéreos no tripulados ( UAS ). Las pruebas en interiores pueden eludir dichas restricciones. Muchos laboratorios e instituciones de todo el mundo han construido volúmenes de captura de movimiento en interiores para este propósito.
La Universidad de Purdue alberga el sistema de captura de movimiento en interiores más grande del mundo, dentro de las instalaciones de investigación y prueba de UAS de Purdue (PURT). PURT se dedica a la investigación de UAS y proporciona un volumen de seguimiento de 600.000 pies cúbicos mediante 60 cámaras de captura de movimiento. [21] El sistema de captura de movimiento óptico puede rastrear objetivos en su volumen con precisión milimétrica, proporcionando de manera efectiva la posición real de los objetivos: la línea de base de la "verdad fundamental" en investigación y desarrollo. Los resultados derivados de otros sensores y algoritmos se pueden comparar luego con los datos de la verdad fundamental para evaluar su rendimiento.
Las películas utilizan la captura de movimiento para efectos CGI, en algunos casos reemplazando la animación tradicional de celdas, y para criaturas completamente CGI , como Gollum , La Momia , King Kong , Davy Jones de Piratas del Caribe , los Na'vi de la película Avatar y Clu de Tron: Legacy . El Gran Duende, los tres trolls de piedra , muchos de los orcos y duendes de la película de 2012 El hobbit: un viaje inesperado y Smaug se crearon utilizando captura de movimiento.
La película Batman Forever (1995) utilizó cierta tecnología de captura de movimiento para ciertos efectos visuales. Warner Bros. había adquirido tecnología de captura de movimiento de la compañía de videojuegos arcade Acclaim Entertainment para usarla en la producción de la película. [22] El videojuego de 1995 de Acclaim del mismo nombre también utilizó la misma tecnología de captura de movimiento para animar los gráficos de sprites digitalizados . [23]
Star Wars: Episodio I - La amenaza fantasma (1999) fue el primer largometraje que incluyó un personaje principal creado mediante captura de movimiento (ese personaje fue Jar Jar Binks , interpretado por Ahmed Best ), yla película indio - estadounidense Sinbad: Beyond the Veil of Mists (2000) fue el primer largometraje realizado principalmente con captura de movimiento, aunque muchos animadores de personajes también trabajaron en la película, que tuvo un lanzamiento muy limitado. Final Fantasy: The Spirits Within de 2001 fue la primera película de amplio lanzamiento realizada con tecnología de captura de movimiento. A pesar de su pobre recaudación de taquilla, los partidarios de la tecnología de captura de movimiento tomaron nota. Total Recall ya había utilizado la técnica, en la escena del escáner de rayos X y los esqueletos.
El Señor de los Anillos: Las Dos Torres fue la primera película que utilizó un sistema de captura de movimiento en tiempo real. Este método transmitía las acciones del actor Andy Serkis a la piel de Gollum/Smeagol, generada por computadora, mientras se desarrollaba la película. [24]
Storymind Entertainment, un estudio ucraniano independiente , creó un videojuego neo-noir en tercera persona /shooter llamado My Eyes On You, utilizando captura de movimiento para animar a su personaje principal, Jordan Adalien, y a otros personajes no jugables. [25]
De las tres películas nominadas al Oscar 2006 a la mejor película de animación , dos de ellas ( Monster House y la ganadora Happy Feet ) utilizaron captura de movimiento, y solo Cars de Disney · Pixar fue animada sin captura de movimiento. En los créditos finales de la película Ratatouille de Pixar , aparece un sello que etiqueta la película como "100 % animación genuina, ¡sin captura de movimiento!".
Desde 2001, la captura de movimiento se ha utilizado ampliamente para simular o aproximarse al aspecto del teatro de acción en vivo, con modelos de personajes digitales casi fotorrealistas . El Polar Express utilizó la captura de movimiento para permitir que Tom Hanks actuara como varios personajes digitales distintos (en los que también proporcionó las voces). La adaptación de 2007 de la saga Beowulf animó personajes digitales cuyas apariencias se basaron en parte en los actores que proporcionaron sus movimientos y voces. La muy popular Avatar de James Cameron utilizó esta técnica para crear a los Na'vi que habitan Pandora. The Walt Disney Company ha producido Un cuento de Navidad de Robert Zemeckis utilizando esta técnica. En 2007, Disney adquirió ImageMovers Digital de Zemeckis (que produce películas de captura de movimiento), pero luego la cerró en 2011, después del fracaso de taquilla de Mars Needs Moms .
Las series de televisión producidas íntegramente con animación por captura de movimiento incluyen Laflaque en Canadá, Sprookjesboom y Cafe de Wereld [nl] en los Países Bajos y Headcases en el Reino Unido.
Los proveedores de realidad virtual y realidad aumentada , como uSens y Gestigon , permiten a los usuarios interactuar con contenido digital en tiempo real mediante la captura de movimientos de las manos. Esto puede resultar útil para simulaciones de entrenamiento, pruebas de percepción visual o para realizar recorridos virtuales en un entorno 3D. La tecnología de captura de movimiento se utiliza con frecuencia en sistemas de marionetas digitales para controlar personajes generados por computadora en tiempo real.
El análisis de la marcha es una de las aplicaciones de la captura de movimiento en la medicina clínica . Las técnicas permiten a los médicos evaluar el movimiento humano a través de varios factores biomecánicos, a menudo mientras transmiten esta información en vivo a un software analítico.
Un uso innovador es la detección de posturas, que puede ayudar a los pacientes durante la recuperación posoperatoria o la rehabilitación después de lesiones. Este enfoque permite un seguimiento continuo, orientación en tiempo real y programas personalizados para mejorar los resultados del paciente. [26]
Algunas clínicas de fisioterapia utilizan la captura de movimiento como una forma objetiva de cuantificar el progreso del paciente. [27]
Durante el rodaje de Avatar, de James Cameron, todas las escenas que implicaban captura de movimiento se dirigieron en tiempo real utilizando el software Autodesk MotionBuilder para renderizar una imagen en pantalla que permitiera al director y al actor ver cómo se verían en la película, lo que facilitó la dirección de la película tal como la vería el espectador. Este método permitió obtener vistas y ángulos que no eran posibles con una animación pre-renderizada. Cameron estaba tan orgulloso de sus resultados que invitó a Steven Spielberg y George Lucas al set para ver el sistema en acción.
En Los Vengadores de Marvel , Mark Ruffalo utilizó captura de movimiento para poder interpretar a su personaje Hulk , en lugar de que fuera solo CGI como en películas anteriores, convirtiendo a Ruffalo en el primer actor en interpretar tanto la versión humana como la de Hulk de Bruce Banner.
El software FaceRig utiliza la tecnología de reconocimiento facial de ULSee.Inc para mapear las expresiones faciales de un jugador y la tecnología de seguimiento corporal de Perception Neuron para mapear el movimiento del cuerpo en el movimiento de un personaje 2D o 3D en la pantalla. [28] [29]
Durante la Game Developers Conference 2016 en San Francisco, Epic Games demostró la captura de movimiento de cuerpo completo en vivo en Unreal Engine. La escena completa, del próximo juego Hellblade sobre una mujer guerrera llamada Senua, se renderizó en tiempo real. La presentación principal [30] fue una colaboración entre Unreal Engine , Ninja Theory , 3Lateral , Cubic Motion , IKinema y Xsens .
En 2020, el dos veces campeón olímpico de patinaje artístico Yuzuru Hanyu se graduó en la Universidad de Waseda . En su tesis, utilizando datos proporcionados por 31 sensores colocados en su cuerpo, analizó sus saltos. Evaluó el uso de la tecnología tanto para mejorar el sistema de puntuación como para ayudar a los patinadores a mejorar su técnica de salto. [31] [32] En marzo de 2021 se publicó un resumen de la tesis en la revista académica. [33]
El seguimiento del movimiento o la captura de movimiento comenzó como una herramienta de análisis fotogramétrico en la investigación biomecánica en los años 1970 y 1980, y se expandió a la educación, la formación, los deportes y recientemente a la animación por ordenador para la televisión , el cine y los videojuegos a medida que la tecnología maduraba. Desde el siglo XX, el intérprete tiene que llevar marcadores cerca de cada articulación para identificar el movimiento por las posiciones o ángulos entre los marcadores. Se rastrean marcadores acústicos, inerciales, LED , magnéticos o reflectantes, o combinaciones de cualquiera de estos, óptimamente al menos dos veces la frecuencia del movimiento deseado. La resolución del sistema es importante tanto en la resolución espacial como en la resolución temporal, ya que el desenfoque de movimiento causa casi los mismos problemas que la baja resolución. Desde principios del siglo XXI, y debido al rápido crecimiento de la tecnología, se han desarrollado nuevos métodos. La mayoría de los sistemas modernos pueden extraer la silueta del intérprete del fondo. Después, todos los ángulos de las articulaciones se calculan ajustando un modelo matemático a la silueta. Para los movimientos en los que no se puede ver un cambio de la silueta, hay sistemas híbridos disponibles que pueden hacer ambas cosas (marcador y silueta), pero con menos marcador. [ cita requerida ] En robótica, algunos sistemas de captura de movimiento se basan en la localización y el mapeo simultáneos . [34]
Los sistemas ópticos utilizan datos capturados de sensores de imagen para triangular la posición 3D de un sujeto entre dos o más cámaras calibradas para proporcionar proyecciones superpuestas. La adquisición de datos se implementa tradicionalmente utilizando marcadores especiales adheridos a un actor; sin embargo, los sistemas más recientes pueden generar datos precisos mediante el seguimiento de las características de la superficie identificadas dinámicamente para cada sujeto en particular. El seguimiento de una gran cantidad de actores o la expansión del área de captura se logra mediante la adición de más cámaras. Estos sistemas producen datos con tres grados de libertad para cada marcador, y la información rotacional debe inferirse a partir de la orientación relativa de tres o más marcadores; por ejemplo, los marcadores de hombro, codo y muñeca proporcionan el ángulo del codo. Los sistemas híbridos más nuevos combinan sensores inerciales con sensores ópticos para reducir la oclusión, aumentar la cantidad de usuarios y mejorar la capacidad de seguimiento sin tener que limpiar manualmente los datos. [35]
Los sistemas ópticos pasivos utilizan marcadores recubiertos con un material retrorreflectante para reflejar la luz que se genera cerca de la lente de la cámara. El umbral de la cámara se puede ajustar para que solo se tomen muestras de los marcadores reflectantes brillantes, ignorando la piel y las telas.
El centroide del marcador se calcula como una posición dentro de la imagen bidimensional que se captura. El valor de escala de grises de cada píxel se puede utilizar para proporcionar una precisión de subpíxeles al encontrar el centroide de la gaussiana .
Se utiliza un objeto con marcadores adheridos en posiciones conocidas para calibrar las cámaras y obtener sus posiciones, y se mide la distorsión de la lente de cada cámara. Si dos cámaras calibradas detectan un marcador, se puede obtener una corrección tridimensional. Normalmente, un sistema constará de entre 2 y 48 cámaras. Existen sistemas de más de trescientas cámaras para intentar reducir el intercambio de marcadores. Se requieren cámaras adicionales para una cobertura completa alrededor del sujeto capturado y de varios sujetos.
Los proveedores tienen software de restricción para reducir el problema del intercambio de marcadores, ya que todos los marcadores pasivos parecen idénticos. A diferencia de los sistemas de marcadores activos y los sistemas magnéticos, los sistemas pasivos no requieren que el usuario use cables o equipos electrónicos. [36] En cambio, cientos de pelotas de goma están unidas con cinta reflectante, que debe reemplazarse periódicamente. Los marcadores generalmente se adhieren directamente a la piel (como en biomecánica), o se adhieren con velcro a un artista que usa un traje de licra/spandex de cuerpo completo diseñado específicamente para captura de movimiento . Este tipo de sistema puede capturar grandes cantidades de marcadores a velocidades de cuadro generalmente de alrededor de 120 a 160 fps, aunque al reducir la resolución y rastrear una región de interés más pequeña, pueden rastrear hasta 10,000 fps.
Los sistemas ópticos activos triangulan las posiciones iluminando un LED a la vez muy rápidamente o varios LED con software para identificarlos por sus posiciones relativas, algo similar a la navegación celestial. En lugar de reflejar la luz generada externamente, los marcadores se alimentan para emitir su propia luz. Dado que la ley del cuadrado inverso proporciona una cuarta parte de la potencia al doble de la distancia, esto puede aumentar las distancias y el volumen de captura. Esto también permite una alta relación señal-ruido, lo que da como resultado una fluctuación muy baja del marcador y una alta resolución de medición resultante (a menudo hasta 0,1 mm dentro del volumen calibrado).
La serie de televisión Stargate SG1 produjo episodios que utilizaban un sistema óptico activo para los efectos visuales, lo que permitía al actor caminar entre elementos que dificultarían la captura de movimiento para otros sistemas ópticos no activos. [ cita requerida ]
ILM utilizó marcadores activos en Van Helsing para permitir la captura de las novias voladoras de Drácula en sets muy grandes, de manera similar al uso de marcadores activos por parte de Weta en El origen del planeta de los simios . La energía para cada marcador se puede proporcionar secuencialmente en fase con el sistema de captura, lo que proporciona una identificación única de cada marcador para un cuadro de captura determinado a costa de la velocidad de cuadros resultante. La capacidad de identificar cada marcador de esta manera es útil en aplicaciones en tiempo real. El método alternativo para identificar marcadores es hacerlo algorítmicamente, lo que requiere un procesamiento adicional de los datos.
También existen posibilidades de encontrar la posición mediante marcadores LED de colores. En estos sistemas, cada color se asigna a un punto específico del cuerpo.
Uno de los primeros sistemas de marcadores activos en la década de 1980 fue un sistema híbrido pasivo-activo de captura de movimiento con espejos giratorios y marcadores reflectantes de vidrio coloreado y que utilizaba detectores de matriz lineal enmascarados.
Los sistemas de marcadores activos se pueden perfeccionar aún más activando un marcador a la vez o rastreando varios marcadores a lo largo del tiempo y modulando la amplitud o el ancho de pulso para proporcionar la identificación del marcador. Los sistemas modulados de resolución espacial de 12 megapíxeles muestran movimientos más sutiles que los sistemas ópticos de 4 megapíxeles al tener una resolución espacial y temporal más alta. Los directores pueden ver la actuación del actor en tiempo real y observar los resultados en el personaje generado por computadora impulsado por captura de movimiento. Las identificaciones de marcador únicas reducen el tiempo de respuesta, al eliminar el intercambio de marcadores y proporcionar datos mucho más limpios que otras tecnologías. Los LED con procesamiento integrado y sincronización por radio permiten la captura de movimiento al aire libre bajo la luz solar directa mientras se capturan de 120 a 960 cuadros por segundo debido a un obturador electrónico de alta velocidad. El procesamiento por computadora de las identificaciones moduladas permite una menor limpieza manual o resultados filtrados para menores costos operativos. Esta mayor precisión y resolución requiere más procesamiento que las tecnologías pasivas, pero el procesamiento adicional se realiza en la cámara para mejorar la resolución a través del procesamiento de subpíxeles o centroide, lo que proporciona alta resolución y alta velocidad. Estos sistemas de captura de movimiento suelen costar 20.000 dólares para un sistema de ocho cámaras, 12 megapíxeles, resolución espacial de 120 hercios y un actor.
Se puede invertir el enfoque tradicional basado en cámaras de alta velocidad. Los sistemas como Prakash utilizan proyectores multi-LED de alta velocidad y de bajo costo. Los proyectores IR multi-LED especialmente construidos codifican ópticamente el espacio. En lugar de marcadores retrorreflectivos o de diodos emisores de luz (LED) activos, el sistema utiliza etiquetas de marcadores fotosensibles para decodificar las señales ópticas. Al colocar etiquetas con fotosensores en los puntos de la escena, las etiquetas pueden calcular no solo sus propias ubicaciones de cada punto, sino también su propia orientación, iluminación incidente y reflectancia.
Estas etiquetas de seguimiento funcionan en condiciones de luz natural y se pueden incrustar de forma imperceptible en la ropa u otros objetos. El sistema admite una cantidad ilimitada de etiquetas en una escena, y cada etiqueta se identifica de forma única para eliminar los problemas de readquisición de marcadores. Dado que el sistema elimina una cámara de alta velocidad y el flujo de imágenes de alta velocidad correspondiente, requiere un ancho de banda de datos significativamente menor. Las etiquetas también proporcionan datos de iluminación incidente que se pueden utilizar para adaptar la iluminación de la escena al insertar elementos sintéticos. La técnica parece ideal para la captura de movimiento en el set o la transmisión en tiempo real de sets virtuales, pero aún no se ha probado.
La tecnología de captura de movimiento ha estado disponible para investigadores y científicos durante algunas décadas, lo que ha proporcionado nuevos conocimientos en muchos campos.
La parte vital del sistema, la cámara subacuática, tiene una carcasa resistente al agua. La carcasa tiene un acabado que resiste la corrosión y el cloro, lo que la hace perfecta para su uso en piscinas y estanques. Hay dos tipos de cámaras. Las cámaras industriales de alta velocidad también se pueden utilizar como cámaras infrarrojas. Las cámaras subacuáticas infrarrojas vienen con un estroboscopio de luz cian en lugar de la típica luz infrarroja para una caída mínima de la luz subacuática y las cámaras de alta velocidad con una luz LED o con la opción de utilizar procesamiento de imágenes.
Una cámara submarina suele medir entre 15 y 20 metros, según la calidad del agua, la cámara y el tipo de marcador utilizado. Como era de esperar, el mejor alcance se consigue cuando el agua es clara y, como siempre, el volumen de medición también depende de la cantidad de cámaras. Hay una variedad de marcadores submarinos disponibles para diferentes circunstancias.
Cada piscina requiere diferentes soportes y fijaciones. Por lo tanto, todos los sistemas de captura de movimiento subacuático están diseñados específicamente para adaptarse a cada instalación de piscina específica. Para las cámaras ubicadas en el centro de la piscina, se proporcionan trípodes especialmente diseñados que utilizan ventosas.
Las técnicas emergentes y la investigación en visión artificial están llevando al rápido desarrollo del enfoque sin marcadores para la captura de movimiento. Los sistemas sin marcadores, como los desarrollados en la Universidad de Stanford , la Universidad de Maryland , el MIT y el Instituto Max Planck , no requieren que los sujetos usen equipo especial para el seguimiento. Se diseñan algoritmos informáticos especiales para permitir que el sistema analice múltiples flujos de entrada óptica e identifique formas humanas, descomponiéndolas en partes constituyentes para el seguimiento. ESC entertainment, una subsidiaria de Warner Brothers Pictures creada especialmente para permitir la cinematografía virtual , incluyendo imitaciones digitales fotorrealistas para filmar las películas Matrix Reloaded y Matrix Revolutions , utilizó una técnica llamada Universal Capture que utilizaba una configuración de 7 cámaras y el seguimiento del flujo óptico de todos los píxeles sobre todos los planos 2-D de las cámaras para la captura de movimiento, gestos y expresiones faciales , lo que condujo a resultados fotorrealistas.
Tradicionalmente, el seguimiento óptico de movimiento sin marcadores se utiliza para realizar un seguimiento de diversos objetos, incluidos aviones, vehículos de lanzamiento, misiles y satélites. Muchas de estas aplicaciones de seguimiento óptico de movimiento se realizan al aire libre, lo que requiere diferentes configuraciones de lentes y cámaras. Las imágenes de alta resolución del objetivo que se está rastreando pueden, por lo tanto, proporcionar más información que solo datos de movimiento. La imagen obtenida del sistema de seguimiento de largo alcance de la NASA en el lanzamiento fatal del transbordador espacial Challenger proporcionó evidencia crucial sobre la causa del accidente. Los sistemas de seguimiento óptico también se utilizan para identificar naves espaciales conocidas y desechos espaciales a pesar del hecho de que tiene una desventaja en comparación con el radar en el sentido de que los objetos deben reflejar o emitir suficiente luz. [37]
Un sistema de seguimiento óptico normalmente consta de tres subsistemas: el sistema de imágenes ópticas, la plataforma de seguimiento mecánico y la computadora de seguimiento.
El sistema de imágenes ópticas es responsable de convertir la luz del área objetivo en una imagen digital que la computadora de seguimiento puede procesar. Dependiendo del diseño del sistema de seguimiento óptico, el sistema de imágenes ópticas puede variar desde algo tan simple como una cámara digital estándar hasta algo tan especializado como un telescopio astronómico en la cima de una montaña. La especificación del sistema de imágenes ópticas determina el límite superior del alcance efectivo del sistema de seguimiento.
La plataforma de seguimiento mecánico contiene el sistema de imágenes ópticas y es responsable de manipular el sistema de imágenes ópticas de tal manera que siempre apunte al objetivo que se está rastreando. La dinámica de la plataforma de seguimiento mecánico combinada con el sistema de imágenes ópticas determina la capacidad del sistema de seguimiento para mantener el objetivo en la mira cuando cambia de velocidad rápidamente.
El ordenador de seguimiento es responsable de capturar las imágenes del sistema de imágenes ópticas, analizar la imagen para extraer la posición del objetivo y controlar la plataforma de seguimiento mecánica para seguir el objetivo. Existen varios desafíos. En primer lugar, el ordenador de seguimiento tiene que ser capaz de capturar la imagen a una velocidad de cuadros relativamente alta. Esto plantea un requisito en el ancho de banda del hardware de captura de imágenes. El segundo desafío es que el software de procesamiento de imágenes tiene que ser capaz de extraer la imagen del objetivo de su fondo y calcular su posición. Varios algoritmos de procesamiento de imágenes de libros de texto están diseñados para esta tarea. Este problema se puede simplificar si el sistema de seguimiento puede esperar ciertas características que son comunes en todos los objetivos que rastreará. El siguiente problema en la línea es controlar la plataforma de seguimiento para seguir el objetivo. Este es un problema de diseño de sistema de control típico en lugar de un desafío, que implica modelar la dinámica del sistema y diseñar controladores para controlarlo. Sin embargo, esto se convertirá en un desafío si la plataforma de seguimiento con la que tiene que trabajar el sistema no está diseñada para tiempo real.
El software que hace funcionar estos sistemas también está adaptado a los componentes de hardware correspondientes. Un ejemplo de este tipo de software es OpticTracker, que controla telescopios computarizados para rastrear objetos en movimiento a grandes distancias, como aviones y satélites. Otra opción es el software SimiShape, que también se puede utilizar de forma híbrida en combinación con marcadores.
Las cámaras RGB-D como Kinect capturan imágenes en color y profundidad. Al fusionar las dos imágenes, se pueden capturar vóxeles de colores en 3D , lo que permite capturar el movimiento y la superficie humana en 3D en tiempo real.
Debido al uso de una cámara de vista única, los movimientos capturados suelen ser ruidosos. Se han propuesto técnicas de aprendizaje automático para reconstruir automáticamente esos movimientos ruidosos en otros de mayor calidad, utilizando métodos como el aprendizaje perezoso [38] y los modelos gaussianos [39] . Dicho método genera un movimiento lo suficientemente preciso para aplicaciones serias como la evaluación ergonómica [40] .
La tecnología de captura de movimiento inercial [41] se basa en sensores inerciales en miniatura, modelos biomecánicos y algoritmos de fusión de sensores . [42] Los datos de movimiento de los sensores inerciales ( sistema de guía inercial ) a menudo se transmiten de forma inalámbrica a una computadora, donde se registra o visualiza el movimiento. La mayoría de los sistemas inerciales utilizan unidades de medición inercial (IMU) que contienen una combinación de giroscopio, magnetómetro y acelerómetro para medir las velocidades de rotación. Estas rotaciones se traducen a un esqueleto en el software. Al igual que los marcadores ópticos, cuantos más sensores IMU, más naturales son los datos. No se necesitan cámaras, emisores o marcadores externos para los movimientos relativos, aunque se requieren para dar la posición absoluta del usuario si se desea. Los sistemas de captura de movimiento inercial capturan los seis grados de libertad completos del movimiento corporal de un humano en tiempo real y pueden brindar información de dirección limitada si incluyen un sensor de rumbo magnético, aunque estos tienen una resolución mucho menor y son susceptibles al ruido electromagnético. Los beneficios de usar sistemas inerciales incluyen: captura en una variedad de entornos, incluidos espacios reducidos, sin resolución, portabilidad y grandes áreas de captura. Las desventajas incluyen una menor precisión posicional y una desviación posicional que puede agravarse con el tiempo. Estos sistemas son similares a los controladores de Wii, pero son más sensibles y tienen mayor resolución y tasas de actualización. Pueden medir con precisión la dirección del suelo con un margen de error de un grado. La popularidad de los sistemas inerciales está aumentando entre los desarrolladores de juegos, [10] principalmente debido a la configuración rápida y sencilla que da como resultado un proceso rápido. Ahora hay una gama de trajes disponibles de varios fabricantes y los precios base varían de $ 1000 a $ 80,000 USD.
Los sistemas de captura de movimiento mecánico rastrean directamente los ángulos de las articulaciones del cuerpo y a menudo se los conoce como sistemas de captura de movimiento de exoesqueleto, debido a la forma en que los sensores están unidos al cuerpo. Un artista une la estructura similar a un esqueleto a su cuerpo y, a medida que se mueve, también lo hacen las partes mecánicas articuladas, midiendo el movimiento relativo del artista. Los sistemas de captura de movimiento mecánico son sistemas en tiempo real, de costo relativamente bajo, libres de oclusión e inalámbricos (sin ataduras) que tienen un volumen de captura ilimitado. Por lo general, son estructuras rígidas de varillas de metal o plástico rectas y articuladas unidas entre sí con potenciómetros que se articulan en las articulaciones del cuerpo. Estos trajes tienden a tener un rango de precios de entre $25,000 y $75,000 más un sistema de posicionamiento absoluto externo. Algunos trajes proporcionan retroalimentación de fuerza limitada o entrada háptica .
Los sistemas magnéticos calculan la posición y la orientación mediante el flujo magnético relativo de tres bobinas ortogonales tanto en el transmisor como en cada receptor. [43] La intensidad relativa del voltaje o la corriente de las tres bobinas permite a estos sistemas calcular tanto el alcance como la orientación mediante un mapeo meticuloso del volumen de seguimiento. La salida del sensor es de 6 grados de libertad , lo que proporciona resultados útiles obtenidos con dos tercios del número de marcadores necesarios en los sistemas ópticos; uno en la parte superior del brazo y otro en la parte inferior del brazo para la posición y el ángulo del codo. [ cita requerida ] Los marcadores no están ocluidos por objetos no metálicos, pero son susceptibles a la interferencia magnética y eléctrica de los objetos metálicos del entorno, como las barras de refuerzo (barras de refuerzo de acero en el hormigón) o el cableado, que afectan al campo magnético, y fuentes eléctricas como monitores, luces, cables y computadoras. La respuesta del sensor no es lineal, especialmente hacia los bordes del área de captura. El cableado de los sensores tiende a impedir movimientos de rendimiento extremos. [43] Con los sistemas magnéticos, es posible monitorear los resultados de una sesión de captura de movimiento en tiempo real. [43] Los volúmenes de captura de los sistemas magnéticos son considerablemente menores que los de los sistemas ópticos. En los sistemas magnéticos, existe una distinción entre sistemas de corriente alterna (CA) y sistemas de corriente continua (CC): el sistema de CC utiliza pulsos cuadrados, mientras que los sistemas de CA utilizan pulsos de onda sinusoidal.
Los sensores de estiramiento son condensadores de placas paralelas flexibles que miden el estiramiento, la flexión, el corte o la presión y, por lo general, se producen a partir de silicona. Cuando el sensor se estira o se aprieta, su valor de capacitancia cambia. Estos datos se pueden transmitir a través de Bluetooth o entrada directa y se pueden usar para detectar cambios minúsculos en el movimiento del cuerpo. Los sensores de estiramiento no se ven afectados por la interferencia magnética y están libres de oclusión. La naturaleza estirable de los sensores también significa que no sufren desviaciones posicionales, que son comunes en los sistemas inerciales. Los sensores estirables, por otro lado, debido a las propiedades materiales de sus sustratos y materiales conductores, sufren de una relación señal-ruido relativamente baja , lo que requiere filtrado o aprendizaje automático para que se puedan usar para la captura de movimiento. Estas soluciones dan como resultado una mayor latencia en comparación con los sensores alternativos.
La mayoría de los proveedores de hardware de captura de movimiento tradicionales ofrecen algún tipo de captura facial de baja resolución que utiliza entre 32 y 300 marcadores con un sistema de marcadores activo o pasivo. Todas estas soluciones están limitadas por el tiempo que lleva aplicar los marcadores, calibrar las posiciones y procesar los datos. En última instancia, la tecnología también limita su resolución y los niveles de calidad de salida sin procesar.
La captura de movimiento facial de alta fidelidad, también conocida como captura de rendimiento , es la próxima generación de fidelidad y se utiliza para registrar los movimientos más complejos de un rostro humano con el fin de capturar mayores grados de emoción. La captura facial se está organizando actualmente en varios campos distintos, incluidos los datos de captura de movimiento tradicionales, las soluciones basadas en formas combinadas, la captura de la topología real del rostro de un actor y los sistemas propietarios.
Las dos técnicas principales son sistemas estacionarios con una matriz de cámaras que capturan las expresiones faciales desde múltiples ángulos y utilizan software como el solucionador de malla estéreo de OpenCV para crear una malla de superficie 3D, o también para usar matrices de luz para calcular las normales de la superficie a partir de la variación en el brillo a medida que se modifica la fuente de luz, la posición de la cámara o ambas. Estas técnicas tienden a estar limitadas solo en la resolución de las características por la resolución de la cámara, el tamaño aparente del objeto y la cantidad de cámaras. Si el rostro del usuario es el 50 por ciento del área de trabajo de la cámara y una cámara tiene una resolución de megapíxeles, entonces se pueden detectar movimientos faciales submilimétricos comparando fotogramas. El trabajo reciente se centra en aumentar las velocidades de fotogramas y hacer un flujo óptico para permitir que los movimientos se reorienten a otros rostros generados por computadora, en lugar de simplemente hacer una malla 3D del actor y sus expresiones.
Los sistemas de posicionamiento por radiofrecuencia son cada vez más viables [ cita requerida ] ya que los dispositivos de radiofrecuencia de mayor frecuencia permiten una mayor precisión que las tecnologías más antiguas, como el radar . La velocidad de la luz es de 30 centímetros por nanosegundo (mil millonésima parte de un segundo), por lo que una señal de radiofrecuencia de 10 gigahercios (mil millones de ciclos por segundo) permite una precisión de unos 3 centímetros. Al medir la amplitud a un cuarto de longitud de onda, es posible mejorar la resolución hasta unos 8 mm. Para lograr la resolución de los sistemas ópticos, se necesitan frecuencias de 50 gigahercios o más, que dependen casi tanto de la línea de visión y son tan fáciles de bloquear como los sistemas ópticos. Es probable que la trayectoria múltiple y la re-radiación de la señal causen problemas adicionales, pero estas tecnologías serán ideales para rastrear volúmenes mayores con una precisión razonable, ya que es poco probable que la resolución requerida a distancias de 100 metros sea tan alta. Muchos científicos [ ¿quiénes? ] creen que la radiofrecuencia nunca producirá la precisión requerida para la captura de movimiento.
En 2015, investigadores del Instituto Tecnológico de Massachusetts (MIT) anunciaron que habían creado un sistema que rastrea el movimiento mediante señales de radiofrecuencia. [44]
Se desarrolló un enfoque alternativo en el que se le da al actor un área ilimitada para caminar mediante el uso de una esfera giratoria, similar a una pelota de hámster , que contiene sensores internos que registran los movimientos angulares, eliminando la necesidad de cámaras externas y otros equipos. Si bien esta tecnología podría generar costos mucho más bajos para la captura de movimiento, la esfera básica solo es capaz de registrar una única dirección continua. Se necesitarían sensores adicionales que se usaran en la persona para registrar algo más.
Otra alternativa es utilizar una plataforma de movimiento de 6 grados de libertad (DOF) con una cinta de correr omnidireccional integrada con captura de movimiento óptico de alta resolución para lograr el mismo efecto. La persona capturada puede caminar en un área ilimitada, sorteando diferentes terrenos irregulares. Las aplicaciones incluyen rehabilitación médica para entrenamiento del equilibrio, investigación biomecánica y realidad virtual. [ cita requerida ]
En la estimación de la pose 3D , la pose de un actor se puede reconstruir a partir de una imagen o un mapa de profundidad . [45]