La captura volumétrica o el video volumétrico es una técnica que captura un espacio tridimensional, como una ubicación o una actuación. [1] Este tipo de volumetría adquiere datos que se pueden ver en pantallas planas, así como mediante pantallas 3D y gafas de realidad virtual . Los formatos orientados al consumidor son numerosos y las técnicas de captura de movimiento requeridas se apoyan en gráficos de computadora , fotogrametría y otros métodos basados en computación. El espectador generalmente experimenta el resultado en un motor en tiempo real y tiene participación directa en la exploración del volumen generado.
La grabación de talentos sin la limitación de una pantalla plana ha sido un tema recurrente en la ciencia ficción durante mucho tiempo. Los hologramas y las imágenes tridimensionales del mundo real han sido protagonistas en Star Wars , Blade Runner y muchas otras producciones de ciencia ficción a lo largo de los años. Gracias a los avances en los campos de los gráficos por ordenador, la óptica y el procesamiento de datos, esta ficción ha ido evolucionando lentamente hasta convertirse en realidad. El vídeo volumétrico es el siguiente paso lógico después de las películas estereoscópicas y los vídeos de 360°, ya que combina la calidad visual de la fotografía con la inmersión y la interactividad del contenido espacializado y podría resultar el desarrollo más importante en la grabación de la actuación humana desde la creación del cine contemporáneo.
La creación de modelos 3D a partir de vídeos, fotografías y otras formas de medir el mundo siempre ha sido un tema importante en el campo de los gráficos por ordenador . El objetivo final es imitar la realidad con todo lujo de detalles y, al mismo tiempo, dar a los creativos el poder de construir mundos sobre esta base que se ajusten a su visión. Tradicionalmente, los artistas crean estos mundos utilizando técnicas de modelado y renderizado desarrolladas a lo largo de décadas desde el nacimiento de los gráficos por ordenador. Los efectos visuales en películas y videojuegos allanaron el camino para los avances en fotogrametría , dispositivos de escaneo y el backend computacional para manejar los datos recibidos de estos nuevos métodos intensivos. En general, estos avances han surgido como resultado de la creación de imágenes más avanzadas para el entretenimiento y los medios, pero no han sido el objetivo del campo en sí.
El escaneo LIDAR describe un método de estudio que utiliza puntos muestreados con láser densamente empaquetados para escanear objetos estáticos en una nube de puntos. Esto requiere escáneres físicos y produce enormes cantidades de datos. En 2007, la banda Radiohead lo utilizó ampliamente para crear un video musical para "House of Cards", capturando interpretaciones en nubes de puntos del rostro del cantante y de entornos seleccionados en uno de los primeros usos de esta tecnología para la captura volumétrica. El director James Frost colaboró con el artista multimedia Aaron Koblin para capturar nubes de puntos 3D utilizadas para este clip musical, y si bien el resultado final de este trabajo todavía era una representación plana renderizada de los datos, la captura y la mentalidad de los autores ya estaban adelantadas a su tiempo. Las nubes de puntos , al ser muestras distintas del espacio tridimensional con posición y color, crean una representación de alta fidelidad del mundo real con una gran cantidad de datos. Sin embargo, ver estos datos en tiempo real aún no era posible.
En 2010, Microsoft lanzó al mercado Kinect , un producto de consumo que utilizaba luz estructurada en el espectro infrarrojo para generar una malla 3D a partir de su cámara. Si bien la intención era facilitar e innovar en la entrada de datos del usuario y la jugabilidad, rápidamente se adaptó como un dispositivo de captura genérico para datos 3D en la comunidad de captura volumétrica. Al proyectar un patrón conocido en el espacio y capturar la distorsión de los objetos en la escena, la captura resultante se puede calcular en diferentes salidas. Los artistas y aficionados comenzaron a crear herramientas y proyectos en torno a este dispositivo asequible, lo que despertó un creciente interés en la captura volumétrica como medio creativo.
Los investigadores de Microsoft construyeron una etapa de captura completa utilizando múltiples cámaras, dispositivos Kinect y algoritmos que generaron una captura volumétrica completa a partir de la información óptica y de profundidad combinada. Esto es ahora Microsoft Mixed Reality Capture Studio, utilizado hoy como parte de su división de investigación y en ciertas experiencias comerciales seleccionadas, como la experiencia de realidad virtual Blade Runner 2049. Actualmente hay tres estudios en funcionamiento: Redmond, WA; San Francisco, CA; y Londres, Inglaterra. Si bien esto sigue siendo una configuración muy interesante para el mercado de alta gama, el precio asequible de un solo dispositivo Kinect llevó a más artistas experimentales y directores independientes a volverse activos en el campo de la captura volumétrica. [2] Dos resultados de esta actividad son Depthkit y EF EVE™. EF EVE™ admite una cantidad ilimitada de sensores Azure Kinect en una PC, lo que brinda una captura volumétrica completa con una configuración sencilla. También tiene calibración automática de sensores y funcionalidad VFX. Depthkit es un paquete de software que permite la captura de datos de geometría con un sensor de luz estructurado que incluye Azure Kinect, [3] así como detalles de color de alta calidad desde una cámara testigo adjunta.
La fotogrametría describe el proceso de medición de datos basándose en una referencia fotográfica. Si bien es tan antigua como la fotografía misma, solo a través de los avances a lo largo de los años en la investigación de captura volumétrica ahora se ha vuelto posible capturar cada vez más detalles de geometría y textura a partir de una gran cantidad de imágenes de entrada. El resultado generalmente se divide en dos fuentes compuestas, geometría estática y captura de rendimiento completo. Para la geometría estática, los conjuntos que se capturan con una gran cantidad de imágenes digitales superpuestas se alinean entre sí utilizando características similares en las imágenes y se usan como base para la triangulación y la estimación de profundidad. Esta información se interpreta como geometría 3D , lo que da como resultado una réplica casi perfecta del conjunto. La captura de rendimiento completo, sin embargo, utiliza una matriz de cámaras de video para capturar información en tiempo real. Luego, esas cámaras sincronizadas se utilizan cuadro por cuadro para generar un conjunto de puntos o geometría que se puede reproducir a gran velocidad, lo que da como resultado la captura de rendimiento volumétrico completo que se puede componer en cualquier entorno. En 2008, 4DViews [4] instaló un primer sistema de captura de video volumétrico en el estudio DigiCast en Tokio (JP). Más tarde, en 2015, 8i contribuyó en este campo y recientemente Intel, Microsoft [5] y Samsung [6] se han sumado creando sus propias etapas de captura para captura de rendimiento y fotogrametría.
A medida que el video volumétrico se convirtió en un enfoque comercialmente aplicable para la captura de entornos y rendimiento, la capacidad de moverse por los resultados con seis grados de libertad y una estereoscopía real requirió un nuevo tipo de dispositivo de visualización. Con el auge de la realidad virtual orientada al consumidor en 2016 a través de dispositivos como Oculus Rift y HTC Vive , esto fue posible de repente. La visualización estereoscópica y la capacidad de rotar y mover la cabeza, así como de moverse en un espacio pequeño, permiten la inmersión en entornos mucho más allá de lo que era posible en el pasado. La naturaleza fotográfica de las capturas combinada con esta inmersión y la interactividad resultante es un paso gigante más cerca de ser el santo grial de la verdadera realidad virtual. Con el auge del contenido de video de 360°, la demanda de captura de 6 grados de libertad está aumentando, y la realidad virtual en particular impulsa las aplicaciones de esta tecnología, fusionando lentamente el cine, los juegos y el arte con el campo de la investigación de captura volumétrica.
Los campos de luz describen en un punto de muestra determinado la luz entrante desde todas las direcciones. Esto se utiliza después en el posprocesamiento para generar efectos como la profundidad de campo y permitir al usuario mover ligeramente la cabeza. Desde 2006, Lytro está creando cámaras orientadas al consumidor que permiten la captura de campos de luz. Los campos se pueden capturar de adentro hacia afuera en la cámara o de afuera hacia adentro a partir de representaciones de geometría 3D, lo que representa una enorme cantidad de información lista para ser manipulada. Actualmente, las velocidades de datos siguen siendo un gran problema y la técnica tiene un gran potencial para el futuro, ya que toma muestras de luz y muestra el resultado de diversas formas.
Otro subproducto de esta técnica es un mapa de profundidad de la escena razonablemente preciso, lo que significa que cada píxel tiene información sobre su distancia a la cámara. Facebook está utilizando esta idea en su familia de cámaras Surround360 para capturar secuencias de vídeo de 360° que se unen con la ayuda de mapas de distancia. La extracción de estos datos sin procesar es posible y permite una captura de alta resolución de cualquier etapa. Una vez más, las velocidades de datos combinadas con la fidelidad de los mapas de profundidad son enormes cuellos de botella, pero pronto se superarán con técnicas de estimación de profundidad más avanzadas, compresión y campos de luz paramétricos.
Actualmente, existen distintos flujos de trabajo para generar videos volumétricos. No son excluyentes entre sí y se utilizan de manera eficaz en combinación. A continuación, se muestran algunos ejemplos de algunos de ellos:
Este enfoque genera una malla de triángulos 3D más tradicional , similar a la geometría utilizada para los juegos de computadora y los efectos visuales. El volumen de datos suele ser menor, pero la cuantificación de los datos del mundo real en datos de menor resolución limita la resolución y la fidelidad visual. Por lo general, se realizan compensaciones entre la densidad de la malla y el rendimiento de la experiencia final.
La fotogrametría se utiliza generalmente como base para las mallas estáticas y luego se complementa con la captura de la actuación del talento a través de la misma tecnología subyacente de la videogrametría . Se requiere una limpieza intensa para crear el conjunto final de triángulos. Para extenderse más allá del mundo físico, se pueden implementar técnicas de CG para mejorar aún más los datos capturados, empleando artistas para construir sobre y dentro de la malla estática según sea necesario. La reproducción generalmente se maneja mediante un motor en tiempo real y se asemeja a una secuencia de juegos tradicional en su implementación, lo que permite cambios de iluminación interactivos y formas creativas y archivables de componer mallas estáticas y animadas juntas.
Recientemente, la atención se ha desplazado hacia la captura volumétrica basada en puntos . Los datos resultantes se representan como puntos o partículas en un espacio 3D que llevan consigo atributos como el color y el tamaño de los puntos. Esto permite una mayor densidad de información y un contenido de mayor resolución. Las velocidades de datos requeridas son grandes y el hardware gráfico actual no está optimizado para renderizar esto, ya que está optimizado para una canalización de renderizado basada en malla.
La principal ventaja de los puntos es el potencial de una mayor resolución espacial. Los puntos pueden estar dispersos en mallas triangulares con iluminación precalculada o usarse directamente desde un escáner LIDAR. [7] El desempeño del talento se captura de la misma manera que con el enfoque basado en malla, pero se puede utilizar más tiempo y potencia computacional en el momento de la producción para mejorar aún más los datos. En la reproducción, se puede utilizar el "nivel de detalle" para administrar la carga computacional en el dispositivo de reproducción, aumentando o disminuyendo la cantidad de polígonos. [8] Los cambios de luz interactivos son más difíciles de realizar ya que la mayor parte de los datos están prefabricados. Esto significa que, si bien la información de iluminación almacenada con los puntos es muy precisa y de alta fidelidad, carece de la capacidad de cambiar fácilmente en cualquier situación dada. Otro beneficio de la captura de puntos es que los gráficos de computadora se pueden renderizar con muy alta calidad y también almacenar como puntos, lo que abre la puerta a una combinación perfecta de elementos reales e imaginarios.
Después de capturar y generar los datos, la edición y la composición se realizan dentro de un motor en tiempo real, conectando las acciones grabadas para contar la historia deseada. El producto final puede verse como una representación plana de los datos capturados o de forma interactiva en un casco de realidad virtual .
Si bien un objetivo del enfoque basado en puntos para la captura volumétrica es transmitir datos puntuales desde la nube al usuario en su hogar, lo que permite la creación y difusión de mundos virtuales realistas a pedido, un segundo objetivo considerado más recientemente sería un flujo de datos en tiempo real de eventos en vivo. Esto requiere un ancho de banda muy alto, ya que la información de píxeles incluye datos de profundidad (es decir, se convierten en vóxeles).
Con una comprensión general de la tecnología en mente, este capítulo describirá los avances en el horizonte para el entretenimiento y otras industrias, así como el potencial que tiene esta tecnología para cambiar el panorama de los medios.
A medida que el vídeo volumétrico evoluciona hacia la captura global y el hardware de visualización evoluciona para adaptarse a ella, entraremos en una era de verdadera inmersión en la que los matices del entorno capturado combinados con los de las actuaciones capturadas transmitirán emotividad en un medio completamente nuevo, difuminando los límites entre los mundos real y virtual. Este avance revolucionario en el mundo de los trucos sensoriales provocará una evolución en la forma en que consumimos medios, y aunque las tecnologías para otros sentidos, como el olfato, el olfato y la propiocepción, todavía están en fase de investigación y desarrollo, un día en un futuro no muy lejano viajaremos de manera convincente a nuevos lugares, tanto reales como imaginarios. Las industrias del turismo y el periodismo encontrarán nueva vida en la capacidad de transportar a un espectador o visitante de forma segura a un lugar, mientras que otras, como la visualización arquitectónica y la ingeniería civil, encontrarán formas de construir estructuras y ciudades enteras y explorarlas sin necesidad de un solo golpe de martillo.
Una vez que se crea y se guarda una captura, se puede reutilizar e incluso posiblemente reutilizar hasta la saciedad para circunstancias que van más allá del alcance previsto inicialmente. La creación de un set virtual permite a los videógrafos y directores de fotografía volumétricos crear historias y planificar tomas sin necesidad de un equipo o incluso estar presentes en el set físico en sí, y una visualización adecuada puede ayudar a un actor o intérprete a bloquear una escena o acción con la tranquilidad de que su práctica no se realiza a expensas del resto de la producción. Los sets antiguos se pueden capturar digitalmente antes de desmantelarlos, lo que les permite persistir eternamente como un lugar para volver a visitar y explorar en busca de entretenimiento e inspiración, y se pueden modificar varios sets de tal manera que se ajusten los ciclos de iteración del diseño de sets, el diseño de sonido, el color y muchos otros aspectos de la producción.
Un área de preocupación en el creciente campo de la captura volumétrica es la disminución de la demanda de habilidades tradicionales como modelado, iluminación, animación, etc. Sin embargo, mientras que en el futuro la pila de tecnologías de captura volumétrica orientadas a la producción crecerá y crecerá, también lo hará la demanda de habilidades tradicionales. [ cita requerida ]
La captura volumétrica es excelente para capturar datos estáticos o secuencias animadas pre-renderizadas. Sin embargo, no puede crear un entorno imaginario ni permitir de forma nativa ningún nivel de interactividad. Aquí es donde los artistas y desarrolladores expertos tendrán mayor demanda, creando eventos y activos interactivos sin fisuras para complementar los datos geométricos existentes, o utilizando los datos existentes como base sobre la cual construir, de manera similar a cómo un pintor digital podría pintar sobre una representación 3D básica. La responsabilidad recaerá en el artesano para asegurarse de que se mantenga al día con las herramientas y los flujos de trabajo que mejor se adapten a sus habilidades, pero los prudentes descubrirán que el proceso de producción del futuro implicará muchas oportunidades para agilizar la creación de trabajos que requieren mucha mano de obra y permitir la inversión en desafíos creativos más grandes.
Lo más importante es que las habilidades que hoy en día se han vuelto semi-obsoletas debido a los avances en gráficos por computadora y renderizado fuera de línea volverán a ser relevantes, ya que la fidelidad de elementos como escenarios reales hechos a mano y vestuario de calidad a medida renderizados como capturas de gran volumen casi siempre serán mucho más inmersivas que cualquier cosa completamente generada por computadora. Al combinar estas capturas de escenarios de la vida real con las capturas volumétricas de elementos generados por computadora adicionales, podremos combinar la vida real y nuestra imaginación de una manera que solo hemos podido hacer anteriormente en una pantalla plana, creando nuevos campos en áreas como la composición y los efectos visuales.
El proceso de captura y creación de datos volumétricos está lleno de desafíos y problemas sin resolver. Es el siguiente paso en la cinematografía y trae consigo cuestiones que se irán resolviendo con el tiempo.
Como cada medio crea su propio lenguaje visual, sus propias reglas y sus propios enfoques creativos, el vídeo volumétrico todavía está en pañales. Esto es comparable a la incorporación del sonido a las imágenes en movimiento. Se tuvieron que crear y probar nuevas filosofías de diseño. Actualmente, el lenguaje del cine, el arte de la dirección, se ha curtido en batallas durante más de 100 años. En un mundo interactivo y no lineal con seis grados de libertad, muchos de los enfoques tradicionales no pueden funcionar. Cuantas más experiencias se creen y analicen, más rápido podrá la comunidad llegar a una conclusión sobre este lenguaje de experiencias.
Los procesos actuales de producción de películas y videos no están listos para la transición inmediata a la producción volumétrica. Cada paso del proceso de realización de películas debe repensarse y reinventarse. La captura en el set, la dirección de talentos en el set, la edición, la fotografía, la narración de historias y mucho más son todos campos que necesitan dedicar tiempo para adaptarse a los flujos de trabajo volumétricos. Actualmente, cada producción utiliza una variedad de tecnologías y también prueba las reglas de participación.
Para almacenar y reproducir los datos capturados, es necesario transmitir enormes cantidades de datos al consumidor. Actualmente, la forma más eficaz es crear aplicaciones a medida que se distribuyen. Aún no existe un estándar que genere vídeo volumétrico y lo haga posible en casa. La compresión de estos datos está empezando a estar disponible gracias al Moving Picture Experts Group, que busca una forma razonable de transmitirlos. Esto permitiría distribuir y trabajar de forma más eficiente en proyectos inmersivos verdaderamente interactivos, pero es necesario resolverlo antes de que el medio se convierta en algo habitual.
Además de su aplicación en el mundo del entretenimiento, otras industrias han mostrado interés en la captura de escenas con el nivel de detalle descrito anteriormente. Los eventos deportivos se beneficiarían enormemente de una repetición detallada del estado de un partido. Esto ya está sucediendo en el fútbol americano y el béisbol, así como en el fútbol británico. [9] Esas repeticiones de 360 grados permitirán a los espectadores del futuro analizar un partido desde múltiples perspectivas.
Documentar espacios para eventos históricos, capturados en vivo o recreados, beneficiará enormemente al sector educativo. Las conferencias virtuales que representan grandes eventos de la historia con un componente inmersivo ayudarán a las generaciones futuras a imaginar espacios y aprender de manera colaborativa sobre los eventos. Esto se puede abstraer y utilizar para visualizar escenarios a escala micro a nivel celular, así como eventos épicos que cambiaron el curso de la experiencia humana. La principal ventaja de las visitas de campo virtuales es la democratización de los escenarios educativos de alto nivel. Poder participar en una visita a un museo sin tener que estar físicamente allí permite una audiencia más amplia y también permite a las instituciones mostrar todo su inventario en lugar de la subsección que se exhibe actualmente.
El sector inmobiliario y turístico podría previsualizar con precisión los destinos y hacer que el sector minorista sea mucho más personalizado para cada individuo. Ya se ha hecho la captura de productos para zapatos y se pueden utilizar espejos mágicos en las tiendas para visualizarlos. Los centros comerciales han comenzado a adoptar esta práctica para repoblarlos atrayendo a los clientes con salas de juegos de realidad virtual y presentando la mercancía de forma virtual.