Conversión de 2D a 3D

La conversión de video 2D a 3D (también llamada conversión 2D a 3D estéreo y conversión estéreo ) es el proceso de transformar una película 2D ("plana") a formato 3D , que en casi todos los casos es estéreo , por lo que es el proceso de crear imágenes para cada ojo a partir de una imagen 2D.

Descripción general

La conversión de 2D a 3D añade la señal de profundidad de disparidad binocular a las imágenes digitales percibidas por el cerebro, por lo que, si se realiza correctamente, mejora en gran medida el efecto inmersivo al ver un video estéreo en comparación con un video 2D. Sin embargo, para que tenga éxito, la conversión debe realizarse con suficiente precisión y corrección: la calidad de las imágenes 2D originales no debe deteriorarse y la señal de disparidad introducida no debe contradecir otras señales utilizadas por el cerebro para la percepción de profundidad . Si se realiza de manera correcta y exhaustiva, la conversión produce un video estéreo de calidad similar al video estéreo "nativo" que se graba en estéreo y se ajusta y alinea con precisión en la posproducción. ^[1]

Se pueden definir libremente dos enfoques para la conversión estéreo: conversión semiautomática de calidad para cine y televisión 3D de alta calidad, y conversión automática de baja calidad para televisión 3D barata , VOD y aplicaciones similares.

Re-renderizado de películas animadas por computadora

Las películas animadas por ordenador en 2D realizadas con modelos 3D se pueden volver a renderizar en 3D estereoscópico añadiendo una segunda cámara virtual si los datos originales todavía están disponibles. Técnicamente, esto no es una conversión; por lo tanto, estas películas re-renderizadas tienen la misma calidad que las películas producidas originalmente en 3D estereoscópico. Ejemplos de esta técnica incluyen el relanzamiento de Toy Story y Toy Story 2. Revisar los datos originales de ordenador para las dos películas llevó cuatro meses, así como seis meses adicionales para añadir el 3D. ^[2] Sin embargo, no todas las películas CGI se vuelven a renderizar para el relanzamiento en 3D debido a los costes, el tiempo requerido, la falta de recursos cualificados o la falta de datos informáticos.

Importancia y aplicabilidad

Con el aumento de películas estrenadas en 3D, la conversión de 2D a 3D se ha vuelto más común. La mayoría de los éxitos de taquilla en 3D estéreo que no son CGI se convierten total o parcialmente a partir de material en 2D. Incluso Avatar , notable por su extensa filmación en estéreo, contiene varias escenas filmadas en 2D y convertidas a estéreo en posproducción. ^[3] Las razones para filmar en 2D en lugar de estéreo pueden ser financieras, técnicas y, a veces, artísticas: ^[1]^[4]

El flujo de trabajo de posproducción estéreo es mucho más complejo y no está tan bien establecido como el flujo de trabajo 2D y requiere más trabajo y renderización.
Los equipos estereoscópicos profesionales son mucho más caros y voluminosos que las cámaras monoculares tradicionales. Algunas tomas, en particular las escenas de acción, solo se pueden realizar con cámaras 2D relativamente pequeñas.
Las cámaras estereoscópicas pueden introducir diversos desajustes en la imagen estereoscópica (como paralaje vertical , inclinación, cambio de color, reflejos y destellos en diferentes posiciones) que deberían corregirse en la posproducción de todos modos porque arruinan el efecto 3D. Esta corrección a veces puede tener una complejidad comparable a la conversión estereoscópica.
Las cámaras estereoscópicas pueden revelar efectos prácticos utilizados durante el rodaje. Por ejemplo, algunas escenas de la trilogía cinematográfica de El Señor de los Anillos se filmaron utilizando una perspectiva forzada para permitir que dos actores parecieran tener tamaños físicos diferentes. La misma escena filmada en estéreo revelaría que los actores no estaban a la misma distancia de la cámara.
Por su propia naturaleza, las cámaras estereoscópicas tienen restricciones sobre la distancia a la que se puede situar la cámara respecto del sujeto filmado y, aun así, ofrecer una separación estereoscópica aceptable. Por ejemplo, la forma más sencilla de filmar una escena ambientada en el lateral de un edificio podría ser utilizar una plataforma de cámara situada al otro lado de la calle, sobre un edificio vecino, utilizando un objetivo con zoom. Sin embargo, aunque el objetivo con zoom ofrecería una calidad de imagen aceptable, la separación estereoscópica sería prácticamente nula a esa distancia.

Incluso en el caso de la grabación en estéreo, la conversión puede ser necesaria con frecuencia. Además de las escenas difíciles de grabar, puede haber desajustes en las vistas estéreo que son demasiado grandes para ajustarlas, y es más sencillo realizar una conversión de 2D a estéreo, tratando una de las vistas estéreo como la fuente 2D original.

Problemas generales

Sin tener en cuenta algoritmos particulares, todos los flujos de trabajo de conversión deberían resolver las siguientes tareas: ^[4]^[5]

Asignación de "presupuesto de profundidad" : definición del rango de disparidad o profundidad permitido, qué valor de profundidad corresponde a la posición de la pantalla (la llamada posición del "punto de convergencia"), los rangos de distancia permitidos para efectos fuera de la pantalla y objetos de fondo detrás de la pantalla. Si un objeto en par estéreo está exactamente en el mismo lugar para ambos ojos, entonces aparecerá en la superficie de la pantalla y tendrá una paralaje cero. Se dice que los objetos frente a la pantalla tienen una paralaje negativa y las imágenes de fondo detrás de la pantalla tienen una paralaje positiva. Existen los desplazamientos negativos o positivos correspondientes en las posiciones de los objetos para las imágenes del ojo izquierdo y derecho.
Control de la disparidad cómoda según el tipo de escena y el movimiento: demasiada paralaje o señales de profundidad conflictivas pueden causar fatiga visual y náuseas
Relleno de áreas no cubiertas : las imágenes de la vista izquierda o derecha muestran una escena desde un ángulo diferente y partes de objetos u objetos completos cubiertos por el primer plano en la imagen 2D original deben hacerse visibles en un par estereoscópico. A veces, las superficies del fondo son conocidas o pueden estimarse, por lo que deben usarse para rellenar áreas no cubiertas. De lo contrario, las áreas desconocidas deben ser rellenadas por un artista o pintadas a mano , ya que no es posible la reconstrucción exacta.

Los métodos de conversión de alta calidad también deberían abordar muchos problemas típicos, entre ellos:

Objetos translúcidos
Reflexiones
Bordes de objetos semitransparentes difusos, como cabello, pelaje, objetos desenfocados en primer plano, objetos delgados
Granulado de película (real o artificial) y efectos de ruido similares
Escenas con movimientos rápidos y erráticos
Partículas pequeñas: lluvia, nieve, explosiones, etc.

Conversión semiautomática de calidad

Conversión basada en profundidad

La mayoría de los métodos semiautomáticos de conversión estéreo utilizan mapas de profundidad y renderizado basado en imágenes de profundidad. ^[4]^[5]

La idea es que se cree una imagen auxiliar separada, conocida como " mapa de profundidad ", para cada cuadro o para una serie de cuadros homogéneos para indicar las profundidades de los objetos presentes en la escena. El mapa de profundidad es una imagen en escala de grises separada que tiene las mismas dimensiones que la imagen 2D original, con varios tonos de gris para indicar la profundidad de cada parte del cuadro. Si bien el mapeo de profundidad puede producir una ilusión bastante potente de objetos 3D en el video, inherentemente no admite objetos o áreas semitransparentes, ni representa superficies ocluidas; para enfatizar esta limitación, las representaciones 3D basadas en la profundidad a menudo se denominan explícitamente 2.5D . ^[6]^[7] Estos y otros problemas similares deben abordarse mediante un método separado. ^[6]^[8]^[9]

Los pasos principales de los métodos de conversión basados en la profundidad son:

Asignación de presupuesto de profundidad: cuánta profundidad total tendrá la escena y dónde estará el plano de la pantalla.
Segmentación de imágenes , creación de mates o máscaras, generalmente mediante rotoscopia . Se debe aislar cada superficie importante. El nivel de detalle depende de la calidad de conversión requerida y del presupuesto.
Creación de mapas de profundidad. A cada superficie aislada se le debe asignar un mapa de profundidad. Los mapas de profundidad separados se deben combinar para formar un mapa de profundidad de la escena. Este es un proceso iterativo que requiere el ajuste de objetos, formas, profundidad y visualización de resultados intermedios en estéreo. El microrelieve de profundidad, la forma 3D, se agrega a las superficies más importantes para evitar el efecto "cartón" cuando las imágenes estéreo parecen una combinación de imágenes planas configuradas a diferentes profundidades.
Generación estereoscópica basada en 2D+Profundidad con cualquier información suplementaria como placas limpias, fondo restaurado, mapas de transparencia, etc. Cuando el proceso se haya completado, se habrá creado una imagen izquierda y derecha. Por lo general, la imagen 2D original se trata como la imagen central, de modo que se generan dos vistas estereoscópicas. Sin embargo, algunos métodos proponen utilizar la imagen original como la imagen de un ojo y generar solo la imagen del otro ojo para minimizar el costo de conversión. ^[4] Durante la generación estereoscópica, los píxeles de la imagen original se desplazan hacia la izquierda o hacia la derecha según el mapa de profundidad, el paralaje máximo seleccionado y la posición de la superficie de la pantalla.
Reconstrucción y pintado de cualquier zona no cubierta y no rellenada por el generador estéreo.

El estéreo se puede presentar en cualquier formato para fines de vista previa, incluido el anaglifo .

Los pasos que requieren mucho tiempo son la segmentación de imágenes/rotoscopia, la creación de mapas de profundidad y el relleno de áreas no cubiertas. Este último paso es especialmente importante para lograr una conversión de la más alta calidad.

Existen diversas técnicas de automatización para la creación de mapas de profundidad y la reconstrucción del fondo. Por ejemplo, se puede utilizar la estimación automática de profundidad para generar mapas de profundidad iniciales para determinados fotogramas y tomas. ^[11]

Las personas que se dedican a este tipo de trabajo pueden ser llamadas artistas de la profundidad. ^[12]

Multicapa

El uso de múltiples capas, un desarrollo del mapeo de profundidad, soluciona las limitaciones del mapeo de profundidad al introducir varias capas de máscaras de profundidad en escala de grises para implementar una semitransparencia limitada. De manera similar a una técnica simple, ^[13] el uso de múltiples capas implica aplicar un mapa de profundidad a más de una "porción" de la imagen plana, lo que da como resultado una aproximación mucho mejor de la profundidad y la protuberancia. Cuantas más capas se procesen por separado por fotograma, mayor será la calidad de la ilusión 3D.

Otros enfoques

La reconstrucción y reproyección en 3D se puede utilizar para la conversión estereoscópica. Implica la creación de un modelo 3D de la escena, la extracción de superficies de imágenes originales como texturas para objetos 3D y, finalmente, la renderización de la escena 3D desde dos cámaras virtuales para obtener un video estereoscópico. El enfoque funciona bastante bien en el caso de escenas con objetos rígidos estáticos como tomas urbanas con edificios o tomas de interiores, pero presenta problemas con cuerpos no rígidos y bordes difusos y suaves. ^[3]

Otro método consiste en configurar las cámaras virtuales izquierda y derecha, ambas separadas de la cámara original, pero dividiendo la diferencia de separación, y luego pintar los bordes de oclusión de los objetos y personajes aislados. Básicamente, se trata de pintar con un pincel limpio varios elementos del fondo, el plano medio y el primer plano.

La disparidad binocular también se puede derivar de la geometría simple. ^[14]

Conversión automática

Profundidad del movimiento

Es posible estimar automáticamente la profundidad utilizando diferentes tipos de movimiento. En caso de movimiento de la cámara, se puede calcular un mapa de profundidad de toda la escena. Además, se puede detectar el movimiento de objetos y se pueden asignar a las áreas en movimiento valores de profundidad menores que el fondo. Las oclusiones brindan información sobre la posición relativa de las superficies en movimiento. ^[15]^[16]

Profundidad desde el foco

Los enfoques de este tipo también se denominan "profundidad a partir del desenfoque" y "profundidad a partir del desenfoque". ^[15]^[17] En los enfoques de "profundidad a partir del desenfoque" (DFD), la información de profundidad se estima en función de la cantidad de desenfoque del objeto considerado, mientras que los enfoques de "profundidad a partir del enfoque" (DFF) tienden a comparar la nitidez de un objeto en un rango de imágenes tomadas con diferentes distancias de enfoque para averiguar su distancia a la cámara. DFD solo necesita dos o tres con diferentes enfoques para funcionar correctamente, mientras que DFF necesita al menos de 10 a 15 imágenes, pero es más preciso que el método anterior.

Si se detecta el cielo en la imagen procesada, también se puede tener en cuenta que los objetos más distantes, además de estar borrosos, deberían estar más desaturados y más azulados debido a una gruesa capa de aire. ^[17]

Profundidad desde la perspectiva

La idea del método se basa en el hecho de que las líneas paralelas, como las vías del tren y los bordes de las carreteras, parecen converger con la distancia y finalmente alcanzan un punto de fuga en el horizonte. Al encontrar este punto de fuga se obtiene el punto más lejano de toda la imagen. ^[15]^[17]

Cuanto más convergen las líneas, más lejanas parecen estar. Por lo tanto, para el mapa de profundidad, el área entre dos líneas de fuga vecinas se puede aproximar con un plano de gradiente.

Artefactos de conversión

El efecto cartón es un fenómeno en el que los objetos 3D ubicados a diferentes profundidades aparecen planos para el público, como si estuvieran hechos de cartón, mientras que se conserva la profundidad relativa entre los objetos.
Desajuste de nitidez de los bordes : este artefacto puede aparecer debido a un mapa de profundidad borroso en los límites de los objetos. El borde se vuelve preciso en una vista y borroso en otra. El artefacto de desajuste de nitidez de los bordes generalmente se debe a lo siguiente:
- Uso de una técnica de “lámina de goma”, definida como la deformación de los píxeles que rodean las regiones de oclusión para evitar el relleno explícito de la oclusión. En tales casos, los bordes del mapa de desplazamiento se difuminan y la transición entre las regiones de primer plano y de fondo se suaviza. La región ocupada por el desenfoque de borde/movimiento se “estira” o “se esconde”, según la dirección del desplazamiento del objeto. Naturalmente, este enfoque conduce a desajustes en la nitidez de los bordes entre las vistas.
- Falta de tratamiento adecuado de los bordes semitransparentes, lo que puede provocar que se dupliquen o aparezcan imágenes fantasma.
- Técnicas simples de relleno de oclusión que provocan el estiramiento de los artefactos cerca de los bordes de los objetos.

Pegado a objetos de fondo : este error de "pegar" objetos de primer plano al fondo

Métricas de calidad 3D

PQM

PQM ^[18] imita al HVS ya que los resultados obtenidos se alinean muy de cerca con el puntaje de opinión promedio (MOS) obtenido a partir de pruebas subjetivas. PQM cuantifica la distorsión en la luminancia y la distorsión de contraste utilizando una aproximación (varianzas) ponderada por la media de cada bloque de píxeles para obtener la distorsión en una imagen. Esta distorsión se resta de 1 para obtener el puntaje de calidad objetivo.

HV3D

La métrica de calidad HV3D ^[19] se ha diseñado teniendo en cuenta la percepción visual 3D humana. Tiene en cuenta la calidad de las vistas individuales derecha e izquierda, la calidad de la vista ciclópea (la fusión de las vistas derecha e izquierda, lo que percibe el espectador), así como la calidad de la información de profundidad.

VQMT3D

El proyecto VQMT3D ^[20] incluye varias métricas desarrolladas para evaluar la calidad de la conversión de 2D a 3D basada en el efecto cartón, la falta de coincidencia de la nitidez de los bordes, los objetos pegados al fondo y la comparación con la versión 2D.

Véase también

Autoestereoscopia
Diafonía (electrónica)
3D digital
Coloración de películas : muchos de los problemas relacionados con la conversión 3D, como la identificación/reconocimiento de los bordes de los objetos, también se encuentran en la coloración.
Leyenda 3D
Listas de películas en 3D
Videojuego estereoscópico : muchos videojuegos S-3D en realidad no renderizan dos imágenes, sino que también emplean técnicas de conversión de renderizado de profundidad + 2D
Estructura a partir del movimiento
2D más profundidad
Pantalla 3D
Reconstrucción 3D a partir de múltiples imágenes

Referencias

^ de Barry Sandrew. "La conversión 2D-3D puede ser mejor que el 3D nativo"
^ Murphy, Mekado (1 de octubre de 2009). «Buzz y Woody añaden una dimensión». The New York Times . Consultado el 18 de febrero de 2010 .
^ ab Seymour, Mike (8 de mayo de 2012). "El arte de la conversión estéreo: de 2D a 3D – 2012". fxguide . Consultado el 11 de julio de 2024 .
^ abcd Scott Squires. Conversiones de 2D a 3D
^ de Jon Karafin. Conversión de 2D a 3D de última generación y efectos visuales estéreo Archivado el 26 de abril de 2012 en la Wayback Machine International 3D Society University. Presentación del evento 3DU-Japan del 21 de octubre de 2011 en Tokio.
^ ab Wu, Jiajun; et al. (2017). MarrNet: reconstrucción de formas 3D mediante bocetos 2.5D (PDF) . Conferencia sobre sistemas de procesamiento de información neuronal (NeurIPS). págs. 540–550.
^ Tateno, Keisuke; et al. (2016). Cuando 2.5D no es suficiente: reconstrucción, segmentación y reconocimiento simultáneos en SLAM denso (PDF) . IEEE International Conference on Robotics and Automation (ICRA). págs. 2295–2302.
^ Rock, Jason; et al. (2015). Completar la forma de un objeto 3D a partir de una imagen de profundidad (PDF) . Conferencia IEEE sobre visión artificial y reconocimiento de patrones (CVPR). págs. 2484–2493.
^ Shin, Daeyun; et al. (2019). Reconstrucción de escenas 3D con profundidad multicapa y transformadores epipolares (PDF) . IEEE International Conference on Computer Vision (ICCV). págs. 2172–2182.
^ "Soltani, AA, Huang, H., Wu, J., Kulkarni, TD y Tenenbaum, JB. Síntesis de formas 3D mediante el modelado de siluetas y mapas de profundidad de múltiples vistas con redes generativas profundas. En Actas de la Conferencia IEEE sobre visión artificial y reconocimiento de patrones (pp. 1511-1519)". GitHub . 2019-07-11.
^ YUVsoft. Proceso de conversión de 2D a 3D estéreo
^ Mike Eisenberg (31 de octubre de 2011). "Entrevista con el artista 3D Adam Hlavac". Screen Rant . Consultado el 28 de diciembre de 2015 .
^ Cutler, James. "Cómo enmascarar varias capas en Adobe Photoshop". Archivado desde el original el 18 de enero de 2012.
^ Convertir una imagen 2D en una impresión lenticular 3D
^ abc Dr. Lai-Man Po. Técnicas automáticas de conversión de vídeo 2D a 3D para televisión 3D Departamento de Ingeniería Electrónica, Universidad de la Ciudad de Hong Kong . 13 de abril de 2010
^ Muestra de conversión automática de 2D a 2D más profundidad para una escena de movimiento de cámara
^ abc Qingqing We. "Conversión de 2D a 3D: un estudio" (PDF) . Facultad de Ingeniería Eléctrica, Matemáticas y Ciencias de la Computación, Universidad Tecnológica de Delft. Archivado desde el original (PDF) el 15 de abril de 2012.
^ Joveluro, P.; Malekmohamadi, H.; Fernando, WA C; Kondoz, AM (2010). "Métrica de calidad de video perceptual para la evaluación de la calidad de video 3D". Conferencia 3DTV de 2010: La verdadera visión: captura, transmisión y visualización de video 3D . IEEE. págs. 1–4. doi :10.1109/3dtv.2010.5506331. ISBN . 978-1-4244-6377-0.
^ Banitalebi-Dehkordi, Amin; Pourazad, Mahsa T.; Nasiopoulos, Panos (2013). "Métrica de calidad de vídeo 3D para compresión de vídeo 3D". Ivmsp 2013 . IEEE. págs. 1–4. arXiv : 1803.04629 . doi :10.1109/ivmspw.2013.6611930. ISBN 978-1-4673-5858-3.
^ VQMT3D

Fuentes

Mansi Sharma; Santanu Chaudhury; Brejesh Lall (2014). Kinect-Variety Fusion: un nuevo enfoque híbrido para la generación de contenido de televisión en 3D sin artefactos . En la 22.ª Conferencia Internacional sobre Reconocimiento de Patrones (ICPR), Estocolmo, 2014. doi :10.1109/ICPR.2014.395.