stringtranslate.com

Conversión de 2D a 3D

La conversión de video 2D a 3D (también llamada conversión 2D a 3D estéreo y conversión estéreo ) es el proceso de transformar una película 2D ("plana") a formato 3D , que en casi todos los casos es estéreo , por lo que es el proceso de crear imágenes para cada ojo a partir de una imagen 2D.

Descripción general

La conversión de 2D a 3D añade la señal de profundidad de disparidad binocular a las imágenes digitales percibidas por el cerebro, por lo que, si se realiza correctamente, mejora en gran medida el efecto inmersivo al ver un video estéreo en comparación con un video 2D. Sin embargo, para que tenga éxito, la conversión debe realizarse con suficiente precisión y corrección: la calidad de las imágenes 2D originales no debe deteriorarse y la señal de disparidad introducida no debe contradecir otras señales utilizadas por el cerebro para la percepción de profundidad . Si se realiza de manera correcta y exhaustiva, la conversión produce un video estéreo de calidad similar al video estéreo "nativo" que se graba en estéreo y se ajusta y alinea con precisión en la posproducción. [1]

Se pueden definir libremente dos enfoques para la conversión estéreo: conversión semiautomática de calidad para cine y televisión 3D de alta calidad, y conversión automática de baja calidad para televisión 3D barata , VOD y aplicaciones similares.

Re-renderizado de películas animadas por computadora

Las películas animadas por ordenador en 2D realizadas con modelos 3D se pueden volver a renderizar en 3D estereoscópico añadiendo una segunda cámara virtual si los datos originales todavía están disponibles. Técnicamente, esto no es una conversión; por lo tanto, estas películas re-renderizadas tienen la misma calidad que las películas producidas originalmente en 3D estereoscópico. Ejemplos de esta técnica incluyen el relanzamiento de Toy Story y Toy Story 2. Revisar los datos originales de ordenador para las dos películas llevó cuatro meses, así como seis meses adicionales para añadir el 3D. [2] Sin embargo, no todas las películas CGI se vuelven a renderizar para el relanzamiento en 3D debido a los costes, el tiempo requerido, la falta de recursos cualificados o la falta de datos informáticos.

Importancia y aplicabilidad

Con el aumento de películas estrenadas en 3D, la conversión de 2D a 3D se ha vuelto más común. La mayoría de los éxitos de taquilla en 3D estéreo que no son CGI se convierten total o parcialmente a partir de material en 2D. Incluso Avatar , notable por su extensa filmación en estéreo, contiene varias escenas filmadas en 2D y convertidas a estéreo en posproducción. [3] Las razones para filmar en 2D en lugar de estéreo pueden ser financieras, técnicas y, a veces, artísticas: [1] [4]

Incluso en el caso de la grabación en estéreo, la conversión puede ser necesaria con frecuencia. Además de las escenas difíciles de grabar, puede haber desajustes en las vistas estéreo que son demasiado grandes para ajustarlas, y es más sencillo realizar una conversión de 2D a estéreo, tratando una de las vistas estéreo como la fuente 2D original.

Problemas generales

Sin tener en cuenta algoritmos particulares, todos los flujos de trabajo de conversión deberían resolver las siguientes tareas: [4] [5]

  1. Asignación de "presupuesto de profundidad" : definición del rango de disparidad o profundidad permitido, qué valor de profundidad corresponde a la posición de la pantalla (la llamada posición del "punto de convergencia"), los rangos de distancia permitidos para efectos fuera de la pantalla y objetos de fondo detrás de la pantalla. Si un objeto en par estéreo está exactamente en el mismo lugar para ambos ojos, entonces aparecerá en la superficie de la pantalla y tendrá una paralaje cero. Se dice que los objetos frente a la pantalla tienen una paralaje negativa y las imágenes de fondo detrás de la pantalla tienen una paralaje positiva. Existen los desplazamientos negativos o positivos correspondientes en las posiciones de los objetos para las imágenes del ojo izquierdo y derecho.
  2. Control de la disparidad cómoda según el tipo de escena y el movimiento: demasiada paralaje o señales de profundidad conflictivas pueden causar fatiga visual y náuseas
  3. Relleno de áreas no cubiertas : las imágenes de la vista izquierda o derecha muestran una escena desde un ángulo diferente y partes de objetos u objetos completos cubiertos por el primer plano en la imagen 2D original deben hacerse visibles en un par estereoscópico. A veces, las superficies del fondo son conocidas o pueden estimarse, por lo que deben usarse para rellenar áreas no cubiertas. De lo contrario, las áreas desconocidas deben ser rellenadas por un artista o pintadas a mano , ya que no es posible la reconstrucción exacta.

Los métodos de conversión de alta calidad también deberían abordar muchos problemas típicos, entre ellos:

Conversión semiautomática de calidad

Conversión basada en profundidad

La mayoría de los métodos semiautomáticos de conversión estéreo utilizan mapas de profundidad y renderizado basado en imágenes de profundidad. [4] [5]

La idea es que se cree una imagen auxiliar separada, conocida como " mapa de profundidad ", para cada cuadro o para una serie de cuadros homogéneos para indicar las profundidades de los objetos presentes en la escena. El mapa de profundidad es una imagen en escala de grises separada que tiene las mismas dimensiones que la imagen 2D original, con varios tonos de gris para indicar la profundidad de cada parte del cuadro. Si bien el mapeo de profundidad puede producir una ilusión bastante potente de objetos 3D en el video, inherentemente no admite objetos o áreas semitransparentes, ni representa superficies ocluidas; para enfatizar esta limitación, las representaciones 3D basadas en la profundidad a menudo se denominan explícitamente 2.5D . [6] [7] Estos y otros problemas similares deben abordarse mediante un método separado. [6] [8] [9]

Un ejemplo de mapa de profundidad
Generación y reconstrucción de formas 3D a partir de mapas de profundidad o siluetas de una o varias vistas [10]

Los pasos principales de los métodos de conversión basados ​​en la profundidad son:

  1. Asignación de presupuesto de profundidad: cuánta profundidad total tendrá la escena y dónde estará el plano de la pantalla.
  2. Segmentación de imágenes , creación de mates o máscaras, generalmente mediante rotoscopia . Se debe aislar cada superficie importante. El nivel de detalle depende de la calidad de conversión requerida y del presupuesto.
  3. Creación de mapas de profundidad. A cada superficie aislada se le debe asignar un mapa de profundidad. Los mapas de profundidad separados se deben combinar para formar un mapa de profundidad de la escena. Este es un proceso iterativo que requiere el ajuste de objetos, formas, profundidad y visualización de resultados intermedios en estéreo. El microrelieve de profundidad, la forma 3D, se agrega a las superficies más importantes para evitar el efecto "cartón" cuando las imágenes estéreo parecen una combinación de imágenes planas configuradas a diferentes profundidades.
  4. Generación estereoscópica basada en 2D+Profundidad con cualquier información suplementaria como placas limpias, fondo restaurado, mapas de transparencia, etc. Cuando el proceso se haya completado, se habrá creado una imagen izquierda y derecha. Por lo general, la imagen 2D original se trata como la imagen central, de modo que se generan dos vistas estereoscópicas. Sin embargo, algunos métodos proponen utilizar la imagen original como la imagen de un ojo y generar solo la imagen del otro ojo para minimizar el costo de conversión. [4] Durante la generación estereoscópica, los píxeles de la imagen original se desplazan hacia la izquierda o hacia la derecha según el mapa de profundidad, el paralaje máximo seleccionado y la posición de la superficie de la pantalla.
  5. Reconstrucción y pintado de cualquier zona no cubierta y no rellenada por el generador estéreo.

El estéreo se puede presentar en cualquier formato para fines de vista previa, incluido el anaglifo .

Los pasos que requieren mucho tiempo son la segmentación de imágenes/rotoscopia, la creación de mapas de profundidad y el relleno de áreas no cubiertas. Este último paso es especialmente importante para lograr una conversión de la más alta calidad.

Existen diversas técnicas de automatización para la creación de mapas de profundidad y la reconstrucción del fondo. Por ejemplo, se puede utilizar la estimación automática de profundidad para generar mapas de profundidad iniciales para determinados fotogramas y tomas. [11]

Las personas que se dedican a este tipo de trabajo pueden ser llamadas artistas de la profundidad. [12]

Multicapa

El uso de múltiples capas, un desarrollo del mapeo de profundidad, soluciona las limitaciones del mapeo de profundidad al introducir varias capas de máscaras de profundidad en escala de grises para implementar una semitransparencia limitada. De manera similar a una técnica simple, [13] el uso de múltiples capas implica aplicar un mapa de profundidad a más de una "porción" de la imagen plana, lo que da como resultado una aproximación mucho mejor de la profundidad y la protuberancia. Cuantas más capas se procesen por separado por fotograma, mayor será la calidad de la ilusión 3D.

Otros enfoques

La reconstrucción y reproyección en 3D se puede utilizar para la conversión estereoscópica. Implica la creación de un modelo 3D de la escena, la extracción de superficies de imágenes originales como texturas para objetos 3D y, finalmente, la renderización de la escena 3D desde dos cámaras virtuales para obtener un video estereoscópico. El enfoque funciona bastante bien en el caso de escenas con objetos rígidos estáticos como tomas urbanas con edificios o tomas de interiores, pero presenta problemas con cuerpos no rígidos y bordes difusos y suaves. [3]

Otro método consiste en configurar las cámaras virtuales izquierda y derecha, ambas separadas de la cámara original, pero dividiendo la diferencia de separación, y luego pintar los bordes de oclusión de los objetos y personajes aislados. Básicamente, se trata de pintar con un pincel limpio varios elementos del fondo, el plano medio y el primer plano.

La disparidad binocular también se puede derivar de la geometría simple. [14]

Conversión automática

Profundidad del movimiento

Es posible estimar automáticamente la profundidad utilizando diferentes tipos de movimiento. En caso de movimiento de la cámara, se puede calcular un mapa de profundidad de toda la escena. Además, se puede detectar el movimiento de objetos y se pueden asignar a las áreas en movimiento valores de profundidad menores que el fondo. Las oclusiones brindan información sobre la posición relativa de las superficies en movimiento. [15] [16]

Profundidad desde el foco

Los enfoques de este tipo también se denominan "profundidad a partir del desenfoque" y "profundidad a partir del desenfoque". [15] [17] En los enfoques de "profundidad a partir del desenfoque" (DFD), la información de profundidad se estima en función de la cantidad de desenfoque del objeto considerado, mientras que los enfoques de "profundidad a partir del enfoque" (DFF) tienden a comparar la nitidez de un objeto en un rango de imágenes tomadas con diferentes distancias de enfoque para averiguar su distancia a la cámara. DFD solo necesita dos o tres con diferentes enfoques para funcionar correctamente, mientras que DFF necesita al menos de 10 a 15 imágenes, pero es más preciso que el método anterior.

Si se detecta el cielo en la imagen procesada, también se puede tener en cuenta que los objetos más distantes, además de estar borrosos, deberían estar más desaturados y más azulados debido a una gruesa capa de aire. [17]

Profundidad desde la perspectiva

La idea del método se basa en el hecho de que las líneas paralelas, como las vías del tren y los bordes de las carreteras, parecen converger con la distancia y finalmente alcanzan un punto de fuga en el horizonte. Al encontrar este punto de fuga se obtiene el punto más lejano de toda la imagen. [15] [17]

Cuanto más convergen las líneas, más lejanas parecen estar. Por lo tanto, para el mapa de profundidad, el área entre dos líneas de fuga vecinas se puede aproximar con un plano de gradiente.

Artefactos de conversión

Métricas de calidad 3D

PQM

PQM [18] imita al HVS ya que los resultados obtenidos se alinean muy de cerca con el puntaje de opinión promedio (MOS) obtenido a partir de pruebas subjetivas. PQM cuantifica la distorsión en la luminancia y la distorsión de contraste utilizando una aproximación (varianzas) ponderada por la media de cada bloque de píxeles para obtener la distorsión en una imagen. Esta distorsión se resta de 1 para obtener el puntaje de calidad objetivo.

HV3D

La métrica de calidad HV3D [19] se ha diseñado teniendo en cuenta la percepción visual 3D humana. Tiene en cuenta la calidad de las vistas individuales derecha e izquierda, la calidad de la vista ciclópea (la fusión de las vistas derecha e izquierda, lo que percibe el espectador), así como la calidad de la información de profundidad.

VQMT3D

El proyecto VQMT3D [20] incluye varias métricas desarrolladas para evaluar la calidad de la conversión de 2D a 3D basada en el efecto cartón, la falta de coincidencia de la nitidez de los bordes, los objetos pegados al fondo y la comparación con la versión 2D.

Véase también

Referencias

  1. ^ de Barry Sandrew. "La conversión 2D-3D puede ser mejor que el 3D nativo"
  2. ^ Murphy, Mekado (1 de octubre de 2009). «Buzz y Woody añaden una dimensión». The New York Times . Consultado el 18 de febrero de 2010 .
  3. ^ ab Seymour, Mike (8 de mayo de 2012). "El arte de la conversión estéreo: de 2D a 3D – 2012". fxguide . Consultado el 11 de julio de 2024 .
  4. ^ abcd Scott Squires. Conversiones de 2D a 3D
  5. ^ de Jon Karafin. Conversión de 2D a 3D de última generación y efectos visuales estéreo Archivado el 26 de abril de 2012 en la Wayback Machine International 3D Society University. Presentación del evento 3DU-Japan del 21 de octubre de 2011 en Tokio.
  6. ^ ab Wu, Jiajun; et al. (2017). MarrNet: reconstrucción de formas 3D mediante bocetos 2.5D (PDF) . Conferencia sobre sistemas de procesamiento de información neuronal (NeurIPS). págs. 540–550.
  7. ^ Tateno, Keisuke; et al. (2016). Cuando 2.5D no es suficiente: reconstrucción, segmentación y reconocimiento simultáneos en SLAM denso (PDF) . IEEE International Conference on Robotics and Automation (ICRA). págs. 2295–2302.
  8. ^ Rock, Jason; et al. (2015). Completar la forma de un objeto 3D a partir de una imagen de profundidad (PDF) . Conferencia IEEE sobre visión artificial y reconocimiento de patrones (CVPR). págs. 2484–2493.
  9. ^ Shin, Daeyun; et al. (2019). Reconstrucción de escenas 3D con profundidad multicapa y transformadores epipolares (PDF) . IEEE International Conference on Computer Vision (ICCV). págs. 2172–2182.
  10. ^ "Soltani, AA, Huang, H., Wu, J., Kulkarni, TD y Tenenbaum, JB. Síntesis de formas 3D mediante el modelado de siluetas y mapas de profundidad de múltiples vistas con redes generativas profundas. En Actas de la Conferencia IEEE sobre visión artificial y reconocimiento de patrones (pp. 1511-1519)". GitHub . 2019-07-11.
  11. ^ YUVsoft. Proceso de conversión de 2D a 3D estéreo
  12. ^ Mike Eisenberg (31 de octubre de 2011). "Entrevista con el artista 3D Adam Hlavac". Screen Rant . Consultado el 28 de diciembre de 2015 .
  13. ^ Cutler, James. "Cómo enmascarar varias capas en Adobe Photoshop". Archivado desde el original el 18 de enero de 2012.
  14. ^ Convertir una imagen 2D en una impresión lenticular 3D
  15. ^ abc Dr. Lai-Man Po. Técnicas automáticas de conversión de vídeo 2D a 3D para televisión 3D Departamento de Ingeniería Electrónica, Universidad de la Ciudad de Hong Kong . 13 de abril de 2010
  16. ^ Muestra de conversión automática de 2D a 2D más profundidad para una escena de movimiento de cámara
  17. ^ abc Qingqing We. "Conversión de 2D a 3D: un estudio" (PDF) . Facultad de Ingeniería Eléctrica, Matemáticas y Ciencias de la Computación, Universidad Tecnológica de Delft. Archivado desde el original (PDF) el 15 de abril de 2012.
  18. ^ Joveluro, P.; Malekmohamadi, H.; Fernando, WA C; Kondoz, AM (2010). "Métrica de calidad de video perceptual para la evaluación de la calidad de video 3D". Conferencia 3DTV de 2010: La verdadera visión: captura, transmisión y visualización de video 3D . IEEE. págs. 1–4. doi :10.1109/3dtv.2010.5506331. ISBN . 978-1-4244-6377-0.
  19. ^ Banitalebi-Dehkordi, Amin; Pourazad, Mahsa T.; Nasiopoulos, Panos (2013). "Métrica de calidad de vídeo 3D para compresión de vídeo 3D". Ivmsp 2013 . IEEE. págs. 1–4. arXiv : 1803.04629 . doi :10.1109/ivmspw.2013.6611930. ISBN 978-1-4673-5858-3.
  20. ^ VQMT3D

Fuentes