stringtranslate.com

Conversión de 2D a 3D

La conversión de video de 2D a 3D (también llamada conversión de 2D a 3D estéreo y conversión estéreo ) es el proceso de transformar una película 2D ("plana") a una forma 3D , que en casi todos los casos es estéreo , por lo que es el proceso de creación de imágenes para cada ojo a partir de una imagen 2D.

Descripción general

La conversión de 2D a 3D agrega la señal de profundidad de disparidad binocular a las imágenes digitales percibidas por el cerebro, por lo que, si se realiza correctamente, mejora en gran medida el efecto de inmersión al ver video estéreo en comparación con el video 2D. Sin embargo, para tener éxito, la conversión debe realizarse con suficiente precisión y corrección: la calidad de las imágenes 2D originales no debe deteriorarse y la señal de disparidad introducida no debe contradecir otras señales utilizadas por el cerebro para la percepción de profundidad . Si se realiza de forma adecuada y exhaustiva, la conversión produce vídeo estéreo de calidad similar al vídeo estéreo "nativo" que se graba en estéreo y se ajusta y alinea con precisión en la posproducción. [1]

Se pueden definir en términos generales dos enfoques para la conversión estéreo: conversión semiautomática de calidad para cine y 3DTV de alta calidad, y conversión automática de baja calidad para 3DTV , VOD y aplicaciones similares económicas.

Reproducción de películas animadas por computadora.

Las películas animadas por computadora en 2D realizadas con modelos 3D se pueden reproducir en 3D estereoscópico agregando una segunda cámara virtual si los datos originales aún están disponibles. Técnicamente, esto no es una conversión; por lo tanto, dichas películas reproducidas tienen la misma calidad que las películas producidas originalmente en 3D estereoscópico. Ejemplos de esta técnica incluyen el relanzamiento de Toy Story y Toy Story 2 . Revisar los datos originales de la computadora para las dos películas tomó cuatro meses, así como seis meses adicionales para agregar el 3D. [2] Sin embargo, no todas las películas CGI se vuelven a renderizar para su reestreno en 3D debido a los costos, el tiempo requerido, la falta de recursos calificados o la falta de datos informáticos.

Importancia y aplicabilidad

Con el aumento de películas estrenadas en 3D, la conversión de 2D a 3D se ha vuelto más común. La mayoría de los éxitos de taquilla 3D estéreo no CGI se convierten total o al menos parcialmente a partir de metraje 2D. Incluso Avatar contiene varias escenas rodadas en 2D y convertidas a estéreo en postproducción. [3] Las razones para rodar en 2D en lugar de estéreo son financieras, técnicas y, a veces, artísticas: [1] [4]

Incluso en el caso de la grabación en estéreo, a menudo puede ser necesaria una conversión. Además de las escenas difíciles de filmar mencionadas, hay situaciones en las que las discrepancias en las vistas estéreo son demasiado grandes para ajustarlas, y es más sencillo realizar la conversión de 2D a estéreo, tratando una de las vistas como la fuente 2D original.

Problemas generales

Sin respetar algoritmos particulares, todos los flujos de trabajo de conversión deben resolver las siguientes tareas: [4] [5]

  1. Asignación del "presupuesto de profundidad" : definición del rango de disparidad o profundidad permitida, qué valor de profundidad corresponde a la posición de la pantalla (la llamada posición del "punto de convergencia"), los rangos de distancia permitidos para efectos fuera de la pantalla y detrás -los objetos de fondo de pantalla. Si un objeto en par estéreo está exactamente en el mismo lugar para ambos ojos, aparecerá en la superficie de la pantalla y estará en paralaje cero. Se dice que los objetos frente a la pantalla están en paralaje negativo y las imágenes de fondo detrás de la pantalla están en paralaje positivo. Existen las correspondientes compensaciones negativas o positivas en las posiciones de los objetos para las imágenes del ojo izquierdo y derecho.
  2. Control de una cómoda disparidad según el tipo de escena y el movimiento: demasiado paralaje o señales de profundidad contradictorias pueden causar fatiga visual y efectos de náuseas.
  3. Relleno de áreas descubiertas : las imágenes de vista izquierda o derecha muestran una escena desde un ángulo diferente, y partes de objetos u objetos completos cubiertos por el primer plano en la imagen 2D original deberían volverse visibles en un par estéreo. A veces las superficies del fondo son conocidas o pueden estimarse, por lo que conviene utilizarlas para rellenar áreas descubiertas. De lo contrario, las zonas desconocidas deberán ser rellenadas por un artista o pintadas , ya que no es posible una reconstrucción exacta.

Los métodos de conversión de alta calidad también deberían solucionar muchos problemas típicos, entre ellos:

Conversión semiautomática de calidad.

Conversión basada en profundidad

La mayoría de los métodos semiautomáticos de conversión estéreo utilizan mapas de profundidad y renderizado basado en imágenes de profundidad. [4] [5]

La idea es crear una imagen auxiliar separada conocida como " mapa de profundidad " para cada fotograma o para una serie de fotogramas homogéneos para indicar las profundidades de los objetos presentes en la escena. El mapa de profundidad es una imagen separada en escala de grises que tiene las mismas dimensiones que la imagen 2D original, con varios tonos de gris para indicar la profundidad de cada parte del encuadre. Si bien el mapeo de profundidad puede producir una ilusión bastante potente de objetos 3D en el video, inherentemente no admite áreas o objetos semitransparentes, ni representa superficies ocluidas; Para enfatizar esta limitación, las representaciones 3D basadas en profundidad a menudo se denominan explícitamente 2.5D . [6] [7] Estas y otras cuestiones similares deberían abordarse mediante un método independiente. [6] [8] [9]

Un ejemplo de mapa de profundidad.
Generar y reconstruir formas 3D a partir de siluetas o mapas de profundidad de vista única o múltiple [10]

Los pasos principales de los métodos de conversión basados ​​en profundidad son:

  1. Asignación del presupuesto de profundidad: cuánta profundidad total habrá en la escena y dónde estará el plano de la pantalla.
  2. Segmentación de imágenes , creación de mattes o máscaras, normalmente mediante rotoscopia . Cada superficie importante debe estar aislada. El nivel de detalle depende de la calidad de conversión requerida y del presupuesto.
  3. Creación de mapas de profundidad. A cada superficie aislada se le debe asignar un mapa de profundidad. Los mapas de profundidad separados deben componerse en un mapa de profundidad de escena. Este es un proceso iterativo que requiere ajuste de objetos, formas, profundidad y visualización de resultados intermedios en estéreo. Se agrega microrrelieve de profundidad y forma 3D a las superficies más importantes para evitar el efecto "cartón" cuando las imágenes estéreo parecen una combinación de imágenes planas colocadas a diferentes profundidades.
  4. Generación estéreo basada en 2D+Profundidad con cualquier información complementaria como placas limpias, fondo restaurado, mapas de transparencia, etc. Cuando se complete el proceso, se habrá creado una imagen izquierda y derecha. Normalmente, la imagen 2D original se trata como la imagen central, de modo que se generan dos vistas estéreo. Sin embargo, algunos métodos proponen utilizar la imagen original como la imagen de un ojo y generar sólo la imagen del otro ojo para minimizar el coste de conversión. [4] Durante la generación estéreo, los píxeles de la imagen original se desplazan hacia la izquierda o hacia la derecha según el mapa de profundidad, el paralaje máximo seleccionado y la posición de la superficie de la pantalla.
  5. Reconstrucción y pintura de las zonas descubiertas que no hayan sido rellenadas por el generador estéreo.

El estéreo se puede presentar en cualquier formato para fines de vista previa, incluido el anaglifo .

Los pasos que requieren mucho tiempo son la segmentación/rotoscopia de imágenes, la creación de mapas de profundidad y el relleno de áreas descubiertas. Esto último es especialmente importante para una conversión de la más alta calidad.

Existen varias técnicas de automatización para la creación de mapas de profundidad y la reconstrucción del fondo. Por ejemplo, la estimación automática de profundidad se puede utilizar para generar mapas de profundidad iniciales para determinados fotogramas y tomas. [11]

A las personas que se dedican a este tipo de trabajo se les puede llamar artistas de profundidad. [12]

Multicapa

Un desarrollo en mapeo de profundidad, las múltiples capas solucionan las limitaciones del mapeo de profundidad al introducir varias capas de máscaras de profundidad en escala de grises para implementar una semitransparencia limitada. De manera similar a una técnica simple, [13] la multicapa implica aplicar un mapa de profundidad a más de una "porción" de la imagen plana, lo que da como resultado una aproximación mucho mejor de la profundidad y la protrusión. Cuantas más capas se procesen por separado por cuadro, mayor tiende a ser la calidad de la ilusión 3D.

Otros enfoques

Se puede utilizar la reconstrucción y reproyección 3D para la conversión estéreo. Implica la creación de modelos de escena 3D, la extracción de superficies de imágenes originales como texturas para objetos 3D y, finalmente, renderizar la escena 3D a partir de dos cámaras virtuales para adquirir vídeo estéreo. El enfoque funciona bastante bien en el caso de escenas con objetos rígidos estáticos como tomas urbanas con edificios, tomas de interiores, pero tiene problemas con cuerpos no rígidos y bordes suaves y difusos. [3]

Otro método consiste en configurar las cámaras virtuales izquierda y derecha, ambas desplazadas de la cámara original pero dividiendo la diferencia de desplazamiento, y luego pintando los bordes de oclusión de objetos y personajes aislados. Esencialmente, se limpian varios elementos de fondo, medio plano y primer plano.

La disparidad binocular también se puede derivar de una geometría simple. [14]

Conversión automática

Profundidad del movimiento

Es posible estimar automáticamente la profundidad utilizando diferentes tipos de movimiento. En caso de movimiento de la cámara, se puede calcular un mapa de profundidad de toda la escena. Además, se puede detectar el movimiento de objetos y se pueden asignar áreas en movimiento con valores de profundidad más pequeños que el fondo. Las oclusiones proporcionan información sobre la posición relativa de las superficies en movimiento. [15] [16]

Profundidad desde el foco

Los enfoques de este tipo también se denominan "profundidad desde el desenfoque" y "profundidad desde el desenfoque". [15] [17] En los enfoques de "profundidad desde el desenfoque" (DFD), la información de profundidad se estima en función de la cantidad de desenfoque del objeto considerado, mientras que los enfoques de "profundidad desde el enfoque" (DFF) tienden a comparar la nitidez de un objeto en una variedad de imágenes tomadas con diferentes distancias de enfoque para determinar su distancia a la cámara. DFD solo necesita dos o tres con diferentes enfoques para funcionar correctamente, mientras que DFF necesita al menos de 10 a 15 imágenes, pero es más preciso que el método anterior.

Si en la imagen procesada se detecta el cielo, también se puede tener en cuenta que los objetos más lejanos, además de ser brumosos, deberían estar más desaturados y más azulados debido a una espesa capa de aire. [17]

Profundidad desde la perspectiva

La idea del método se basa en el hecho de que las líneas paralelas, como las vías del tren y los bordes de las carreteras, parecen converger con la distancia y eventualmente alcanzan un punto de fuga en el horizonte. Encontrar este punto de fuga da el punto más lejano de toda la imagen. [15] [17]

Cuanto más convergen las líneas, más alejadas parecen estar. Entonces, para un mapa de profundidad, el área entre dos líneas de fuga vecinas se puede aproximar con un plano de gradiente.

Artefactos de conversión

Métricas de calidad 3D

PQM

PQM [18] imita el HVS ya que los resultados obtenidos se alinean muy estrechamente con la puntuación media de opinión (MOS) obtenida de pruebas subjetivas. El PQM cuantifica la distorsión en la luminancia y la distorsión del contraste utilizando una aproximación (varianzas) ponderada por la media de cada bloque de píxeles para obtener la distorsión en una imagen. Esta distorsión se resta de 1 para obtener la puntuación de calidad objetiva.

HV3D

La métrica de calidad HV3D [19] se ha diseñado teniendo en cuenta la percepción visual 3D humana. Tiene en cuenta la calidad de las vistas individuales derecha e izquierda, la calidad de la vista ciclópea (la fusión de las vistas derecha e izquierda, lo que percibe el espectador), así como la calidad de la información de profundidad.

VQMT3D

El proyecto VQMT3D [20] incluye varias métricas desarrolladas para evaluar la calidad de la conversión de 2D a 3D.

Ver también

Referencias

  1. ^ ab Barry Sandrew. "2D: la conversión 3D puede ser mejor que el 3D nativo"
  2. ^ Murphy, Mekado (1 de octubre de 2009). "Buzz y Woody añaden una dimensión". Los New York Times . Consultado el 18 de febrero de 2010 .
  3. ^ ab Mike Seymour. El arte de la conversión estéreo: 2D a 3D
  4. ^ abcd Scott Squires. Conversiones de 2D a 3D
  5. ^ ab Jon Karafin. Conversión de 2D a 3D y efectos visuales estéreo de última generación Archivado el 26 de abril de 2012 en la Wayback Machine International 3D Society University. Presentación del evento 3DU-Japan del 21 de octubre de 2011 en Tokio.
  6. ^ ab Wu, Jiajun; et al. (2017). MarrNet: reconstrucción de formas 3D mediante bocetos 2,5D (PDF) . Jornada sobre Sistemas de Procesamiento de Información Neural (NeurIPS). págs. 540–550.
  7. ^ Tateno, Keisuke; et al. (2016). Cuando 2.5D no es suficiente: reconstrucción, segmentación y reconocimiento simultáneos en SLAM denso (PDF) . Conferencia Internacional IEEE sobre Robótica y Automatización (ICRA). págs. 2295–2302.
  8. ^ Roca, Jason; et al. (2015). Completar la forma de un objeto 3D a partir de una imagen de profundidad (PDF) . Conferencia IEEE sobre visión por computadora y reconocimiento de patrones (CVPR). págs. 2484–2493.
  9. ^ Shin, Daeyun; et al. (2019). Reconstrucción de escenas 3D con profundidad multicapa y transformadores epipolares (PDF) . Conferencia Internacional IEEE sobre Visión por Computadora (ICCV). págs. 2172-2182.
  10. ^ "Soltani, AA, Huang, H., Wu, J., Kulkarni, TD y Tenenbaum, JB Sintetizando formas 3D mediante el modelado de siluetas y mapas de profundidad de múltiples vistas con redes generativas profundas. En actas de la Conferencia IEEE sobre visión por computadora y reconocimiento de patrones (págs. 1511-1519) ". GitHub . 2019-07-11.
  11. ^ YUVsoft. Proceso de conversión de 2D a 3D estéreo
  12. ^ Mike Eisenberg (31 de octubre de 2011). "Entrevista con el artista 3D Adam Hlavac". "Pantalla diatriba" . Consultado el 28 de diciembre de 2015 .
  13. ^ Cutler, James. "Enmascarar varias capas en Adobe Photoshop". Archivado desde el original el 18 de enero de 2012.
  14. ^ Conversión de una imagen 2D a una impresión lenticular 3D
  15. ^ a b C Dr. Lai-Man Po. Técnicas automáticas de conversión de vídeo 2D a 3D para 3DTV Departamento de Ingeniería Electrónica, Universidad de la ciudad de Hong Kong . 13 de abril de 2010
  16. ^ Muestra de conversión automática de 2D a 2D con más profundidad para una escena de movimiento de cámara
  17. ^ abc Qingqing nosotros. "Conversión de 2D a 3D: una encuesta" (PDF) . Facultad de Ingeniería Eléctrica, Matemáticas e Informática, Universidad Tecnológica de Delft. Archivado desde el original (PDF) el 15 de abril de 2012.
  18. ^ Joveluro, P.; Malekmohamadi, H.; Fernando, WA C; Kondoz, AM (2010). "Métrica de calidad de vídeo perceptual para evaluación de la calidad de vídeo 3D". Conferencia 3DTV 2010: La verdadera visión: captura, transmisión y visualización de vídeo 3D . IEEE. págs. 1–4. doi :10.1109/3dtv.2010.5506331. ISBN 978-1-4244-6377-0.
  19. ^ Banitalebi-Dehkordi, Amin; Pourazad, Mahsa T.; Nasiopoulos, Panos (2013). "Métrica de calidad de vídeo 3D para compresión de vídeo 3D". Ivmsp 2013 . IEEE. págs. 1–4. arXiv : 1803.04629 . doi :10.1109/ivmspw.2013.6611930. ISBN 978-1-4673-5858-3.
  20. ^ VQMT3D