stringtranslate.com

Reconstrucción 3D a partir de múltiples imágenes

Una selfie 3D a escala 1:20 impresa por Shapeways con impresión a base de yeso, creada por el parque en miniatura Madurodam a partir de imágenes 2D tomadas en su cabina de fotos Fantasitron
Los modelos 3D se generan a partir de imágenes 2D tomadas en el fotomatón Fantasitron 3D en Madurodam .
Generación y reconstrucción de formas 3D a partir de mapas de profundidad o siluetas de una o varias vistas [1]

La reconstrucción 3D a partir de múltiples imágenes es la creación de modelos tridimensionales a partir de un conjunto de imágenes. Es el proceso inverso de obtener imágenes 2D a partir de escenas 3D.

La esencia de una imagen es la proyección de una escena 3D sobre un plano 2D, durante cuyo proceso se pierde la profundidad. El punto 3D correspondiente a un punto específico de la imagen está limitado a estar en la línea de visión. A partir de una única imagen, es imposible determinar qué punto de esta línea corresponde al punto de la imagen. Si hay dos imágenes disponibles, la posición de un punto 3D se puede encontrar como la intersección de los dos rayos de proyección. Este proceso se denomina triangulación . La clave de este proceso son las relaciones entre múltiples vistas que transmiten la información de que los conjuntos de puntos correspondientes deben contener alguna estructura y que esta estructura está relacionada con las poses y la calibración de la cámara.

En las últimas décadas, ha habido una importante demanda de contenido 3D para gráficos por computadora , realidad virtual y comunicación, lo que ha provocado un cambio en el énfasis de los requisitos. Muchos de los sistemas existentes para construir modelos 3D se construyen en torno a hardware especializado (por ejemplo, equipos estéreo), lo que resulta en un alto costo, que no puede satisfacer el requisito de sus nuevas aplicaciones. Esta brecha estimula el uso de instalaciones de imágenes digitales (como una cámara). Un método temprano fue propuesto por Tomasi y Kanade [2] . Utilizaron un enfoque de factorización afín para extraer 3D de secuencias de imágenes. Sin embargo, el supuesto de proyección ortográfica es una limitación significativa de este sistema.

Tratamiento

Se puede reconstruir un casco visual a partir de múltiples siluetas de un objeto. [3]

La tarea de convertir múltiples imágenes 2D en un modelo 3D consta de una serie de pasos de procesamiento:

La calibración de la cámara consta de parámetros intrínsecos y extrínsecos, sin los cuales, en algún nivel, ningún algoritmo puede funcionar. La línea de puntos entre la calibración y la determinación de la profundidad representa que, por lo general, se requiere la calibración de la cámara para determinar la profundidad.

La determinación de la profundidad es la parte más complicada de todo el proceso, ya que calcula el componente 3D que falta en una imagen determinada: la profundidad. El problema de la correspondencia , es decir, encontrar coincidencias entre dos imágenes para poder triangular la posición de los elementos coincidentes en el espacio 3D, es la cuestión clave aquí.

Una vez que tenga los mapas de profundidad múltiples , debe combinarlos para crear una malla final calculando la profundidad y proyectándola fuera de la cámara ( registro) . La calibración de la cámara se utilizará para identificar dónde se pueden combinar las muchas mallas creadas por los mapas de profundidad para desarrollar una más grande, lo que proporciona más de una vista para la observación.

En la etapa de aplicación de materiales, ya tienes una malla 3D completa, que puede ser el objetivo final, pero normalmente querrás aplicar el color de las fotografías originales a la malla. Esto puede variar desde proyectar las imágenes en la malla de forma aleatoria, pasando por métodos de combinación de texturas para lograr una resolución superior y, finalmente, segmentar la malla por material, como propiedades especulares y difusas.

Descripción matemática de la reconstrucción

Dado un grupo de puntos 3D visualizados por N cámaras con matrices , definamos que son las coordenadas homogéneas de la proyección del punto sobre la cámara. El problema de reconstrucción se puede cambiar a: dado el grupo de coordenadas de píxeles , encuentre el conjunto correspondiente de matrices de cámara y la estructura de la escena de manera que

(1)

Generalmente, sin más restricciones, obtendremos una reconstrucción proyectiva. [4] [5] Si y satisfacen (1), y satisfarán (1) con cualquier matriz no singular de 4 × 4 T .

Una reconstrucción proyectiva puede calcularse mediante la correspondencia de puntos únicamente sin ninguna información a priori .

Calibración automática

En la calibración automática o autocalibración , primero se recuperan el movimiento y los parámetros de la cámara mediante la rigidez. Luego, se puede calcular fácilmente la estructura. A continuación, se presentan dos métodos que implementan esta idea:

Ecuaciones de Kruppa

Con un mínimo de tres desplazamientos, podemos obtener los parámetros internos de la cámara utilizando un sistema de ecuaciones polinomiales de Kruppa, [6] que se derivan de una interpretación geométrica de la restricción de rigidez. [7] [8]

La matriz es desconocida en las ecuaciones de Kruppa, llamada matriz de coeficientes de Kruppa. Con K y por el método de factorización de Cholesky se pueden obtener fácilmente los parámetros intrínsecos:

Recientemente, Hartley [9] propuso una forma más simple. Sea escrita como , donde

Luego se reescriben las ecuaciones de Kruppa (la derivación se puede encontrar en [9] )

Mendonça y Cipolla

Este método se basa en el uso de la restricción de rigidez. Diseñe una función de costo, que considere los parámetros intrínsecos como argumentos y las matrices fundamentales como parámetros. se define como la matriz fundamental y como matrices de parámetros intrínsecos.

Estratificación

Recientemente se han propuesto nuevos métodos basados ​​en el concepto de estratificación . [10] Partiendo de una estructura proyectiva, que puede calcularse únicamente a partir de correspondencias, se pasa de esta reconstrucción proyectiva a una reconstrucción euclidiana, haciendo uso de todas las restricciones disponibles. Con esta idea, el problema puede estratificarse en diferentes secciones: según la cantidad de restricciones disponibles, puede analizarse en un nivel diferente, proyectivo, afín o euclidiano.

La estratificación de la geometría 3D

Habitualmente, el mundo se percibe como un espacio euclidiano 3D . En algunos casos, no es posible utilizar la estructura euclidiana completa del espacio 3D. La más sencilla es la proyectiva, luego la geometría afín que forma las capas intermedias y finalmente la geometría euclidiana. El concepto de estratificación está estrechamente relacionado con la serie de transformaciones sobre entidades geométricas: en el estrato proyectivo hay una serie de transformaciones proyectivas (una homografía ), en el estrato afín hay una serie de transformaciones afines , y en el estrato euclidiano hay una serie de transformaciones euclidianas.

Supongamos que una escena fija es captada por dos o más cámaras en perspectiva y que las correspondencias entre los puntos visibles en diferentes imágenes ya están dadas. Sin embargo, en la práctica, la correspondencia es un problema esencial y extremadamente desafiante en la visión por computadora. Aquí, suponemos que los puntos 3D son observados por cámaras con matrices de proyección . No se conocen ni las posiciones de los puntos ni la proyección de la cámara. Solo se conocen las proyecciones del punto en la imagen.

Reconstrucción proyectiva

El simple conteo indica que tenemos medidas independientes y solo incógnitas, por lo que se supone que el problema es solucionable con suficientes puntos e imágenes. Las ecuaciones en coordenadas homogéneas se pueden representar:

(2)

De este modo, podemos aplicar una transformación no singular 4 × 4 H a las proyecciones y a los puntos del mundo . Por lo tanto, sin más restricciones, la reconstrucción es solo una deformación proyectiva desconocida del mundo 3D.

Reconstrucción afín

Consulte el espacio afín para obtener información más detallada sobre el cálculo de la ubicación del plano en el infinito . La forma más sencilla es aprovechar el conocimiento previo, por ejemplo, la información de que las líneas en la escena son paralelas o que un punto es el tercio entre otros dos.

También podemos utilizar restricciones previas sobre el movimiento de la cámara. Analizando diferentes imágenes del mismo punto podemos obtener una línea en la dirección del movimiento. La intersección de varias líneas es el punto en el infinito en la dirección del movimiento y una restricción sobre la estructura afín.

Reconstrucción euclidiana

Al mapear la reconstrucción proyectiva a una que satisfaga un grupo de restricciones euclidianas redundantes, podemos encontrar una transformación proyectiva H en la ecuación (2). Las ecuaciones son altamente no lineales y se requiere una buena estimación inicial de la estructura. Esto se puede obtener asumiendo una proyección lineal - proyección paralela, que también permite una reconstrucción fácil por descomposición SVD. [2]

Error algebraico vs error geométrico

Inevitablemente, los datos medidos (es decir, las posiciones de imágenes o puntos del mundo) son ruidosos y el ruido proviene de muchas fuentes. Para reducir el efecto del ruido, normalmente utilizamos más ecuaciones de las necesarias y las resolvemos con mínimos cuadrados .

Por ejemplo, en una formulación típica de un problema de espacio nulo Ax = 0 (como el algoritmo DLT), el cuadrado del residuo ||Ax|| se minimiza con el método de mínimos cuadrados.

En general, si ||Ax|| puede considerarse como una distancia entre entidades geométricas (puntos, líneas, planos, etc.), entonces lo que se está minimizando es un error geométrico , de lo contrario (cuando el error carece de una buena interpretación geométrica) se denomina error algebraico .

Por lo tanto, en comparación con el error algebraico, preferimos minimizar el error geométrico por las razones enumeradas:

  1. La cantidad que se minimiza tiene un significado.
  2. La solución es más estable.
  3. La solución es constante bajo las transformadas euclidianas.

Todos los algoritmos lineales (DLT y otros) que hemos visto hasta ahora minimizan un error algebraico. En realidad, no hay justificación para minimizar un error algebraico más allá de la facilidad de implementación, ya que resulta en un problema lineal. La minimización de un error geométrico es a menudo un problema no lineal, que solo admite soluciones iterativas y requiere un punto de partida.

Generalmente, la solución lineal basada en residuos algebraicos sirve como punto de partida para una minimización no lineal de una función de costo geométrica, lo que proporciona a la solución un “pulido” final. [11]

Aplicaciones médicas

Las imágenes en 2D presentan problemas de superposición de partes anatómicas y no revelan anomalías. Las imágenes en 3D se pueden utilizar tanto con fines diagnósticos como terapéuticos.

Los modelos 3D se utilizan para la planificación de la operación, estudios morfométricos y tienen mayor confiabilidad en ortopedia. [12]

Proyección de P en ambas cámaras

Planteamiento del problema y conceptos básicos

Reconstruir imágenes en 3D a partir de imágenes en 2D tomadas con una cámara desde múltiples ángulos. Las técnicas de diagnóstico por imagen, como la tomografía computarizada y la resonancia magnética, son caras y, aunque las tomografías computarizadas son precisas, pueden inducir dosis altas de radiación, lo que supone un riesgo para los pacientes con determinadas enfermedades. Los métodos basados ​​en la resonancia magnética no son precisos. Dado que estamos expuestos a campos magnéticos potentes durante una resonancia magnética, este método no es adecuado para pacientes con implantes metálicos ferromagnéticos. Ambos métodos se pueden realizar únicamente en posición acostada, donde la estructura global del hueso cambia. Por tanto, analizamos los siguientes métodos que se pueden realizar de pie y que requieren una dosis baja de radiación.

Aunque estas técnicas son imágenes en 3D, la región de interés está restringida a un corte; los datos se adquieren para formar una secuencia de tiempo.

Técnica basada en puntos correspondientes estéreo

Este método es simple y se implementa identificando los puntos manualmente en radiografías de múltiples vistas. El primer paso es extraer los puntos correspondientes en dos imágenes de rayos X. El segundo paso es reconstruir la imagen en tres dimensiones utilizando algoritmos como la Transformada Lineal Discreta (DLT). [13] La reconstrucción solo es posible cuando hay Puntos Correspondientes Estéreo (SCP). La calidad de los resultados depende de la cantidad de SCP, cuanto más SCP, mejores serán los resultados [14] pero es lento e inexacto. La habilidad del operador es un factor en la calidad de la imagen. Las técnicas basadas en SCP no son adecuadas para estructuras óseas sin bordes identificables. Generalmente, las técnicas basadas en SCP se utilizan como parte de un proceso que involucra otros métodos. [15]

Método de contorno correspondiente no estereofónico (NCSS)

Este método utiliza imágenes de rayos X para la reconstrucción 3D y para desarrollar modelos 3D con radiaciones de baja dosis en posiciones de carga.

En el algoritmo NSCC, el paso preliminar es el cálculo de una solución inicial. En primer lugar, se definen las regiones anatómicas del objeto genérico. En segundo lugar, se realiza la identificación manual de los contornos 2D en las radiografías. A partir de cada radiografía, se generan contornos 2D utilizando el objeto de solución inicial 3D. Los contornos 3D de la superficie del objeto inicial se proyectan en su radiografía asociada. [15] La asociación 2D realizada entre estos 2 puntos de ajuste se basa en distancias punto a punto y derivaciones de contornos que desarrollan una correspondencia entre los contornos 2D y los contornos 3D. El siguiente paso es la optimización de la solución inicial. Por último, la deformación de la solución optimizada se realiza aplicando el algoritmo Kriging a la solución optimizada. [16] Finalmente, al iterar el paso final hasta que la distancia entre dos puntos de ajuste sea superior a un valor de precisión dado, se obtiene el objeto reconstruido.

La ventaja de este método es que se puede utilizar para estructuras óseas con forma continua y también reduce la intervención humana, pero requiere mucho tiempo.

Técnica de renderizado de superficies

La representación de superficies visualiza un objeto 3D como un conjunto de superficies llamadas isosuperficies. Cada superficie tiene puntos con la misma intensidad (denominados valores iso). Esta técnica se aplica generalmente a datos de alto contraste y ayuda a ilustrar estructuras separadas; por ejemplo, el cráneo se puede crear a partir de cortes de la cabeza, o el sistema de vasos sanguíneos a partir de cortes del cuerpo. Existen dos métodos principales:

Otros métodos utilizan modelos de forma estadísticos, paramétricos o híbridos de los dos.

Véase también

Referencias

  1. ^ "Soltani, AA, Huang, H., Wu, J., Kulkarni, TD y Tenenbaum, JB. Síntesis de formas 3D mediante el modelado de siluetas y mapas de profundidad de múltiples vistas con redes generativas profundas. En Actas de la Conferencia IEEE sobre visión artificial y reconocimiento de patrones (pp. 1511-1519)". GitHub . 6 de marzo de 2020.
  2. ^ ab C. Tomasi y T. Kanade, “Forma y movimiento de flujos de imágenes bajo ortografía: un enfoque de factorización”, International Journal of Computer Vision, 9(2):137-154, 1992.
  3. ^ A. Laurentini (febrero de 1994). "El concepto de casco visual para la comprensión de imágenes basada en siluetas". IEEE Transactions on Pattern Analysis and Machine Intelligence . 16 (2): 150–162. doi :10.1109/34.273735.
  4. ^ R. Mohr y E. Arbogast. Se puede realizar sin calibración de la cámara. Pattern Recognition Letters, 12:39-43, 1991.
  5. ^ O. Faugeras. ¿Qué se puede ver en tres dimensiones con un equipo estéreo no calibrado? En Proceedings of the European Conference on Computer Vision, páginas 563-578, Santa Margherita L., 1992.
  6. ^ E. Kruppa. Zur Ermittlung eines Objektes aus zwei Perspektiven mit internaler Orientierung. Sitz.-Ber.Akad.Wiss., Viena, matemáticas. naturaleza. Kl., Abt. IIa., 122:1939-1948, 1913.
  7. ^ SJ Maybank y O. Faugeras. Una teoría de autocalibración de una cámara en movimiento. International Journal of Computer Vision, 8(2):123-151, 1992.
  8. ^ O. Faugeras y S. Maybank. Movimiento a partir de puntos coincidentes: multiplicidad de soluciones. International Journal of Computer Vision, 4(3):225-246, junio de 1990.
  9. ^ ab RI Hartley. Ecuaciones de Kruppa derivadas de la matriz fundamental Archivado el 22 de junio de 2018 en Wayback Machine . IEEE Transactions on Pattern Analysis and Machine Intelligence, 19(2):133-135, febrero de 1997.
  10. ^ Pollefeys, Marc. Autocalibración y reconstrucción métrica 3D a partir de secuencias de imágenes no calibradas. Tesis doctoral, ESAT-PSI, KU Leuven, 1999.
  11. ^ R. Hartley y A. Zisserman. Geometría de vista múltiple en visión artificial. Cambridge University Press, 2.ª edición, 2003.
  12. ^ "Visualización médica: ¿qué es y para qué sirve?". GarageFarm . 2018-02-18 . Consultado el 2018-02-18 .
  13. ^ "Pearcy MJ. 1985. Radiografía estereoscópica del movimiento de la columna lumbar. Acta Orthop Scand Suppl".
  14. ^ "Aubin CE, Dansereau J, Parent F, Labelle H, de Guise JA. 1997. Evaluaciones morfométricas de reconstrucciones 3D personalizadas y modelos geométricos de la columna vertebral humana". Med Biol Eng Comput .
  15. ^ ab "S.Hosseinian, H.Arefi, Reconstrucción 3D a partir de imágenes de rayos X médicos de múltiples vistas: revisión y evaluación de los métodos existentes" (PDF) .
  16. ^ Laporte, S; Skalli, W; de Guise, JA; Lavaste, F; Mitton, D (2003). "Un método de reconstrucción biplanar basado en contornos 2D y 3D: aplicación al fémur distal". Comput Methods Biomech Biomed Engin . 6 (1): 1–6. doi :10.1080/1025584031000065956. PMID  12623432. S2CID  3206752.
  17. ^ ab G.Scott Owen, HyperVis. Comité de Educación ACM SIGGRAPH, la Fundación Nacional de Ciencias (DUE-9752398) y el Laboratorio de Hipermedia y Visualización, Universidad Estatal de Georgia .

Lectura adicional

Enlaces externos