stringtranslate.com

Reconstrucción 3D a partir de múltiples imágenes.

Un selfie 3D a escala 1:20 impreso por Shapeways mediante impresión a base de yeso, creado por el parque de miniaturas Madurodam a partir de fotografías en 2D tomadas en su fotomatón Fantasitron
Los modelos 3D se generan a partir de fotografías 2D tomadas en el fotomatón 3D Fantasitron en Madurodam .
Generación y reconstrucción de formas 3D a partir de siluetas o mapas de profundidad de vista única o múltiple [1]

La reconstrucción 3D a partir de múltiples imágenes es la creación de modelos tridimensionales a partir de un conjunto de imágenes. Es el proceso inverso al de obtener imágenes 2D a partir de escenas 3D.

La esencia de una imagen es la proyección de una escena 3D a un plano 2D, durante cuyo proceso se pierde la profundidad. El punto 3D correspondiente a un punto de imagen específico está obligado a estar en la línea de visión. A partir de una sola imagen, es imposible determinar qué punto de esta línea corresponde al punto de la imagen. Si hay dos imágenes disponibles, entonces la posición de un punto 3D se puede encontrar como la intersección de los dos rayos de proyección. Este proceso se conoce como triangulación . La clave para este proceso son las relaciones entre múltiples vistas que transmiten la información de que los conjuntos de puntos correspondientes deben contener alguna estructura y que esta estructura está relacionada con las poses y la calibración de la cámara.

En las últimas décadas, existe una importante demanda de contenidos 3D para infografía , realidad virtual y comunicación, lo que ha provocado un cambio de énfasis en las necesidades. Muchos sistemas existentes para construir modelos 3D se construyen alrededor de hardware especializado (por ejemplo, equipos estéreo), lo que genera un alto costo que no puede satisfacer los requisitos de sus nuevas aplicaciones. Esta brecha estimula el uso de instalaciones de imágenes digitales (como una cámara). Tomasi y Kanade propusieron uno de los primeros métodos. [2] Utilizaron un enfoque de factorización afín para extraer 3D de secuencias de imágenes. Sin embargo, la suposición de proyección ortográfica es una limitación importante de este sistema.

Procesando

Se puede reconstruir un casco visual a partir de múltiples siluetas de un objeto. [3]

La tarea de convertir múltiples imágenes 2D en un modelo 3D consta de una serie de pasos de procesamiento:

La calibración de la cámara consta de parámetros intrínsecos y extrínsecos, sin los cuales, en algún nivel, ningún algoritmo puede funcionar. La línea de puntos entre Calibración y Determinación de profundidad representa que generalmente se requiere la calibración de la cámara para determinar la profundidad.

La determinación de la profundidad es la parte más desafiante de todo el proceso, ya que calcula el componente 3D que falta en cualquier imagen determinada: la profundidad. El problema clave aquí es el problema de la correspondencia , encontrar coincidencias entre dos imágenes para que la posición de los elementos coincidentes pueda triangularse en el espacio 3D.

Una vez que tenga los múltiples mapas de profundidad, deberá combinarlos para crear una malla final calculando la profundidad y proyectándola fuera de la cámara: registro . Se utilizará la calibración de la cámara para identificar dónde se pueden combinar las muchas mallas creadas por los mapas de profundidad para desarrollar una más grande, proporcionando más de una vista para la observación.

En la etapa de Aplicación de Material, tienes una malla 3D completa, que puede ser el objetivo final, pero normalmente querrás aplicar el color de las fotografías originales a la malla. Esto puede variar desde proyectar las imágenes en la malla de forma aleatoria, pasando por enfoques que combinan las texturas para obtener una superresolución y, finalmente, segmentar la malla por material, como propiedades especulares y difusas.

Descripción matemática de la reconstrucción.

Dado un grupo de puntos 3D vistos por N cámaras con matrices , defina como las coordenadas homogéneas de la proyección del punto sobre la cámara. El problema de reconstrucción se puede cambiar a: dado el grupo de coordenadas de píxeles , encontrar el conjunto correspondiente de matrices de cámara y la estructura de la escena tal que

(1)

Generalmente, sin mayores restricciones, obtendremos una reconstrucción proyectiva. [4] [5] Si y satisface (1), y satisfará (1) con cualquier matriz no singular T de 4 × 4 .

Una reconstrucción proyectiva se puede calcular únicamente por correspondencia de puntos sin ninguna información a priori .

Calibración automática

En la autocalibración o autocalibración , el movimiento y los parámetros de la cámara se recuperan primero, utilizando rigidez. Entonces la estructura se puede calcular fácilmente. A continuación se presentan dos métodos para implementar esta idea:

ecuaciones de kruppa

Con un mínimo de tres desplazamientos, podemos obtener los parámetros internos de la cámara utilizando un sistema de ecuaciones polinomiales debido a Kruppa, [6] que se derivan de una interpretación geométrica de la restricción de rigidez. [7] [8]

La matriz es desconocida en las ecuaciones de Kruppa, denominada matriz de coeficientes de Kruppa. Con K y por el método de factorización de Cholesky se pueden obtener los parámetros intrínsecos fácilmente:

Recientemente Hartley [9] propuso una forma más sencilla. Escribámonos como , donde

Luego se reescriben las ecuaciones de Kruppa (la derivación se puede encontrar en [9] )

Mendonça y Cipolla

Este método se basa en el uso de restricciones de rigidez. Diseñar una función de costos, que considere los parámetros intrínsecos como argumentos y las matrices fundamentales como parámetros. se define como matriz fundamental y como matrices de parámetros intrínsecos.

Estratificación

Recientemente se han propuesto nuevos métodos basados ​​en el concepto de estratificación . [10] Partiendo de una estructura proyectiva, que puede calcularse únicamente a partir de correspondencias, actualice esta reconstrucción proyectiva a una reconstrucción euclidiana, haciendo uso de todas las restricciones disponibles. Con esta idea el problema se puede estratificar en diferentes secciones: según la cantidad de restricciones disponibles, se puede analizar en un nivel diferente, proyectivo, afín o euclidiano.

La estratificación de la geometría 3D.

Habitualmente, el mundo se percibe como un espacio euclidiano tridimensional . En algunos casos, no es posible utilizar la estructura euclidiana completa del espacio 3D. La más simple es proyectiva, luego la geometría afín que forma las capas intermedias y finalmente la geometría euclidiana. El concepto de estratificación está estrechamente relacionado con la serie de transformaciones sobre entidades geométricas: en el estrato proyectivo hay una serie de transformaciones proyectivas (una homografía ), en el estrato afín hay una serie de transformaciones afines , y en el estrato euclidiano hay una serie de Transformaciones euclidianas.

Supongamos que dos o más cámaras de perspectiva capturan una escena fija y las correspondencias entre puntos visibles en diferentes imágenes ya están dadas. Sin embargo, en la práctica, la coincidencia es una cuestión esencial y extremadamente desafiante en la visión por computadora. Aquí, suponemos que los puntos 3D son observados por cámaras con matrices de proyección. No se conocen las posiciones de los puntos ni la proyección de la cámara. Sólo se conocen las proyecciones del punto en la imagen.

Reconstrucción proyectiva

El simple conteo indica que tenemos mediciones independientes y solo incógnitas, por lo que se supone que el problema se puede resolver con suficientes puntos e imágenes. Las ecuaciones en coordenadas homogéneas se pueden representar:

(2)

Entonces podemos aplicar una transformación H no singular de 4 × 4 a proyecciones y puntos del mundo . Por lo tanto, sin más limitaciones, la reconstrucción es sólo una deformación proyectiva desconocida del mundo 3D.

Reconstrucción afín

Consulte espacio afín para obtener información más detallada sobre cómo calcular la ubicación del avión en el infinito . La forma más sencilla es aprovechar el conocimiento previo, por ejemplo la información de que las líneas de la escena son paralelas o que un punto es el tercio entre otros dos.

También podemos utilizar restricciones previas sobre el movimiento de la cámara. Analizando diferentes imágenes de un mismo punto se puede obtener una línea en la dirección del movimiento. La intersección de varias líneas es el punto en el infinito en la dirección del movimiento y una restricción en la estructura afín.

reconstrucción euclidiana

Al asignar la reconstrucción proyectiva a una que satisfaga un grupo de restricciones euclidianas redundantes, podemos encontrar una transformación proyectiva H en la ecuación (2). Las ecuaciones son altamente no lineales y se requiere una buena estimación inicial de la estructura. Esto se puede obtener asumiendo una proyección lineal - proyección paralela, que también permite una fácil reconstrucción mediante descomposición SVD. [2]

Error algebraico vs geométrico

Inevitablemente, los datos medidos (es decir, imágenes o posiciones de puntos mundiales) tienen ruido y el ruido proviene de muchas fuentes. Para reducir el efecto del ruido solemos utilizar más ecuaciones de las necesarias y resolver con mínimos cuadrados .

Por ejemplo, en una formulación típica de un problema de espacio nulo Ax = 0 (como el algoritmo DLT), el cuadrado del residual ||Ax|| se minimiza con el método de mínimos cuadrados.

En general, si ||Ax|| puede considerarse como una distancia entre las entidades geométricas (puntos, rectas, planos, etc.), entonces lo que se está minimizando es un error geométrico , en caso contrario (cuando el error carece de una buena interpretación geométrica) se denomina error algebraico .

Por lo tanto, en comparación con el error algebraico, preferimos minimizar un error geométrico por las razones enumeradas:

  1. La cantidad que se minimiza tiene un significado.
  2. La solución es más estable.
  3. La solución es constante bajo transformadas euclidianas.

Todos los algoritmos lineales (DLT y otros) que hemos visto hasta ahora minimizan un error algebraico. En realidad, no hay justificación para minimizar un error algebraico aparte de la facilidad de implementación, ya que resulta en un problema lineal. La minimización de un error geométrico es a menudo un problema no lineal, que sólo admite soluciones iterativas y requiere un punto de partida.

Por lo general, la solución lineal basada en residuos algebraicos sirve como punto de partida para una minimización no lineal de una función de costo geométrica, lo que proporciona a la solución un "pulido" final. [11]

Aplicaciones médicas

Las imágenes bidimensionales tienen problemas de superposición anatómica entre sí y no revelan las anomalías. Las imágenes tridimensionales se pueden utilizar tanto con fines diagnósticos como terapéuticos.

Los modelos 3D se utilizan para planificar la operación, estudios morfométricos y tienen más fiabilidad en ortopedia. [12]

Proyección de P en ambas cámaras.

Planteamiento del problema y conceptos básicos

Reconstruir imágenes tridimensionales a partir de imágenes bidimensionales tomadas por una cámara en múltiples ángulos. Las técnicas de imágenes médicas como la tomografía computarizada y la resonancia magnética son costosas y, aunque las tomografías computarizadas son precisas, pueden inducir altas dosis de radiación, lo que representa un riesgo para los pacientes con ciertas enfermedades. Los métodos basados ​​en resonancia magnética no son precisos. Dado que durante una resonancia magnética estamos expuestos a potentes campos magnéticos, este método no es adecuado para pacientes con implantes metálicos ferromagnéticos. Ambos métodos se pueden realizar sólo en posición acostada, donde cambia la estructura global del hueso. Por lo tanto, analizamos los siguientes métodos que se pueden realizar estando de pie y requieren una dosis baja de radiación.

Aunque estas técnicas son imágenes tridimensionales, la región de interés se limita a un corte; Los datos se adquieren para formar una secuencia de tiempo.

Técnica basada en puntos correspondientes estéreo

Este método es simple y se implementa identificando los puntos manualmente en radiografías de múltiples vistas. El primer paso es extraer los puntos correspondientes en dos imágenes de rayos X. El segundo paso es reconstruir la imagen en tres dimensiones utilizando algoritmos como la Transformada Lineal Discreta (DLT). [13] La reconstrucción sólo es posible donde existen Puntos Correspondientes Estéreo (SCP). La calidad de los resultados depende de la cantidad de SCP, cuantos más SCP, mejores serán los resultados [14] pero es lento e inexacto. La habilidad del operador es un factor en la calidad de la imagen. Las técnicas basadas en SCP no son adecuadas para estructuras óseas sin bordes identificables. Generalmente, las técnicas basadas en SCP se utilizan como parte de un proceso que involucra otros métodos. [15]

Método de contorno correspondiente no estéreo (NCSS)

Este método utiliza imágenes de rayos X para la reconstrucción 3D y para desarrollar modelos 3D con radiaciones de dosis bajas en posiciones de soporte de peso.

En el algoritmo NSCC, el paso preliminar es el cálculo de una solución inicial. En primer lugar se definen las regiones anatómicas del objeto genérico. En segundo lugar, se realiza la identificación manual de contornos 2D en las radiografías. A partir de cada radiografía se generan contornos 2D utilizando el objeto de solución inicial 3D. Los contornos 3D de la superficie inicial del objeto se proyectan en su radiografía asociada. [15] La asociación 2D realizada entre estos 2 puntos de ajuste se basa en distancias punto a punto y derivaciones de contornos que desarrollan una correspondencia entre los contornos 2D y los contornos 3D. El siguiente paso es la optimización de la solución inicial. Por último, la deformación de la solución optimizada se realiza aplicando el algoritmo Kriging a la solución optimizada. [16] Finalmente, al iterar el paso final hasta que la distancia entre dos puntos establecidos sea superior a un valor de precisión dado, se obtiene el objeto reconstruido.

La ventaja de este método es que se puede utilizar para estructuras óseas con forma continua y también reduce la intervención humana, pero requiere mucho tiempo.

Técnica de renderizado de superficies.

El renderizado de superficies visualiza un objeto 3D como un conjunto de superficies llamadas isosuperficies. Cada superficie tiene puntos con la misma intensidad (llamado isovalor). Esta técnica suele aplicarse a datos de alto contraste y ayuda a ilustrar estructuras separadas; por ejemplo, el cráneo se puede crear a partir de cortes de la cabeza, o el sistema de vasos sanguíneos a partir de cortes del cuerpo. Dos métodos principales son:

Otros métodos utilizan modelos de forma estadísticos, paramétricos o híbridos de los dos.

Ver también

Referencias

  1. ^ "Soltani, AA, Huang, H., Wu, J., Kulkarni, TD y Tenenbaum, JB Sintetizando formas 3D mediante el modelado de siluetas y mapas de profundidad de múltiples vistas con redes generativas profundas. En actas de la Conferencia IEEE sobre visión por computadora y reconocimiento de patrones (págs. 1511-1519) ". GitHub . 6 de marzo de 2020.
  2. ^ ab C. Tomasi y T. Kanade, “Forma y movimiento a partir de flujos de imágenes bajo ortografía: un enfoque de factorización”, International Journal of Computer Vision, 9(2):137-154, 1992.
  3. ^ A. Laurentini (febrero de 1994). "El concepto de casco visual para la comprensión de imágenes basada en siluetas". Transacciones IEEE sobre análisis de patrones e inteligencia artificial . 16 (2): 150–162. doi : 10.1109/34.273735.
  4. ^ R. Mohr y E. Arbogast. Se puede hacer sin calibrar la cámara. Cartas de reconocimiento de patrones, 12:39-43, 1991.
  5. ^ O. Faugeras. ¿Qué se puede ver en tres dimensiones con un equipo estéreo no calibrado? En Actas de la Conferencia Europea sobre Visión por Computador, páginas 563-578, Santa Margherita L., 1992.
  6. ^ E. Kruppa. Zur Ermittlung eines Objektes aus zwei Perspektiven mit internaler Orientierung. Sitz.-Ber.Akad.Wiss., Viena, matemáticas. naturaleza. Kl., Abt. IIa., 122:1939-1948, 1913.
  7. ^ SJ Maybank y O. Faugeras. Una teoría de la autocalibración de una cámara en movimiento. Revista Internacional de Visión por Computadora, 8(2):123-151, 1992.
  8. ^ O. Faugeras y S. Maybank. Movimiento a partir de coincidencias de puntos: multiplicidad de soluciones. Revista internacional de visión por computadora, 4(3):225-246, junio de 1990.
  9. ^ ab RI Hartley. Ecuaciones de Kruppa derivadas de la matriz fundamental Archivado el 22 de junio de 2018 en Wayback Machine . Transacciones IEEE sobre análisis de patrones e inteligencia artificial, 19(2):133-135, febrero de 1997.
  10. ^ Pollefeys, Marc. Autocalibración y reconstrucción métrica 3D a partir de secuencias de imágenes no calibradas. Disentimiento. Tesis doctoral, ESAT-PSI, KU Leuven, 1999.
  11. ^ R. Hartley y A. Zisserman. Geometría de vista múltiple en visión por computadora. Cambridge University Press, segunda edición, 2003.
  12. ^ "Visualización médica: ¿Qué es y para qué sirve?". GarajeGranja . 2018-02-18 . Consultado el 18 de febrero de 2018 .
  13. ^ "Pearcy MJ. 1985. Radiografía estéreo del movimiento de la columna lumbar. Acta Orthop Scand Suppl".
  14. ^ "Aubin CE, Dansereau J, Parent F, Labelle H, de Guise JA. 1997. Evaluaciones morfométricas de reconstrucciones 3D personalizadas y modelos geométricos de la columna vertebral humana". Med Biol Eng Computación .
  15. ^ ab "S.Hosseinian, H.Arefi, Reconstrucción 3D a partir de imágenes de rayos X médicas de vista múltiple: revisión y evaluación de métodos existentes" (PDF) .
  16. ^ Laporte, S; Skalli, W; de Guisa, JA; Lavaste, F; Mitton, D (2003). "Un método de reconstrucción biplanar basado en contornos 2D y 3D: aplicación al fémur distal". Métodos informáticos Biomech Biomed Engin . 6 (1): 1–6. doi : 10.1080/1025584031000065956. PMID  12623432. S2CID  3206752.
  17. ^ ab G. Scott Owen, HyperVis. Comité de Educación de ACM SIGGRAPH, la Fundación Nacional de Ciencias (DUE-9752398) y el Laboratorio de Visualización e Hipermedia de la Universidad Estatal de Georgia .

Otras lecturas

enlaces externos