Modelo de puntos 3D proyectados sobre una imagen plana a través de una apertura sin lente
El modelo de cámara estenopeica describe la relación matemática entre las coordenadas de un punto en el espacio tridimensional y su proyección sobre el plano de la imagen de una cámara estenopeica ideal , donde la apertura de la cámara se describe como un punto y no se utilizan lentes para enfocar la luz. El modelo no incluye, por ejemplo, distorsiones geométricas o desenfoque de objetos desenfocados causados por lentes y aperturas de tamaño finito. [1] Tampoco tiene en cuenta que la mayoría de las cámaras prácticas solo tienen coordenadas de imagen discretas. Esto significa que el modelo de cámara estenopeica solo se puede utilizar como una aproximación de primer orden del mapeo de una escena 3D a una imagen 2D . Su validez depende de la calidad de la cámara y, en general, disminuye desde el centro de la imagen hacia los bordes a medida que aumentan los efectos de distorsión de la lente.
Algunos de los efectos que el modelo de cámara estenopeica no tiene en cuenta se pueden compensar, por ejemplo, aplicando transformaciones de coordenadas adecuadas en las coordenadas de la imagen; otros efectos son lo suficientemente pequeños como para que se los desestime si se utiliza una cámara de alta calidad. Esto significa que el modelo de cámara estenopeica se puede utilizar a menudo como una descripción razonable de cómo una cámara representa una escena 3D, por ejemplo, en visión artificial y gráficos por ordenador .
Geometría
La geometría relacionada con el mapeo de una cámara estenopeica se ilustra en la figura. La figura contiene los siguientes objetos básicos:
Un sistema de coordenadas ortogonal en 3D cuyo origen es O. Aquí también se encuentra la apertura de la cámara . Los tres ejes del sistema de coordenadas se denominan X1, X2, X3. El eje X3 apunta en la dirección de visualización de la cámara y se denomina eje óptico , eje principal o rayo principal . El plano que abarcan los ejes X1 y X2 es el lado frontal de la cámara o plano principal .
Un plano de imagen, donde el mundo 3D se proyecta a través de la apertura de la cámara. El plano de imagen es paralelo a los ejes X1 y X2 y se encuentra a una distancia del origen O en la dirección negativa del eje X3, donde f es la distancia focal de la cámara estenopeica. Una implementación práctica de una cámara estenopeica implica que el plano de imagen se encuentra de manera que interseca el eje X3 en la coordenada -f donde f > 0 .
Punto R en la intersección del eje óptico y el plano de la imagen. Este punto se denomina punto principal [2] o centro de la imagen .
Un punto P en algún lugar del mundo en coordenadas relativas a los ejes X1, X2 y X3.
La línea de proyección del punto P hacia la cámara. Esta es la línea verde que pasa por el punto P y el punto O.
La proyección del punto P sobre el plano de la imagen, denotada como Q. Este punto está dado por la intersección de la línea de proyección (verde) y el plano de la imagen. En cualquier situación práctica podemos suponer que > 0, lo que significa que el punto de intersección está bien definido.
También existe un sistema de coordenadas 2D en el plano de la imagen, con origen en R y con ejes Y1 e Y2 paralelos a X1 y X2, respectivamente. Las coordenadas del punto Q con respecto a este sistema de coordenadas son .
Se supone que la abertura del orificio de la cámara, por donde deben pasar todas las líneas de proyección, es infinitamente pequeña, un punto. En la literatura, este punto en el espacio 3D se denomina centro óptico (o de la lente o de la cámara) . [3]
Formulación
A continuación queremos entender cómo las coordenadas del punto Q dependen de las coordenadas del punto P. Esto se puede hacer con la ayuda de la siguiente figura que muestra la misma escena que la figura anterior pero ahora desde arriba, mirando hacia abajo en la dirección negativa del eje X2.
En esta figura vemos dos triángulos semejantes , ambos con partes de la línea de proyección (verde) como hipotenusas . Los catetos del triángulo izquierdo son y f y los catetos del triángulo rectángulo son y . Como los dos triángulos son semejantes se deduce que
o
Una investigación similar, mirando en la dirección negativa del eje X1, da
o
Esto se puede resumir como
que es una expresión que describe la relación entre las coordenadas 3D del punto P y sus coordenadas de imagen dadas por el punto Q en el plano de la imagen.
Imagen rotada y plano de imagen virtual
La conversión de coordenadas 3D a 2D descrita por una cámara estenopeica es una proyección en perspectiva seguida de una rotación de 180° en el plano de la imagen. Esto corresponde a cómo funciona una cámara estenopeica real; la imagen resultante se gira 180° y el tamaño relativo de los objetos proyectados depende de su distancia al punto focal y el tamaño total de la imagen depende de la distancia f entre el plano de la imagen y el punto focal. Para producir una imagen sin girar, que es lo que esperamos de una cámara, existen dos posibilidades:
Gire el sistema de coordenadas en el plano de la imagen 180° (en cualquier dirección). Esta es la forma en que cualquier implementación práctica de una cámara estenopeica resolvería el problema; en el caso de una cámara fotográfica, giramos la imagen antes de mirarla y, en el caso de una cámara digital, leemos los píxeles en un orden tal que se giran.
Coloque el plano de la imagen de forma que intersecte el eje X3 en f en lugar de en -f y vuelva a realizar los cálculos anteriores. Esto generaría un plano de imagen virtual (o frontal) que no se puede implementar en la práctica, pero proporciona una cámara teórica que puede ser más sencilla de analizar que la real.
En ambos casos, el mapeo resultante de coordenadas 3D a coordenadas de imagen 2D se da por la expresión anterior, pero sin la negación, por lo tanto
En coordenadas homogéneas
La aplicación de coordenadas 3D de puntos en el espacio a coordenadas de imágenes 2D también se puede representar en coordenadas homogéneas . Sea una representación de un punto 3D en coordenadas homogéneas (un vector de 4 dimensiones), y sea una representación de la imagen de este punto en la cámara estenopeica (un vector tridimensional). Entonces se cumple la siguiente relación
donde es la matriz de la cámara y la igualdad de medias entre elementos de espacios proyectivos . Esto implica que los lados izquierdo y derecho son iguales hasta una multiplicación escalar distinta de cero. Una consecuencia de esta relación es que también puede verse como un elemento de un espacio proyectivo ; dos matrices de cámara son equivalentes si son iguales hasta una multiplicación escalar. Esta descripción del mapeo de la cámara estenopeica, como una transformación lineal en lugar de como una fracción de dos expresiones lineales, permite simplificar muchas derivaciones de relaciones entre coordenadas 3D y 2D. [ cita requerida ]
^ Szeliski, Richard (2022). Visión artificial: algoritmos y aplicaciones (2.ª edición). Springer Nature. pág. 74. ISBN 3030343723. Recuperado el 30 de diciembre de 2023 .
^ Carlo Tomasi (9 de agosto de 2016). "Un modelo de cámara simple" (PDF) . cs.duke.edu . Consultado el 18 de febrero de 2021 .
^ Andrea Fusiello (27 de diciembre de 2005). "Elementos de la visión geométrica por computadora". Homepages.inf.ed.ac.uk . Consultado el 18 de diciembre de 2013 .
Bibliografía
David A. Forsyth y Jean Ponce (2003). Visión artificial: un enfoque moderno . Prentice Hall. ISBN 0-12-379777-2.
Richard Hartley y Andrew Zisserman (2003). Geometría de vista múltiple en visión artificial. Cambridge University Press. ISBN 0-521-54051-8.
Bernd Jähne (1997). Manual práctico de procesamiento de imágenes para aplicaciones científicas . CRC Press. ISBN 0-8493-8906-2.
Gang Xu y Zhengyou Zhang (1996). Geometría epipolar en reconocimiento de objetos, movimiento y estéreo. Kluwer Academic Publishers. ISBN 0-7923-4199-6.
Szeliski, Richard (2022). Visión artificial: algoritmos y aplicaciones (2.ª edición). Springer Nature. pág. 925. ISBN 3030343723. Recuperado el 30 de diciembre de 2023 .