La unión de imágenes o unión de fotografías es el proceso de combinar múltiples imágenes fotográficas con campos de visión superpuestos para producir un panorama segmentado o una imagen de alta resolución. Generalmente se realiza mediante el uso de software de computadora , la mayoría de los enfoques para la unión de imágenes requieren superposiciones casi exactas entre imágenes y exposiciones idénticas para producir resultados uniformes, [1] [2] aunque algunos algoritmos de unión en realidad se benefician de imágenes con diferentes exposiciones al realizar imágenes de alto rango dinámico en regiones de superposición. [3] [4] Algunas cámaras digitales pueden unir sus fotos internamente.
La unión de imágenes se utiliza ampliamente en aplicaciones modernas, como las siguientes:
El proceso de unión de imágenes se puede dividir en tres componentes principales: registro de imágenes , calibración y combinación .
Para estimar la alineación de una imagen, se necesitan algoritmos que determinen el modelo matemático apropiado que relacione las coordenadas de los píxeles de una imagen con las de otra. Para estimar estos parámetros se pueden utilizar algoritmos que combinen comparaciones directas entre píxeles con descenso de gradiente (y otras técnicas de optimización).
Se pueden encontrar características distintivas en cada imagen y luego combinarlas de manera eficiente para establecer rápidamente correspondencias entre pares de imágenes. Cuando existen múltiples imágenes en un panorama, se han desarrollado técnicas para calcular un conjunto de alineaciones globalmente consistente y descubrir de manera eficiente qué imágenes se superponen entre sí.
Se necesita una superficie de composición final sobre la cual deformar o transformar proyectivamente y colocar todas las imágenes alineadas, así como algoritmos para combinar perfectamente las imágenes superpuestas, incluso en presencia de paralaje, distorsión de la lente, movimiento de la escena y diferencias de exposición.
Dado que no se puede garantizar que la iluminación en dos vistas sea idéntica, unir dos imágenes podría crear una costura visible. Otras razones para las costuras podrían ser que el fondo cambie entre dos imágenes para el mismo primer plano continuo. Otros problemas importantes que se deben abordar son la presencia de paralaje , distorsión de la lente , movimiento de la escena y diferencias de exposición . En un caso no ideal de la vida real, la intensidad varía en toda la escena, y también lo hace el contraste y la intensidad en los fotogramas. Además, se debe tener en cuenta la relación de aspecto de una imagen panorámica para crear una composición visualmente agradable .
Para la unión panorámica , el conjunto ideal de imágenes tendrá una cantidad razonable de superposición (al menos entre el 15 y el 30 %) para superar la distorsión de la lente y tener suficientes características detectables. El conjunto de imágenes tendrá una exposición uniforme entre fotogramas para minimizar la probabilidad de que se produzcan uniones.
La detección de características es necesaria para encontrar automáticamente correspondencias entre imágenes. Se requieren correspondencias robustas para estimar la transformación necesaria para alinear una imagen con la imagen sobre la que se está componiendo. Las esquinas, los puntos, las esquinas de Harris y las diferencias de las gaussianas de las esquinas de Harris son buenas características, ya que son repetibles y distintas.
Uno de los primeros operadores para la detección de puntos de interés fue desarrollado por Hans P. Moravec en 1977 para su investigación sobre la navegación automática de un robot a través de un entorno agrupado. Moravec también definió el concepto de "puntos de interés" en una imagen y concluyó que estos puntos de interés podrían usarse para encontrar regiones coincidentes en diferentes imágenes. El operador de Moravec se considera un detector de esquinas porque define los puntos de interés como puntos en los que hay grandes variaciones de intensidad en todas las direcciones. Esto suele suceder en las esquinas. Sin embargo, Moravec no estaba específicamente interesado en encontrar esquinas, solo regiones distintas en una imagen que pudieran usarse para registrar fotogramas de imagen consecutivos.
Harris y Stephens mejoraron el detector de esquinas de Moravec al considerar directamente el diferencial de la puntuación de las esquinas con respecto a la dirección. Lo necesitaban como un paso de procesamiento para construir interpretaciones del entorno de un robot basadas en secuencias de imágenes. Al igual que Moravec, necesitaban un método para hacer coincidir los puntos correspondientes en fotogramas de imágenes consecutivos, pero estaban interesados en rastrear tanto las esquinas como los bordes entre fotogramas.
SIFT y SURF son algoritmos recientes de detección de puntos clave o de interés, pero cabe destacar que SURF está patentado y su uso comercial está restringido. Una vez que se ha detectado una característica, se puede aplicar un método de descripción como el descriptor SIFT para compararlas posteriormente.
El registro de imágenes implica la comparación de características [7] en un conjunto de imágenes o el uso de métodos de alineación directa para buscar alineaciones de imágenes que minimicen la suma de las diferencias absolutas entre los píxeles superpuestos. [8] Cuando se utilizan métodos de alineación directa, uno puede calibrar primero sus imágenes para obtener mejores resultados. Además, los usuarios pueden ingresar un modelo aproximado del panorama para ayudar en la etapa de comparación de características, de modo que, por ejemplo, solo se busquen imágenes vecinas para encontrar características coincidentes. Dado que hay un grupo más pequeño de características para comparar, el resultado de la búsqueda es más preciso y la ejecución de la comparación es más rápida.
Para estimar un modelo robusto a partir de los datos, se utiliza un método común conocido como RANSAC . El nombre RANSAC es una abreviatura de " RAN dom SA mple C onsensus". Es un método iterativo para la estimación robusta de parámetros para ajustar modelos matemáticos a partir de conjuntos de puntos de datos observados que pueden contener valores atípicos. El algoritmo no es determinista en el sentido de que produce un resultado razonable solo con una cierta probabilidad, y esta probabilidad aumenta a medida que se realizan más iteraciones. Al ser un método probabilístico significa que se obtendrán resultados diferentes cada vez que se ejecute el algoritmo.
El algoritmo RANSAC ha encontrado muchas aplicaciones en la visión artificial, incluyendo la resolución simultánea del problema de correspondencia y la estimación de la matriz fundamental relacionada con un par de cámaras estéreo. El supuesto básico del método es que los datos consisten en "inliers", es decir, datos cuya distribución puede explicarse mediante algún modelo matemático, y "outliers", que son datos que no se ajustan al modelo. Los outliers son considerados puntos que provienen del ruido, mediciones erróneas o simplemente datos incorrectos.
Para el problema de estimación de homografía , RANSAC intenta ajustar varios modelos utilizando algunos de los pares de puntos y luego verifica si los modelos pudieron relacionar la mayoría de los puntos. El mejor modelo (la homografía, que produce la mayor cantidad de coincidencias correctas) se elige entonces como la respuesta al problema; por lo tanto, si la relación entre la cantidad de valores atípicos y los puntos de datos es muy baja, RANSAC genera un modelo decente que se ajusta a los datos.
La calibración de imágenes tiene como objetivo minimizar las diferencias entre los modelos de lentes ideales y la combinación de lentes de cámara que se utilizó, defectos ópticos como distorsiones , diferencias de exposición entre imágenes, viñeteado , [9] respuesta de la cámara y aberraciones cromáticas . Si se utilizaron métodos de detección de características para registrar imágenes y se registraron y guardaron las posiciones absolutas de las características, el software de costura puede usar los datos para la optimización geométrica de las imágenes además de colocar las imágenes en la panosfera. Panotools y sus diversos programas derivados utilizan este método.
La alineación puede ser necesaria para transformar una imagen de modo que coincida con el punto de vista de la imagen con la que se va a componer. La alineación, en términos simples, es un cambio en el sistema de coordenadas para que adopte un nuevo sistema de coordenadas que genere una imagen que coincida con el punto de vista requerido. Los tipos de transformaciones por las que puede pasar una imagen son la traslación pura, la rotación pura, una transformación de similitud que incluye la traslación, la rotación y el escalado de la imagen que se necesita transformar, y la transformación afín o proyectiva.
La transformación proyectiva es lo máximo que una imagen puede transformarse (en el conjunto de transformaciones planas bidimensionales), donde solo las características visibles que se conservan en la imagen transformada son líneas rectas, mientras que en una transformación afín se mantiene el paralelismo.
La transformación proyectiva se puede describir matemáticamente como
donde x son los puntos en el antiguo sistema de coordenadas, x' son los puntos correspondientes en la imagen transformada y H es la matriz de homografía .
Expresando los puntos x y x' utilizando las funciones intrínsecas de la cámara (K y K') y su rotación y traslación [R t] a las coordenadas del mundo real X y X', obtenemos
Usando las dos ecuaciones anteriores y la relación de homografía entre x' y x, podemos derivar
La matriz de homografía H tiene 8 parámetros o grados de libertad. La homografía se puede calcular utilizando la transformada lineal directa y la descomposición en valores singulares con
donde A es la matriz construida usando las coordenadas de correspondencias y h es el vector unidimensional de los 9 elementos de la matriz de homografía reformada. Para llegar a h podemos simplemente aplicar SVD: A = U S V T Y h = V (columna correspondiente al vector singular más pequeño). Esto es cierto ya que h se encuentra en el espacio nulo de A. Como tenemos 8 grados de libertad, el algoritmo requiere al menos cuatro correspondencias puntuales. En caso de que se use RANSAC para estimar la homografía y haya múltiples correspondencias disponibles, la matriz de homografía correcta es la que tiene el número máximo de inliers.
La composición es el proceso mediante el cual las imágenes rectificadas se alinean de tal manera que aparecen como una sola toma de una escena. La composición se puede realizar automáticamente ya que el algoritmo ahora sabe qué correspondencias se superponen.
La combinación de imágenes implica la ejecución de los ajustes calculados en la etapa de calibración, junto con la reasignación de las imágenes a una proyección de salida. Se ajustan los colores entre las imágenes para compensar las diferencias de exposición. Si corresponde, se realiza una fusión de alto rango dinámico junto con la compensación de movimiento y la eliminación de imágenes fantasma. Las imágenes se combinan y se realiza un ajuste de las líneas de unión para minimizar la visibilidad de las uniones entre las imágenes.
La costura se puede reducir con un simple ajuste de ganancia. Esta compensación básicamente minimiza la diferencia de intensidad de los píxeles superpuestos. El algoritmo de combinación de imágenes asigna más peso a los píxeles cerca del centro de la imagen. Las imágenes con compensación de ganancia y las combinadas con múltiples bandas son las que ofrecen mejores resultados. IJCV 2007.
El enderezamiento es otro método para rectificar la imagen. Matthew Brown y David G. Lowe, en su artículo 'Automatic Panoramic Image Stitching using Invariant Features', describen métodos de enderezamiento que aplican una rotación global de modo que el vector u sea vertical (en el marco de renderizado), lo que elimina de manera efectiva el efecto ondulado de las panorámicas de salida. Este proceso es similar a la rectificación de imágenes y, de manera más general, a la corrección por software de distorsiones ópticas en fotografías individuales.
Incluso después de la compensación de ganancia, algunos bordes de la imagen siguen siendo visibles debido a una serie de efectos no modelados, como el viñeteado (la intensidad disminuye hacia el borde de la imagen), los efectos de paralaje debido al movimiento no deseado del centro óptico, los errores de registro debido al mal manejo de la cámara, la distorsión radial, etc. Por estas razones, proponen una estrategia de combinación llamada combinación multibanda.
Para los segmentos de imágenes que se han tomado desde el mismo punto en el espacio, las imágenes unidas se pueden organizar utilizando una de varias proyecciones de mapas .
Proyección rectilínea , donde la imagen unida se ve en un plano bidimensional que intersecta la panosfera en un único punto. Las líneas que son rectas en la realidad se muestran como rectas independientemente de sus direcciones en la imagen. Las vistas amplias (alrededor de 120°) comienzan a mostrar una distorsión grave cerca de los bordes de la imagen. Un caso de proyección rectilínea es el uso de caras de cubo con mapeo cúbico para la visualización panorámica. El panorama se mapea en seis cuadrados, y cada cara del cubo muestra un área de 90 por 90 grados del panorama.
Proyección cilíndrica , donde la imagen unida muestra un campo de visión horizontal de 360° y un campo de visión vertical limitado. Los panoramas en esta proyección están pensados para ser vistos como si la imagen estuviera envuelta en un cilindro y se observara desde dentro. Cuando se observa en un plano 2D, las líneas horizontales aparecen curvas mientras que las líneas verticales permanecen rectas. [10] La distorsión vertical aumenta rápidamente al acercarse a la parte superior de la panosfera. Hay varios otros formatos cilíndricos, como el cilíndrico de Mercator y el de Miller , que tienen menos distorsión cerca de los polos de la panosfera.
Proyección esférica o proyección equirrectangular (que, en sentido estricto, es otra proyección cilíndrica), en la que la imagen unida muestra un campo de visión horizontal de 360° por vertical de 180°, es decir, toda la esfera. Las panorámicas en esta proyección están pensadas para verse como si la imagen estuviera envuelta en una esfera y se observara desde dentro. Cuando se observan en un plano 2D, las líneas horizontales aparecen curvadas como en una proyección cilíndrica, mientras que las líneas verticales permanecen verticales. [10]
Dado que un panorama es básicamente un mapa de una esfera, también se pueden utilizar otras proyecciones cartográficas si así se desea. Además, existen proyecciones especializadas que pueden tener ventajas estéticas más agradables que las proyecciones cartográficas normales, como la proyección Panini de Hugin [11] (que debe su nombre al pintor vedutista italiano Giovanni Paolo Panini [12] ) o la proyección Vedutismo de PTGui [13] . Se pueden combinar diferentes proyecciones en la misma imagen para ajustar con precisión el aspecto final de la imagen de salida [14] .
La proyección estereográfica o proyección de ojo de pez se puede utilizar para formar un pequeño panorama del planeta apuntando la cámara virtual hacia abajo y configurando el campo de visión lo suficientemente grande como para mostrar todo el terreno y algunas de las áreas que se encuentran por encima de él; apuntando la cámara virtual hacia arriba se crea un efecto de túnel. La conformidad de la proyección estereográfica puede producir un resultado visualmente más agradable que la proyección de ojo de pez de área equivalente, como se analiza en el artículo sobre la proyección estereográfica.
El uso de imágenes que no se han tomado desde el mismo lugar (sobre un pivote alrededor de la pupila de entrada de la cámara) [15] puede provocar errores de paralaje en el producto final. Cuando la escena capturada presenta un movimiento rápido o dinámico, pueden producirse artefactos como resultado de las diferencias de tiempo entre los segmentos de la imagen. La "costura ciega" mediante métodos de alineación basados en características (ver auto-costura ), a diferencia de la selección y la costura manuales, puede provocar imperfecciones en el montaje del panorama.
Los programas dedicados incluyen Autostitch , Hugin , Ptgui , Panorama Tools , Microsoft Research Image Composite Editor y CleVR Stitcher . Muchos otros programas también pueden unir múltiples imágenes; un ejemplo popular es Photoshop de Adobe Systems , que incluye una herramienta conocida como Photomerge y, en las últimas versiones, el nuevo Auto-Blend . Otros programas como VideoStitch permiten unir videos, y Vahana VR permite la unión de videos en tiempo real. El módulo Image Stitching para el software de microscopio QuickPHOTO permite unir de forma interactiva múltiples campos de visión del microscopio utilizando la vista en vivo de la cámara. También se puede utilizar para la unión manual de muestras de microscopía completas.
{{cite web}}
: CS1 maint: estado de la URL ( enlace )