Adaptación de forma afín

La adaptación de forma afín es una metodología para adaptar iterativamente la forma de los núcleos de suavizado en un grupo afín de núcleos de suavizado a la estructura de la imagen local en la región vecina de un punto de imagen específico. De manera equivalente, la adaptación de forma afín se puede lograr deformando iterativamente un parche de imagen local con transformaciones afines mientras se aplica un filtro simétrico rotacional a los parches de imagen deformados. Siempre que este proceso iterativo converja, el punto fijo resultante será invariante afín . En el área de visión por computadora , esta idea se ha utilizado para definir operadores de puntos de interés invariantes afines, así como métodos de análisis de textura invariantes afines.

Operadores de puntos de interés adaptados afines

Los puntos de interés obtenidos a partir del detector de manchas laplaciano adaptado a la escala o del detector de esquinas de Harris multiescala con selección automática de escala son invariantes a las traslaciones, rotaciones y reescalamientos uniformes en el dominio espacial. Sin embargo, las imágenes que constituyen la entrada a un sistema de visión por computadora también están sujetas a distorsiones de perspectiva. Para obtener puntos de interés que sean más robustos a las transformaciones de perspectiva, un enfoque natural es diseñar un detector de características que sea invariante a las transformaciones afines .

La invariancia afín se puede lograr a partir de mediciones de la misma matriz de segundo momento en ventana multiescala que se utiliza en el operador multiescala de Harris, siempre que ampliemos el concepto de espacio de escala regular obtenido por convolución con núcleos gaussianos rotacionalmente simétricos a un espacio de escala gaussiano afín obtenido por núcleos gaussianos adaptados a la forma (Lindeberg 1994, sección 15.3; Lindeberg y Garding 1997). Para una imagen bidimensional , sea y sea una matriz 2×2 definida positiva. Entonces, un núcleo gaussiano no uniforme se puede definir como ${\estilo de visualización \mu}$ $I$ ${\bar {x}}=(x,y)^{T}$ $\Sigma__{t}$

g({\bar {x}};\Sigma )={\frac {1}{2\pi {\sqrt {\operatorname {det} \Sigma _{t}}}}}e^{-{\bar {x}}\Sigma _{t}^{-1}{\bar {x}}/2}

y dada cualquier imagen de entrada, el espacio de escala gaussiano afín es el espacio de escala de tres parámetros definido como $I_{L}$

L({\bar {x}};\Sigma _{t})=\int _{\bar {xi}}I_{L}(x-\xi )\,g({\bar {\ xi }};\Sigma _{t})\,d{\bar {\xi }}.

A continuación, introduzca una transformación afín donde es una matriz 2×2 y defina una imagen transformada como $\eta =B\xi$ ${\estilo de visualización B}$ $I_{R}$

I_{L}({\bar {\xi }})=I_{R}({\bar {\eta }})

Entonces, las representaciones afines del espacio de escala y de y , respectivamente, están relacionadas de acuerdo con $L$ $R$ $I_{L}$ $I_{R}$

L({\bar {\xi }},\Sigma _{L})=R({\bar {\eta }},\Sigma _{R})

siempre que las matrices de forma afín y estén relacionadas de acuerdo con $\Sigma _{L}$ $\Sigma _{R}$

\Sigma _{R}=B\Sigma _{L}B^{T}

Dejando de lado los detalles matemáticos, que lamentablemente se vuelven algo técnicos si uno busca una descripción precisa de lo que está sucediendo, el mensaje importante es que el espacio de escala gaussiano afín está cerrado bajo transformaciones afines .

Si, dada la notación así como la matriz de forma local y una matriz de forma de integración , introducimos una matriz de segundo momento multiescala adaptada afín de acuerdo con $\nabla L=(L_{x},L_{y})^{T}$ $\Sigma _{t}$ $\Sigma _{s}$

\mu _{L}({\bar {x}};\Sigma _{t},\Sigma _{s})=g({\bar {x}}-{\bar {\xi }};\Sigma _{s})\,\left(\nabla _{L}({\bar {\xi }};\Sigma _{t})\nabla _{L}^{T}({\bar {\xi }};\Sigma _{t})\right)

Se puede demostrar que bajo cualquier transformación afín, la matriz de segundo momento multiescala adaptada afín se transforma de acuerdo con ${\bar {q}}=B{\bar {p}}$

\mu _{L}({\bar {p}};\Sigma _{t},\Sigma _{s})=B^{T}\mu _{R}({\bar {q}};B\Sigma _{t}B^{T},B\Sigma _{s}B^{T})B

Nuevamente, dejando de lado detalles técnicos un tanto confusos, el mensaje importante aquí es que, dada una correspondencia entre los puntos de la imagen y , la transformación afín se puede estimar a partir de mediciones de las matrices de segundo momento de múltiples escalas y en los dos dominios. ${\bar {p}}$ ${\bar {q}}$ $B$ $\mu _{L}$ $\mu _{R}$

Una consecuencia importante de este estudio es que si podemos encontrar una transformación afín tal que sea una constante multiplicada por la matriz unitaria, entonces obtenemos un punto fijo que es invariante a las transformaciones afines (Lindeberg 1994, sección 15.4; Lindeberg y Garding 1997). Para fines de implementación práctica, esta propiedad a menudo se puede alcanzar de dos maneras principales. El primer enfoque se basa en transformaciones de los filtros de suavizado y consiste en: $B$ $\mu _{R}$

Estimación de la matriz de segundo momento en el dominio de la imagen, $\mu$
determinación de un nuevo núcleo de suavizado adaptado con una matriz de covarianza proporcional a , $\mu ^{-1}$
suavizar la imagen original mediante el núcleo de suavizado adaptado a la forma, y
repitiendo esta operación hasta que la diferencia entre dos matrices de segundo momento sucesivas sea suficientemente pequeña.

El segundo enfoque se basa en deformaciones en el dominio de la imagen e implica:

Estimación en el dominio de la imagen, $\mu$
estimando una transformación afín local proporcional a donde denota la matriz raíz cuadrada de , ${\hat {B}}=\mu ^{1/2}$ $\mu ^{1/2}$ $\mu$
deformando la imagen de entrada mediante la transformación afín y ${\hat {B}}^{-1}$
repitiendo esta operación hasta que esté suficientemente cerca de una constante multiplicada por la matriz unitaria. $\mu$

Este proceso general se conoce como adaptación de forma afín (Lindeberg y Garding, 1997; Baumberg, 2000; Mikolajczyk y Schmid, 2004; Tuytelaars y van Gool, 2004; Ravela, 2004; Lindeberg, 2008). En el caso continuo ideal, los dos enfoques son matemáticamente equivalentes. Sin embargo, en las implementaciones prácticas, el primer enfoque basado en filtros suele ser más preciso en presencia de ruido, mientras que el segundo enfoque basado en deformación suele ser más rápido.

En la práctica, el proceso de adaptación de forma afín descrito aquí se combina a menudo con la selección automática de escala de detección de puntos de interés, como se describe en los artículos sobre detección de manchas y detección de esquinas , para obtener puntos de interés que sean invariantes con respecto al grupo afín completo, incluidos los cambios de escala. Además del operador de Harris multiescala de uso común, esta adaptación de forma afín también se puede aplicar a otros tipos de operadores de puntos de interés, como el operador de manchas laplaciano/diferencia de gaussiano y el determinante del hessiano (Lindeberg 2008). La adaptación de forma afín también se puede utilizar para el reconocimiento de texturas invariantes afines y la segmentación de texturas invariantes afines.

Estrechamente relacionada con la noción de adaptación de forma afín está la noción de normalización afín , que define un marco de referencia invariante afín como se describe con más detalle en Lindeberg (2013a,b, 2021:Apéndice I.3), de modo que cualquier medición de imagen realizada en el marco de referencia invariante afín es invariante afín.

Véase también

Referencias

Baumberg, A. (2000). "Reliable feature matching across broad separate views" (Coincidencia de características fiable en vistas muy separadas). Actas de la Conferencia IEEE sobre Visión artificial y reconocimiento de patrones . pp. I:1774–1781. doi :10.1109/CVPR.2000.855899.
Lindeberg, T. (1994). Teoría del espacio de escala en la visión artificial. Springer. ISBN 0-7923-9418-6.
Lindeberg, T.; Garding, J. (1997). "Suavizado adaptado a la forma en la estimación de claves de profundidad 3-D a partir de distorsiones afines de la estructura 2-D local". Image and Vision Computing . 15 (6): 415–434. doi :10.1016/S0262-8856(97)01144-X.
Lindeberg, T. (2008). "Espacio de escala". Enciclopedia de Ciencias de la Computación e Ingeniería ( Benjamin Wah , ed.), John Wiley and Sons . Vol. IV. págs. 2495–2504. doi :10.1002/9780470050118.ecse609. ISBN . 978-0470050118.
Lindeberg, T. (2013a). "Invariancia de las operaciones visuales a nivel de los campos receptivos". PLOS ONE . 8 (7): e66990:1–33. arXiv : 1210.0754 . Bibcode :2013PLoSO...866990L. doi : 10.1371/journal.pone.0066990 . PMC 3716821 . PMID 23894283.
Lindeberg, T. (2013b). "Teoría axiomática generalizada del espacio de escala". Avances en imágenes y física electrónica . 178 (7): 1–96. doi :10.1016/B978-0-12-407701-0.00001-7. ISBN . 9780124077010.
Lindeberg, T. (2021). "Teoría normativa de los campos receptivos visuales". Heliyon . 7 (1): e05897. doi : 10.1016/j.heliyon.2021.e05897 . PMC 7820928 . PMID 33521348.
Mikolajczyk, K.; Schmid, C. (2004). "Detectores de puntos de interés invariantes a escala y afines" (PDF) . Revista Internacional de Visión por Computador . 60 (1): 63–86. doi :10.1023/B:VISI.0000027790.02288.f2. S2CID 1704741. Integración del operador multiescala de Harris con la metodología para la selección automática de escala, así como con la adaptación afín de forma.
Tuytelaars, T.; van Gool, L. (2004). "Matching Widely Separated Views Based on Affine Invariant Regions" (PDF) . Revista internacional de visión por ordenador . 59 (1): 63–86. doi :10.1023/B:VISI.0000020671.28016.e8. S2CID 5107897. Archivado desde el original (PDF) el 2010-06-12.
Ravela, S. (2004). "Conformación de campos receptivos para la invariancia afín". Actas de la Conferencia de la IEEE Computer Society de 2004 sobre visión artificial y reconocimiento de patrones, 2004. CVPR 2004. Vol. 2. págs. 725–730. doi :10.1109/CVPR.2004.1315236. ISBN 0-7695-2158-4.