stringtranslate.com

tensor de estructura

En matemáticas, el tensor de estructura , también denominado matriz de segundo momento , es una matriz derivada del gradiente de una función . Describe la distribución del gradiente en una vecindad específica alrededor de un punto y hace que la información sea invariante con respecto a las coordenadas de observación. El tensor de estructura se utiliza a menudo en el procesamiento de imágenes y en la visión por computadora . [1] [2] [3]

El tensor de estructura 2D.

Versión continua

Para una función de dos variables p = ( x , y ) , el tensor de estructura es la matriz 2×2

derivadas parcialesxywdesenfoque gaussianodistribuciónp = ( x , y )

La fórmula anterior también se puede escribir como , donde está la función matricial definida por

Si el gradiente de se ve como una matriz de 2 × 1 (una sola columna), donde denota la operación de transposición , que convierte un vector de fila en un vector de columna, la matriz se puede escribir como producto matricial , tensor o producto externo . Sin embargo, tenga en cuenta que el tensor de estructura no se puede factorizar de esta manera en general, excepto si es una función delta de Dirac .

Versión discreta

En el procesamiento de imágenes y otras aplicaciones similares, la función generalmente se proporciona como una matriz discreta de muestras , donde p es un par de índices enteros. El tensor de estructura 2D en un píxel dado generalmente se considera la suma discreta

Aquí el índice de suma r abarca un conjunto finito de pares de índices (la "ventana", típicamente para algunos m ), y w [ r ] es un "peso de ventana" fijo que depende de r , de modo que la suma de todos los pesos es 1. Los valores son las derivadas parciales muestreadas en el píxel p ; que, por ejemplo, puede estimarse mediante fórmulas de diferencias finitas .

La fórmula del tensor de estructura también se puede escribir como , donde está la matriz con valores matricial tales que

Interpretación

La importancia del tensor de estructura 2D surge del hecho de que los valores propios (que se pueden ordenar de manera que ) y los vectores propios correspondientes resumen la distribución del gradiente de dentro de la ventana definida por centrado en . [1] [2] [3]

Es decir, si , entonces (o ) es la dirección que está alineada al máximo con el degradado dentro de la ventana.

En particular, si entonces el gradiente es siempre múltiplo de (positivo, negativo o cero); este es el caso si y sólo si dentro de la ventana varía a lo largo de la dirección pero es constante a lo largo de . Esta condición de valores propios también se llama condición de simetría lineal porque entonces las isocurvas consisten en líneas paralelas, es decir, existe una función unidimensional que puede generar la función bidimensional como para algún vector constante y las coordenadas .

Si , por el contrario, el degradado en la ventana no tiene una dirección predominante; lo que sucede, por ejemplo, cuando la imagen tiene simetría rotacional dentro de esa ventana. Esta condición de valores propios también se denomina cuerpo equilibrado o condición de equilibrio direccional porque se cumple cuando todas las direcciones de gradiente en la ventana son igualmente frecuentes/probables.

Además, la condición ocurre si y solo si la función es constante ( ) dentro de .

De manera más general, el valor de , para k =1 o k =2, es el promedio ponderado, en la vecindad de p , del cuadrado de la derivada direccional de a lo largo de . La discrepancia relativa entre los dos valores propios de es un indicador del grado de anisotropía del gradiente en la ventana, es decir, qué tan fuertemente está sesgado hacia una dirección particular (y su opuesta). [4] [5] Este atributo puede cuantificarse mediante la coherencia , definida como

si . Esta cantidad es 1 cuando el gradiente está totalmente alineado y 0 cuando no tiene una dirección preferida. La fórmula no está definida, incluso en el límite , cuando la imagen es constante en la ventana ( ). Algunos autores lo definen como 0 en ese caso.

Tenga en cuenta que el promedio del gradiente dentro de la ventana no es un buen indicador de anisotropía. Los vectores de gradiente alineados pero con orientación opuesta se cancelarían en este promedio, mientras que en el tensor de estructura se suman correctamente. [6] Esta es una razón por la cual se utiliza en el promediado del tensor de estructura para optimizar la dirección en lugar de .

Al expandir el radio efectivo de la función de ventana (es decir, aumentar su varianza), se puede hacer que el tensor de la estructura sea más robusto frente al ruido, a costa de una resolución espacial disminuida. [5] [7] La ​​base formal de esta propiedad se describe con más detalle a continuación, donde se muestra que una formulación multiescala del tensor de estructura, denominada tensor de estructura multiescala, constituye un verdadero tensor de múltiples escalas. Representación de datos direccionales bajo variaciones de la extensión espacial de la función de ventana .

Versión compleja

La interpretación e implementación del tensor de estructura 2D se vuelve particularmente accesible utilizando números complejos . [2] La estructura tensor consta de 3 números reales.

dónde y en qué las integrales se pueden reemplazar por sumas para representación discreta. Usando la identidad de Parseval queda claro que los tres números reales son los momentos de segundo orden del espectro de potencias de . El siguiente momento complejo de segundo orden del espectro de potencia se puede escribir como

donde y es el ángulo de dirección del vector propio más significativo del tensor de estructura, mientras que y son los valores propios más y menos significativos. De esto se deduce que en la representación de doble ángulo contiene tanto una certeza como la dirección óptima, ya que se trata de un número complejo que consta de dos números reales. De ello se deduce también que si el gradiente se representa como un número complejo y se reasigna elevando al cuadrado (es decir, los ángulos argumentales del gradiente complejo se duplican), entonces el promedio actúa como un optimizador en el dominio mapeado, ya que proporciona directamente tanto el dirección (en representación de doble ángulo) y la certeza asociada. El número complejo representa, por lo tanto, cuánta estructura lineal (simetría lineal) hay en la imagen , y el número complejo se obtiene directamente promediando el gradiente en su representación (compleja) de doble ángulo sin calcular los valores propios y los vectores propios explícitamente.

Asimismo, el siguiente momento complejo de segundo orden del espectro de potencia de , que resulta ser siempre real porque es real,

se puede obtener, siendo y los valores propios como antes. Observe que esta vez la magnitud del gradiente complejo está al cuadrado (que siempre es real).

Sin embargo, al descomponer el tensor de estructura en sus vectores propios se obtienen sus componentes tensoriales como

¿Dónde está la matriz identidad en 2D porque los dos vectores propios son siempre ortogonales (y su suma es la unidad)? El primer término en la última expresión de la descomposición, representa el componente de simetría lineal del tensor de estructura que contiene toda la información direccional (como una matriz de rango 1), mientras que el segundo término representa el componente de cuerpo equilibrado del tensor, que carece de cualquier información direccional (que contiene una matriz de identidad ). Saber cuánta información direccional hay es lo mismo que comprobar su tamaño en comparación con .

Evidentemente, es el equivalente complejo del primer término en la descomposición tensorial, mientras que

La elegancia de la representación compleja proviene de que los dos componentes del tensor de estructura se pueden obtener como promedios e independientemente. A su vez, esto significa que y puede usarse en una representación espacial a escala para describir la evidencia de la presencia de una orientación única y la evidencia de la hipótesis alternativa, la presencia de múltiples orientaciones equilibradas, sin calcular los vectores propios y los valores propios. Hasta la fecha no se ha demostrado que exista una función, como elevar al cuadrado los números complejos, para tensores estructurales con dimensiones superiores a dos. En Bigun 91, se ha argumentado debidamente que esto se debe a que los números complejos son álgebras conmutativas, mientras que los cuaterniones, el posible candidato para construir tal funcional por, constituyen un álgebra no conmutativa. [8]

La representación compleja del tensor de estructura se utiliza frecuentemente en el análisis de huellas dactilares para obtener mapas de dirección que contienen certezas que a su vez se utilizan para mejorarlas, para encontrar las ubicaciones de las singularidades globales (núcleos y deltas) y locales (minucias), así como evaluar automáticamente la calidad de las huellas dactilares.

El tensor de estructura 3D

Definición

El tensor de estructura se puede definir también para una función de tres variables p =( x , y , z ) de forma totalmente análoga. Es decir, en la versión continua tenemos , donde

En la versión discreta, donde

m

Interpretación

Como en el caso bidimensional, los valores propios de y los vectores propios correspondientes resumen la distribución de las direcciones del gradiente dentro de la vecindad de p definida por la ventana . Esta información se puede visualizar como un elipsoide cuyos semiejes son iguales a los valores propios y están dirigidos a lo largo de sus correspondientes vectores propios. [9] [10]

Representación elipsoidal del tensor de estructura 3D.

En particular, si el elipsoide se estira a lo largo de un solo eje, como un cigarro (es decir, si es mucho más grande que ambos y ), significa que el gradiente en la ventana está predominantemente alineado con la dirección , de modo que las isosuperficies de tienden ser plano y perpendicular a ese vector. Esta situación ocurre, por ejemplo, cuando p se encuentra en una característica delgada similar a una placa, o en el límite suave entre dos regiones con valores contrastantes.

Si el elipsoide está aplanado en una sola dirección, como un panqueque (es decir, si es mucho más pequeño que ambos y ), significa que las direcciones del gradiente están extendidas pero perpendiculares a ; de modo que las isosuperficies tienden a ser como tubos paralelos a ese vector. Esta situación ocurre, por ejemplo, cuando p se encuentra en una característica similar a una línea delgada, o en una esquina aguda del límite entre dos regiones con valores contrastantes.

Finalmente, si el elipsoide es aproximadamente esférico (es decir, si ), significa que las direcciones del gradiente en la ventana están distribuidas más o menos uniformemente, sin ninguna preferencia marcada; de modo que la función es mayoritariamente isotrópica en esa vecindad. Esto sucede, por ejemplo, cuando la función tiene simetría esférica en la vecindad de p . En particular, si el elipsoide degenera hasta un punto (es decir, si los tres valores propios son cero), significa que es constante (tiene gradiente cero) dentro de la ventana.

El tensor de estructura multiescala.

El tensor de estructura es una herramienta importante en el análisis del espacio de escala . El tensor de estructura de múltiples escalas (o matriz de segundo momento de múltiples escalas ) de una función , a diferencia de otras características del espacio de escala de un solo parámetro, es un descriptor de imagen que se define en dos parámetros de escala. Se necesita un parámetro de escala, denominado escala local , para determinar la cantidad de suavizado previo al calcular el gradiente de la imagen . Se necesita otro parámetro de escala, denominado escala de integración , para especificar la extensión espacial de la función de ventana que determina los pesos de la región en el espacio sobre la cual se acumulan los componentes del producto externo del gradiente por sí mismo .

Más precisamente, supongamos que se trata de una señal de valor real definida sobre . Para cualquier escala local , dejemos que una representación multiescala de esta señal esté dada por donde representa un núcleo previo al suavizado. Además, denotemos el gradiente de la representación del espacio de escala . Entonces, la matriz de tensor/segundo momento de estructura multiescala se define mediante [7] [11] [12]

tienen que[7]axiomas del espacio de escalaespacio de escala

Hay diferentes maneras de manejar las variaciones de escala de dos parámetros en esta familia de descriptores de imágenes. Si mantenemos fijo el parámetro de escala local y aplicamos versiones cada vez más amplias de la función de ventana aumentando solo el parámetro de escala de integración, entonces obtenemos una verdadera representación espacial de escala formal de los datos direccionales calculados en la escala local dada . [7] Si acoplamos la escala local y la escala de integración mediante una escala de integración relativa , de modo que para cualquier valor fijo de , obtenemos una variación reducida de un parámetro autosemejante, que se usa frecuentemente para simplificar algoritmos computacionales, por ejemplo en detección de esquinas , detección de puntos de interés , análisis de texturas y comparación de imágenes . Al variar la escala de integración relativa en una variación de escala autosimilar, obtenemos otra forma alternativa de parametrizar la naturaleza multiescala de los datos direccionales obtenidos al aumentar la escala de integración.

Se puede realizar una construcción conceptualmente similar para señales discretas, con la integral de convolución reemplazada por una suma de convolución y con el núcleo gaussiano continuo reemplazado por el núcleo gaussiano discreto :

imla pirámide de imágenes

Aplicaciones

Los valores propios del tensor de estructura desempeñan un papel importante en muchos algoritmos de procesamiento de imágenes, para problemas como la detección de esquinas , la detección de puntos de interés y el seguimiento de características . [9] [13] [14] [15] [16] [17] [18] El tensor de estructura también juega un papel central en el algoritmo de flujo óptico de Lucas-Kanade y en sus extensiones para estimar la adaptación de forma afín ; [11] donde la magnitud de es un indicador de la confiabilidad del resultado calculado. El tensor se ha utilizado para análisis de espacio a escala , [7] estimación de la orientación de la superficie local a partir de señales monoculares o binoculares, [12] mejora no lineal de huellas dactilares, [19] procesamiento de imágenes basado en difusión , [20] [21] [22 ] [23] y varios otros problemas de procesamiento de imágenes. El tensor de estructura también se puede aplicar en geología para filtrar datos sísmicos . [24]

Procesamiento de datos de video espacio-temporales con el tensor de estructura.

El tensor de estructura tridimensional se ha utilizado para analizar datos de vídeo tridimensionales (vistos como una función de x , y y el tiempo t ). [4] Si en este contexto se apunta a descriptores de imágenes que son invariantes bajo transformaciones galileanas , para que sea posible comparar mediciones de imágenes que se han obtenido bajo variaciones de velocidades de imagen a priori desconocidas.

diagonalización galileana [25]
[25] [26]adaptación de forma afín [11][27][28]

Ver también

Referencias

  1. ^ ab J. Bigun y G. Granlund (1986), Detección de orientación óptima de simetría lineal . Tecnología. Informe LiTH-ISY-I-0828, Laboratorio de Visión por Computadora, Universidad de Linkoping, Suecia 1986; Informe de tesis, Estudios de Linkoping en ciencia y tecnología No. 85, 1986.
  2. ^ abc J. Bigun y G. Granlund (1987). "Detección de orientación óptima de simetría lineal". Primer int. Conf. sobre Visión por Computador, ICCV, (Londres) . Piscataway: IEEE Computer Society Press, Piscataway. págs. 433–438.
  3. ^ ab H. Knutsson (1989). "Representación de la estructura local mediante tensores". Actas de la Sexta Conferencia Escandinava. sobre Análisis de Imágenes . Oulu: Universidad de Oulu. págs. 244-251.
  4. ^ ab B. Jahne (1993). Procesamiento de imágenes espacio-temporal: teoría y aplicaciones científicas . vol. 751. Berlín: Springer-Verlag.
  5. ^ ab G. Medioni, M. Lee y C. Tang (marzo de 2000). Un marco computacional para la extracción y segmentación de características . Ciencia Elsevier.
  6. ^ T. Brox; J. Weickert; B. Burgeth y P. Mrazek (2004). Tensores de estructura no lineal (Informe técnico). Universität des Saarlandes. 113.
  7. ^ abcde T. Lindeberg (1993), Teoría del espacio de escala en visión por computadora . Kluwer Academic Publishers, (consulte las secciones 14.4.1 y 14.2.3 en las páginas 359–360 y 355–356 para obtener declaraciones detalladas sobre cómo el tensor de estructura/matriz de segundo momento de múltiples escalas define una representación de múltiples escalas verdadera y determinada de manera única de datos direccionales).
  8. ^ J. Bigun; G. Granlund y J. Wiklund (1991). "Estimación de orientación multidimensional con aplicaciones al análisis de textura y flujo óptico". Transacciones IEEE sobre análisis de patrones e inteligencia artificial . 13 (8): 775–790. doi : 10.1109/34.85668.
  9. ^ ab M. Nicolescu y G. Medioni (2003). "Segmentación de movimiento con límites precisos: un enfoque de votación tensorial". Proc. Visión por computadora y reconocimiento de patrones IEEE . vol. 1. págs. 382–389.
  10. ^ Westin, CF; Maier, SE; Mamata, H.; Nabavi, A.; Jolesz, FA; Kikinis, R. (junio de 2002). "Procesamiento y visualización para resonancia magnética con tensor de difusión". Análisis de Imágenes Médicas . 6 (2): 93-108. doi :10.1016/S1361-8415(02)00053-1. PMID  12044998.
  11. ^ abc T. Lindeberg y J. Garding (1997). "Suavizado de forma adaptada en la estimación de señales de profundidad 3D a partir de distorsiones afines de la estructura 2-D local". Computación de Imagen y Visión . 15 (6): 415–434. doi :10.1016/S0262-8856(97)01144-X.
  12. ^ ab J. Garding y T. Lindeberg (1996). "Cálculo directo de señales de forma utilizando operadores derivados espaciales adaptados a escala , Revista Internacional de Visión por Computadora, volumen 17, número 2, páginas 163–191.
  13. ^ W. Förstner (1986). "Un algoritmo de correspondencia basado en funciones para el procesamiento de imágenes". Archivos Internacionales de Fotogrametría y Teledetección . 26 : 150-166.
  14. ^ C. Harris y M. Stephens (1988). "Un detector combinado de esquinas y bordes". Proc. de la 4ª Conferencia de Visión ALVEY . págs. 147-151.
  15. ^ K. Rohr (1997). "Sobre operadores diferenciales 3D para detectar puntos de referencia". Computación de Imagen y Visión . 15 (3): 219–233. doi :10.1016/S0262-8856(96)01127-4.
  16. ^ I. Laptev y T. Lindeberg (2003). "Puntos de interés espacio-temporales". Congreso Internacional de Visión por Computador ICCV'03 . vol. Yo págs. 432–439. doi :10.1109/ICCV.2003.1238378.
  17. ^ B. Triggs (2004). "Detección de puntos clave con posición, orientación y escala estables bajo cambios de iluminación". Proc. Conferencia Europea sobre Visión por Computador . vol. 4. págs. 100-113.
  18. ^ C. Kenney, M. Zuliani y B. Manjunath (2005). "Un enfoque axiomático para la detección de esquinas". Proc. Visión por computadora y reconocimiento de patrones IEEE . págs. 191-197.
  19. ^ A. Almansa y T. Lindeberg (2000), Mejora de imágenes de huellas dactilares utilizando operadores de espacio de escala adaptados a la forma . IEEE Transactions on Image Processing, volumen 9, número 12, páginas 2027–2042.
  20. ^ J. Weickert (1998), Difusión anisotrópica en el procesamiento de imágenes, Teuber Verlag, Stuttgart.
  21. ^ D. Tschumperle y R. Deriche (septiembre de 2002). "PDE de difusión en imágenes con valores vectoriales". Revista de procesamiento de señales IEEE . 19 (5): 16-25. Código Bib : 2002 ISPM...19...16T. doi :10.1109/MSP.2002.1028349.
  22. ^ S. Arseneau y J. Cooperstock (septiembre de 2006). "Un marco de difusión asimétrica para el análisis de uniones". Conferencia británica sobre visión artificial . vol. 2. págs. 689–698.
  23. ^ S. Arseneau y J. Cooperstock (noviembre de 2006). "Una representación mejorada de uniones mediante difusión tensorial asimétrica". Simposio Internacional sobre Computación Visual .
  24. ^ Yang, Shuai; Chen, Anqing; Chen, Hongde (25 de mayo de 2017). "Filtrado de datos sísmicos mediante algoritmo de medios no locales basado en tensor de estructura". Geociencias abiertas . 9 (1): 151–160. Código Bib : 2017OGeo....9...13Y. doi : 10.1515/geo-2017-0013 . ISSN  2391-5447. S2CID  134392619.
  25. ^ ab T. Lindeberg; A. Akbarzadeh & I. Laptev (agosto de 2004). "Operadores de interés espacio-temporales corregidos por Galileo". Conferencia Internacional sobre Reconocimiento de Patrones ICPR'04 . vol. Yo págs. 57–62. doi :10.1109/ICPR.2004.1334004.
  26. ^ I. Laptev y T. Lindeberg (agosto de 2004). Adaptación de la velocidad de los puntos de interés espacio-temporales. Conferencia Internacional sobre Reconocimiento de Patrones ICPR'04. vol. Yo págs. 52–56. doi :10.1109/ICPR.2004.971.
  27. ^ I. Laptev y T. Lindeberg (mayo de 2004). Descriptores locales para el reconocimiento espacio-temporal. Taller ECCV'04 sobre coherencia espacial para el análisis del movimiento visual (Praga, República Checa) Springer Lecture Notes in Computer Science. vol. 3667, págs. 91-103. doi :10.1007/11676959.
  28. ^ I. Laptev; B. Caputo; C. Schuldt y T. Lindeberg (2007). "Eventos de movimiento adaptados a la velocidad local para el reconocimiento espacio-temporal". Visión por computadora y comprensión de imágenes . vol. 108, págs. 207–229. doi :10.1016/j.cviu.2006.11.023.

Recursos