En las áreas de visión artificial , análisis de imágenes y procesamiento de señales , la noción de representación en el espacio de escala se utiliza para procesar datos de medición en múltiples escalas y, específicamente, mejorar o suprimir características de la imagen en diferentes rangos de escala (consulte el artículo sobre el espacio de escala ). Un tipo especial de representación en el espacio de escala es proporcionado por el espacio de escala gaussiano, donde los datos de la imagen en N dimensiones se someten a suavizado por convolución gaussiana . La mayor parte de la teoría para el espacio de escala gaussiano trata con imágenes continuas, mientras que al implementar esta teoría uno tendrá que enfrentar el hecho de que la mayoría de los datos de medición son discretos. Por lo tanto, surge el problema teórico sobre cómo discretizar la teoría continua mientras se preservan o aproximan bien las propiedades teóricas deseables que conducen a la elección del núcleo gaussiano (consulte el artículo sobre los axiomas del espacio de escala ). Este artículo describe los enfoques básicos para esto que se han desarrollado en la literatura; consulte también [1] para un tratamiento en profundidad del tema de la aproximación de la operación de suavizado gaussiano y los cálculos de la derivada gaussiana en la teoría del espacio de escala.
La representación en el espacio de escala gaussiana de una señal continua N -dimensional,
se obtiene convolucionando f C con un núcleo gaussiano N -dimensional :
En otras palabras:
Sin embargo, para la implementación , esta definición no es práctica, ya que es continua. Al aplicar el concepto de espacio de escala a una señal discreta f D , se pueden adoptar diferentes enfoques. Este artículo es un breve resumen de algunos de los métodos más utilizados.
Utilizando la propiedad de separabilidad del núcleo gaussiano
La operación de convolución N -dimensional se puede descomponer en un conjunto de pasos de suavizado separables con un núcleo gaussiano unidimensional G a lo largo de cada dimensión.
dónde
y la desviación estándar de la gaussiana σ está relacionada con el parámetro de escala t según t = σ 2 .
En todo lo que sigue se supondrá que existe separabilidad, incluso cuando el núcleo no sea exactamente gaussiano, ya que la separación de las dimensiones es la forma más práctica de implementar el suavizado multidimensional, especialmente a escalas mayores. Por lo tanto, el resto del artículo se centra en el caso unidimensional.
Al implementar el paso de suavizado unidimensional en la práctica, el enfoque presumiblemente más simple es convolucionar la señal discreta f D con un núcleo gaussiano muestreado :
dónde
(con t = σ 2 ) que a su vez se trunca en los extremos para dar un filtro con respuesta de impulso finita
para M elegido suficientemente grande (ver función de error ) tal que
Una opción común es establecer M en una constante C multiplicada por la desviación estándar del núcleo gaussiano.
donde C se elige a menudo en algún lugar entre 3 y 6.
Sin embargo, el uso del núcleo gaussiano muestreado puede generar problemas de implementación, en particular cuando se calculan derivadas de orden superior en escalas más finas mediante la aplicación de derivadas muestreadas de núcleos gaussianos. Por lo tanto, cuando la precisión y la robustez son criterios de diseño primarios, se deben considerar enfoques de implementación alternativos.
Para valores pequeños de ε (10 −6 a 10 −8 ), los errores introducidos al truncar la gaussiana suelen ser despreciables. Sin embargo, para valores mayores de ε, existen muchas mejores alternativas a una función de ventana rectangular . Por ejemplo, para un número dado de puntos, una ventana de Hamming , una ventana de Blackman o una ventana de Kaiser causarán menos daño a las propiedades espectrales y de otro tipo de la gaussiana que un simple truncamiento. A pesar de esto, dado que el núcleo gaussiano disminuye rápidamente en las colas, la recomendación principal sigue siendo utilizar un valor suficientemente pequeño de ε de modo que los efectos del truncamiento ya no sean importantes.
Un enfoque más refinado es convolucionar la señal original con el núcleo gaussiano discreto T ( n , t ) [2] [3] [4]
dónde
y denota las funciones de Bessel modificadas de orden entero, n . Esta es la contraparte discreta de la gaussiana continua en cuanto a que es la solución de la ecuación de difusión discreta (espacio discreto, tiempo continuo), así como la gaussiana continua es la solución de la ecuación de difusión continua. [2] [3] [5]
Este filtro se puede truncar en el dominio espacial como en el caso del filtro gaussiano muestreado.
o puede implementarse en el dominio de Fourier utilizando una expresión de forma cerrada para su transformada de Fourier de tiempo discreto :
Con este enfoque en el dominio de la frecuencia, las propiedades del espacio de escala se transfieren exactamente al dominio discreto, o con una excelente aproximación utilizando una extensión periódica y una transformada de Fourier discreta adecuadamente larga para aproximar la transformada de Fourier de tiempo discreto de la señal que se está suavizando. Además, las aproximaciones derivadas de orden superior se pueden calcular de manera sencilla (y preservando las propiedades del espacio de escala) aplicando operadores de diferencia central de soporte pequeño a la representación del espacio de escala discreto . [6]
Al igual que con la gaussiana muestreada, un truncamiento simple de la respuesta al impulso infinito será en la mayoría de los casos una aproximación suficiente para valores pequeños de ε, mientras que para valores mayores de ε es mejor utilizar una descomposición de la gaussiana discreta en una cascada de filtros binomiales generalizados o, alternativamente, construir un núcleo aproximado finito multiplicando por una función de ventana . Si se ha elegido ε demasiado grande de modo que comiencen a aparecer los efectos del error de truncamiento (por ejemplo, como extremos espurios o respuestas espurias a operadores derivados de orden superior), entonces las opciones son disminuir el valor de ε de modo que se utilice un núcleo finito más grande, con un corte donde el soporte sea muy pequeño, o utilizar una ventana cónica.
Dado que la eficiencia computacional suele ser importante, los filtros recursivos de orden bajo se utilizan a menudo para suavizar el espacio de escala. Por ejemplo, Young y van Vliet [7] utilizan un filtro recursivo de tercer orden con un polo real y un par de polos complejos, aplicados hacia adelante y hacia atrás para hacer una aproximación simétrica de sexto orden a la gaussiana con baja complejidad computacional para cualquier escala de suavizado.
Al relajar algunos de los axiomas, Lindeberg [2] concluyó que los buenos filtros de suavizado serían " secuencias de frecuencia Pólya normalizadas", una familia de núcleos discretos que incluye todos los filtros con polos reales en 0 < Z < 1 y/o Z > 1, así como con ceros reales en Z < 0. Para la simetría, que conduce a una homogeneidad direccional aproximada, estos filtros deben restringirse aún más a pares de polos y ceros que conducen a filtros de fase cero.
Para que coincida con la curvatura de la función de transferencia en la frecuencia cero de la gaussiana discreta, lo que garantiza una propiedad de semigrupo aproximada de t aditivo , dos polos en
Se puede aplicar hacia adelante y hacia atrás para lograr simetría y estabilidad. Este filtro es la implementación más simple de un núcleo de secuencia de frecuencias Pólya normalizado que funciona para cualquier escala de suavizado, pero no es una aproximación tan excelente al gaussiano como el filtro de Young y van Vliet, que no es una secuencia de frecuencias Pólya normalizada, debido a sus polos complejos.
La función de transferencia, H 1 , de un filtro recursivo de pares de polos simétricos está estrechamente relacionada con la transformada de Fourier de tiempo discreto del núcleo gaussiano discreto a través de la aproximación de primer orden de la exponencial:
donde el parámetro t aquí está relacionado con la posición polar estable Z = p a través de:
Además, dichos filtros con N pares de polos, como los dos pares de polos ilustrados en esta sección, son una aproximación aún mejor a la exponencial:
donde las posiciones polares estables se ajustan resolviendo:
Las respuestas al impulso de estos filtros no son muy cercanas a las gaussianas a menos que se utilicen más de dos pares de polos. Sin embargo, incluso con solo uno o dos pares de polos por escala, una señal suavizada sucesivamente a escalas crecientes será muy cercana a una señal suavizada gaussianamente. La propiedad de semigrupo se aproxima mal cuando se utilizan muy pocos pares de polos.
Los axiomas del espacio de escala que todavía se satisfacen con estos filtros son:
Los siguientes solo se cumplen de forma aproximada, siendo la aproximación mejor para un mayor número de pares de polos:
Varios autores han descrito este método de filtro recursivo y sus variaciones para calcular tanto el suavizado gaussiano como las derivadas gaussianas. [7] [8] [9] [10] Tan et al. han analizado y comparado algunos de estos enfoques, y han señalado que los filtros de Young y van Vliet son una cascada (multiplicación) de filtros hacia adelante y hacia atrás, mientras que los filtros de Deriche y Jin et al. son sumas de filtros hacia adelante y hacia atrás. [11]
En escalas finas, no se garantiza que el enfoque de filtrado recursivo ni otros enfoques separables brinden la mejor aproximación posible a la simetría rotacional, por lo que las implementaciones no separables para imágenes 2D pueden considerarse como una alternativa.
Al calcular varias derivadas en el N-jet simultáneamente, el suavizado discreto del espacio de escala con el análogo discreto del núcleo gaussiano, o con una aproximación de filtro recursiva, seguido de pequeños operadores de diferencia de soporte, puede ser más rápido y más preciso que calcular aproximaciones recursivas de cada operador de derivada.
Para escalas pequeñas, un filtro FIR de orden bajo puede ser un mejor filtro de suavizado que un filtro recursivo. El 3-kernel simétrico [ t /2, 1- t , t /2] , para t ≤ 0,5 suaviza a una escala de t utilizando un par de ceros reales en Z < 0, y se aproxima al gaussiano discreto en el límite de t pequeño. De hecho, con t infinitesimal , tanto este filtro de dos ceros como el filtro de dos polos con polos en Z = t /2 y Z = 2/ t se pueden utilizar como el generador infinitesimal para los kernels gaussianos discretos descritos anteriormente.
Los ceros del filtro FIR se pueden combinar con los polos del filtro recursivo para crear un filtro de suavizado general de alta calidad. Por ejemplo, si el proceso de suavizado consiste en aplicar siempre un filtro bicuadrático (dos polos, dos ceros) hacia delante y luego hacia atrás en cada fila de datos (y en cada columna en el caso 2D), los polos y los ceros pueden realizar cada uno una parte del suavizado. Los ceros tienen un límite en t = 0,5 por par (ceros en Z = –1), por lo que para escalas grandes los polos hacen la mayor parte del trabajo. En escalas más finas, la combinación constituye una excelente aproximación a la gaussiana discreta si los polos y los ceros realizan cada uno aproximadamente la mitad del suavizado. Los valores t para cada parte del suavizado (polos, ceros, aplicaciones múltiples hacia delante y hacia atrás, etc.) son aditivos, de acuerdo con la propiedad de semigrupo aproximado.
La función de transferencia del filtro FIR está estrechamente relacionada con la DTFT de Gauss discreta, al igual que la del filtro recursivo. Para un único par de ceros, la función de transferencia es
donde el parámetro t aquí está relacionado con las posiciones cero Z = z a través de:
y requerimos que t ≤ 0,5 para mantener la función de transferencia no negativa.
Además, dichos filtros con N pares de ceros son una aproximación aún mejor a la exponencial y se extienden a valores más altos de t :
donde las posiciones cero estables se ajustan resolviendo:
Estos filtros FIR y de polo-cero son núcleos de espacio de escala válidos, que satisfacen los mismos axiomas que los filtros recursivos de todos los polos.
En relación con el tema de la selección automática de escala basada en derivadas normalizadas, las aproximaciones piramidales se utilizan con frecuencia para obtener un rendimiento en tiempo real. [12] [13] [14] La idoneidad de aproximar operaciones de escala-espacio dentro de una pirámide se origina en el hecho de que el suavizado en cascada repetido con núcleos binomiales generalizados conduce a núcleos de suavizado equivalentes que, en condiciones razonables, se aproximan al gaussiano. Además, se puede demostrar que los núcleos binomiales (o, de manera más general, la clase de núcleos binomiales generalizados) constituyen la clase única de núcleos de soporte finito que garantizan la no creación de extremos locales o cruces por cero con una escala creciente (consulte el artículo sobre enfoques multiescala para obtener más detalles). Sin embargo, puede ser necesario tener especial cuidado para evitar artefactos de discretización.
Para los núcleos unidimensionales, existe una teoría bien desarrollada de enfoques multiescala , relativa a filtros que no crean nuevos extremos locales o nuevos cruces por cero con escalas crecientes. Para señales continuas, los filtros con polos reales en el plano s están dentro de esta clase, mientras que para señales discretas los filtros recursivos y FIR descritos anteriormente satisfacen estos criterios. Combinados con el requisito estricto de una estructura de semigrupo continuo, el gaussiano continuo y el gaussiano discreto constituyen la opción única para señales continuas y discretas.
Hay muchas otras técnicas de procesamiento de señales, procesamiento de imágenes y compresión de datos en múltiples escalas que utilizan wavelets y una variedad de otros núcleos, que no explotan ni requieren los mismos requisitos que las descripciones del espacio de escala ; es decir, no dependen de que una escala más gruesa no genere un nuevo extremo que no estaba presente en una escala más fina (en 1D) o de que no haya una mejora de los extremos locales entre niveles de escala adyacentes (en cualquier número de dimensiones).