Filtro de registro Gabor

En el procesamiento de señales resulta útil analizar simultáneamente las características espaciales y de frecuencia de una señal. Si bien la transformada de Fourier proporciona la información de frecuencia de la señal, no está localizada. Esto significa que no podemos determinar qué parte de una señal (quizás larga) produjo una frecuencia particular. Es posible utilizar una transformada de Fourier de tiempo corto para este propósito, sin embargo, la transformada de Fourier de tiempo corto limita las funciones base a ser sinusoidales. Para proporcionar una descomposición de señal espacio-frecuencia más flexible, se han propuesto varios filtros (incluidos los wavelets). El filtro Log-Gabor ^[1] es uno de esos filtros que es una mejora del filtro Gabor original . ^[2] La ventaja de este filtro sobre las muchas alternativas es que se ajusta mejor a las estadísticas de imágenes naturales en comparación con los filtros Gabor y otros filtros wavelet .

Aplicaciones

El filtro Log-Gabor es capaz de describir una señal en términos de las respuestas de frecuencia locales. Debido a que se trata de una técnica fundamental de análisis de señales, tiene muchas aplicaciones en el procesamiento de señales. De hecho, cualquier aplicación que utilice filtros Gabor u otras funciones de base wavelet puede beneficiarse del filtro Log-Gabor. Sin embargo, puede que no haya ningún beneficio dependiendo de los detalles del problema de diseño. No obstante, se ha demostrado que el filtro Log-Gabor es particularmente útil en aplicaciones de procesamiento de imágenes, porque se ha demostrado que captura mejor las estadísticas de las imágenes naturales.

En el procesamiento de imágenes, existen algunos ejemplos de bajo nivel del uso de filtros Log-Gabor. La detección de bordes es una de esas operaciones primitivas, en las que se etiquetan los bordes de la imagen. Debido a que los bordes aparecen en el dominio de la frecuencia como frecuencias altas, es natural utilizar un filtro como el Log-Gabor para seleccionar estos bordes. ^[3]^[4] Estos bordes detectados se pueden utilizar como entrada para un algoritmo de segmentación o un algoritmo de reconocimiento. Un problema relacionado es la detección de esquinas. En la detección de esquinas, el objetivo es encontrar puntos en la imagen que sean esquinas. Las esquinas son útiles porque representan ubicaciones estables que se pueden utilizar para problemas de coincidencia de imágenes. La esquina se puede describir en términos de información de frecuencia localizada utilizando un filtro Log-Gabor. ^[5]

En el reconocimiento de patrones , la imagen de entrada debe transformarse en una representación de características que permita a un algoritmo de clasificación separar las clases con mayor facilidad. Las características formadas a partir de la respuesta de los filtros Log-Gabor pueden formar un buen conjunto de características para algunas aplicaciones porque pueden representar localmente información de frecuencia. Por ejemplo, el filtro se ha utilizado con éxito en la clasificación de expresiones faciales. ^[6] Hay algunas pruebas de que el sistema visual humano procesa la información visual de forma similar. ^[7]

Hay muchas otras aplicaciones que requieren información de frecuencia localizada. El filtro Log-Gabor se ha utilizado en aplicaciones como mejora de imágenes, ^[8] análisis de voz, ^[9] detección de contornos, ^[10] síntesis de texturas ^[11] y eliminación de ruido de imágenes ^[12], entre otras.

Enfoques existentes

Existen varios métodos para calcular información de frecuencia localizada. Estos métodos son ventajosos porque, a diferencia de la transformada de Fourier, estos filtros pueden representar discontinuidades en la señal con mayor facilidad. Por ejemplo, la transformada de Fourier puede representar un borde, pero solo mediante el uso de un número infinito de ondas sinusoidales.

Filtros Gabor

Al considerar filtros que extraen información de frecuencia local, existe una relación entre la resolución de frecuencia y la resolución de tiempo/espacio. Cuando se toman más muestras, la resolución de la información de frecuencia es mayor, sin embargo, la resolución de tiempo/espacio será menor. Del mismo modo, tomar solo unas pocas muestras significa una resolución espacial/temporal mayor, pero esto es a costa de una menor resolución de frecuencia. Un buen filtro debe ser capaz de obtener la resolución de frecuencia máxima dada una resolución de tiempo/espacio establecida, y viceversa. El filtro de Gabor logra este límite. ^[2] Debido a esto, el filtro de Gabor es un buen método para localizar simultáneamente información espacial/temporal y de frecuencia. Un filtro de Gabor en el dominio del espacio (o tiempo) se formula como una envolvente gaussiana multiplicada por un exponencial complejo. Se encontró que las respuestas corticales en el sistema visual humano pueden ser modeladas por el filtro de Gabor. ^[7]^[13] El filtro de Gabor fue modificado por Morlet para formar una transformada wavelet continua ortonormal. ^[14]

Aunque el filtro Gabor logra una sensación de optimalidad en términos del equilibrio espacio-frecuencia, en ciertas aplicaciones podría no ser un filtro ideal. En ciertos anchos de banda, el filtro Gabor tiene un componente DC distinto de cero. Esto significa que la respuesta del filtro depende del valor medio de la señal. Si la salida del filtro se va a utilizar para una aplicación como el reconocimiento de patrones, este componente DC no es deseable porque proporciona una característica que cambia con el valor medio. Como veremos pronto, el filtro Log-Gabor no presenta este problema. Además, el filtro Gabor original tiene una respuesta al impulso de longitud infinita. Finalmente, el filtro Gabor original, aunque óptimo en el sentido de incertidumbre, no se ajusta adecuadamente a las estadísticas de las imágenes naturales. Como se muestra en ^[1], es mejor elegir un filtro con una cola inclinada más larga en una tarea de codificación de imágenes.

En ciertas aplicaciones, otras descomposiciones tienen ventajas. Aunque existen muchas descomposiciones posibles, aquí presentamos brevemente dos métodos populares: las ondículas de sombrero mexicano y la pirámide orientable.

Ondulación de sombrero mexicano

La wavelet de Ricker , comúnmente llamada wavelet de sombrero mexicano , es otro tipo de filtro que se utiliza para modelar datos. En múltiples dimensiones, esto se convierte en el laplaciano de una función gaussiana. Por razones de complejidad computacional, el laplaciano de una función gaussiana a menudo se aproxima utilizando una diferencia de gaussianas . Esta diferencia de función gaussiana ha encontrado uso en varias aplicaciones de visión por computadora, como la detección de puntos clave. ^[15] La desventaja de la wavelet de sombrero mexicano es que exhibe algo de aliasing y no representa bien las orientaciones oblicuas.

Pirámide orientable

La descomposición en pirámide orientable ^[16] se presentó como una alternativa a las ondículas de Morlet (Gabor) y Ricker. Esta descomposición ignora la restricción de ortogonalidad de la formulación de ondículas y, al hacerlo, es capaz de construir un conjunto de filtros que son independientes tanto de la traslación como de la rotación. La desventaja de la descomposición en pirámide orientable es que es sobrecompleta. Esto significa que se utilizan más filtros de los verdaderamente necesarios para describir la señal.

Definición

Field introdujo el filtro Log-Gabor y demostró que es capaz de codificar mejor las imágenes naturales en comparación con el filtro Gabor original. ^[1] Además, el filtro Log-Gabor no tiene el mismo problema de CC que el filtro Gabor original. Una función Log-Gabor unidimensional tiene la respuesta de frecuencia:

$G(f)=\exp \left({\frac {-\left(\log(f/f_{0})\right)^{2}}{2\left(\log(\sigma /f_{0})\right)^{2}}}\right)$

donde y son los parámetros del filtro. dará la frecuencia central del filtro. afecta el ancho de banda del filtro. Es útil mantener la misma forma mientras se varía el parámetro de frecuencia. Para ello, la relación debe permanecer constante. La siguiente figura muestra la respuesta de frecuencia del Gabor en comparación con el Log-Gabor: $estilo de visualización f_{0}}$ ${\estilo de visualización \sigma}$ $estilo de visualización f_{0}}$ ${\estilo de visualización \sigma}$ $estilo de visualización sigma /f_{0}$

**Diferencia en el dominio de frecuencia entre los filtros Gabor y Log-Gabor.** El filtro Gabor tiene una respuesta distinta de cero a frecuencia de CC, mientras que el filtro Log-Gabor siempre es cero. Debido a esto, el filtro Gabor tiende a sobrerrepresentar frecuencias más bajas. Esto es particularmente evidente en el dominio logarítmico.

Otra definición del filtro Log-Gabor es considerarlo como una función de distribución de probabilidad , con una distribución normal , pero considerando el logaritmo de las frecuencias. Esto tiene sentido en contextos donde se aplica la ley de Weber-Fechner , como en la percepción visual o auditiva. Siguiendo la regla del cambio de variable, una función Log-Gabor unidimensional tiene, por lo tanto, la respuesta de frecuencia modificada:

$G(f)={\frac {f_{0}}{f}}\exp \left({\frac {-\left(\log(f/f_{0})\right)^{2}}{2\left(\log(\sigma /f_{0})\right)^{2}}}\right)$

Nótese que esto se extiende al origen y que todavía tenemos . $G(0)=0$

En ambas definiciones, debido al valor cero en la corriente continua, no es posible derivar una expresión analítica para el filtro en el dominio espacial. En la práctica, el filtro se diseña primero en el dominio de la frecuencia y luego una transformada de Fourier inversa proporciona la respuesta al impulso en el dominio del tiempo.

Filtro bidimensional de Gabor logarítmico

**Descomposición multiescala de una imagen natural utilizando filtros log-Gabor.** Para representar los bordes de la imagen en diferentes niveles, se calculó la correlación de los filtros log-Gabor en diferentes escalas (en el sentido de las agujas del reloj); consulte esta página para ver una implementación.

Al igual que el filtro Gabor, el filtro log-Gabor ha gozado de gran popularidad en el procesamiento de imágenes. ^[4] Por ello, resulta útil considerar la extensión bidimensional del filtro log-Gabor. Con esta dimensión añadida, el filtro no solo está diseñado para una frecuencia particular, sino que también está diseñado para una orientación particular. El componente de orientación es una función de distancia gaussiana según el ángulo en coordenadas polares (consulte [1] o [2]):

$G(f,\theta )=\exp \left({\frac {-(\log(f/f_{0}))^{2}}{2(\log(\sigma _{f}/f_{0}))^{2}}}\right)\exp \left({\frac {-(\theta -\theta _{0})^{2}}{2\sigma _{\theta }^{2}}}\right)$

Aquí hay cuatro parámetros: la frecuencia central, el parámetro de ancho de la frecuencia, la orientación central y el parámetro de ancho de la orientación. A continuación se muestra un ejemplo de este filtro. $estilo de visualización f_{0}}$ $\sigma _{f}$ $\theta_{0}$ $\sigma _{\theta }$

**Construcción de un filtro log Gabor bidimensional.** El filtro bidimensional consta de un componente basado en la frecuencia (a) y un componente basado en la orientación (b). Los dos componentes se combinan para formar el componente final (c).

**Diferencia en el dominio espacial entre los filtros Gabor y Log-Gabor.** En el dominio espacial, la respuesta de los filtros Gabor y Log-Gabor es casi idéntica. A la izquierda se encuentra la parte real y a la derecha la parte imaginaria de la respuesta al impulso.

El ancho de banda en la frecuencia viene dado por:

$B=2{\sqrt {2/\log(2)}}\left(\|\log(\sigma _{f}/f_{0})\|\right)$

Tenga en cuenta que el ancho de banda resultante está en unidades de octavas.

El ancho de banda angular viene dado por:

$B_{\theta}=2\sigma _{\theta} {\sqrt {2\log 2}}$

En muchas aplicaciones prácticas, se diseña un conjunto de filtros para formar un banco de filtros . Debido a que los filtros no forman un conjunto de bases ortogonales, el diseño del banco de filtros es un arte y puede depender de la tarea particular en cuestión. Los parámetros necesarios que se deben elegir son: las frecuencias mínima y máxima, el ancho de banda del filtro, el número de orientaciones, el ancho de banda angular, la escala del filtro y el número de escalas.

Véase también

Transformación de Gabor
Ondícula de Gabor
Filtro Gabor
Átomo de Gabor
Detección de características (visión por computadora) para otros detectores de características de bajo nivel
Derivado de imagen
Reducción de ruido de imagen
Detección de crestas para relaciones entre detectores de bordes y detectores de crestas

Referencias

^ abc DJ Field. Relaciones entre las estadísticas de imágenes naturales y las propiedades de respuesta de las células corticales. J. Opt. Soc. Am. A, 1987, págs. 2379–2394.
^ ab D. Gabor. Teoría de la comunicación. J. Inst. Electr. Eng. 93, 1946.
^ Z. Xiao, C. Guo, Y. Ming y L. Qiang. Investigación sobre la ondícula de Gabor logarítmica y su aplicación en la detección de bordes de imágenes. En la Conferencia internacional sobre procesamiento de señales, volumen 1, páginas 592-595, agosto de 2002.
^ de Sylvain Fischer, Filip Sroubek, Laurent U. Perrinet, Rafael Redondo, Gabriel Cristobal. Ondículas de Gabor log-2D autoinvertibles. Int. Journal of Computational Vision, 2007
^ X. Gao, F. Sattar y R. Venkateswarlu. Detección de esquinas multiescala de imágenes en niveles de gris basada en la transformada wavelet de Gabor logarítmica. IEEE Transactions on Circuits and Systems for Video Technology, 17(7):868–875, julio de 2007.
^ N. Rose. Clasificación de expresiones faciales mediante filtros Gabor y log-Gabor. En la Conferencia internacional sobre reconocimiento automático de rostros y gestos (FGR), páginas 346–350, abril de 2006.
^ ab JG Daugman. Relación de incertidumbre para la resolución en el espacio, frecuencia espacial y orientación optimizada por filtros corticales visuales bidimensionales. Journal of the Optical Society of America, 1985, págs. 1160–9.
^ W. Wang, J. Li, F. Huang y H. Feng. Diseño e implementación del filtro log-Gabor en el mejoramiento de imágenes de huellas dactilares. Pattern Recognition Letters, 2008. págs. 301–308.
^ L. He, M. Lech, N. Maddage y N. Allen. Reconocimiento de estrés y emociones mediante análisis de espectrogramas del habla con filtros log-Gabor. Affective Computing and Intelligent Interaction, 2009, págs. 1–6
^ Sylvain Fischer, Rafael Redondo, Laurent Perrinet, Gabriel Cristobal. Aproximación dispersa de imágenes inspirada en la arquitectura funcional de las áreas visuales primarias. Revista EURASIP sobre avances en procesamiento de señales, número especial sobre percepción de imágenes, 2007
^ Paula S. Leon, Ivo Vanzetta, Guillaume S. Masson, Laurent U. Perrinet. Nubes de movimiento: síntesis de estímulos basada en modelos de texturas aleatorias similares a las naturales para el estudio de la percepción del movimiento. Journal of Neurophysiology, 107(11):3217–3226, 2012
^ P. Kovesi. Eliminación de ruido de imágenes con preservación de fase. Conferencia de la Sociedad Australiana de Reconocimiento de Patrones: DICTA'99, 1999, págs. 212-217.
^ Andrew B. Watson. La transformación de la corteza: cálculo rápido de imágenes neuronales simuladas. Journal of Computer Vision, Graphics, and Image Processing. 1987. págs. 311–327.
^ A. Grossmann y J. Morlet. Descomposición de funciones de Hardy en wavelets cuadrados integrables de forma constante. SIAM Journal on Mathematical Analysis, 1984, págs. 723–736.
^ DG Lowe. Características distintivas de la imagen a partir de puntos clave invariantes en la escala. International Journal of Computer Vision, 2004, págs. 91-110.
^ EP Simoncelli y WT Freeman. La pirámide orientable: una arquitectura flexible para el cálculo de derivadas en múltiples escalas. Conferencia internacional IEEE sobre procesamiento de imágenes, 1995, págs. 444-447

Enlaces externos

[3] (obsoleto hasta la fecha)
Una implementación de Python con ejemplos para la visión: [4]