La teoría del espacio de escala es un marco para la representación de señales en múltiples escalas desarrollado por las comunidades de visión por computadora , procesamiento de imágenes y procesamiento de señales con motivaciones complementarias de la física y la visión biológica . Es una teoría formal para manejar estructuras de imágenes a diferentes escalas , al representar una imagen como una familia de un parámetro de imágenes suavizadas, la representación del espacio de escala , parametrizada por el tamaño del núcleo de suavizado utilizado para suprimir estructuras de escala fina. [1] [2] [3] [4] [5] [6] [7] [8] El parámetro de esta familia se conoce como el parámetro de escala , con la interpretación de que las estructuras de imagen de tamaño espacial menor que aproximadamente se han suavizado en gran medida en el nivel del espacio de escala a escala .
El tipo principal de espacio de escala es el espacio de escala lineal (gaussiano) , que tiene una amplia aplicabilidad así como la atractiva propiedad de ser posible derivarlo de un pequeño conjunto de axiomas del espacio de escala . El marco de trabajo del espacio de escala correspondiente abarca una teoría para los operadores derivados gaussianos, que se puede utilizar como base para expresar una gran clase de operaciones visuales para sistemas informáticos que procesan información visual. Este marco de trabajo también permite que las operaciones visuales se hagan invariantes en escala , lo que es necesario para tratar con las variaciones de tamaño que pueden ocurrir en los datos de imagen, porque los objetos del mundo real pueden ser de diferentes tamaños y además la distancia entre el objeto y la cámara puede ser desconocida y puede variar dependiendo de las circunstancias. [9] [10]
La noción de espacio de escala se aplica a señales de un número arbitrario de variables. El caso más común en la literatura se aplica a imágenes bidimensionales, que es lo que se presenta aquí. Para una imagen dada , su representación lineal (gaussiana) en el espacio de escala es una familia de señales derivadas definidas por la convolución de con el núcleo gaussiano bidimensional
de tal manera que
donde el punto y coma en el argumento de implica que la convolución se realiza solo sobre las variables , mientras que el parámetro de escala después del punto y coma solo indica qué nivel de escala se está definiendo. Esta definición de funciona para un continuo de escalas , pero normalmente solo se consideraría realmente un conjunto discreto finito de niveles en la representación del espacio de escala.
El parámetro de escala es la varianza del filtro gaussiano y, como límite del filtro, se convierte en una función de impulso , de modo que la representación en el espacio de escala a nivel de escala es la propia imagen. A medida que aumenta, es el resultado de suavizar con un filtro cada vez más grande, eliminando así cada vez más detalles que contiene la imagen. Dado que la desviación estándar del filtro es , los detalles que son significativamente más pequeños que este valor se eliminan en gran medida de la imagen en el parámetro de escala , consulte la siguiente figura y [11] para ilustraciones gráficas.
Cuando nos enfrentamos a la tarea de generar una representación multiescala, podemos preguntarnos: ¿podría utilizarse cualquier filtro g de tipo paso bajo y con un parámetro t que determine su ancho para generar un espacio de escala? La respuesta es no, ya que es de importancia crucial que el filtro de suavizado no introduzca nuevas estructuras espurias en escalas gruesas que no correspondan a simplificaciones de estructuras correspondientes en escalas más finas. En la literatura sobre espacios de escala, se han expresado varias formas diferentes para formular este criterio en términos matemáticos precisos.
La conclusión de varias derivaciones axiomáticas diferentes que se han presentado es que el espacio de escala gaussiano constituye la forma canónica de generar un espacio de escala lineal, basado en el requisito esencial de que no se deben crear nuevas estructuras al pasar de una escala fina a una escala más gruesa. [1] [3] [4] [6] [9] [ 12 ] [13] [14] [15] [16] [17] [18] [19] Las condiciones, denominadas axiomas del espacio de escala , que se han utilizado para derivar la unicidad del núcleo gaussiano incluyen linealidad , invariancia de desplazamiento , estructura de semigrupo , no mejora de extremos locales , invariancia de escala e invariancia rotacional . En los trabajos, [15] [20] [21] se ha criticado la unicidad reclamada en los argumentos basados en la invariancia de escala, y se han propuesto núcleos de espacio de escala autosimilares alternativos. Sin embargo, el núcleo gaussiano es una opción única según la axiomática del espacio de escala basada en la causalidad [3] o la no mejora de los extremos locales. [16] [18]
De manera equivalente , la familia de escala-espacio se puede definir como la solución de la ecuación de difusión (por ejemplo en términos de la ecuación de calor ),
con condición inicial . Esta formulación de la representación en el espacio de escala L significa que es posible interpretar los valores de intensidad de la imagen f como una "distribución de temperatura" en el plano de la imagen y que el proceso que genera la representación en el espacio de escala en función de t corresponde a la difusión de calor en el plano de la imagen a lo largo del tiempo t (suponiendo que la conductividad térmica del material es igual a la constante elegida arbitrariamente 1/2 ). Aunque esta conexión puede parecer superficial para un lector no familiarizado con ecuaciones diferenciales , de hecho es el caso de que la formulación principal del espacio de escala en términos de no mejora de los extremos locales se expresa en términos de una condición de signo en derivadas parciales en el volumen 2+1-D generado por el espacio de escala, por lo tanto dentro del marco de ecuaciones diferenciales parciales . Además, un análisis detallado del caso discreto muestra que la ecuación de difusión proporciona un vínculo unificador entre espacios de escala continuos y discretos, que también se generaliza a espacios de escala no lineales, por ejemplo, utilizando difusión anisotrópica . Por lo tanto, se puede decir que la forma principal de generar un espacio de escala es mediante la ecuación de difusión, y que el núcleo gaussiano surge como la función de Green de esta ecuación diferencial parcial específica.
La motivación para generar una representación en el espacio de escala de un conjunto de datos dado se origina de la observación básica de que los objetos del mundo real están compuestos de diferentes estructuras a diferentes escalas . Esto implica que los objetos del mundo real, en contraste con las entidades matemáticas idealizadas como puntos o líneas , pueden aparecer de diferentes maneras dependiendo de la escala de observación. Por ejemplo, el concepto de "árbol" es apropiado a la escala de metros, mientras que conceptos como hojas y moléculas son más apropiados a escalas más finas. Para un sistema de visión por computadora que analiza una escena desconocida, no hay forma de saber a priori qué escalas son apropiadas para describir las estructuras interesantes en los datos de la imagen. Por lo tanto, el único enfoque razonable es considerar descripciones a múltiples escalas para poder capturar las variaciones de escala desconocidas que pueden ocurrir. Llevada al límite, una representación en el espacio de escala considera representaciones a todas las escalas. [9]
Otra motivación para el concepto de espacio de escala se origina del proceso de realizar una medición física sobre datos del mundo real. Para extraer cualquier información de un proceso de medición, uno tiene que aplicar operadores de tamaño no infinitesimal a los datos. En muchas ramas de la informática y las matemáticas aplicadas, el tamaño del operador de medición se ignora en el modelado teórico de un problema. La teoría del espacio de escala, por otro lado, incorpora explícitamente la necesidad de un tamaño no infinitesimal de los operadores de imagen como parte integral de cualquier medición, así como de cualquier otra operación que dependa de una medición del mundo real. [5]
Existe un vínculo estrecho entre la teoría del espacio de escala y la visión biológica. Muchas operaciones en el espacio de escala muestran un alto grado de similitud con los perfiles de campo receptivo registrados en la retina de los mamíferos y las primeras etapas de la corteza visual. En estos aspectos, el marco del espacio de escala puede considerarse un paradigma teóricamente bien fundamentado para la visión temprana, que además ha sido probado exhaustivamente mediante algoritmos y experimentos. [4] [9]
En cualquier escala del espacio de escala, podemos aplicar operadores derivados locales a la representación del espacio de escala:
Debido a la propiedad conmutativa entre el operador de derivada y el operador de suavizado gaussiano, dichas derivadas en el espacio de escala se pueden calcular de manera equivalente convolucionando la imagen original con operadores de derivada gaussiana. Por este motivo, a menudo también se las denomina derivadas gaussianas :
La unicidad de los operadores derivados de Gauss como operaciones locales derivadas de una representación en el espacio de escala se puede obtener mediante derivaciones axiomáticas similares a las que se utilizan para derivar la unicidad del núcleo de Gauss para el suavizado en el espacio de escala. [4] [22]
Estos operadores derivados gaussianos pueden a su vez combinarse mediante operadores lineales o no lineales en una mayor variedad de diferentes tipos de detectores de características, que en muchos casos pueden modelarse bien mediante geometría diferencial . Específicamente, la invariancia (o más apropiadamente la covarianza ) a las transformaciones geométricas locales, como rotaciones o transformaciones afines locales, se puede obtener considerando invariantes diferenciales bajo la clase apropiada de transformaciones o alternativamente normalizando los operadores derivados gaussianos a un marco de coordenadas determinado localmente determinado a partir de, por ejemplo, una orientación preferida en el dominio de la imagen, o aplicando una transformación afín local preferida a un parche de imagen local (consulte el artículo sobre adaptación de forma afín para obtener más detalles).
Cuando los operadores derivados de Gauss y los invariantes diferenciales se utilizan de esta manera como detectores de características básicas en múltiples escalas, las primeras etapas no comprometidas del procesamiento visual a menudo se denominan interfaz visual . Este marco general se ha aplicado a una gran variedad de problemas en visión por computadora, incluida la detección de características , la clasificación de características , la segmentación de imágenes , la correspondencia de imágenes , la estimación de movimiento , el cálculo de señales de forma y el reconocimiento de objetos . El conjunto de operadores derivados de Gauss hasta un cierto orden a menudo se denomina chorro N y constituye un tipo básico de característica dentro del marco del espacio de escala.
Siguiendo la idea de expresar operaciones visuales en términos de invariantes diferenciales calculados en múltiples escalas utilizando operadores derivados gaussianos, podemos expresar un detector de bordes a partir del conjunto de puntos que satisfacen el requisito de que la magnitud del gradiente
debe asumir un máximo local en la dirección del gradiente
Al calcular la geometría diferencial, se puede demostrar [4] que este detector de borde diferencial se puede expresar de manera equivalente a partir de los cruces por cero del invariante diferencial de segundo orden.
que satisfacen la siguiente condición de signo en un invariante diferencial de tercer orden:
De manera similar, los detectores de manchas multiescala en cualquier escala fija dada [23] [9] se pueden obtener a partir de máximos locales y mínimos locales del operador laplaciano (también conocido como el laplaciano de Gauss ).
o el determinante de la matriz hessiana
De manera análoga, los detectores de esquinas y los detectores de crestas y valles se pueden expresar como máximos, mínimos o cruces por cero locales de invariantes diferenciales multiescala definidos a partir de derivadas gaussianas. Sin embargo, las expresiones algebraicas para los operadores de detección de esquinas y crestas son algo más complejas y se remite al lector a los artículos sobre detección de esquinas y detección de crestas para obtener más detalles.
Las operaciones de espacio de escala también se han utilizado con frecuencia para expresar métodos de grueso a fino, en particular para tareas como la correspondencia de imágenes y la segmentación de imágenes en múltiples escalas .
La teoría presentada hasta ahora describe un marco bien fundamentado para representar estructuras de imágenes en múltiples escalas. Sin embargo, en muchos casos también es necesario seleccionar escalas localmente apropiadas para un análisis posterior. Esta necesidad de selección de escala se origina por dos razones principales; (i) los objetos del mundo real pueden tener diferentes tamaños, y este tamaño puede ser desconocido para el sistema de visión, y (ii) la distancia entre el objeto y la cámara puede variar, y esta información de distancia también puede ser desconocida a priori . Una propiedad muy útil de la representación en el espacio de escala es que las representaciones de imágenes se pueden hacer invariantes a escalas, realizando una selección de escala local automática [9] [10] [23] [24] [25 ] [26] [27] [28] basada en máximos (o mínimos ) locales sobre escalas de derivadas normalizadas a escala.
donde es un parámetro relacionado con la dimensionalidad de la característica de la imagen. Esta expresión algebraica para operadores derivados gaussianos normalizados a escala se origina a partir de la introducción de derivados -normalizados según
Se puede demostrar teóricamente que un módulo de selección de escala que funcione según este principio satisfará la siguiente propiedad de covarianza de escala : si para un cierto tipo de característica de imagen se supone un máximo local en una cierta imagen a una cierta escala , entonces, bajo un reescalado de la imagen por un factor de escala, el máximo local sobre escalas en la imagen reescalada se transformará al nivel de escala . [23]
Siguiendo este enfoque de derivadas normalizadas gamma, se puede demostrar que diferentes tipos de detectores de características adaptativos a escala e invariantes a escala [9] [10] [23] [24] [25] [29] [30] [27] se pueden expresar para tareas como detección de manchas , detección de esquinas , detección de crestas , detección de bordes y detección de puntos de interés espacio-temporales (consulte los artículos específicos sobre estos temas para obtener descripciones detalladas de cómo se formulan estos detectores de características invariantes a escala). Además, los niveles de escala obtenidos a partir de la selección automática de escala se pueden utilizar para determinar regiones de interés para la posterior adaptación de forma afín [31] para obtener puntos de interés invariantes afines [32] [33] o para determinar niveles de escala para calcular descriptores de imagen asociados , como N-jets adaptados a escala local .
Trabajos recientes han demostrado que también operaciones más complejas, como el reconocimiento de objetos invariantes de escala , se pueden realizar de esta manera, calculando descriptores de imágenes locales (N-jets o histogramas locales de direcciones de gradiente) en puntos de interés adaptados a la escala obtenidos a partir de los extremos del espacio de escala del operador laplaciano normalizado (ver también la transformada de características invariantes de escala [34] ) o el determinante del hessiano (ver también SURF ); [35] véase también el artículo de Scholarpedia sobre la transformada de características invariantes de escala [36] para una perspectiva más general de los enfoques de reconocimiento de objetos basados en respuestas de campo receptivo [19] [37] [38] [39] en términos de operadores derivados gaussianos o aproximaciones de los mismos.
Una pirámide de imágenes es una representación discreta en la que se muestrea un espacio de escala tanto en el espacio como en la escala. Para la invariancia de escala, los factores de escala se deben muestrear exponencialmente, por ejemplo, como potencias enteras de 2 o √ 2 . Cuando se construye correctamente, la relación de las tasas de muestreo en el espacio y la escala se mantiene constante de modo que la respuesta al impulso sea idéntica en todos los niveles de la pirámide. [40] [41] [42] [43] Existen algoritmos rápidos, O(N), para calcular una pirámide de imágenes invariante de escala, en la que la imagen o señal se suaviza repetidamente y luego se submuestrea. Los valores para el espacio de escala entre muestras de pirámides se pueden estimar fácilmente utilizando interpolación dentro y entre escalas y permitiendo estimaciones de escala y posición con precisión de subresolución. [43]
En una representación de escala-espacio, la existencia de un parámetro de escala continuo permite rastrear cruces por cero sobre escalas que conducen a la llamada estructura profunda . Para las características definidas como cruces por cero de invariantes diferenciales , el teorema de la función implícita define directamente trayectorias a través de escalas, [4] [44] y en aquellas escalas donde ocurren bifurcaciones, el comportamiento local puede ser modelado por la teoría de la singularidad . [4] [44] [45] [46] [47]
Las extensiones de la teoría de los espacios de escala lineales se refieren a la formulación de conceptos de espacios de escala no lineales más comprometidos con propósitos específicos. [48] [49] Estos espacios de escala no lineales a menudo parten de la formulación de difusión equivalente del concepto de espacio de escala, que posteriormente se extiende de manera no lineal. Se han formulado de esta manera una gran cantidad de ecuaciones de evolución, motivadas por diferentes requisitos específicos (consulte las referencias de libros mencionadas anteriormente para obtener más información). Sin embargo, debe notarse que no todos estos espacios de escala no lineales satisfacen requisitos teóricos "agradables" similares a los del concepto de espacio de escala gaussiano lineal. Por lo tanto, a veces pueden ocurrir artefactos inesperados y se debe tener mucho cuidado de no usar el término "espacio de escala" para cualquier tipo de familia de imágenes de un parámetro.
Una extensión de primer orden del espacio de escala gaussiano isótropo es proporcionada por el espacio de escala afín (gaussiano) . [4] Una motivación para esta extensión se origina de la necesidad común de calcular descriptores de imágenes sujetos a objetos del mundo real que se ven bajo un modelo de cámara en perspectiva. Para manejar tales deformaciones no lineales localmente, se puede lograr una invariancia parcial (o más correctamente, covarianza ) a las deformaciones afines locales considerando núcleos gaussianos afines con sus formas determinadas por la estructura de la imagen local, [31] consulte el artículo sobre adaptación de forma afín para teoría y algoritmos. De hecho, este espacio de escala afín también se puede expresar a partir de una extensión no isotrópica de la ecuación de difusión lineal (isotrópica), mientras que todavía está dentro de la clase de ecuaciones diferenciales parciales lineales .
Existe una extensión más general del modelo de espacio de escala gaussiano a espacios de escala afines y espacio-temporales. [4] [31] [18] [19] [50] Además de las variabilidades a lo largo de la escala, que la teoría original del espacio de escala fue diseñada para manejar, esta teoría generalizada del espacio de escala [19] también comprende otros tipos de variabilidades causadas por transformaciones geométricas en el proceso de formación de imágenes, incluyendo variaciones en la dirección de visualización aproximadas por transformaciones afines locales, y movimientos relativos entre objetos en el mundo y el observador, aproximados por transformaciones galileanas locales . Esta teoría generalizada del espacio de escala conduce a predicciones sobre los perfiles de campo receptivo en buen acuerdo cualitativo con los perfiles de campo receptivo medidos por registros celulares en visión biológica. [51] [52] [50] [53]
Existen fuertes relaciones entre la teoría del espacio de escala y la teoría wavelet , aunque estas dos nociones de representación multiescala se han desarrollado a partir de premisas algo diferentes. También se ha trabajado en otros enfoques multiescala , como las pirámides y una variedad de otros núcleos, que no explotan ni requieren los mismos requisitos que las verdaderas descripciones del espacio de escala.
Existen relaciones interesantes entre la representación en el espacio de escala y la visión y audición biológicas. Los estudios neurofisiológicos de la visión biológica han demostrado que existen perfiles de campo receptivo en la retina y la corteza visual de los mamíferos que pueden modelarse bien mediante operadores derivados gaussianos lineales, en algunos casos complementados también por un modelo de espacio de escala afín no isotrópico, un modelo de espacio de escala espacio-temporal y/o combinaciones no lineales de dichos operadores lineales. [18] [51] [52] [50 ] [53] [54] [55] [56] [57]
En relación con la audición biológica, existen perfiles de campos receptivos en el colículo inferior y la corteza auditiva primaria que pueden modelarse bien mediante campos receptivos espectrales-temporales que pueden modelarse bien mediante derivadas gaussianas sobre frecuencias logarítmicas y transformadas de Fourier en ventana sobre el tiempo, siendo las funciones de ventana núcleos de escala-espacio temporal. [58] [59]
En el área de la visión por computadora clásica, la teoría del espacio de escala se ha establecido como un marco teórico para la visión temprana, con las derivadas gaussianas constituyendo un modelo canónico para la primera capa de campos receptivos. Con la introducción del aprendizaje profundo , también se ha trabajado en el uso de derivadas gaussianas o núcleos gaussianos como base general para campos receptivos en redes profundas. [60] [61] [62] [63] [64] Usando las propiedades de transformación de las derivadas gaussianas y los núcleos gaussianos bajo transformaciones de escala, es de esta manera posible obtener covarianza/equivarianza de escala e invariancia de escala de la red profunda para manejar estructuras de imágenes a diferentes escalas de una manera teóricamente bien fundada. [62] [63] También se han desarrollado enfoques para obtener covarianza/equivarianza de escala e invariancia de escala mediante filtros aprendidos combinados con múltiples canales de escala. [65] [66] [67] [68] [69] [70] Específicamente, utilizando las nociones de covarianza/equivarianza de escala e invarianza de escala, es posible hacer que las redes profundas operen de manera robusta en escalas no abarcadas por los datos de entrenamiento, lo que permite la generalización de la escala. [62] [63] [67] [69]
Para procesar señales temporales o videos pregrabados, el núcleo gaussiano también se puede utilizar para suavizar y suprimir estructuras de escala fina en el dominio temporal, ya que los datos están pregrabados y disponibles en todas las direcciones. Sin embargo, al procesar señales temporales o videos en situaciones de tiempo real, el núcleo gaussiano no se puede utilizar para suavizar temporalmente, ya que accedería a datos del futuro, que obviamente no pueden estar disponibles. Para suavizar temporalmente en situaciones de tiempo real, se puede utilizar en cambio el núcleo temporal denominado núcleo límite causal temporal, [71] que posee propiedades similares en una situación causal temporal (no creación de nuevas estructuras hacia una escala creciente y covarianza de escala temporal) a las que obedece el núcleo gaussiano en el caso no causal. El núcleo límite causal temporal corresponde a una convolución con un número infinito de núcleos exponenciales truncados acoplados en cascada, con constantes de tiempo elegidas específicamente para obtener la covarianza de escala temporal. Para datos discretos, este núcleo a menudo se puede aproximar numéricamente bien mediante un pequeño conjunto de filtros recursivos de primer orden acoplados en cascada; consulte [71] para obtener más detalles.
Para un enfoque anterior para manejar escalas temporales de una manera causal en el tiempo, mediante la realización de un suavizado gaussiano sobre un eje temporal transformado logarítmicamente, pero sin tener ninguna implementación recursiva en el tiempo eficiente en memoria como la que tiene el núcleo límite causal en el tiempo, véase [72].
Al implementar el suavizado en el espacio de escala en la práctica, existen varios enfoques diferentes que se pueden adoptar en términos de suavizado gaussiano continuo o discreto, implementación en el dominio de Fourier, en términos de pirámides basadas en filtros binomiales que se aproximan al gaussiano o utilizando filtros recursivos. Se brindan más detalles sobre esto en un artículo separado sobre implementación en el espacio de escala .
{{cite book}}
: |journal=
ignorado ( ayuda ){{cite journal}}
: Requiere citar revista |journal=
( ayuda ){{cite journal}}
: Requiere citar revista |journal=
( ayuda )