stringtranslate.com

Espacio de escala

La teoría del espacio de escala es un marco para la representación de señales en múltiples escalas desarrollado por las comunidades de visión por computadora , procesamiento de imágenes y procesamiento de señales con motivaciones complementarias de la física y la visión biológica . Es una teoría formal para manejar estructuras de imágenes a diferentes escalas , al representar una imagen como una familia de un parámetro de imágenes suavizadas, la representación del espacio de escala , parametrizada por el tamaño del núcleo de suavizado utilizado para suprimir estructuras de escala fina. [1] [2] [3] [4] [5] [6] [7] [8] El parámetro de esta familia se conoce como el parámetro de escala , con la interpretación de que las estructuras de imagen de tamaño espacial menor que aproximadamente se han suavizado en gran medida en el nivel del espacio de escala a escala .

El tipo principal de espacio de escala es el espacio de escala lineal (gaussiano) , que tiene una amplia aplicabilidad así como la atractiva propiedad de ser posible derivarlo de un pequeño conjunto de axiomas del espacio de escala . El marco de trabajo del espacio de escala correspondiente abarca una teoría para los operadores derivados gaussianos, que se puede utilizar como base para expresar una gran clase de operaciones visuales para sistemas informáticos que procesan información visual. Este marco de trabajo también permite que las operaciones visuales se hagan invariantes en escala , lo que es necesario para tratar con las variaciones de tamaño que pueden ocurrir en los datos de imagen, porque los objetos del mundo real pueden ser de diferentes tamaños y además la distancia entre el objeto y la cámara puede ser desconocida y puede variar dependiendo de las circunstancias. [9] [10]

Definición

La noción de espacio de escala se aplica a señales de un número arbitrario de variables. El caso más común en la literatura se aplica a imágenes bidimensionales, que es lo que se presenta aquí. Para una imagen dada , su representación lineal (gaussiana) en el espacio de escala es una familia de señales derivadas definidas por la convolución de con el núcleo gaussiano bidimensional

de tal manera que

donde el punto y coma en el argumento de implica que la convolución se realiza solo sobre las variables , mientras que el parámetro de escala después del punto y coma solo indica qué nivel de escala se está definiendo. Esta definición de funciona para un continuo de escalas , pero normalmente solo se consideraría realmente un conjunto discreto finito de niveles en la representación del espacio de escala.

El parámetro de escala es la varianza del filtro gaussiano y, como límite del filtro, se convierte en una función de impulso , de modo que la representación en el espacio de escala a nivel de escala es la propia imagen. A medida que aumenta, es el resultado de suavizar con un filtro cada vez más grande, eliminando así cada vez más detalles que contiene la imagen. Dado que la desviación estándar del filtro es , los detalles que son significativamente más pequeños que este valor se eliminan en gran medida de la imagen en el parámetro de escala , consulte la siguiente figura y [11] para ilustraciones gráficas.

¿Por qué un filtro gaussiano?

Cuando nos enfrentamos a la tarea de generar una representación multiescala, podemos preguntarnos: ¿podría utilizarse cualquier filtro g de tipo paso bajo y con un parámetro t que determine su ancho para generar un espacio de escala? La respuesta es no, ya que es de importancia crucial que el filtro de suavizado no introduzca nuevas estructuras espurias en escalas gruesas que no correspondan a simplificaciones de estructuras correspondientes en escalas más finas. En la literatura sobre espacios de escala, se han expresado varias formas diferentes de formular este criterio en términos matemáticos precisos.

La conclusión de varias derivaciones axiomáticas diferentes que se han presentado es que el espacio de escala gaussiano constituye la forma canónica de generar un espacio de escala lineal, basado en el requisito esencial de que no se deben crear nuevas estructuras al pasar de una escala fina a una escala más gruesa. [1] [3] [4] [6] [9] [ 12 ] [13] [14] [15] [16] [17] [18] [19] Las condiciones, denominadas axiomas del espacio de escala , que se han utilizado para derivar la unicidad del núcleo gaussiano incluyen linealidad , invariancia de desplazamiento , estructura de semigrupo , no mejora de extremos locales , invariancia de escala e invariancia rotacional . En los trabajos, [15] [20] [21] se ha criticado la unicidad reclamada en los argumentos basados ​​en la invariancia de escala, y se han propuesto núcleos de espacio de escala autosimilares alternativos. Sin embargo, el núcleo gaussiano es una opción única según la axiomática del espacio de escala basada en la causalidad [3] o la no mejora de los extremos locales. [16] [18]

Definición alternativa

De manera equivalente , la familia de escala-espacio se puede definir como la solución de la ecuación de difusión (por ejemplo en términos de la ecuación de calor ),

con condición inicial . Esta formulación de la representación en el espacio de escala L significa que es posible interpretar los valores de intensidad de la imagen f como una "distribución de temperatura" en el plano de la imagen y que el proceso que genera la representación en el espacio de escala en función de t corresponde a la difusión de calor en el plano de la imagen a lo largo del tiempo t (suponiendo que la conductividad térmica del material es igual a la constante elegida arbitrariamente 1/2 ). Aunque esta conexión puede parecer superficial para un lector no familiarizado con ecuaciones diferenciales , de hecho es el caso de que la formulación principal del espacio de escala en términos de no mejora de los extremos locales se expresa en términos de una condición de signo en derivadas parciales en el volumen 2+1-D generado por el espacio de escala, por lo tanto dentro del marco de ecuaciones diferenciales parciales . Además, un análisis detallado del caso discreto muestra que la ecuación de difusión proporciona un vínculo unificador entre espacios de escala continuos y discretos, que también se generaliza a espacios de escala no lineales, por ejemplo, utilizando difusión anisotrópica . Por lo tanto, se puede decir que la forma principal de generar un espacio de escala es mediante la ecuación de difusión, y que el núcleo gaussiano surge como la función de Green de esta ecuación diferencial parcial específica.

Motivaciones

La motivación para generar una representación en el espacio de escala de un conjunto de datos dado se origina de la observación básica de que los objetos del mundo real están compuestos de diferentes estructuras a diferentes escalas . Esto implica que los objetos del mundo real, en contraste con las entidades matemáticas idealizadas como puntos o líneas , pueden aparecer de diferentes maneras dependiendo de la escala de observación. Por ejemplo, el concepto de "árbol" es apropiado a la escala de metros, mientras que conceptos como hojas y moléculas son más apropiados a escalas más finas. Para un sistema de visión por computadora que analiza una escena desconocida, no hay forma de saber a priori qué escalas son apropiadas para describir las estructuras interesantes en los datos de la imagen. Por lo tanto, el único enfoque razonable es considerar descripciones a múltiples escalas para poder capturar las variaciones de escala desconocidas que pueden ocurrir. Llevada al límite, una representación en el espacio de escala considera representaciones a todas las escalas. [9]

Otra motivación para el concepto de espacio de escala se origina del proceso de realizar una medición física sobre datos del mundo real. Para extraer cualquier información de un proceso de medición, uno tiene que aplicar operadores de tamaño no infinitesimal a los datos. En muchas ramas de la informática y las matemáticas aplicadas, el tamaño del operador de medición se ignora en el modelado teórico de un problema. La teoría del espacio de escala, por otro lado, incorpora explícitamente la necesidad de un tamaño no infinitesimal de los operadores de imagen como parte integral de cualquier medición, así como de cualquier otra operación que dependa de una medición del mundo real. [5]

Existe un vínculo estrecho entre la teoría del espacio de escala y la visión biológica. Muchas operaciones en el espacio de escala muestran un alto grado de similitud con los perfiles de campo receptivo registrados en la retina de los mamíferos y las primeras etapas de la corteza visual. En estos aspectos, el marco del espacio de escala puede considerarse un paradigma teóricamente bien fundamentado para la visión temprana, que además ha sido probado exhaustivamente mediante algoritmos y experimentos. [4] [9]

Derivadas gaussianas

En cualquier escala del espacio de escala, podemos aplicar operadores derivados locales a la representación del espacio de escala:

Debido a la propiedad conmutativa entre el operador de derivada y el operador de suavizado gaussiano, dichas derivadas en el espacio de escala se pueden calcular de manera equivalente convolucionando la imagen original con operadores de derivada gaussiana. Por este motivo, a menudo también se las denomina derivadas gaussianas :

La unicidad de los operadores derivados de Gauss como operaciones locales derivadas de una representación en el espacio de escala se puede obtener mediante derivaciones axiomáticas similares a las que se utilizan para derivar la unicidad del núcleo de Gauss para el suavizado en el espacio de escala. [4] [22]

Interfaz visual

Estos operadores derivados gaussianos pueden a su vez combinarse mediante operadores lineales o no lineales en una mayor variedad de diferentes tipos de detectores de características, que en muchos casos pueden modelarse bien mediante geometría diferencial . Específicamente, la invariancia (o más apropiadamente la covarianza ) a las transformaciones geométricas locales, como rotaciones o transformaciones afines locales, se puede obtener considerando invariantes diferenciales bajo la clase apropiada de transformaciones o alternativamente normalizando los operadores derivados gaussianos a un marco de coordenadas determinado localmente determinado a partir de, por ejemplo, una orientación preferida en el dominio de la imagen, o aplicando una transformación afín local preferida a un parche de imagen local (consulte el artículo sobre adaptación de forma afín para obtener más detalles).

Cuando los operadores derivados de Gauss y los invariantes diferenciales se utilizan de esta manera como detectores de características básicas en múltiples escalas, las primeras etapas no comprometidas del procesamiento visual a menudo se denominan interfaz visual . Este marco general se ha aplicado a una gran variedad de problemas en visión por computadora, incluida la detección de características , la clasificación de características , la segmentación de imágenes , la correspondencia de imágenes , la estimación de movimiento , el cálculo de señales de forma y el reconocimiento de objetos . El conjunto de operadores derivados de Gauss hasta un cierto orden a menudo se denomina chorro N y constituye un tipo básico de característica dentro del marco del espacio de escala.

Ejemplos de detectores

Siguiendo la idea de expresar operaciones visuales en términos de invariantes diferenciales calculados en múltiples escalas utilizando operadores derivados gaussianos, podemos expresar un detector de bordes a partir del conjunto de puntos que satisfacen el requisito de que la magnitud del gradiente

debe asumir un máximo local en la dirección del gradiente

Al calcular la geometría diferencial, se puede demostrar [4] que este detector de borde diferencial se puede expresar de manera equivalente a partir de los cruces por cero del invariante diferencial de segundo orden.

que satisfacen la siguiente condición de signo en un invariante diferencial de tercer orden:

De manera similar, los detectores de manchas multiescala en cualquier escala fija dada [23] [9] se pueden obtener a partir de máximos locales y mínimos locales del operador laplaciano (también conocido como el laplaciano de Gauss ).

o el determinante de la matriz hessiana

De manera análoga, los detectores de esquinas y los detectores de crestas y valles se pueden expresar como máximos, mínimos o cruces por cero locales de invariantes diferenciales multiescala definidos a partir de derivadas gaussianas. Sin embargo, las expresiones algebraicas para los operadores de detección de esquinas y crestas son algo más complejas y se remite al lector a los artículos sobre detección de esquinas y detección de crestas para obtener más detalles.

Las operaciones de espacio de escala también se han utilizado con frecuencia para expresar métodos de grueso a fino, en particular para tareas como la correspondencia de imágenes y la segmentación de imágenes en múltiples escalas .

Selección de escala

La teoría presentada hasta ahora describe un marco bien fundamentado para representar estructuras de imágenes en múltiples escalas. Sin embargo, en muchos casos también es necesario seleccionar escalas localmente apropiadas para un análisis posterior. Esta necesidad de selección de escala se origina por dos razones principales; (i) los objetos del mundo real pueden tener diferentes tamaños, y este tamaño puede ser desconocido para el sistema de visión, y (ii) la distancia entre el objeto y la cámara puede variar, y esta información de distancia también puede ser desconocida a priori . Una propiedad muy útil de la representación en el espacio de escala es que las representaciones de imágenes se pueden hacer invariantes a escalas, realizando una selección de escala local automática [9] [10] [23] [24] [25 ] [26] [27] [28] basada en máximos (o mínimos ) locales sobre escalas de derivadas normalizadas a escala.

donde es un parámetro relacionado con la dimensionalidad de la característica de la imagen. Esta expresión algebraica para operadores derivados gaussianos normalizados a escala se origina a partir de la introducción de derivados -normalizados según

y

Se puede demostrar teóricamente que un módulo de selección de escala que funcione según este principio satisfará la siguiente propiedad de covarianza de escala : si para un cierto tipo de característica de imagen se supone un máximo local en una cierta imagen a una cierta escala , entonces, bajo un reescalado de la imagen por un factor de escala, el máximo local sobre escalas en la imagen reescalada se transformará al nivel de escala . [23]

Detección de características invariantes de escala

Siguiendo este enfoque de derivadas normalizadas gamma, se puede demostrar que diferentes tipos de detectores de características adaptativos a escala e invariantes a escala [9] [10] [23] [24] [25] [29] [30] [27] se pueden expresar para tareas como detección de manchas , detección de esquinas , detección de crestas , detección de bordes y detección de puntos de interés espacio-temporales (consulte los artículos específicos sobre estos temas para obtener descripciones detalladas de cómo se formulan estos detectores de características invariantes a escala). Además, los niveles de escala obtenidos a partir de la selección automática de escala se pueden utilizar para determinar regiones de interés para la posterior adaptación de forma afín [31] para obtener puntos de interés invariantes afines [32] [33] o para determinar niveles de escala para calcular descriptores de imagen asociados , como N-jets adaptados a escala local .

Trabajos recientes han demostrado que también operaciones más complejas, como el reconocimiento de objetos invariantes de escala , se pueden realizar de esta manera, calculando descriptores de imágenes locales (N-jets o histogramas locales de direcciones de gradiente) en puntos de interés adaptados a la escala obtenidos a partir de los extremos del espacio de escala del operador laplaciano normalizado (ver también la transformada de características invariantes de escala [34] ) o el determinante del hessiano (ver también SURF ); [35] véase también el artículo de Scholarpedia sobre la transformada de características invariantes de escala [36] para una perspectiva más general de los enfoques de reconocimiento de objetos basados ​​en respuestas de campo receptivo [19] [37] [38] [39] en términos de operadores derivados gaussianos o aproximaciones de los mismos.

Representaciones multiescala relacionadas

Una pirámide de imágenes es una representación discreta en la que se muestrea un espacio de escala tanto en el espacio como en la escala. Para la invariancia de escala, los factores de escala se deben muestrear exponencialmente, por ejemplo, como potencias enteras de 2 o 2 . Cuando se construye correctamente, la relación de las tasas de muestreo en el espacio y la escala se mantiene constante de modo que la respuesta al impulso sea idéntica en todos los niveles de la pirámide. [40] [41] [42] [43] Existen algoritmos rápidos, O(N), para calcular una pirámide de imágenes invariante de escala, en la que la imagen o señal se suaviza repetidamente y luego se submuestrea. Los valores para el espacio de escala entre muestras de pirámides se pueden estimar fácilmente utilizando interpolación dentro y entre escalas y permitiendo estimaciones de escala y posición con precisión de subresolución. [43]

En una representación de escala-espacio, la existencia de un parámetro de escala continuo permite rastrear cruces por cero sobre escalas que conducen a la llamada estructura profunda . Para las características definidas como cruces por cero de invariantes diferenciales , el teorema de la función implícita define directamente trayectorias a través de escalas, [4] [44] y en aquellas escalas donde ocurren bifurcaciones, el comportamiento local puede ser modelado por la teoría de la singularidad . [4] [44] [45] [46] [47]

Las extensiones de la teoría de los espacios de escala lineales se refieren a la formulación de conceptos de espacios de escala no lineales más comprometidos con propósitos específicos. [48] [49] Estos espacios de escala no lineales a menudo parten de la formulación de difusión equivalente del concepto de espacio de escala, que posteriormente se extiende de manera no lineal. Se han formulado de esta manera una gran cantidad de ecuaciones de evolución, motivadas por diferentes requisitos específicos (consulte las referencias de libros mencionadas anteriormente para obtener más información). Sin embargo, debe notarse que no todos estos espacios de escala no lineales satisfacen requisitos teóricos "agradables" similares a los del concepto de espacio de escala gaussiano lineal. Por lo tanto, a veces pueden ocurrir artefactos inesperados y se debe tener mucho cuidado de no usar el término "espacio de escala" para cualquier tipo de familia de imágenes de un parámetro.

Una extensión de primer orden del espacio de escala gaussiano isótropo es proporcionada por el espacio de escala afín (gaussiano) . [4] Una motivación para esta extensión se origina de la necesidad común de calcular descriptores de imágenes sujetos a objetos del mundo real que se ven bajo un modelo de cámara en perspectiva. Para manejar tales deformaciones no lineales localmente, se puede lograr una invariancia parcial (o más correctamente, covarianza ) a las deformaciones afines locales considerando núcleos gaussianos afines con sus formas determinadas por la estructura de la imagen local, [31] consulte el artículo sobre adaptación de forma afín para teoría y algoritmos. De hecho, este espacio de escala afín también se puede expresar a partir de una extensión no isotrópica de la ecuación de difusión lineal (isotrópica), mientras que todavía está dentro de la clase de ecuaciones diferenciales parciales lineales .

Existe una extensión más general del modelo de espacio de escala gaussiano a espacios de escala afines y espacio-temporales. [4] [31] [18] [19] [50] Además de las variabilidades a lo largo de la escala, que la teoría original del espacio de escala fue diseñada para manejar, esta teoría generalizada del espacio de escala [19] también comprende otros tipos de variabilidades causadas por transformaciones geométricas en el proceso de formación de imágenes, incluyendo variaciones en la dirección de visualización aproximadas por transformaciones afines locales, y movimientos relativos entre objetos en el mundo y el observador, aproximados por transformaciones galileanas locales . Esta teoría generalizada del espacio de escala conduce a predicciones sobre los perfiles de campo receptivo en buen acuerdo cualitativo con los perfiles de campo receptivo medidos por registros celulares en visión biológica. [51] [52] [50] [53]

Existen fuertes relaciones entre la teoría del espacio de escala y la teoría wavelet , aunque estas dos nociones de representación multiescala se han desarrollado a partir de premisas algo diferentes. También se ha trabajado en otros enfoques multiescala , como las pirámides y una variedad de otros núcleos, que no explotan ni requieren los mismos requisitos que las verdaderas descripciones del espacio de escala.

Relación con la visión y la audición biológicas

Existen relaciones interesantes entre la representación en el espacio de escala y la visión y audición biológicas. Los estudios neurofisiológicos de la visión biológica han demostrado que existen perfiles de campo receptivo en la retina y la corteza visual de los mamíferos que pueden modelarse bien mediante operadores derivados gaussianos lineales, en algunos casos complementados también por un modelo de espacio de escala afín no isotrópico, un modelo de espacio de escala espacio-temporal y/o combinaciones no lineales de dichos operadores lineales. [18] [51] [52] [50 ] [53] [54] [55] [56] [57]

En relación con la audición biológica, existen perfiles de campos receptivos en el colículo inferior y la corteza auditiva primaria que pueden modelarse bien mediante campos receptivos espectrales-temporales que pueden modelarse bien mediante derivadas gaussianas sobre frecuencias logarítmicas y transformadas de Fourier en ventana sobre el tiempo, siendo las funciones de ventana núcleos de escala-espacio temporal. [58] [59]

Aprendizaje profundo y espacio de escala

En el área de la visión por computadora clásica, la teoría del espacio de escala se ha establecido como un marco teórico para la visión temprana, con las derivadas gaussianas constituyendo un modelo canónico para la primera capa de campos receptivos. Con la introducción del aprendizaje profundo , también se ha trabajado en el uso de derivadas gaussianas o núcleos gaussianos como base general para campos receptivos en redes profundas. [60] [61] [62] [63] [64] Usando las propiedades de transformación de las derivadas gaussianas y los núcleos gaussianos bajo transformaciones de escala, es de esta manera posible obtener covarianza/equivarianza de escala e invariancia de escala de la red profunda para manejar estructuras de imágenes a diferentes escalas de una manera teóricamente bien fundada. [62] [63] También se han desarrollado enfoques para obtener covarianza/equivarianza de escala e invariancia de escala mediante filtros aprendidos combinados con múltiples canales de escala. [65] [66] [67] [68] [69] [70] Específicamente, utilizando las nociones de covarianza/equivarianza de escala e invarianza de escala, es posible hacer que las redes profundas operen de manera robusta en escalas no abarcadas por los datos de entrenamiento, lo que permite la generalización de la escala. [62] [63] [67] [69]

Espacio de escala temporal causal-temporal

Para procesar señales temporales o videos pregrabados, el núcleo gaussiano también se puede utilizar para suavizar y suprimir estructuras de escala fina en el dominio temporal, ya que los datos están pregrabados y disponibles en todas las direcciones. Sin embargo, al procesar señales temporales o videos en situaciones de tiempo real, el núcleo gaussiano no se puede utilizar para suavizar temporalmente, ya que accedería a datos del futuro, que obviamente no pueden estar disponibles. Para suavizar temporalmente en situaciones de tiempo real, se puede utilizar en cambio el núcleo temporal denominado núcleo límite causal temporal, [71] que posee propiedades similares en una situación causal temporal (no creación de nuevas estructuras hacia una escala creciente y covarianza de escala temporal) a las que obedece el núcleo gaussiano en el caso no causal. El núcleo límite causal temporal corresponde a una convolución con un número infinito de núcleos exponenciales truncados acoplados en cascada, con constantes de tiempo elegidas específicamente para obtener la covarianza de escala temporal. Para datos discretos, este núcleo a menudo se puede aproximar numéricamente bien mediante un pequeño conjunto de filtros recursivos de primer orden acoplados en cascada; consulte [71] para obtener más detalles.

Para un enfoque anterior para manejar escalas temporales de una manera causal en el tiempo, mediante la realización de un suavizado gaussiano sobre un eje temporal transformado logarítmicamente, pero sin tener ninguna implementación recursiva en el tiempo eficiente en memoria como la que tiene el núcleo límite causal en el tiempo, véase [72].

Problemas de implementación

Al implementar el suavizado en el espacio de escala en la práctica, existen varios enfoques diferentes que se pueden adoptar en términos de suavizado gaussiano continuo o discreto, implementación en el dominio de Fourier, en términos de pirámides basadas en filtros binomiales que se aproximan al gaussiano o utilizando filtros recursivos. Se brindan más detalles sobre esto en un artículo separado sobre implementación en el espacio de escala .

Véase también

Referencias

  1. ^ ab Ijima, T. "Teoría básica sobre la normalización de patrones (en el caso de patrones unidimensionales típicos)". Bull. Electrotech. Lab. 26, 368– 388, 1962. (en japonés)
  2. ^ "Witkin, AP "Filtrado en el espacio de escala", Proc. 8th Int. Joint Conf. Art. Intell., Karlsruhe, Alemania, 1019–1022, 1983" (PDF) .
  3. ^ abc Koenderink, Jan "La estructura de las imágenes", Biological Cybernetics, 50:363–370, 1984
  4. ^ abcdefghi Lindeberg, T. (1993). Teoría del espacio de escala en la visión por computadora. Springer. doi :10.1007/978-1-4757-6465-9. ISBN 978-1-4419-5139-7.
  5. ^ ab T. Lindeberg (1994). "Teoría del espacio de escala: una herramienta básica para analizar estructuras a diferentes escalas". Journal of Applied Statistics (Suplemento sobre Avances en estadística aplicada: estadísticas e imágenes: 2) . 21 (2): 224–270. Bibcode :1994JApSt..21..225L. doi :10.1080/757582976.
  6. ^ ab Florack, Luc, Estructura de la imagen, Kluwer Academic Publishers, 1997.
  7. ^ "Sporring, Jon et al. (Eds), Teoría del espacio de escala gaussiana, Kluwer Academic Publishers, 1997".
  8. ^ ter Haar Romeny, Bart M. (2008). Front-End Vision and Multi-Scale Image Analysis: Multi-scale Computer Vision Theory and Applications, escrito en Mathematica. Springer Science & Business Media. ISBN 978-1-4020-8840-7.
  9. ^ abcdefg Lindeberg, Tony (2008). "Espacio de escala". En Benjamin Wah (ed.). Enciclopedia de Ciencias de la Computación e Ingeniería . Vol. IV. John Wiley and Sons. págs. 2495–2504. doi :10.1002/9780470050118.ecse609. ISBN 978-0470050118.
  10. ^ abc T. Lindeberg (2014) "Selección de escala", Computer Vision: A Reference Guide, (K. Ikeuchi, Editor), Springer, páginas 701–713.
  11. ^ "Representación en el espacio de escala: definición e ideas básicas". www.csc.kth.se .
  12. ^ J. Babaud, AP Witkin, M. Baudin y RO Duda, Unicidad del núcleo gaussiano para el filtrado en el espacio de escala. IEEE Trans. Pattern Anal. Machine Intell. 8(1), 26–33, 1986.
  13. ^ Yuille, AL; Poggio, TA (1 de enero de 1986). "Teoremas de escalamiento para cruces por cero". IEEE Transactions on Pattern Analysis and Machine Intelligence . 8 (1): 15–25. doi :10.1109/TPAMI.1986.4767748. hdl : 1721.1/5655 . ISSN  0162-8828. PMID  21869319. S2CID  14815630.
  14. ^ Lindeberg, Tony (1990). "Espacio de escala para señales discretas". IEEE Transactions on Pattern Analysis and Machine Intelligence . 12 (3): 234–254. doi :10.1109/34.49051.
  15. ^ ab Pauwels, Eric J.; Van Gool, Luc J.; Fiddelaers, Peter; Moons, Theo (1 de julio de 1995). "Una clase extendida de filtros de espacio de escala recursivos e invariantes de escala". IEEE Transactions on Pattern Analysis and Machine Intelligence . 17 (7): 691–701. doi :10.1109/34.391411 – vía julio de 1995.
  16. ^ ab Lindeberg, Tony (7 de enero de 1996). "Sobre los fundamentos axiomáticos del espacio de escala lineal: Combinación de la estructura de semigrupo con causalidad frente a invariancia de escala". Teoría del espacio de escala gaussiana: Proc PhD School on Scale-Space Theory . Kluwer Academic Publishers: 75–97 – vía kth.diva-portal.org.
  17. ^ Weickert, Joachim; Ishikawa, Seiji; Imiya, Atsushi (1 de mayo de 1999). "Se ha propuesto por primera vez en Japón la escala lineal del espacio". Journal of Mathematical Imaging and Vision . 10 (3): 237–252. doi :10.1023/A:1008344623873. ISSN  0924-9907. S2CID  17835046.
  18. ^ abcd Lindeberg, Tony (2011). "Axiomática generalizada de la escala espacial gaussiana que comprende la escala espacial lineal, la escala espacial afín y la escala espacial-temporal". Revista de imágenes y visión matemática . 40 (1): 36–81. doi :10.1007/s10851-010-0242-2. S2CID  950099.
  19. ^ abcd Lindeberg, Tony (1 de enero de 2013). Hawkes, Peter W. (ed.). Teoría axiomática generalizada del espacio de escala. Avances en imágenes y física electrónica. Vol. 178. Elsevier. págs. 1–96. doi :10.1016/b978-0-12-407701-0.00001-7. ISBN 9780124077010. Recuperado el 7 de enero de 2023 .
  20. ^ M. Felsberg y G. Sommer "El espacio de escala monogénico: un enfoque unificador para el procesamiento de imágenes basado en fases en el espacio de escala", Journal of Mathematical Imaging and Vision, 21(1): 5–28, 2004.
  21. ^ R. Duits, L. Florack, J. de Graaf y B. ter Haar Romeny "Sobre los axiomas de la teoría del espacio de escala", Journal of Mathematical Imaging and Vision, 20(3): 267–298, 2004.
  22. ^ Koenderink, JJ; van Doorn, AJ (7 de junio de 1992). "Operadores de vecindad genéricos". IEEE Transactions on Pattern Analysis and Machine Intelligence . 14 (6): 597–605. doi :10.1109/34.141551 – vía IEEE Xplore.
  23. ^ abcd Lindeberg, Tony (7 de enero de 1998). "Detección de características con selección automática de escala". Revista internacional de visión artificial . 30 (2): 79–116. doi :10.1023/A:1008045108935. S2CID  723210 – vía kth.diva-portal.org.
  24. ^ ab Lindeberg, Tony (7 de enero de 1998). "Detección de bordes y detección de crestas con selección automática de escala". Revista internacional de visión artificial . 30 (2): 117–154. doi :10.1023/A:1008097225773. S2CID  35328443 – vía kth.diva-portal.org.
  25. ^ ab Lindeberg, Tony (7 de enero de 1999). "Principios para la selección automática de escala". Manual sobre visión artificial y aplicaciones . Academic Press: 239–274 – vía kth.diva-portal.org.
  26. ^ Lindeberg, Tony (1 de mayo de 2017). "Selección de escala temporal en el espacio de escala causal temporal". Revista de imágenes y visión matemática . 58 (1): 57–101. arXiv : 1701.05088 . doi : 10.1007/s10851-016-0691-3 . ISSN  1573-7683. S2CID  254645013.
  27. ^ ab Lindeberg, Tony (1 de mayo de 2018). "Selección de escala espacio-temporal en datos de vídeo". Revista de imágenes y visión matemática . 60 (4): 525–562. doi : 10.1007/s10851-017-0766-9 . ISSN  1573-7683. S2CID  254649837.
  28. ^ Lindeberg, Tony (2018). "Selección de escala densa en el espacio, el tiempo y el espacio-tiempo". Revista SIAM sobre ciencias de la imagen . 11 (1): 407–441. arXiv : 1709.08603 . doi :10.1137/17M114892X. S2CID  22220902.
  29. ^ Lindeberg, Tony (1 de junio de 2013). "Propiedades de selección de escala de detectores de puntos de interés generalizados en el espacio de escala". Journal of Mathematical Imaging and Vision . 46 (2): 177–210. doi : 10.1007/s10851-012-0378-3 . ISSN  1573-7683. S2CID  254653631.
  30. ^ Lindeberg, Tony (1 de mayo de 2015). "Coincidencia de imágenes mediante puntos de interés generalizados en el espacio de escala". Revista de imágenes y visión matemática . 52 (1): 3–36. doi : 10.1007/s10851-014-0541-0 . ISSN  1573-7683. S2CID  254657377.
  31. ^ abc Lindeberg, Tony; Gårding, Jonas (7 de enero de 1997). "Suavizado adaptado a la forma en la estimación de claves de profundidad 3-D a partir de distorsiones afines de la estructura de brillo 2-D local". Image and Vision Computing . 15 (6): 415–434. doi :10.1016/S0262-8856(97)01144-X – vía kth.diva-portal.org.
  32. ^ Baumberg, A. (7 de enero de 2000). "Reliable feature matching across broad separate views" (Coincidencia de características fiable en vistas muy separadas). Actas de la IEEE Conference on Computer Vision and Pattern Recognition (Conferencia IEEE sobre visión artificial y reconocimiento de patrones). CVPR 2000 (n.º de cat. PR00662) . Vol. 1. IEEE Comput. Soc. págs. 774–781. doi :10.1109/CVPR.2000.855899. ISBN . 0-7695-0662-3. Número de identificación del sujeto  15626261.
  33. ^ Mikolajczyk, K. y Schmid, C.: Detectores de puntos de interés invariantes afines y de escala, Int. Journal of Computer Vision, 60:1, 63 – 86, 2004.
  34. ^ "Lowe, DG, "Características distintivas de la imagen a partir de puntos clave invariantes en la escala", International Journal of Computer Vision, 60, 2, págs. 91-110, 2004".
  35. ^ Bay, Herbert; Ess, Andreas; Tuytelaars, Tinne; Van Gool, Luc (1 de junio de 2008). "Speeded-Up Robust Features (SURF)". Visión artificial y comprensión de imágenes . 110 (3): 346–359. doi :10.1016/j.cviu.2007.09.014. S2CID  14777911 – vía ScienceDirect.
  36. ^ Lindeberg, Tony (22 de mayo de 2012). "Transformación de características invariantes de escala". Scholarpedia . 7 (5): 10491. Bibcode :2012SchpJ...710491L. doi : 10.4249/scholarpedia.10491 .
  37. ^ Schiele, Bernt; Crowley, James L. (1 de enero de 2000). "Reconocimiento sin correspondencia mediante histogramas de campos receptivos multidimensionales". Revista internacional de visión artificial . 36 (1): 31–50. doi :10.1023/A:1008120406972. S2CID  2551159 – vía Springer Link.
  38. ^ Linde, Oskar; Lindeberg, Tony (7 de enero de 2004). "Reconocimiento de objetos mediante histogramas de campos receptivos compuestos de mayor dimensionalidad". Conferencia internacional sobre reconocimiento de patrones (ICPR 2004) . Actas de la conferencia IEEE: 1–6 – vía kth.diva-portal.org.
  39. ^ Linde, Oskar; Lindeberg, Tony (7 de enero de 2012). "Histogramas compuestos de señales complejas: una investigación del contenido de información en descriptores de imágenes basados ​​en campos receptivos para el reconocimiento de objetos". Visión artificial y comprensión de imágenes . 116 (4): 538–560. doi :10.1016/j.cviu.2011.12.003 – vía kth.diva-portal.org.
  40. ^ Burt, Peter y Adelson, Ted, "La pirámide laplaciana como código de imagen compacto Archivado el 23 de enero de 2022 en Wayback Machine ", IEEE Trans. Communications, 9:4, 532–540, 1983.
  41. ^ Crowley, James L.; Stern, Richard M. (marzo de 1984). "Cálculo rápido de la diferencia de la transformada de paso bajo". IEEE Transactions on Pattern Analysis and Machine Intelligence . PAMI-6 (2): 212–222. doi :10.1109/TPAMI.1984.4767504. ISSN  1939-3539. PMID  21869184. S2CID  17032188.
  42. ^ Crowley, JL y Sanderson, AC "Representación de resolución múltiple y correspondencia probabilística de formas en escala de grises 2-D", IEEE Transactions on Pattern Analysis and Machine Intelligence, 9(1), págs. 113-121, 1987.
  43. ^ ab T. Lindeberg y L. Bretzner (2003) "Selección de escala en tiempo real en representaciones híbridas de múltiples escalas", Proc. Scale-Space'03, Isla de Skye, Escocia, Springer Lecture Notes in Computer Science, volumen 2695, páginas 148–163.
  44. ^ ab T. Lindeberg (1992) Comportamiento en el espacio de escala de extremos locales y manchas, J. of Mathematical Imaging and Vision, 1(1), páginas 65—99.
  45. ^ Jan Koenderink y Andrea van Doorn, AJ (1986), 'Forma dinámica',Icono de acceso cerradoCibernética Biológica 53, 383–396.
  46. ^ Damon, J. (1995), 'Teoría de Morse local para soluciones a la ecuación de calor y desenfoque gaussiano', Journal of Differential Equations 115(2), 386–401.
  47. ^ Florack, Luc; Kuijper, Arjan (1 de febrero de 2000). "La estructura topológica de las imágenes en el espacio de escala". Revista de imágenes y visión matemática . 12 (1): 65–79. doi :10.1023/A:1008304909717. ISSN  1573-7683. S2CID  7515494.
  48. ^ ter Haar Romeny, Bart M. (Editor), Difusión impulsada por la geometría en la visión por computadora, Kluwer Academic Publishers, 1994.
  49. ^ Weickert, Joaquín (1998). Difusión anisotrópica en el procesamiento de imágenes . Teubner-Verlag.
  50. ^ abc Lindeberg, Tony (1 de mayo de 2016). "Campos receptivos espacio-temporales causales en el tiempo y recursivos en el tiempo". Revista de imágenes y visión matemática . 55 (1): 50–88. arXiv : 1504.02648 . doi : 10.1007/s10851-015-0613-9 . ISSN  1573-7683. S2CID  120619833.
  51. ^ ab Lindeberg, Tony (1 de diciembre de 2013). "Una teoría computacional de los campos receptivos visuales". Cibernética biológica . 107 (6): 589–635. doi :10.1007/s00422-013-0569-z. ISSN  1432-0770. PMC 3840297 . PMID  24197240. 
  52. ^ ab Lindeberg, Tony (19 de julio de 2013). "Invariancia de las operaciones visuales a nivel de los campos receptivos". PLOS ONE . ​​8 (7): e66990. arXiv : 1210.0754 . Bibcode :2013PLoSO...866990L. doi : 10.1371/journal.pone.0066990 . ISSN  1932-6203. PMC 3716821 . PMID  23894283. 
  53. ^ ab Lindeberg, Tony (1 de enero de 2021). "Teoría normativa de los campos receptivos visuales". Heliyon . 7 (1): e05897. Bibcode :2021Heliy...705897L. doi : 10.1016/j.heliyon.2021.e05897 . ISSN  2405-8440. PMC 7820928 . PMID  33521348. 
  54. ^ DeAngelis, GC, Ohzawa, I. y Freeman, RD, "Dinámica del campo receptivo en las vías visuales centrales", Trends Neurosci. 18: 451–458, 1995. [ enlace muerto permanente ]
  55. ^ Young, RA "El modelo derivado gaussiano para la visión espacial: mecanismos retinianos", Spatial Vision, 2:273–293, 1987.
  56. ^ Young, Richard; Lesperance, Ronald; Meyer, W. Weston (1 de enero de 2001). "El modelo de la derivada gaussiana para la visión espacio-temporal: I. Modelo cortical". Visión espacial . 14 (3–4): 261–319. doi :10.1163/156856801753253582. ISSN  0169-1015. PMID  11817740.
  57. ^ Lesperance, Ronald; Young, Richard (1 de enero de 2001). "El modelo de la derivada gaussiana para la visión espacio-temporal: II. Datos corticales". Visión espacial . 14 (3–4): 321–389. doi :10.1163/156856801753253591. ISSN  0169-1015. PMID  11817741.
  58. ^ Lindeberg, Tony; Friberg, Anders (30 de marzo de 2015). "Modelos computacionales idealizados para campos receptivos auditivos". PLOS ONE . ​​10 (3): e0119032. arXiv : 1404.2037 . Bibcode :2015PLoSO..1019032L. doi : 10.1371/journal.pone.0119032 . ISSN  1932-6203. PMC 4379182 . PMID  25822973. 
  59. ^ Lindeberg, Tony; Friberg, Anders (2015). "Teoría del espacio de escala para señales auditivas". Métodos variacionales y de espacio de escala en visión artificial . Apuntes de clase en informática. Vol. 9087. Springer Lecture Notes in Computer Science. págs. 3–15. doi :10.1007/978-3-319-18461-6_1. ISBN 978-3-319-18460-9. {{cite book}}: |journal=ignorado ( ayuda )
  60. ^ "Jacobsen, JJ, van Gemert, J., Lou, Z., Smeulders, AWM (2016) Campos receptivos estructurados en CNN. En: Proceedings of Computer Vision and Pattern Recognition, págs. 2610-2619" (PDF) .
  61. ^ Worrall, Daniel E.; Welling, Max (5 de noviembre de 2019). "Espacios de escala profundos: Equivariancia sobre escala". arXiv : 1905.11697 . {{cite journal}}: Requiere citar revista |journal=( ayuda )
  62. ^ abc Lindeberg, Tony (1 de enero de 2020). "Redes jerárquicas continuas de escala covariante demostrable basadas en expresiones diferenciales normalizadas a escala acopladas en cascada". Revista de imágenes y visión matemática . 62 (1): 120–148. arXiv : 1905.13555 . doi : 10.1007/s10851-019-00915-x . ISSN  1573-7683. S2CID  254646822.
  63. ^ abc Lindeberg, Tony (1 de marzo de 2022). "Redes derivadas gaussianas de escala covariante e invariante". Revista de imágenes y visión matemática . 64 (3): 223–242. arXiv : 2011.14759 . doi : 10.1007/s10851-021-01057-9 . ISSN  1573-7683. S2CID  227227887.
  64. ^ Pintea, Silvia L.; Tomen, Nergis; Goes, Stanley F.; Loog, Marco; van Gemert, Jan C. (30 de junio de 2021). "Aprendizaje de resolución en redes convolucionales profundas utilizando la teoría del espacio de escala". IEEE Transactions on Image Processing . 30 : 8342–8353. arXiv : 2106.03412 . Bibcode :2021ITIP...30.8342P. doi :10.1109/TIP.2021.3115001. PMID  34587011. S2CID  235358752.
  65. ^ Sosnovik, Ivan; Szmaja, Michał; Smeulders, Arnold (8 de junio de 2020). "Redes orientables de escala equivalente". arXiv : 1910.11093 . {{cite journal}}: Requiere citar revista |journal=( ayuda )
  66. ^ "Bekkers, EJ: CNN B-spline en grupos de Lie (2020) En: Conferencia internacional sobre representaciones de aprendizaje".
  67. ^ ab Jansson, Ylva; Lindeberg, Tony (2021). "Explorando la capacidad de las CNN para generalizar a escalas nunca antes vistas en amplios rangos de escala". 2020 25.ª Conferencia Internacional sobre Reconocimiento de Patrones (ICPR) . Instituto de Ingenieros Eléctricos y Electrónicos (IEEE). págs. 1181–1188. arXiv : 2004.01536 . doi :10.1109/ICPR48806.2021.9413276. ISBN 978-1-7281-8808-9.S2CID214795413  .​
  68. ^ "Sosnovik, I., Moskalev, A., Smeulders, A. (2021) DISCO: Convoluciones precisas de escala discreta. En: British Machine Vision Conference" (PDF) .
  69. ^ ab Jansson, Ylva; Lindeberg, Tony (1 de junio de 2022). "Redes de escala-canal invariantes: redes profundas que se generalizan a escalas nunca antes vistas". Revista de imágenes y visión matemática . 64 (5): 506–536. arXiv : 2106.06418 . doi : 10.1007/s10851-022-01082-2 . ISSN  1573-7683. S2CID  235417440.
  70. ^ "Zhu, W., Qiu, Q., Calderbank, R., Sapiro, G. y Cheng, X. (2022) Redes de escalamiento-traducción-equivariantes con filtros convolucionales descompuestos. Journal of Machine Learning Research, 23(68): 1-45" (PDF) .
  71. ^ ab Lindeberg, T. (23 de enero de 2023). "Una representación de escala-espacio covariante, recursiva en el tiempo y causal en el tiempo, de señales temporales y tiempo pasado". Cibernética biológica . 117 (1–2): 21–59. doi : 10.1007/s00422-022-00953-6 . PMC 10160219 . PMID  36689001.  
  72. ^ Koenderink, J. (1988). "Escala-tiempo". Cibernética biológica . 58 (3): 159–162. doi :10.1007/BF00364135. S2CID  209034116.

Lectura adicional

Enlaces externos