stringtranslate.com

Espacio de escala

La teoría del espacio de escala es un marco para la representación de señales a múltiples escalas desarrollado por las comunidades de visión por computadora , procesamiento de imágenes y procesamiento de señales con motivaciones complementarias de la física y la visión biológica . Es una teoría formal para manejar estructuras de imágenes a diferentes escalas , representando una imagen como una familia de imágenes suavizadas de un parámetro, la representación de espacio de escala , parametrizada por el tamaño del núcleo de suavizado utilizado para suprimir estructuras de escala fina. [1] [2] [3] [4] [5] [6] [7] [8] El parámetro de esta familia se conoce como parámetro de escala , con la interpretación de que las estructuras de imágenes de tamaño espacial más pequeño que aproximadamente tienen en gran medida se ha suavizado en el nivel del espacio de escala a escala .

El principal tipo de espacio de escala es el espacio de escala lineal (gaussiano) , que tiene una amplia aplicabilidad, así como la atractiva propiedad de ser posible derivar a partir de un pequeño conjunto de axiomas del espacio de escala . El marco de espacio de escala correspondiente abarca una teoría para los operadores derivados gaussianos, que puede usarse como base para expresar una gran clase de operaciones visuales para sistemas computarizados que procesan información visual. Este marco también permite que las operaciones visuales sean invariantes de escala , lo cual es necesario para lidiar con las variaciones de tamaño que pueden ocurrir en los datos de la imagen, porque los objetos del mundo real pueden ser de diferentes tamaños y, además, la distancia entre el objeto y la cámara puede variar. ser desconocido y puede variar dependiendo de las circunstancias. [9] [10]

Definición

La noción de espacio de escala se aplica a señales de números arbitrarios de variables. El caso más común en la literatura se aplica a imágenes bidimensionales, que es el que se presenta aquí. Para una imagen dada , su representación lineal (gaussiana) en el espacio de escala es una familia de señales derivadas definidas por la convolución con el núcleo gaussiano bidimensional.

tal que

donde el punto y coma en el argumento de implica que la convolución se realiza solo sobre las variables , mientras que el parámetro de escala después del punto y coma simplemente indica qué nivel de escala se está definiendo. Esta definición de funciona para un continuo de escalas , pero normalmente sólo se consideraría un conjunto finito y discreto de niveles en la representación del espacio-escala.

El parámetro de escala es la varianza del filtro gaussiano y como límite para el filtro se convierte en una función de impulso , es decir , la representación del espacio de escala a nivel de escala es la imagen misma. A medida que aumenta, es el resultado de suavizar con un filtro cada vez más grande, eliminando así cada vez más detalles que contiene la imagen. Dado que la desviación estándar del filtro es , los detalles que son significativamente más pequeños que este valor se eliminan en gran medida de la imagen en el parámetro de escala ; consulte la siguiente figura y [11] para ver ilustraciones gráficas.

¿Por qué un filtro gaussiano?

Ante la tarea de generar una representación multiescala uno puede preguntarse: ¿podría usarse cualquier filtro g de tipo paso bajo y con un parámetro t que determine su ancho para generar un espacio de escala? La respuesta es no, ya que es de crucial importancia que el filtro de suavizado no introduzca nuevas estructuras espurias en escalas gruesas que no correspondan a simplificaciones de estructuras correspondientes en escalas más finas. En la literatura sobre el espacio de escala se han expresado varias formas diferentes de formular este criterio en términos matemáticos precisos.

La conclusión de varias derivaciones axiomáticas diferentes que se han presentado es que el espacio de escala gaussiano constituye la forma canónica de generar un espacio de escala lineal, basado en el requisito esencial de que no se deben crear nuevas estructuras al pasar de una escala fina a una escala más gruesa. . [1] [3] [4] [6] [9] [12] [13] [14] [15] [16] [17] [18] [19] Condiciones, denominadas axiomas del espacio de escala , que Los métodos que se han utilizado para derivar la unicidad del núcleo gaussiano incluyen linealidad , invariancia de desplazamiento , estructura de semigrupo , no mejora de los extremos locales , invariancia de escala e invariancia rotacional . En los trabajos, [15] [20] [21] se ha criticado la unicidad reivindicada en los argumentos basados ​​en la invariancia de escala y se han propuesto núcleos de espacio de escala autosimilares alternativos. Sin embargo, el núcleo gaussiano es una elección única según la axiomática del espacio de escala basada en la causalidad [3] o la no mejora de los extremos locales. [16] [18]

Definición alternativa

De manera equivalente , la familia de escala-espacio se puede definir como la solución de la ecuación de difusión (por ejemplo, en términos de la ecuación del calor ),

con condición inicial . Esta formulación de la representación espacial de escala L significa que es posible interpretar los valores de intensidad de la imagen f como una "distribución de temperatura" en el plano de la imagen y que el proceso que genera la representación espacial de escala en función de t corresponde para difundir el calor en el plano de la imagen a lo largo del tiempo t (suponiendo que la conductividad térmica del material sea igual a la constante ½ elegida arbitrariamente). Aunque esta conexión puede parecer superficial para un lector que no esté familiarizado con las ecuaciones diferenciales , lo cierto es que la formulación principal del espacio de escala en términos de no mejora de los extremos locales se expresa en términos de una condición de signo en derivadas parciales en el 2 Volumen +1-D generado por el espacio de escala, por lo tanto dentro del marco de ecuaciones diferenciales parciales . Además, un análisis detallado del caso discreto muestra que la ecuación de difusión proporciona un vínculo unificador entre espacios de escala continuos y discretos, que también se generaliza a espacios de escala no lineales, por ejemplo, utilizando difusión anisotrópica . Por lo tanto, se puede decir que la forma principal de generar un espacio de escala es mediante la ecuación de difusión, y que el núcleo gaussiano surge como la función de Green de esta ecuación diferencial parcial específica.

Motivaciones

La motivación para generar una representación espacial a escala de un conjunto de datos determinado se origina en la observación básica de que los objetos del mundo real están compuestos de diferentes estructuras a diferentes escalas . Esto implica que los objetos del mundo real, a diferencia de entidades matemáticas idealizadas como puntos o líneas , pueden aparecer de diferentes maneras dependiendo de la escala de observación. Por ejemplo, el concepto de "árbol" es apropiado en la escala de metros, mientras que conceptos como hojas y moléculas son más apropiados en escalas más finas. Para un sistema de visión por computadora que analiza una escena desconocida, no hay forma de saber a priori qué escalas son apropiadas para describir las estructuras interesantes en los datos de la imagen. Por lo tanto, el único enfoque razonable es considerar descripciones en múltiples escalas para poder capturar las variaciones de escala desconocidas que puedan ocurrir. Llevada al límite, una representación en el espacio de escala considera representaciones en todas las escalas. [9]

Otra motivación para el concepto de espacio a escala se origina en el proceso de realizar una medición física en datos del mundo real. Para extraer cualquier información de un proceso de medición, es necesario aplicar operadores de tamaño no infinitesimal a los datos. En muchas ramas de la informática y las matemáticas aplicadas, el tamaño del operador de medición no se tiene en cuenta en el modelado teórico de un problema. La teoría del espacio de escala, por otro lado, incorpora explícitamente la necesidad de un tamaño no infinitesimal de los operadores de imagen como parte integral de cualquier medición, así como de cualquier otra operación que dependa de una medición del mundo real. [5]

Existe un estrecho vínculo entre la teoría del espacio de escala y la visión biológica. Muchas operaciones en el espacio de escala muestran un alto grado de similitud con los perfiles de campo receptivo registrados en la retina de los mamíferos y las primeras etapas de la corteza visual. En este sentido, el marco del espacio de escala puede verse como un paradigma teóricamente bien fundamentado para la visión temprana, que además ha sido probado exhaustivamente mediante algoritmos y experimentos. [4] [9]

Derivadas gaussianas

En cualquier escala en el espacio de escala, podemos aplicar operadores derivados locales a la representación del espacio de escala:

Debido a la propiedad conmutativa entre el operador derivativo y el operador de suavizado gaussiano, dichas derivadas en el espacio de escala se pueden calcular de manera equivalente convolucionando la imagen original con operadores derivados gaussianos. Por esta razón, a menudo también se las denomina derivadas gaussianas :

La unicidad de los operadores derivados gaussianos como operaciones locales derivadas de una representación del espacio de escala se puede obtener mediante derivaciones axiomáticas similares a las que se utilizan para derivar la unicidad del núcleo gaussiano para el suavizado del espacio de escala. [4] [22]

Interfaz visual

Estos operadores derivados gaussianos, a su vez, pueden combinarse mediante operadores lineales o no lineales en una mayor variedad de diferentes tipos de detectores de características, que en muchos casos pueden modelarse bien mediante geometría diferencial . Específicamente, la invariancia (o más apropiadamente la covarianza ) para transformaciones geométricas locales, como rotaciones o transformaciones afines locales, se puede obtener considerando invariantes diferenciales bajo la clase apropiada de transformaciones o, alternativamente, normalizando los operadores derivados gaussianos a un marco de coordenadas determinado localmente. desde, por ejemplo, una orientación preferida en el dominio de la imagen, o aplicando una transformación afín local preferida a un parche de imagen local (consulte el artículo sobre adaptación de forma afín para obtener más detalles).

Cuando los operadores derivados gaussianos y los invariantes diferenciales se utilizan de esta manera como detectores de características básicas en múltiples escalas, las primeras etapas no comprometidas del procesamiento visual a menudo se denominan interfaz visual . Este marco general se ha aplicado a una gran variedad de problemas en visión por computadora, incluida la detección de características , la clasificación de características , la segmentación de imágenes , la coincidencia de imágenes , la estimación de movimiento , el cálculo de señales de forma y el reconocimiento de objetos . El conjunto de operadores derivados gaussianos hasta un cierto orden a menudo se denomina chorro N y constituye un tipo básico de característica dentro del marco del espacio de escala.

Ejemplos de detectores

Siguiendo la idea de expresar operaciones visuales en términos de invariantes diferenciales calculadas en múltiples escalas utilizando operadores derivados gaussianos, podemos expresar un detector de bordes a partir del conjunto de puntos que satisfacen el requisito de que la magnitud del gradiente

debe asumir un máximo local en la dirección del gradiente

Al calcular la geometría diferencial, se puede demostrar [4] que este detector de borde diferencial se puede expresar de manera equivalente a partir de los cruces por cero del invariante diferencial de segundo orden.

que satisfacen la siguiente condición de signo en un invariante diferencial de tercer orden:

De manera similar, los detectores de burbujas multiescala en cualquier escala fija dada [23] [9] se pueden obtener a partir de máximos y mínimos locales del operador laplaciano (también conocido como el laplaciano de Gauss )

o el determinante de la matriz de Hesse

De manera análoga, los detectores de esquinas y los detectores de crestas y valles se pueden expresar como máximos, mínimos o cruces por cero locales de invariantes diferenciales de múltiples escalas definidos a partir de derivadas gaussianas. Sin embargo, las expresiones algebraicas para los operadores de detección de esquinas y crestas son algo más complejas y se remite al lector a los artículos sobre detección de esquinas y detección de crestas para obtener más detalles.

Las operaciones de espacio de escala también se han utilizado con frecuencia para expresar métodos de grueso a fino, en particular para tareas como la comparación de imágenes y la segmentación de imágenes de múltiples escalas .

Selección de escala

La teoría presentada hasta ahora describe un marco bien fundamentado para representar estructuras de imágenes en múltiples escalas. Sin embargo, en muchos casos también es necesario seleccionar escalas localmente apropiadas para un análisis posterior. Esta necesidad de selección de escala se origina por dos razones principales; (i) los objetos del mundo real pueden tener diferentes tamaños, y este tamaño puede ser desconocido para el sistema de visión, y (ii) la distancia entre el objeto y la cámara puede variar, y esta información de distancia también puede ser desconocida a priori . Una propiedad muy útil de la representación del espacio de escala es que las representaciones de imágenes se pueden hacer invariantes a las escalas, realizando una selección automática de escala local [9] [10] [23] [24] [25] [26] [27] [28] basado en máximos (o mínimos ) locales sobre escalas de derivadas normalizadas de escala

donde es un parámetro que está relacionado con la dimensionalidad de la característica de la imagen. Esta expresión algebraica para operadores derivados gaussianos normalizados a escala se origina a partir de la introducción de derivadas normalizadas según

y

Se puede demostrar teóricamente que un módulo de selección de escala que funcione según este principio satisfará la siguiente propiedad de covarianza de escala : si para un determinado tipo de característica de imagen se supone un máximo local en una determinada imagen a una determinada escala , entonces bajo un cambio de escala de la imagen por un factor de escala, el máximo local sobre escalas en la imagen reescalada se transformará al nivel de escala . [23]

Detección de características invariantes de escala

Siguiendo este enfoque de derivadas normalizadas gamma, se puede demostrar que se pueden utilizar diferentes tipos de detectores de características adaptativos de escala e invariantes de escala [9] [10] [23] [24] [25] [29] [30] [27] . expresado para tareas como detección de manchas , detección de esquinas , detección de crestas , detección de bordes y detección de puntos de interés espacio-temporales (consulte los artículos específicos sobre estos temas para obtener descripciones detalladas de cómo se formulan estos detectores de características invariantes de escala). Además, los niveles de escala obtenidos de la selección automática de escala se pueden usar para determinar regiones de interés para una posterior adaptación de forma afín [31] para obtener puntos de interés invariantes afines [32] [33] o para determinar niveles de escala para calcular descriptores de imágenes asociados , tales como como chorros N adaptados a escala local .

Trabajos recientes han demostrado que también se pueden realizar de esta manera operaciones más complejas, como el reconocimiento de objetos invariantes de escala , calculando descriptores de imágenes locales (N-jets o histogramas locales de direcciones de gradiente) en puntos de interés adaptados a la escala obtenidos a partir de datos de escala. extremos espaciales del operador laplaciano normalizado (ver también transformación de característica invariante de escala [34] ) o el determinante del hessiano (ver también SURF ); [35] consulte también el artículo de Scholarpedia sobre la transformación de características invariantes de escala [36] para obtener una perspectiva más general de los enfoques de reconocimiento de objetos basados ​​en respuestas de campos receptivos [19] [37] [38] [39] en términos de operadores derivados gaussianos o aproximaciones de los mismos.

Representaciones multiescala relacionadas

Una pirámide de imágenes es una representación discreta en la que se muestrea un espacio de escala tanto en espacio como en escala. Para la invariancia de escala, los factores de escala deben muestrearse exponencialmente, por ejemplo como potencias enteras de 2 o 2 . Cuando se construye adecuadamente, la relación entre las tasas de muestreo en el espacio y la escala se mantiene constante de modo que la respuesta al impulso sea idéntica en todos los niveles de la pirámide. [40] [41] [42] [43] Existen algoritmos rápidos, O(N), para calcular una pirámide de imagen de escala invariante, en la que la imagen o señal se suaviza repetidamente y luego se submuestrea. Los valores del espacio de escala entre muestras piramidales se pueden estimar fácilmente mediante interpolación dentro y entre escalas y permitiendo estimaciones de escala y posición con precisión de subresolución. [43]

En una representación de espacio de escala, la existencia de un parámetro de escala continuo hace posible rastrear cruces por cero sobre escalas que conducen a la llamada estructura profunda . Para características definidas como cruces por cero de invariantes diferenciales , el teorema de la función implícita define directamente trayectorias a través de escalas, [4] [44] y en aquellas escalas donde ocurren bifurcaciones, el comportamiento local puede modelarse mediante la teoría de la singularidad . [4] [44] [45] [46] [47]

Las extensiones de la teoría del espacio de escala lineal se refieren a la formulación de conceptos de espacio de escala no lineal más comprometidos con propósitos específicos. [48] ​​[49] Estos espacios de escala no lineales a menudo parten de la formulación de difusión equivalente del concepto de espacio de escala, que posteriormente se extiende de forma no lineal. Un gran número de ecuaciones de evolución se han formulado de esta manera, motivadas por diferentes requisitos específicos (consulte las referencias de libros antes mencionadas para obtener más información). Cabe señalar, sin embargo, que no todos estos espacios de escala no lineales satisfacen requisitos teóricos "agradables" similares a los del concepto de espacio de escala lineal gaussiano. Por lo tanto, a veces pueden ocurrir artefactos inesperados y se debe tener mucho cuidado de no utilizar el término "espacio de escala" para cualquier tipo de familia de imágenes de un solo parámetro.

El espacio de escala afín (gaussiano) proporciona una extensión de primer orden del espacio de escala gaussiano isotrópico . [4] Una motivación para esta extensión se origina en la necesidad común de calcular descriptores de imágenes sujetos a objetos del mundo real que se ven bajo un modelo de cámara en perspectiva. Para manejar localmente tales deformaciones no lineales, se puede lograr una invariancia parcial (o más correctamente covarianza ) a las deformaciones afines locales considerando núcleos gaussianos afines con sus formas determinadas por la estructura de la imagen local, [31] consulte el artículo sobre adaptación de forma afín para Teoría y algoritmos. De hecho, este espacio de escala afín también se puede expresar a partir de una extensión no isotrópica de la ecuación de difusión lineal (isotrópica), sin dejar de estar dentro de la clase de ecuaciones diferenciales parciales lineales .

Existe una extensión más general del modelo de espacio de escala gaussiano a espacios de escala afines y espacio-temporales. [4] [31] [18] [19] [50] Además de las variabilidades a escala, para las cuales fue diseñada la teoría del espacio de escala original, esta teoría generalizada del espacio de escala [19] también comprende otros tipos de variabilidades causadas por transformaciones geométricas en el proceso de formación de imágenes, incluidas variaciones en la dirección de visión aproximadas mediante transformaciones afines locales, y movimientos relativos entre los objetos del mundo y el observador, aproximados mediante transformaciones galileanas locales . Esta teoría generalizada del espacio de escala conduce a predicciones sobre los perfiles del campo receptivo que concuerdan cualitativamente con los perfiles del campo receptivo medidos por registros celulares en visión biológica. [51] [52] [50] [53]

Existen fuertes relaciones entre la teoría del espacio de escala y la teoría de las wavelets , aunque estas dos nociones de representación multiescala se han desarrollado a partir de premisas algo diferentes. También se ha trabajado en otros enfoques multiescala , como pirámides y una variedad de otros núcleos, que no explotan ni requieren los mismos requisitos que las verdaderas descripciones de espacio de escala.

Relaciones con la visión y la audición biológicas.

Existen relaciones interesantes entre la representación escala-espacial y la visión y audición biológicas. Los estudios neurofisiológicos de la visión biológica han demostrado que existen perfiles de campos receptivos en la retina y la corteza visual de los mamíferos , que pueden modelarse bien mediante operadores derivados gaussianos lineales, en algunos casos también complementados con un modelo de espacio de escala afín no isotrópico, un espacio. -modelo de escala-espacio temporal y/o combinaciones no lineales de tales operadores lineales. [18] [51] [52] [50] [ 53] [54] [55] [56] [57]

Con respecto a la audición biológica, existen perfiles de campos receptivos en el colículo inferior y la corteza auditiva primaria que pueden modelarse bien mediante campos receptivos espectro-temporales que pueden modelarse bien mediante derivadas gaussianas sobre frecuencias logarítmicas y transformadas de Fourier en ventana a lo largo del tiempo, siendo las funciones de ventana Núcleos de espacio de escala temporal. [58] [59]

Aprendizaje profundo y espacio de escala

En el área de la visión por computadora clásica, la teoría del espacio de escala se ha establecido como un marco teórico para la visión temprana, con derivados gaussianos que constituyen un modelo canónico para la primera capa de campos receptivos. Con la introducción del aprendizaje profundo , también se ha trabajado en el uso de derivados gaussianos o núcleos gaussianos como base general para campos receptivos en redes profundas. [60] [61] [62] [63] [64] Usando las propiedades de transformación de las derivadas gaussianas y los núcleos gaussianos bajo transformaciones de escala, es de esta manera posible obtener covarianza/equivarianza de escala e invariancia de escala de la red profunda para Manejar estructuras de imágenes a diferentes escalas de manera teóricamente bien fundamentada. [62] [63] También se han desarrollado enfoques para obtener covarianza/equivarianza de escala e invarianza de escala mediante filtros aprendidos combinados con múltiples canales de escala. [65] [66] [67] [68] [69] [70] Específicamente, utilizando las nociones de covarianza/equivarianza de escala e invariancia de escala, es posible hacer que las redes profundas funcionen de manera robusta en escalas que no abarcan los datos de entrenamiento. permitiendo así la generalización de la escala. [62] [63] [67] [69]

Espacio de escala temporal tiempo-causal

Para procesar señales temporales o vídeos pregrabados, el núcleo gaussiano también se puede utilizar para suavizar y suprimir estructuras de escala fina en el dominio temporal, ya que los datos están pregrabados y disponibles en todas las direcciones. Sin embargo, al procesar señales temporales o vídeo en situaciones de tiempo real, el núcleo gaussiano no se puede utilizar para el suavizado temporal, ya que accedería a datos del futuro que obviamente no pueden estar disponibles. Para el suavizado temporal en situaciones de tiempo real, se puede utilizar en su lugar el núcleo temporal denominado núcleo de límite causal de tiempo, [71] que posee propiedades similares en una situación causal de tiempo (no creación de nuevas estructuras hacia una escala creciente y covarianza de escala temporal) ya que el núcleo gaussiano obedece en el caso no causal. El núcleo de límite causal de tiempo corresponde a una convolución con un número infinito de núcleos exponenciales truncados acoplados en cascada, con constantes de tiempo específicamente elegidas para obtener covarianza de escala temporal. Para datos discretos, este núcleo a menudo puede aproximarse numéricamente mediante un pequeño conjunto de filtros recursivos de primer orden acoplados en cascada; consulte [71] para obtener más detalles.

Para un enfoque anterior para manejar escalas temporales de una manera causal en el tiempo, realizando un suavizado gaussiano sobre un eje temporal transformado logarítmicamente, sin embargo, sin tener ninguna implementación recursiva en el tiempo eficiente en memoria como la que tiene el núcleo de límite causal en el tiempo, consulte, [72]

Problemas de implementación

Al implementar el suavizado del espacio de escala en la práctica, existen varios enfoques diferentes que se pueden adoptar en términos de suavizado gaussiano continuo o discreto, implementación en el dominio de Fourier, en términos de pirámides basadas en filtros binomiales que se aproximan al gaussiano o usando filtros recursivos. . Se brindan más detalles sobre esto en un artículo separado sobre implementación de espacio a escala .

Ver también

Referencias

  1. ^ ab Ijima, T. "Teoría básica sobre la normalización de patrones (en el caso de un patrón unidimensional típico)". Toro. Electrotecnia. Laboratorio. 26, 368–388, 1962. (en japonés)
  2. ^ "Witkin, AP" Filtrado de espacio de escala ", Proc. 8th Int. Joint Conf. Art. Intell., Karlsruhe, Alemania, 1019-1022, 1983" (PDF) .
  3. ^ abc Koenderink, Jan "La estructura de las imágenes", Cibernética biológica, 50:363–370, 1984
  4. ^ abcdefghi Lindeberg, T. (1993). Teoría del espacio de escala en visión por computadora. Saltador. doi :10.1007/978-1-4757-6465-9. ISBN 978-1-4419-5139-7.
  5. ^ ab T. Lindeberg (1994). "Teoría del espacio de escala: una herramienta básica para analizar estructuras a diferentes escalas". Revista de Estadística Aplicada (Suplemento sobre Avances en Estadística Aplicada: Estadísticas e Imágenes: 2) . 21 (2): 224–270. doi :10.1080/757582976.
  6. ^ ab Florack, Luc, Estructura de imagen, Kluwer Academic Publishers, 1997.
  7. ^ "Sporring, Jon et al. (Eds), Teoría del espacio de escala gaussiana, Kluwer Academic Publishers, 1997".
  8. ^ ter Haar Romeny, Bart M. (2008). Visión frontal y análisis de imágenes multiescala: teoría y aplicaciones de la visión por computadora multiescala, escrito en Mathematica. Medios de ciencia y negocios de Springer. ISBN 978-1-4020-8840-7.
  9. ^ abcdefg Lindeberg, Tony (2008). "Espacio de escala". En Benjamín Wah (ed.). Enciclopedia de Ingeniería y Ciencias de la Computación . vol. IV. John Wiley e hijos. págs. 2495–2504. doi : 10.1002/9780470050118.ecse609. ISBN 978-0470050118.
  10. ^ abc T. Lindeberg (2014) "Selección de escala", Visión por computadora: una guía de referencia, (K. Ikeuchi, editor), Springer, páginas 701–713.
  11. ^ "Representación del espacio de escala: definición e ideas básicas". www.csc.kth.se.
  12. ^ J. Babaud, AP Witkin, M. Baudin y RO Duda, Unicidad del núcleo gaussiano para el filtrado de espacio de escala. Traducción IEEE. Patrón Anal. Inteligencia de la máquina. 8(1), 26–33, 1986.
  13. ^ Yuille, AL; Poggio, TA (1 de enero de 1986). "Teoremas de escala para cruces por cero". Transacciones IEEE sobre análisis de patrones e inteligencia artificial . 8 (1): 15–25. doi :10.1109/TPAMI.1986.4767748. hdl : 1721.1/5655 . ISSN  0162-8828. PMID  21869319. S2CID  14815630.
  14. ^ Lindeberg, Tony (1990). "Espacio de escala para señales discretas". Transacciones IEEE sobre análisis de patrones e inteligencia artificial . 12 (3): 234–254. doi :10.1109/34.49051.
  15. ^ ab Pauwels, Eric J.; Van Gool, Luc J.; Fiddelaers, Peter; Lunas, Theo (1 de julio de 1995). "Una clase extendida de filtros de espacio de escala recursivos e invariantes de escala". Transacciones IEEE sobre análisis de patrones e inteligencia artificial . 17 (7): 691–701. doi :10.1109/34.391411 - hasta julio de 1995.
  16. ^ ab Lindeberg, Tony (7 de enero de 1996). "Sobre los fundamentos axiomáticos del espacio de escala lineal: combinación de estructura de semigrupo con causalidad versus invariancia de escala". Teoría del espacio de escala gaussiana: Escuela de doctorado de Proc sobre teoría del espacio de escala . Editores académicos de Kluwer: 75–97 - a través de kth.diva-portal.org.
  17. ^ Weickert, Joaquín; Ishikawa, Seiji; Imiya, Atsushi (1 de mayo de 1999). "El espacio de escala lineal se propuso por primera vez en Japón". Revista de visión y imágenes matemáticas . 10 (3): 237–252. doi :10.1023/A:1008344623873. ISSN  0924-9907. S2CID  17835046.
  18. ^ abcd Lindeberg, Tony (2011). "Axiomática gaussiana generalizada del espacio-escala que comprende el espacio-escala lineal, el espacio-escala afín y el espacio-escala espacio-temporal". Revista de visión y imágenes matemáticas . 40 (1): 36–81. doi :10.1007/s10851-010-0242-2. S2CID  950099.
  19. ^ abcd Lindeberg, Tony (1 de enero de 2013). Hawkes, Peter W. (ed.). Teoría axiomática generalizada del espacio de escala. Avances en imágenes y física electrónica. vol. 178. Elsevier. págs. 1–96. doi :10.1016/b978-0-12-407701-0.00001-7. ISBN 9780124077010. Consultado el 7 de enero de 2023 .
  20. ^ M. Felsberg y G.Sommer "El espacio de escala monogénico: un enfoque unificador para el procesamiento de imágenes basado en fases en el espacio de escala", Journal of Mathematical Imaging and Vision, 21 (1): 5–28, 2004.
  21. ^ R. Duits, L. Florack, J. de Graaf y B. ter Haar Romeny "Sobre los axiomas de la teoría del espacio a escala", Journal of Mathematical Imaging and Vision, 20(3): 267–298, 2004.
  22. ^ Koenderink, JJ; van Doorn, AJ (7 de junio de 1992). "Operadores de barrio genéricos". Transacciones IEEE sobre análisis de patrones e inteligencia artificial . 14 (6): 597–605. doi :10.1109/34.141551 – vía IEEE Xplore.
  23. ^ abcd Lindeberg, Tony (7 de enero de 1998). "Detección de características con selección automática de escala". Revista Internacional de Visión por Computadora . 30 (2): 79-116. doi :10.1023/A:1008045108935. S2CID  723210 – a través de kth.diva-portal.org.
  24. ^ ab Lindeberg, Tony (7 de enero de 1998). "Detección de bordes y detección de crestas con selección automática de escala". Revista Internacional de Visión por Computadora . 30 (2): 117-154. doi :10.1023/A:1008097225773. S2CID  35328443 - a través de kth.diva-portal.org.
  25. ^ ab Lindeberg, Tony (7 de enero de 1999). "Principios para la selección automática de escalas". Manual sobre visión por computadora y aplicaciones . Prensa académica: 239–274 - a través de kth.diva-portal.org.
  26. ^ Lindeberg, Tony (1 de mayo de 2017). "Selección de escala temporal en el espacio de escala causal tiempo". Revista de visión y imágenes matemáticas . 58 (1): 57-101. arXiv : 1701.05088 . doi : 10.1007/s10851-016-0691-3 . ISSN  1573-7683. S2CID  254645013.
  27. ^ ab Lindeberg, Tony (1 de mayo de 2018). "Selección de escala espacio-temporal en datos de vídeo". Revista de visión y imágenes matemáticas . 60 (4): 525–562. doi : 10.1007/s10851-017-0766-9 . ISSN  1573-7683. S2CID  254649837.
  28. ^ Lindeberg, Tony (2018). "Selección de escala densa sobre el espacio, el tiempo y el espacio-tiempo". Revista SIAM de Ciencias de la Imagen . 11 (1): 407–441. arXiv : 1709.08603 . doi :10.1137/17M114892X. S2CID  22220902.
  29. ^ Lindeberg, Tony (1 de junio de 2013). "Propiedades de selección de escala de detectores de puntos de interés de espacio de escala generalizados". Revista de visión y imágenes matemáticas . 46 (2): 177–210. doi : 10.1007/s10851-012-0378-3 . ISSN  1573-7683. S2CID  254653631.
  30. ^ Lindeberg, Tony (1 de mayo de 2015). "Coincidencia de imágenes utilizando puntos de interés de espacio de escala generalizado". Revista de visión y imágenes matemáticas . 52 (1): 3–36. doi : 10.1007/s10851-014-0541-0 . ISSN  1573-7683. S2CID  254657377.
  31. ^ abc Lindeberg, Tony; Gårding, Jonas (7 de enero de 1997). "Suavizado de forma adaptada en la estimación de señales de profundidad 3D a partir de distorsiones afines de la estructura de brillo 2-D local". Computación de Imagen y Visión . 15 (6): 415–434. doi :10.1016/S0262-8856(97)01144-X – vía kth.diva-portal.org.
  32. ^ Baumberg, A. (7 de enero de 2000). "Coincidencia confiable de funciones en vistas muy separadas". Actas de la Conferencia IEEE sobre visión por computadora y reconocimiento de patrones. CVPR 2000 (Nº de catálogo PR00662) . vol. 1. Computación IEEE. Soc. págs. 774–781. doi :10.1109/CVPR.2000.855899. ISBN 0-7695-0662-3. S2CID  15626261.
  33. ^ Mikolajczyk, K. y Schmid, C.: Detectores de puntos de interés invariantes afines y de escala, Int. Revista de visión por computadora, 60:1, 63 – 86, 2004.
  34. ^ "Lowe, DG," Características de imagen distintivas a partir de puntos clave invariantes de escala ", International Journal of Computer Vision, 60, 2, págs. 91-110, 2004".
  35. ^ Bahía, Herbert; Ess, Andrés; Tuytelaars, Tinne; Van Gool, Luc (1 de junio de 2008). "Funciones robustas aceleradas (SURF)". Visión por computadora y comprensión de imágenes . 110 (3): 346–359. doi :10.1016/j.cviu.2007.09.014. S2CID  14777911 - vía ScienceDirect.
  36. ^ Lindeberg, Tony (22 de mayo de 2012). "Transformación de características invariantes de escala". Scholarpedia . 7 (5): 10491. Código bibliográfico : 2012SchpJ...710491L. doi : 10.4249/scholarpedia.10491 .
  37. ^ Schiele, Bernt; Crowley, James L. (1 de enero de 2000). "Reconocimiento sin correspondencia mediante histogramas de campo receptivo multidimensional". Revista Internacional de Visión por Computadora . 36 (1): 31–50. doi :10.1023/A:1008120406972. S2CID  2551159 – a través de Springer Link.
  38. ^ Linde, Oskar; Lindeberg, Tony (7 de enero de 2004). "Reconocimiento de objetos mediante histogramas de campo receptivo compuestos de mayor dimensionalidad". Conferencia Internacional sobre Reconocimiento de Patrones (ICPR 2004) . Actas de la conferencia IEEE: 1–6 - a través de kth.diva-portal.org.
  39. ^ Linde, Oskar; Lindeberg, Tony (7 de enero de 2012). "Histogramas de señales complejas compuestas: una investigación del contenido de la información en descriptores de imágenes basados ​​en campos receptivos para el reconocimiento de objetos". Visión por computadora y comprensión de imágenes . 116 (4): 538–560. doi :10.1016/j.cviu.2011.12.003 – vía kth.diva-portal.org.
  40. ^ Burt, Peter y Adelson, Ted, "La pirámide laplaciana como código de imagen compacto", IEEE Trans. Comunicaciones, 9:4, 532–540, 1983.
  41. ^ Crowley, James L.; Stern, Richard M. (marzo de 1984). "Cálculo rápido de la diferencia de transformada de paso bajo". Transacciones IEEE sobre análisis de patrones e inteligencia artificial . PAMI-6 (2): 212–222. doi :10.1109/TPAMI.1984.4767504. ISSN  1939-3539. PMID  21869184. S2CID  17032188.
  42. ^ Crowley, JL y Sanderson, AC "Representación de resolución múltiple y coincidencia probabilística de formas en escala de grises 2D", IEEE Transactions on Pattern Analysis and Machine Intelligence, 9 (1), págs. 113-121, 1987.
  43. ^ ab T. Lindeberg y L. Bretzner (2003) "Selección de escala en tiempo real en representaciones híbridas de múltiples escalas", Proc. Scale-Space'03, Isla de Skye, Escocia, Springer Lecture Notes in Computer Science, volumen 2695, páginas 148-163.
  44. ^ ab T. Lindeberg (1992) Comportamiento del espacio de escala de manchas y extremos locales, J. of Mathematical Imaging and Vision, 1 (1), páginas 65—99.
  45. ^ Jan Koenderink y Andrea van Doorn, AJ (1986), 'Forma dinámica',Icono de acceso cerradoCibernética biológica 53, 383–396.
  46. ^ Damon, J. (1995), 'Teoría de Morse local para soluciones a la ecuación de calor y desenfoque gaussiano', Journal of Differential Equations 115(2), 386–401.
  47. ^ Florack, Luc; Kuijper, Arjan (1 de febrero de 2000). "La estructura topológica de las imágenes del espacio a escala". Revista de visión y imágenes matemáticas . 12 (1): 65–79. doi :10.1023/A:1008304909717. ISSN  1573-7683. S2CID  7515494.
  48. ^ ter Haar Romeny, Bart M. (Editor), Difusión impulsada por la geometría en visión por computadora, Kluwer Academic Publishers, 1994.
  49. ^ Weickert, Joaquín (1998). Difusión anisotrópica en el procesamiento de imágenes . Teubner-Verlag.
  50. ^ abc Lindeberg, Tony (1 de mayo de 2016). "Campos receptivos espacio-temporales tiempo-causal y tiempo-recursivo". Revista de visión y imágenes matemáticas . 55 (1): 50–88. arXiv : 1504.02648 . doi : 10.1007/s10851-015-0613-9 . ISSN  1573-7683. S2CID  120619833.
  51. ^ ab Lindeberg, Tony (1 de diciembre de 2013). "Una teoría computacional de los campos visuales receptivos". Cibernética biológica . 107 (6): 589–635. doi :10.1007/s00422-013-0569-z. ISSN  1432-0770. PMC 3840297 . PMID  24197240. 
  52. ^ ab Lindeberg, Tony (19 de julio de 2013). "Invariancia de operaciones visuales a nivel de campos receptivos". MÁS UNO . 8 (7): e66990. arXiv : 1210.0754 . Código Bib : 2013PLoSO...866990L. doi : 10.1371/journal.pone.0066990 . ISSN  1932-6203. PMC 3716821 . PMID  23894283. 
  53. ^ ab Lindeberg, Tony (1 de enero de 2021). "Teoría normativa de los campos visuales receptivos". Heliyón . 7 (1): e05897. doi :10.1016/j.heliyon.2021.e05897. ISSN  2405-8440. PMC 7820928 . PMID  33521348. 
  54. ^ DeAngelis, GC, Ohzawa, I. y Freeman, RD, "Dinámica del campo receptivo en las vías visuales centrales", Trends Neurosci. 18: 451–458, 1995.
  55. ^ Young, RA "El modelo derivado gaussiano para la visión espacial: mecanismos de la retina", Spatial Vision, 2:273–293, 1987.
  56. ^ Joven, Ricardo; Lesperance, Ronald; Meyer, W. Weston (1 de enero de 2001). "El modelo derivado gaussiano para la visión espacio-temporal: I. Modelo cortical". Visión Espacial . 14 (3–4): 261–319. doi :10.1163/156856801753253582. ISSN  0169-1015. PMID  11817740.
  57. ^ Lesperancia, Ronald; Young, Richard (1 de enero de 2001). "El modelo derivado gaussiano para la visión espacio-temporal: II. Datos corticales". Visión Espacial . 14 (3–4): 321–389. doi :10.1163/156856801753253591. ISSN  0169-1015. PMID  11817741.
  58. ^ Lindeberg, Tony; Friberg, Anders (30 de marzo de 2015). "Modelos computacionales idealizados para campos auditivos receptivos". MÁS UNO . 10 (3): e0119032. arXiv : 1404.2037 . Código Bib : 2015PLoSO..1019032L. doi : 10.1371/journal.pone.0119032 . ISSN  1932-6203. PMC 4379182 . PMID  25822973. 
  59. ^ Lindeberg, Tony; Friberg, Anders (2015). "Teoría del espacio de escala para señales auditivas". Espacio de escala y métodos variacionales en visión por computadora . Apuntes de conferencias sobre informática. vol. 9087. Notas de conferencias de Springer sobre informática. págs. 3-15. doi :10.1007/978-3-319-18461-6_1. ISBN 978-3-319-18460-9. {{cite book}}: |journal=ignorado ( ayuda )
  60. ^ "Jacobsen, JJ, van Gemert, J., Lou, Z., Smeulders, AWM (2016) Campos receptivos estructurados en CNN. En: Actas de visión por computadora y reconocimiento de patrones, págs. 2610-2619" ( PDF) .
  61. ^ Worrall, Daniel E.; Welling, Max (5 de noviembre de 2019). "Espacios de escala profunda: equivalencia sobre escala". arXiv : 1905.11697 . {{cite journal}}: Citar diario requiere |journal=( ayuda )
  62. ^ abc Lindeberg, Tony (1 de enero de 2020). "Redes jerárquicas continuas demostrablemente covariantes de escala basadas en expresiones diferenciales normalizadas de escala acopladas en cascada". Revista de visión y imágenes matemáticas . 62 (1): 120-148. arXiv : 1905.13555 . doi : 10.1007/s10851-019-00915-x . ISSN  1573-7683. S2CID  254646822.
  63. ^ abc Lindeberg, Tony (1 de marzo de 2022). "Redes derivadas gaussianas covariantes de escala e invariantes de escala". Revista de visión y imágenes matemáticas . 64 (3): 223–242. arXiv : 2011.14759 . doi : 10.1007/s10851-021-01057-9 . ISSN  1573-7683. S2CID  227227887.
  64. ^ Pintea, Silvia L.; Tomen, Nergis; Va, Stanley F.; Loog, Marco; van Gemert, Jan C. (30 de junio de 2021). "Aprendizaje de resolución en redes convolucionales profundas utilizando la teoría del espacio de escala". Transacciones IEEE sobre procesamiento de imágenes . 30 : 8342–8353. arXiv : 2106.03412 . Código Bib : 2021ITIP...30.8342P. doi :10.1109/TIP.2021.3115001. PMID  34587011. S2CID  235358752.
  65. ^ Sosnovik, Iván; Szmaja, Michał; Smeulders, Arnold (8 de junio de 2020). "Redes orientables de escala equivalente". arXiv : 1910.11093 . {{cite journal}}: Citar diario requiere |journal=( ayuda )
  66. ^ "Bekkers, EJ: CNN B-spline sobre grupos de mentiras (2020) en: Conferencia internacional sobre representaciones del aprendizaje".
  67. ^ ab Jansson, Ylva; Lindeberg, Tony (2021). "Explorando la capacidad de las CNN para generalizar a escalas nunca antes vistas en amplios rangos de escala". 2020 25ª Conferencia Internacional sobre Reconocimiento de Patrones (ICPR) . Instituto de Ingenieros Eléctricos y Electrónicos (IEEE). págs. 1181-1188. arXiv : 2004.01536 . doi :10.1109/ICPR48806.2021.9413276. ISBN 978-1-7281-8808-9. S2CID  214795413.
  68. ^ "Sosnovik, I., Moskalev, A., Smeulders, A. (2021) DISCO: Convoluciones de escala discreta precisa. En: Conferencia británica sobre visión artificial" (PDF) .
  69. ^ ab Jansson, Ylva; Lindeberg, Tony (1 de junio de 2022). "Redes de canales de escala invariantes de escala: redes profundas que se generalizan a escalas nunca antes vistas". Revista de visión y imágenes matemáticas . 64 (5): 506–536. arXiv : 2106.06418 . doi : 10.1007/s10851-022-01082-2 . ISSN  1573-7683. S2CID  235417440.
  70. ^ "Zhu, W., Qiu, Q., Calderbank, R., Sapiro, G. y Cheng, X. (2022) Escalado de redes equivalentes de traducción con filtros convolucionales descompuestos. Journal of Machine Learning Research, 23 (68) ): 1-45" (PDF) .
  71. ^ ab Lindeberg, T. (23 de enero de 2023). "Una representación de espacio de escala covariante de escala causal y recursiva en el tiempo de señales temporales y tiempo pasado". Cibernética biológica . 117 (1–2): 21–59. doi : 10.1007/s00422-022-00953-6 . PMC 10160219 . PMID  36689001.  
  72. ^ Koenderink, J. (1988). "Escala de tiempo". Cibernética biológica . 58 (3): 159-162. doi :10.1007/BF00364135. S2CID  209034116.

Otras lecturas

enlaces externos