En visión artificial , los métodos de detección de manchas tienen como objetivo detectar regiones en una imagen digital que difieren en propiedades, como brillo o color, en comparación con las regiones circundantes. De manera informal, una mancha es una región de una imagen en la que algunas propiedades son constantes o aproximadamente constantes; todos los puntos de una mancha pueden considerarse en algún sentido similares entre sí. El método más común para la detección de manchas es mediante convolución .
Dada alguna propiedad de interés expresada como una función de la posición en la imagen, hay dos clases principales de detectores de manchas: (i) métodos diferenciales , que se basan en derivadas de la función con respecto a la posición, y (ii) métodos basados en extremos locales , que se basan en encontrar los máximos y mínimos locales de la función. Con la terminología más reciente utilizada en el campo, estos detectores también pueden denominarse operadores de puntos de interés o, alternativamente, operadores de regiones de interés (ver también detección de puntos de interés y detección de esquinas ).
Existen varias motivaciones para estudiar y desarrollar detectores de blobs. Una razón principal es proporcionar información complementaria sobre regiones, que no se obtiene de los detectores de bordes o de esquinas . En los primeros trabajos en el área, la detección de blobs se utilizó para obtener regiones de interés para su posterior procesamiento. Estas regiones podrían señalar la presencia de objetos o partes de objetos en el dominio de la imagen con aplicación al reconocimiento de objetos y/o al seguimiento de objetos . En otros dominios, como el análisis de histogramas , los descriptores de blobs también se pueden utilizar para la detección de picos con aplicación a la segmentación . Otro uso común de los descriptores de blobs es como primitivos principales para el análisis y el reconocimiento de texturas . En trabajos más recientes, los descriptores de blobs han encontrado un uso cada vez más popular como puntos de interés para la coincidencia estéreo de línea base amplia y para señalar la presencia de características de imagen informativas para el reconocimiento de objetos basado en la apariencia en función de las estadísticas de la imagen local. También existe la noción relacionada de detección de crestas para señalar la presencia de objetos alargados.
Uno de los primeros y más comunes detectores de manchas se basa en el laplaciano de la gaussiana (LoG). Dada una imagen de entrada , esta imagen se convoluciona mediante un núcleo gaussiano
a una determinada escala para dar una representación espacial de escala . Entonces, el resultado de aplicar el operador laplaciano
se calcula, lo que generalmente da como resultado respuestas positivas fuertes para manchas oscuras de radio (para una imagen bidimensional, para una imagen bidimensional) y respuestas negativas fuertes para manchas brillantes de tamaño similar. Sin embargo, un problema principal al aplicar este operador a una sola escala es que la respuesta del operador depende en gran medida de la relación entre el tamaño de las estructuras de manchas en el dominio de la imagen y el tamaño del núcleo gaussiano utilizado para el presuavizado. Por lo tanto, para capturar automáticamente manchas de diferentes tamaños (desconocidos) en el dominio de la imagen, es necesario un enfoque multiescala.
Una forma sencilla de obtener un detector de manchas multiescala con selección de escala automática es considerar el operador laplaciano normalizado a escala.
y detectar máximos/mínimos en el espacio de escala , que son puntos que son simultáneamente máximos/mínimos locales de con respecto tanto al espacio como a la escala (Lindeberg 1994, 1998). Por lo tanto, dada una imagen de entrada discreta bidimensional, se calcula un volumen discreto tridimensional en el espacio de escala y se considera que un punto es una mancha brillante (oscura) si el valor en este punto es mayor (menor) que el valor en todos sus 26 vecinos. Por lo tanto, se realiza una selección simultánea de puntos de interés y escalas de acuerdo con
Obsérvese que esta noción de blob proporciona una definición operativa concisa y matemáticamente precisa de la noción de "blob", que conduce directamente a un algoritmo eficiente y robusto para la detección de blobs. Algunas propiedades básicas de los blobs definidos a partir de máximos en el espacio de escala del operador laplaciano normalizado son que las respuestas son covariantes con las traslaciones, rotaciones y reescalamientos en el dominio de la imagen. Por lo tanto, si se supone un máximo en el espacio de escala en un punto, entonces, bajo un reescalamiento de la imagen por un factor de escala , habrá un máximo en el espacio de escala en en la imagen reescalada (Lindeberg 1998). Esta propiedad, sumamente útil en la práctica, implica que además del tema específico de la detección de manchas laplacianas, los máximos/mínimos locales del laplaciano normalizado a escala también se utilizan para la selección de escala en otros contextos , como en la detección de esquinas , el seguimiento de características adaptativas a la escala (Bretzner y Lindeberg 1998), en la transformación de características invariantes a la escala (Lowe 2004), así como otros descriptores de imágenes para la correspondencia de imágenes y el reconocimiento de objetos .
Las propiedades de selección de escala del operador laplaciano y otros detectores de puntos de interés en el espacio de escala cercana se analizan en detalle en (Lindeberg 2013a). [1] En (Lindeberg 2013b, 2015) [2] [3] se muestra que existen otros detectores de puntos de interés en el espacio de escala, como el determinante del operador hessiano, que funcionan mejor que el operador laplaciano o su aproximación de diferencia de gaussianas para la correspondencia basada en imágenes utilizando descriptores de imágenes locales de tipo SIFT.
Del hecho de que la representación del espacio de escala satisface la ecuación de difusión
De ello se deduce que el laplaciano del operador gaussiano también puede calcularse como el caso límite de la diferencia entre dos imágenes suavizadas gaussianas ( representaciones del espacio de escala ).
En la literatura sobre visión artificial, este enfoque se conoce como el enfoque de diferencia de Gaussianas (DoG). Sin embargo, más allá de tecnicismos menores, este operador es en esencia similar al laplaciano y puede verse como una aproximación del operador laplaciano. De manera similar al detector de manchas laplaciano, las manchas pueden detectarse a partir de los extremos del espacio de escala de las diferencias de Gaussianas; consulte (Lindeberg 2012, 2015) [3] [4] para la relación explícita entre el operador de diferencia de Gaussianas y el operador laplaciano normalizado a escala. Este enfoque se utiliza, por ejemplo, en el algoritmo de transformación de características invariante a escala (SIFT); consulte Lowe (2004).
Considerando el determinante normalizado de escala del hessiano, también conocido como operador Monge-Ampère ,
donde denota la matriz hessiana de la representación del espacio de escala y luego al detectar los máximos del espacio de escala de este operador se obtiene otro detector de manchas diferenciales sencillo con selección de escala automática que también responde a las sillas de montar (Lindeberg 1994, 1998)
Los puntos y escalas de los blobs también se definen a partir de definiciones geométricas diferenciales operacionales que conducen a descriptores de blobs que son covariantes con las traslaciones, rotaciones y reescalamientos en el dominio de la imagen. En términos de selección de escala, los blobs definidos a partir de los extremos del espacio de escala del determinante del hessiano (DoH) también tienen propiedades de selección de escala ligeramente mejores bajo transformaciones afines no euclidianas que el operador laplaciano más comúnmente utilizado (Lindeberg 1994, 1998, 2015). [3] En forma simplificada, el determinante normalizado de escala del hessiano calculado a partir de wavelets de Haar se utiliza como el operador de punto de interés básico en el descriptor SURF (Bay et al. 2006) para la correspondencia de imágenes y el reconocimiento de objetos.
En (Lindeberg 2013a) [1] se presenta un análisis detallado de las propiedades de selección del determinante del operador hessiano y otros detectores de puntos de interés de escala espacial cercana, que muestra que el determinante del operador hessiano tiene mejores propiedades de selección de escala bajo transformaciones de imágenes afines que el operador laplaciano. En (Lindeberg 2013b, 2015) [2] [3] se muestra que el determinante del operador hessiano funciona significativamente mejor que el operador laplaciano o su aproximación de diferencia de gaussianas, así como mejor que los operadores Harris o Harris-Laplace, para la correspondencia basada en imágenes utilizando descriptores de imágenes locales tipo SIFT o tipo SURF, lo que conduce a valores de eficiencia más altos y puntajes de precisión 1 más bajos.
También se ha propuesto un operador híbrido entre el laplaciano y el determinante de los detectores de manchas hessianos, donde la selección espacial se realiza mediante el determinante del hessiano y la selección de escala se realiza con el laplaciano normalizado a escala (Mikolajczyk y Schmid 2004):
Este operador se ha utilizado para la comparación de imágenes, el reconocimiento de objetos y el análisis de texturas.
Los descriptores de blobs obtenidos a partir de estos detectores de blobs con selección automática de escala son invariantes a las traslaciones, rotaciones y reescalamientos uniformes en el dominio espacial. Sin embargo, las imágenes que constituyen la entrada a un sistema de visión por computadora también están sujetas a distorsiones de perspectiva. Para obtener descriptores de blobs que sean más robustos a las transformaciones de perspectiva, un enfoque natural es idear un detector de blobs que sea invariante a las transformaciones afines . En la práctica, los puntos de interés invariantes afines se pueden obtener aplicando una adaptación de forma afín a un descriptor de blobs, donde la forma del núcleo de suavizado se deforma iterativamente para que coincida con la estructura de la imagen local alrededor del blob, o equivalentemente, un parche de imagen local se deforma iterativamente mientras que la forma del núcleo de suavizado permanece rotacionalmente simétrica (Lindeberg y Garding 1997; Baumberg 2000; Mikolajczyk y Schmid 2004, Lindeberg 2008). De esta manera, podemos definir versiones adaptadas afines del operador Laplaciano/Diferencia de Gauss, el determinante del hessiano y el operador Hessiano-Laplace (ver también Harris-Affine y Hessiano-Affine ).
Willems et al. [5] y Lindeberg [6] extendieron el determinante del operador hessiano al espacio-tiempo conjunto, dando lugar a la siguiente expresión diferencial normalizada en escala:
En el trabajo de Willems et al., [5] se utilizó una expresión más simple correspondiente a y . En Lindeberg, [6] se demostró que y implica mejores propiedades de selección de escala en el sentido de que los niveles de escala seleccionados obtenidos a partir de un blob gaussiano espacio-temporal con extensión espacial y extensión temporal coincidirán perfectamente con la extensión espacial y la duración temporal del blob, y la selección de escala se realizará detectando los extremos de escala-espacio espacio-temporales de la expresión diferencial.
Lindeberg extendió el operador laplaciano a los datos de video espacio-temporales [6], lo que dio lugar a los dos operadores espacio-temporales siguientes, que también constituyen modelos de campos receptivos de neuronas no rezagadas y rezagadas en el LGN:
Para el primer operador, las propiedades de selección de escala requieren el uso de y , si queremos que este operador asuma su valor máximo en escalas espacio-temporales a un nivel de escala espacio-temporal que refleje la extensión espacial y la duración temporal de un blob gaussiano de inicio. Para el segundo operador, las propiedades de selección de escala requieren el uso de y , si queremos que este operador asuma su valor máximo en escalas espacio-temporales a un nivel de escala espacio-temporal que refleje la extensión espacial y la duración temporal de un blob gaussiano parpadeante.
Un enfoque natural para detectar manchas es asociar una mancha brillante (oscura) con cada máximo (mínimo) local en el paisaje de intensidad. Sin embargo, un problema principal con este enfoque es que los extremos locales son muy sensibles al ruido. Para abordar este problema, Lindeberg (1993, 1994) estudió el problema de detectar máximos locales con extensión en múltiples escalas en el espacio de escala . Una región con extensión espacial definida a partir de una analogía de cuenca hidrográfica se asoció con cada máximo local, así como un contraste local definido a partir de un llamado punto de silla delimitador. Un extremo local con extensión definida de esta manera se denominó mancha de nivel de gris . Además, al proceder con la analogía de la cuenca hidrográfica más allá del punto de silla delimitador, se definió un árbol de manchas de nivel de gris para capturar la estructura topológica anidada de conjuntos de niveles en el paisaje de intensidad, de una manera que es invariante a deformaciones afines en el dominio de la imagen y transformaciones de intensidad monótonas. Al estudiar cómo evolucionan estas estructuras a medida que aumentan las escalas, se introdujo el concepto de manchas en el espacio de escala . Además del contraste local y la extensión, estas manchas en el espacio de escala también midieron la estabilidad de las estructuras de imagen en el espacio de escala, midiendo su vida útil en el espacio de escala .
Se propuso que las regiones de interés y los descriptores de escala obtenidos de esta manera, con niveles de escala asociados definidos a partir de las escalas en las que las medidas normalizadas de la fuerza de las manchas asumieron sus máximos sobre las escalas, podrían usarse para guiar otros procesos visuales tempranos. Se desarrolló un prototipo temprano de sistemas de visión simplificados donde dichas regiones de interés y descriptores de escala se usaron para dirigir el foco de atención de un sistema de visión activo. Si bien la técnica específica que se usó en estos prototipos se puede mejorar sustancialmente con el conocimiento actual en visión por computadora, el enfoque general general sigue siendo válido, por ejemplo, en la forma en que los extremos locales sobre escalas del operador laplaciano normalizado a escala se usan actualmente para proporcionar información de escala a otros procesos visuales.
Con el fin de detectar manchas de niveles de gris (extremos locales con extensión) a partir de una analogía de cuenca hidrográfica, Lindeberg desarrolló un algoritmo basado en la clasificación previa de los píxeles, regiones conectadas alternativamente que tienen la misma intensidad, en orden decreciente de los valores de intensidad. Luego, se realizaron comparaciones entre los vecinos más cercanos de los píxeles o las regiones conectadas.
Para simplificar, considere el caso de detección de manchas brillantes en niveles de gris y suponga que la notación "vecino superior" representa "píxel vecino que tiene un valor de nivel de gris más alto". Luego, en cualquier etapa del algoritmo (realizado en orden decreciente de valores de intensidad) se basa en las siguientes reglas de clasificación:
En comparación con otros métodos de cuencas hidrográficas, la inundación en este algoritmo se detiene una vez que el nivel de intensidad cae por debajo del valor de intensidad del llamado punto de silla delimitador asociado con el máximo local. Sin embargo, es bastante sencillo extender este enfoque a otros tipos de construcciones de cuencas hidrográficas. Por ejemplo, al proceder más allá del primer punto de silla delimitador, se puede construir un "árbol de manchas de nivel gris". Además, el método de detección de manchas de nivel gris se incorporó en una representación del espacio de escala y se realizó en todos los niveles de escala, lo que dio como resultado una representación llamada boceto primario del espacio de escala .
Este algoritmo y sus aplicaciones en la visión artificial se describen con más detalle en la tesis de Lindeberg [7], así como en la monografía sobre la teoría del espacio de escala [8], que se basa parcialmente en ese trabajo. También se pueden encontrar presentaciones anteriores de este algoritmo en . [9] [10] Se ofrecen tratamientos más detallados de las aplicaciones de la detección de manchas en niveles de gris y el boceto primario en el espacio de escala para la visión artificial y el análisis de imágenes médicas en . [11] [12] [13]
Matas et al. (2002) se interesaron en definir descriptores de imágenes que fueran robustos ante transformaciones de perspectiva . Estudiaron conjuntos de niveles en el paisaje de intensidad y midieron cuán estables eran a lo largo de la dimensión de intensidad. Basándose en esta idea, definieron una noción de regiones extremas de máxima estabilidad y demostraron cómo estos descriptores de imágenes pueden usarse como características de imagen para la correspondencia estéreo .
Existen estrechas relaciones entre esta noción y la noción antes mencionada de árbol de blobs de nivel gris. Las regiones extremas de máxima estabilidad pueden considerarse como las que hacen explícito un subconjunto específico del árbol de blobs de nivel gris para su posterior procesamiento.