stringtranslate.com

Detección de manchas

En visión por computadora , los métodos de detección de manchas tienen como objetivo detectar regiones en una imagen digital que difieren en propiedades, como brillo o color, en comparación con las regiones circundantes. Informalmente, una mancha es una región de una imagen en la que algunas propiedades son constantes o aproximadamente constantes; Se puede considerar que todos los puntos de un blob son en algún sentido similares entre sí. El método más común para la detección de blobs es mediante el uso de convolución .

Dada alguna propiedad de interés expresada como función de la posición en la imagen, existen dos clases principales de detectores de manchas: (i)  métodos diferenciales , que se basan en derivadas de la función con respecto a la posición, y (ii)  métodos basados ​​en extremos locales , que se basan en encontrar los máximos y mínimos locales de la función. Con la terminología más reciente utilizada en el campo, estos detectores también pueden denominarse operadores de puntos de interés o, alternativamente, operadores de regiones de interés (consulte también detección de puntos de interés y detección de esquinas ).

Existen varias motivaciones para estudiar y desarrollar detectores de burbujas. Una razón principal es proporcionar información complementaria sobre regiones, que no se obtiene de los detectores de bordes o de esquinas . En los primeros trabajos en el área, se utilizó la detección de manchas para obtener regiones de interés para su posterior procesamiento. Estas regiones podrían señalar la presencia de objetos o partes de objetos en el dominio de la imagen con aplicación al reconocimiento y/o seguimiento de objetos . En otros dominios, como el análisis de histogramas , los descriptores de blobs también se pueden utilizar para la detección de picos con aplicación a la segmentación . Otro uso común de los descriptores de blobs es como primitivas principales para el análisis y reconocimiento de texturas . En trabajos más recientes, los descriptores de blobs han encontrado un uso cada vez más popular como puntos de interés para una amplia coincidencia estéreo de referencia y para señalar la presencia de características de imagen informativas para el reconocimiento de objetos basado en la apariencia y en estadísticas de imágenes locales. También existe la noción relacionada de detección de crestas para señalar la presencia de objetos alargados.

El laplaciano de Gauss

Uno de los primeros y más comunes detectores de manchas se basa en el Laplaciano de Gauss (LoG). Dada una imagen de entrada , esta imagen está convolucionada por un núcleo gaussiano.

a cierta escala para dar una representación espacial a escala . Entonces, el resultado de aplicar el operador laplaciano

se calcula, lo que generalmente da como resultado fuertes respuestas positivas para manchas oscuras de radio (para una imagen bidimensional, para una imagen -dimensional) y fuertes respuestas negativas para manchas brillantes de tamaño similar. Sin embargo, un problema principal al aplicar este operador a una sola escala es que la respuesta del operador depende en gran medida de la relación entre el tamaño de las estructuras de manchas en el dominio de la imagen y el tamaño del núcleo gaussiano utilizado para el suavizado previo. Por lo tanto, para capturar automáticamente manchas de diferentes tamaños (desconocidos) en el dominio de la imagen, es necesario un enfoque de múltiples escalas.

Una forma sencilla de obtener un detector de manchas de múltiples escalas con selección automática de escala es considerar el operador laplaciano normalizado a escala.

y para detectar máximos/mínimos del espacio de escala , que son puntos que son simultáneamente máximos/mínimos locales con respecto tanto al espacio como a la escala (Lindeberg 1994, 1998). Por lo tanto, dada una imagen de entrada bidimensional discreta, se calcula un volumen de espacio de escala discreto tridimensional y un punto se considera una mancha brillante (oscura) si el valor en este punto es mayor (menor) que el valor en todas sus dimensiones. 26 vecinos. Así, la selección simultánea de puntos de interés y escalas se realiza de acuerdo con

.

Tenga en cuenta que esta noción de blob proporciona una definición operativa concisa y matemáticamente precisa de la noción de "blob", que conduce directamente a un algoritmo eficiente y sólido para la detección de blobs. Algunas propiedades básicas de los blobs definidos a partir de máximos de espacio de escala del operador laplaciano normalizado son que las respuestas son covariantes con traslaciones, rotaciones y cambios de escala en el dominio de la imagen. Por lo tanto, si se supone un máximo de espacio de escala en un punto, bajo un cambio de escala de la imagen por un factor de escala , habrá un máximo de espacio de escala en la imagen reescalada (Lindeberg 1998). Esta propiedad muy útil en la práctica implica que, además del tema específico de la detección de manchas laplacianas, los máximos y mínimos locales del laplaciano normalizado en escala también se utilizan para la selección de escala en otros contextos , como en la detección de esquinas , el seguimiento de características adaptativas a escala (Bretzner y Lindeberg 1998), en la transformación de características invariantes de escala (Lowe 2004), así como otros descriptores de imágenes para la comparación de imágenes y el reconocimiento de objetos .

Las propiedades de selección de escala del operador laplaciano y otros detectores de puntos de interés en el espacio de escala cercana se analizan en detalle en (Lindeberg 2013a). [1] En (Lindeberg 2013b, 2015) [2] [3] se muestra que existen otros detectores de puntos de interés en el espacio de escala, como el determinante del operador de Hesse, que funcionan mejor que el operador laplaciano o su diferencia de -Aproximación gaussiana para la comparación basada en imágenes utilizando descriptores de imágenes locales similares a SIFT.

La diferencia del enfoque gaussiano.

Del hecho de que la representación espacial a escala satisface la ecuación de difusión

de ello se deduce que el laplaciano del operador gaussiano también se puede calcular como el caso límite de la diferencia entre dos imágenes suavizadas gaussianas ( representaciones de espacio de escala )

.

En la literatura sobre visión por computadora, este enfoque se conoce como el enfoque de diferencia de gaussianos (DoG). Sin embargo, aparte de tecnicismos menores, este operador es en esencia similar al operador laplaciano y puede verse como una aproximación del operador laplaciano. De manera similar al detector de manchas laplaciano, las manchas se pueden detectar desde los extremos del espacio de escala de las diferencias de gaussianos; consulte (Lindeberg 2012, 2015) [3] [4] para conocer la relación explícita entre el operador de diferencia de gaussiano y el operador laplaciano normalizado a escala. Este enfoque se utiliza, por ejemplo, en el algoritmo de transformación de características invariantes de escala (SIFT); consulte Lowe (2004).

El determinante del hessiano.

Al considerar el determinante normalizado de escala del hessiano, también conocido como operador Monge-Ampère ,

donde denota la matriz de Hesse de la representación del espacio de escala y luego, al detectar los máximos del espacio de escala de este operador, se obtiene otro detector de manchas diferencial sencillo con selección automática de escala que también responde a sillas de montar (Lindeberg 1994, 1998)

.

Los puntos y escalas de los blobs también se definen a partir de definiciones geométricas diferenciales operativas que conducen a descriptores de blobs que son covariantes con traslaciones, rotaciones y cambios de escala en el dominio de la imagen. En términos de selección de escala, los blobs definidos a partir de los extremos del espacio de escala del determinante del hessiano (DoH) también tienen propiedades de selección de escala ligeramente mejores bajo transformaciones afines no euclidianas que el operador laplaciano más comúnmente utilizado (Lindeberg 1994, 1998, 2015). . [3] En forma simplificada, el determinante de escala normalizada del Hessiano calculado a partir de las ondas de Haar se utiliza como operador de punto de interés básico en el descriptor SURF (Bay et al. 2006) para la comparación de imágenes y el reconocimiento de objetos.

En (Lindeberg 2013a) [1] se ofrece un análisis detallado de las propiedades de selección del determinante del operador de Hesse y otros detectores de puntos de interés en el espacio de escala cercana, lo que muestra que el determinante del operador de Hesse tiene mejores propiedades de selección de escala bajo transformaciones de imágenes afines. que el operador laplaciano. En (Lindeberg 2013b, 2015) [2] [3] se muestra que el determinante del operador de Hesse se desempeña significativamente mejor que el operador laplaciano o su aproximación de diferencia de gaussianas, así como mejor que el operador de Harris o Harris-Laplace. operadores, para la comparación basada en imágenes utilizando descriptores de imágenes locales similares a SIFT o SURF, lo que lleva a valores de eficiencia más altos y puntuaciones de precisión 1 más bajas.

El híbrido laplaciano y determinante del operador hessiano (Hessian-Laplace)

También se ha propuesto un operador híbrido entre el laplaciano y el determinante de los detectores de burbujas de Hesse, donde la selección espacial se realiza mediante el determinante del hessiano y la selección de escala se realiza con el laplaciano normalizado en escala (Mikolajczyk y Schmid 2004):

Este operador se ha utilizado para la comparación de imágenes, el reconocimiento de objetos y el análisis de texturas.

Detectores de manchas diferenciales adaptados de forma afín

Los descriptores de blobs obtenidos de estos detectores de blobs con selección automática de escala son invariantes a traslaciones, rotaciones y cambios de escala uniformes en el dominio espacial. Sin embargo, las imágenes que constituyen la entrada a un sistema de visión por ordenador también están sujetas a distorsiones de perspectiva. Para obtener descriptores de blobs que sean más robustos a las transformaciones de perspectiva, un enfoque natural es diseñar un detector de blobs que sea invariante a las transformaciones afines . En la práctica, se pueden obtener puntos de interés invariantes afines aplicando una adaptación de forma afín a un descriptor de blob, donde la forma del núcleo de suavizado se deforma iterativamente para que coincida con la estructura de la imagen local alrededor del blob, o de manera equivalente, un parche de imagen local se deforma iterativamente mientras la forma del núcleo suavizante permanece rotacionalmente simétrica (Lindeberg y Garding 1997; Baumberg 2000; Mikolajczyk y Schmid 2004, Lindeberg 2008). De esta manera, podemos definir versiones adaptadas por afinidad del operador laplaciano/diferencia de gaussiano, el determinante del operador de Hesse y de Hesse-Laplace (ver también Harris-Affine y Hessian-Affine ).

Detectores de manchas espacio-temporales

Willems et al. han ampliado el determinante del operador de Hesse al espacio-tiempo conjunto. [5] y Lindeberg, [6] que conducen a la siguiente expresión diferencial normalizada en escala:

En el trabajo de Willems et al., [5] se utilizó una expresión más simple correspondiente a y . En Lindeberg, [6] se demostró que e implica mejores propiedades de selección de escala en el sentido de que los niveles de escala seleccionados obtenidos de una mancha gaussiana espacio-temporal con extensión espacial y extensión temporal coincidirán perfectamente con la extensión espacial y la duración temporal de la blob, con selección de escala realizada mediante la detección de extremos espacio-temporales de escala-espacio de la expresión diferencial.

Lindeberg [6] ha extendido el operador laplaciano a datos de vídeo espacio-temporales, lo que ha dado lugar a los siguientes dos operadores espacio-temporales, que también constituyen modelos de campos receptivos de neuronas no retrasadas frente a neuronas retrasadas en el NGL:

Para el primer operador, las propiedades de selección de escala requieren el uso y , si queremos que este operador asuma su valor máximo sobre escalas espacio-temporales en un nivel de escala espacio-temporal que refleje la extensión espacial y la duración temporal de una burbuja gaussiana de inicio. Para el segundo operador, las propiedades de selección de escala requieren el uso y , si queremos que este operador asuma su valor máximo sobre escalas espacio-temporales en un nivel de escala espacio-temporal que refleja la extensión espacial y la duración temporal de una mancha gaussiana parpadeante.

Manchas de nivel de gris, árboles de manchas de nivel de gris y manchas de espacio de escala

Un enfoque natural para detectar manchas es asociar una mancha brillante (oscura) con cada máximo (mínimo) local en el paisaje de intensidad. Sin embargo, un problema principal con este enfoque es que los extremos locales son muy sensibles al ruido. Para abordar este problema, Lindeberg (1993, 1994) estudió el problema de detectar máximos locales con extensión en múltiples escalas en el espacio de escala . Una región con extensión espacial definida a partir de una analogía de cuenca hidrográfica se asoció con cada máximo local, así como un contraste local definido a partir del llamado punto de silla delimitante. Un extremo local con una extensión definida de esta manera se denominaba mancha de nivel gris . Además, al proceder con la analogía de la cuenca hidrográfica más allá del punto de silla delimitador, se definió un árbol de manchas de nivel gris para capturar la estructura topológica anidada de conjuntos de niveles en el paisaje de intensidad, de una manera que es invariante a las deformaciones afines en el dominio de la imagen y transformaciones de intensidad monótona. Al estudiar cómo evolucionan estas estructuras a escalas crecientes, se introdujo la noción de manchas de espacio a escala . Más allá del contraste y la extensión locales, estas manchas de espacio de escala también midieron qué tan estables son las estructuras de imágenes en el espacio de escala, midiendo su vida útil en el espacio de escala .

Se propuso que las regiones de interés y los descriptores de escala obtenidos de esta manera, con niveles de escala asociados definidos a partir de las escalas en las que las medidas normalizadas de la fuerza de la masa asumieron sus máximos sobre las escalas, podrían usarse para guiar otros procesamientos visuales tempranos. Se desarrolló un prototipo inicial de sistemas de visión simplificados en el que dichas regiones de interés y descriptores de escala se utilizaban para dirigir el foco de atención de un sistema de visión activo. Si bien la técnica específica que se utilizó en estos prototipos se puede mejorar sustancialmente con los conocimientos actuales en visión por computadora, el enfoque general sigue siendo válido, por ejemplo en la forma en que hoy en día se utilizan los extremos locales sobre las escalas del operador laplaciano normalizado en escala. para proporcionar información de escala a otros procesos visuales.

Algoritmo de detección de manchas de nivel de grises basado en cuencas hidrográficas de Lindeberg

Con el fin de detectar manchas de nivel de gris (extremos locales con extensión) a partir de una analogía de cuenca hidrográfica, Lindeberg desarrolló un algoritmo basado en la clasificación previa de los píxeles, regiones conectadas alternativamente que tienen la misma intensidad, en orden decreciente de los valores de intensidad. Luego, se hicieron comparaciones entre los vecinos más cercanos de píxeles o regiones conectadas.

Para simplificar, considere el caso de detectar manchas brillantes de nivel de gris y deje que la notación "vecino superior" represente "píxel vecino que tiene un valor de nivel de gris más alto". Luego, en cualquier etapa del algoritmo (realizado en orden decreciente de valores de intensidad) se basa en las siguientes reglas de clasificación:

  1. Si una región no tiene un vecino superior, entonces es un máximo local y será la semilla de una burbuja. Establece una bandera que permita que el blob crezca.
  2. De lo contrario, si tiene al menos un vecino superior, que es el fondo, entonces no puede ser parte de ningún blob y debe estar en el fondo.
  3. De lo contrario, si tiene más de un vecino superior y si esos vecinos superiores son partes de diferentes blobs, entonces no puede ser parte de ningún blob y debe estar en segundo plano. Si a alguno de los vecinos superiores todavía se le permite crecer, borre su bandera, lo que le permite crecer.
  4. De lo contrario, tiene uno o más vecinos superiores, que son todos parte del mismo blob. Si aún se permite que ese blob crezca, entonces la región actual debe incluirse como parte de ese blob. De lo contrario, la región debería establecerse en segundo plano.

En comparación con otros métodos de cuencas hidrográficas, la inundación en este algoritmo se detiene una vez que el nivel de intensidad cae por debajo del valor de intensidad del llamado punto de silla delimitador asociado con el máximo local. Sin embargo, es bastante sencillo extender este enfoque a otros tipos de construcciones de cuencas. Por ejemplo, avanzando más allá del primer punto de silla delimitador se puede construir un "árbol de manchas de nivel gris". Además, el método de detección de manchas en niveles de grises se incorporó en una representación del espacio de escala y se realizó en todos los niveles de escala, lo que dio como resultado una representación llamada boceto primario del espacio de escala .

Este algoritmo con sus aplicaciones en visión por computadora se describe con más detalle en la tesis de Lindeberg [7] , así como en la monografía sobre teoría del espacio de escala [8] basada parcialmente en ese trabajo. También se pueden encontrar presentaciones anteriores de este algoritmo en  [9] [10] . En [11] [12] [13] se ofrecen tratamientos más detallados de las aplicaciones de la detección de manchas en niveles de grises y el boceto primario del espacio de escala a la visión por computadora y al análisis de imágenes médicas  .

Regiones extremas máximamente estables (MSER)

Matas et al. (2002) estaban interesados ​​en definir descriptores de imágenes que sean robustos ante transformaciones de perspectiva . Estudiaron conjuntos de niveles en el paisaje de intensidad y midieron qué tan estables eran a lo largo de la dimensión de intensidad. Basándose en esta idea, definieron una noción de regiones extremas máximamente estables y mostraron cómo estos descriptores de imágenes pueden usarse como características de imagen para la coincidencia estéreo .

Existen estrechas relaciones entre esta noción y la noción antes mencionada de árbol de manchas de nivel gris. Se puede considerar que las regiones extremas de máxima estabilidad hacen explícito un subconjunto específico del árbol de manchas de nivel gris para su posterior procesamiento.

Ver también

Referencias

  1. ^ ab Lindeberg, Tony (2013) "Propiedades de selección de escala de detectores de puntos de interés de espacio de escala generalizados", Journal of Mathematical Imaging and Vision, volumen 46, número 2, páginas 177-210.
  2. ^ ab Lindeberg (2013) "Coincidencia de imágenes utilizando puntos de interés de espacio de escala generalizado", Espacio de escala y métodos variacionales en visión por computadora, Springer Lecture Notes en Computer Science Volumen 7893, 2013, págs.
  3. ^ abcd T. Lindeberg ``Coincidencia de imágenes utilizando puntos de interés del espacio de escala generalizado", Journal of Mathematical Imaging and Vision, volumen 52, número 1, páginas 3-36, 2015.
  4. ^ T. Lindeberg ``Transformación de características invariantes de escala, Scholarpedia, 7(5):10491, 2012.
  5. ^ ab Geert Willems, Tinne Tuytelaars y Luc van Gool (2008). "Un detector de puntos de interés espaciotemporal-temporal denso e invariante de escala eficiente". Conferencia Europea sobre Visión por Computador . Notas de conferencias de Springer sobre informática. vol. 5303, págs. 650–663. doi :10.1007/978-3-540-88688-4_48.
  6. ^ abc Tony Lindeberg (2018). "Selección de escala espacio-temporal en datos de vídeo". Revista de visión y imágenes matemáticas . 60 (4): 525–562. doi : 10.1007/s10851-017-0766-9 . S2CID  4430109.
  7. ^ Lindeberg, T. (1991) Teoría del espacio de escala discreta y bosquejo primario del espacio de escala, tesis doctoral, Departamento de Análisis Numérico y Ciencias de la Computación, Real Instituto de Tecnología, S-100 44 Estocolmo, Suecia, mayo de 1991. (ISSN 1101-2250. ISRN KTH NA/P--91/8--SE) (El algoritmo de detección de manchas de nivel de gris se describe en la sección 7.1)
  8. ^ Lindeberg, Tony, Teoría del espacio-escala en visión por computadora, Kluwer Academic Publishers, 1994 ISBN 0-7923-9418-6 
  9. ^ T. Lindeberg y J.-O. Eklundh, "Detección de escala y extracción de regiones a partir de un boceto primario del espacio de escala", en Proc. Tercera Conferencia Internacional sobre Visión por Computadora, (Osaka, Japón), págs. 416-426, diciembre de 1990. (Consulte el Apéndice A.1 para conocer las definiciones básicas del algoritmo de detección de manchas de nivel de gris basado en cuencas hidrográficas).
  10. ^ T. Lindeberg y J.-O. Eklundh, "Sobre el cálculo de un boceto primario de espacio a escala", Revista de comunicación visual y representación de imágenes , vol. 2, págs. 55-78, marzo de 1991.
  11. ^ Lindeberg, T .: Detección de estructuras de imágenes salientes en forma de manchas y sus escalas con un boceto primario de espacio de escala: un método para centrar la atención, International Journal of Computer Vision, 11 (3), 283--318, 1993 .
  12. ^ Lindeberg, T, Lidberg, Par y Roland, PE .: "Análisis de patrones de activación cerebral utilizando un boceto primario de espacio a escala tridimensional", Human Brain Mapping, vol 7, no 3, págs. 166--194, 1999.
  13. ^ Jean-Francois Mangin, Denis Rivière, Olivier Coulon, Cyril Poupon, Arnaud Cachia, Yann Cointepas, Jean-Baptiste Poline, Denis Le Bihan, Jean Régis, Dimitri Papadopoulos-Orfanos: "Enfoques estructurales versus basados ​​en coordenadas para el análisis de imágenes cerebrales" . Inteligencia artificial en medicina 30 (2): 177-197 (2004) Archivado el 21 de julio de 2011 en Wayback Machine.

Otras lecturas