Detector de saliencia Kadir-Brady

El detector de saliencia Kadir-Brady extrae características de objetos en imágenes que son distintas y representativas. Fue inventado por Timor Kadir y J. Michael Brady ^[1] en 2001 y una versión invariante afín fue presentada por Kadir y Brady en 2004 ^[2] y una versión robusta fue diseñada por Shao et al. ^[3] en 2007.

El detector utiliza algoritmos para eliminar de forma más eficiente el ruido de fondo y, de este modo, identificar con mayor facilidad las características que se pueden utilizar en un modelo 3D. A medida que el detector escanea las imágenes, utiliza los tres principios básicos de transformación global, perturbaciones locales y variaciones intraclase para definir las áreas de búsqueda e identifica regiones únicas de esas imágenes en lugar de utilizar las búsquedas más tradicionales de esquinas o manchas. Intenta ser invariante a las transformaciones afines y los cambios de iluminación. ^[4]

Esto permite una búsqueda más orientada a objetos que los métodos anteriores y supera a otros detectores debido a que no se distorsionan las imágenes, se pueden ignorar las regiones que cambian lentamente y se ofrece una definición más amplia de las propiedades de la geometría de la superficie. Como resultado, el detector de saliencia Kadir-Brady es más capaz de reconocer objetos que otros detectores cuyo enfoque principal es la correspondencia de la imagen completa.

Introducción

Muchas aplicaciones de procesamiento de imágenes y visión artificial trabajan directamente con las características extraídas de una imagen, en lugar de con la imagen original; por ejemplo, para calcular correspondencias entre imágenes o para aprender categorías de objetos. Según las aplicaciones, se prefieren diferentes características. Sin embargo, hay tres clases generales de cambios de imagen en las que puede ser necesario un buen rendimiento:

Fig. 1. Las regiones detectadas, ilustradas por un punto central y un límite, deberían conmutar con el cambio de punto de vista, representado aquí por la transformación H.

Transformación global : las características deben poder repetirse en toda la clase esperada de transformaciones de imágenes globales. Estas incluyen transformaciones geométricas y fotométricas que surgen debido a cambios en las condiciones de la imagen. Por ejemplo, la detección de regiones debe ser covariante con el punto de vista, como se ilustra en la Figura 1. En resumen, requerimos que la segmentación conmute con el cambio de punto de vista. Esta propiedad se evaluará en función de la repetibilidad y precisión de la localización y la estimación de regiones.

Perturbaciones locales : las características deben ser insensibles a las clases de perturbaciones de imagen semilocales. Por ejemplo, una característica que responde al ojo de un rostro humano no debe verse afectada por ningún movimiento de la boca. Una segunda clase de perturbación es cuando una región es vecina de un límite entre el primer plano y el fondo. Se puede requerir que el detector detecte la región del primer plano a pesar de los cambios en el fondo.

Variaciones intraclase : las características deben capturar las partes correspondientes de los objetos en las variaciones intraclase de los objetos. Por ejemplo, el faro de un automóvil de distintas marcas (fotografiado desde el mismo punto de vista).

Todos los algoritmos de detección de características intentan detectar regiones que sean estables ante los tres tipos de cambios de imagen descritos anteriormente. En lugar de buscar una esquina, una mancha o cualquier forma específica de región, el detector de saliencia de Kadir-Brady busca regiones que sean localmente complejas y globalmente discriminantes. Dichas regiones suelen corresponder a regiones más estables ante estos tipos de cambios de imagen.

Saliencia de la teoría de la información

En el campo de la teoría de la información, la entropía de Shannon se define para cuantificar la complejidad de una distribución p como . Por lo tanto, una entropía más alta significa que p es más compleja y, por lo tanto, más impredecible. $p\log p\,$

Para medir la complejidad de una región de imagen alrededor de un punto con forma , se define un descriptor que toma valores (por ejemplo, en una imagen de nivel de gris de 8 bits , D oscilaría entre 0 y 255 para cada píxel) de modo que , se pueda calcular la probabilidad de que el valor del descriptor aparezca en la región . Además, la entropía de la región de la imagen se puede calcular como $\{x,R\}$ $x$ $R$ $D$ ${d_{1},\dots ,d_{r}}$ $P_{D}(d_{i},x,R)$ $d_{i}$ $\{x,R\}$ $R_{x}$

H_{D}(x,R)=-\sum _{i\in (1\dots r)}P_{D}(d_{i},x,R)\log P_{D}(d_{i},x,R).

Usando esta ecuación de entropía podemos calcular más para cada punto y forma de región . Una región más compleja, como la región del ojo, tiene un distribuidor más complejo y, por lo tanto, una entropía más alta. $H_{D}(x,R)$ $x$ $R$

$H_{D}(x,R)$ es una buena medida de la complejidad local. La entropía solo mide la estadística del atributo local. No mide la disposición espacial del atributo local. Sin embargo, estas cuatro regiones no son igualmente discriminativas bajo cambios de escala. Esta observación se utiliza para definir la medida de la discriminación en subsecciones.

En las siguientes subsecciones se discutirán diferentes métodos para seleccionar regiones con alta complejidad local y mayor discriminación entre diferentes regiones.

Saliencia invariante a la similitud

La primera versión del detector de saliencia Kadir-Brady[10] solo encuentra regiones salientes invariantes bajo la transformación de similitud . El algoritmo encuentra regiones circulares con diferentes escalas. En otras palabras, dado , donde s es el parámetro de escala de una región circular , el algoritmo selecciona un conjunto de regiones circulares, . $H_{D}(x,s)$ $R$ $\{x_{i},s_{i};i=1\dots N\}$

El método consta de tres pasos:

Cálculo de la entropía de Shannon de los atributos de imagen local para cada x en un rango de escalas — ; $H_{D}(x,s)=-\sum _{i\in (1\dots r)}P_{D}(d_{i},x,s)\log P_{D}(d_{i},x,s)/10$
Seleccione escalas en las que la función de entropía sobre escala exhibe un pico — ; $s_{p}$
Calcule el cambio de magnitud de la PDF en función de la escala en cada pico — (s). $W_{D}(x,s)=\sum _{i\in (1\dots r)}|{\frac {\partial }{\partial s}}P_{D,}(d_{i},x,s)|$

La saliencia final es el producto de y . $Y_{D}(x,s_{p})$ $H_{D}(x,s_{p})$ $W_{D}(x,s_{p})$

Para cada x, el método elige una escala y calcula la puntuación más destacada . Al comparar diferentes puntos, el detector puede clasificar la relevancia de los puntos y elegir los más representativos. $s_{p}$ $Y_{D}(x,s_{p})$ $Y_{D}(x,s_{p})$ $x$

Saliencia invariante afín

El método anterior es invariante al grupo de similitud de las transformaciones geométricas y a los desplazamientos fotométricos. Sin embargo, como se mencionó en las observaciones iniciales, el detector ideal debería detectar una región invariante hasta el cambio de punto de vista. Hay varios detectores [] que pueden detectar una región invariante afín, lo que constituye una mejor aproximación del cambio de punto de vista que la transformación de similitud.

Para detectar una región invariante afín, el detector debe detectar la elipse como en la figura 4. Ahora está parametrizada por tres parámetros (s, "ρ", "θ"), donde "ρ" es la relación del eje y "θ" la orientación de la elipse. $R$

Esta modificación aumenta el espacio de búsqueda del algoritmo anterior desde una escala a un conjunto de parámetros y, por lo tanto, aumenta la complejidad del detector de saliencia invariante afín. En la práctica, el detector de saliencia invariante afín comienza con el conjunto de puntos y escalas generados a partir del detector de saliencia invariante de similitud y luego aproxima iterativamente los parámetros subóptimos.

Comparación

Aunque el detector de saliencia invariante de similitud es más rápido que el detector de saliencia invariante afín, también tiene el inconveniente de favorecer la estructura isotrópica, ya que la medida discriminativa se mide en una escala isotrópica. $W_{D}$

Para resumir: el detector de saliencia invariante afín es invariante a la transformación afín y es capaz de detectar regiones salientes más generadas.

Volumen saliente

Es intuitivo elegir puntos directamente de una puntuación destacada más alta y detenerse cuando se alcanza un cierto umbral de "número de puntos" o "puntuación destacada". Las imágenes naturales contienen ruido y desenfoque de movimiento que actúan como aleatorizadores y generalmente aumentan la entropía, lo que afecta a los valores de entropía previamente bajos más que a los valores de entropía altos.

Un método más robusto sería elegir regiones en lugar de puntos en el espacio de entropía. Aunque los píxeles individuales dentro de una región saliente pueden verse afectados en un instante dado por el ruido, es poco probable que los afecte a todos de tal manera que la región en su conjunto deje de ser saliente.

También es necesario analizar todo el espacio de prominencia de modo que cada característica destacada quede representada. Un enfoque de umbral global daría como resultado características muy destacadas en una parte de la imagen que dominarían al resto. Un enfoque de umbral local requeriría la configuración de otro parámetro de escala.

Al final del algoritmo se utiliza un algoritmo de agrupamiento simple que cumple estos dos requisitos. Funciona seleccionando puntos muy destacados que tienen soporte local, es decir, puntos cercanos con una relevancia y una escala similares. Cada región debe estar lo suficientemente distante de todas las demás (en R3) para calificar como una entidad separada. Para lograr robustez, utilizamos una representación que incluye todos los puntos de una región seleccionada. El método funciona de la siguiente manera:

Aplicar un umbral global.
Elija el punto saliente más alto en el espacio de saliencia (Y).
Encuentra los K vecinos más cercanos (K es una constante preestablecida).
Pruebe el soporte de estos utilizando la varianza de los puntos centrales.
Encuentre la distancia, D, en R3 desde las regiones salientes ya agrupadas.
Aceptar, si D > media de escala de la región y si está suficientemente agrupado (la varianza es menor que el umbral preestablecido Vth).
Almacenar como escala media y ubicación espacial de K puntos.
Repita desde el paso 2 con el siguiente punto saliente más alto.

El algoritmo está implementado como GreedyCluster1.m en Matlab por el Dr. Timor Kadir ^[5]

Evaluación del desempeño

En el campo de la visión artificial, se han evaluado diferentes detectores de características mediante varias pruebas. La evaluación más exhaustiva se publicó en el International Journal of Computer Vision en 2006. ^[6] La siguiente subsección analiza el rendimiento del detector de saliencia Kadir-Brady en un subconjunto de una prueba del artículo.

Desempeño en el marco de la transformación global

Para medir la consistencia de una región detectada en el mismo objeto o escena en todas las imágenes bajo transformación global, el puntaje de repetibilidad, propuesto por primera vez por Mikolajczyk y Cordelia Schmid en [18, 19] se calcula de la siguiente manera: ^[7]^[8]

En primer lugar, se define el error de superposición de un par de elipses correspondientes y cada una en imágenes diferentes: $\epsilon$ $\mu _{a}$ $\mu _{b}$

$\epsilon =1-{\frac {\mu _{a}\cap (A^{T}\mu _{b}A)}{\mu _{a}\cup (A^{T}\mu _{b}A)}}$

donde A es la transformación afín linealizada localmente de la homografía entre las dos imágenes,

y representan el área de intersección y unión de las elipses respectivamente . $\mu _{a}\cap (A^{T}\mu _{b}A)$ $\mu _{a}\cup (A^{T}\mu _{b}A)$

El aviso se escala a una escala fija para contar la variación de tamaño de las diferentes regiones detectadas. Solo si es menor que cierto , se considera que el par de elipses corresponde. $\mu _{a}$ $\epsilon$ $\epsilon _{0}$

Luego, el puntaje de repetibilidad para un par de imágenes determinado se calcula como la relación entre el número de correspondencias entre regiones y el menor de los dos valores entre el número de regiones en el par de imágenes, donde solo se cuentan las regiones ubicadas en la parte de la escena presente en ambas imágenes. En general, nos gustaría que un detector tuviera un puntaje de repetibilidad alto y un gran número de correspondencias.

Las transformaciones globales específicas probadas en el conjunto de datos de prueba son:

Cambio de punto de vista
Zoom+rotación
Desenfoque de imagen
Compresión JPEG
Cambio de luz

El rendimiento del detector de saliencia Kadir-Brady es inferior al de la mayoría de los otros detectores, principalmente porque el número de puntos detectados suele ser menor que el de otros detectores.

El procedimiento preciso se proporciona en el código Matlab de la implementación del software de evaluación del detector.

Rendimiento bajo variación intraclase y perturbaciones de imagen

En la tarea de categorización de clases de objetos, la capacidad de detectar regiones similares dadas las variaciones intraclase y las perturbaciones de imagen en las distintas instancias de objetos es muy crítica. Se proponen medidas de repetibilidad sobre variaciones intraclase y perturbaciones de imagen. En la siguiente subsección se presentará la definición y se analizará el rendimiento.

Prueba de variación intraclase

Supongamos que hay un conjunto de imágenes de la misma clase de objeto, por ejemplo, motos. Un operador de detección de regiones que no se ve afectado por la variación intraclase seleccionará de manera fiable regiones en partes correspondientes de todos los objetos, por ejemplo, las ruedas, el motor o el asiento de las motos.

La repetibilidad sobre la variación intraclase mide el número (promedio) de correspondencias correctas sobre el conjunto de imágenes, donde las correspondencias correctas se establecen mediante selección manual.

Una región se considera coincidente si cumple tres requisitos:

Su posición coincide con una precisión de 10 píxeles.
Su escala está dentro del 20%.
La información mutua normalizada entre las apariencias es > 0,4.

En detalle, la puntuación de correspondencia promedio S se mide de la siguiente manera.

Se detectan N regiones en cada imagen de las M imágenes del conjunto de datos. Luego, para una imagen de referencia particular, i , el puntaje de correspondencia se da por la proporción de regiones correspondientes a las detectadas para todas las demás imágenes del conjunto de datos, es decir: $S_{i}$

$Si={\frac {\text{Total number of matches}}{\text{Total number of detected regions}}}={\frac {N_{M}^{i}}{N(M-1)}}$

La puntuación se calcula para M/2 selecciones diferentes de la imagen de referencia y se promedia para obtener S. La puntuación se evalúa como una función del número de regiones detectadas N. $S_{i}$

El detector de prominencia Kadir-Brady ofrece la puntuación más alta en tres clases de pruebas: motocicleta, automóvil y rostro. El detector de prominencia indica que la mayoría de las detecciones se realizan cerca del objeto. Por el contrario, los mapas de otros detectores muestran un patrón mucho más difuso en toda el área causado por una mala localización y respuestas falsas al desorden del fondo.

Prueba de perturbaciones de la imagen

Para probar la insensibilidad a la perturbación de la imagen, el conjunto de datos se divide en dos partes: la primera contiene imágenes con un fondo uniforme y la segunda, imágenes con distintos grados de distorsión del fondo. Si el detector es robusto a la distorsión del fondo, entonces el puntaje de correspondencia promedio S debería ser similar para ambos subconjuntos de imágenes.

En esta prueba, el detector de saliencia también supera a otros detectores debido a tres razones:

Varios métodos de detección desenfocan la imagen, provocando así un mayor grado de similitud entre los objetos y el fondo.
En la mayoría de las imágenes, los objetos de interés tienden a estar enfocados, mientras que los fondos están desenfocados y, por lo tanto, borrosos. Las regiones borrosas tienden a mostrar estadísticas que varían lentamente, lo que da como resultado una entropía y una prominencia entre escalas relativamente bajas en el detector de prominencia.
Otros detectores definen la saliencia con respecto a propiedades específicas de la geometría de la superficie local. En cambio, el detector de saliencia utiliza una definición mucho más amplia.

El detector de saliencia es más útil en la tarea de reconocimiento de objetos, mientras que otros detectores son más útiles en la tarea de calcular correspondencias de imágenes. Sin embargo, en la tarea de reconocimiento de objetos 3D donde se combinan los tres tipos de cambio de imagen, el detector de saliencia aún puede ser poderoso. ^{[ cita requerida ]}

Implementación de software

Descriptores de escala y relevancia de la escala por Timor Kadir
Escala invariante afín de relevancia por Timor Kadir
Comparación de detectores de regiones afines

Referencias

^ Kadir, Timor; Zisserman, Andrew; Brady, Michael (2004). "Un detector de regiones salientes invariantes afines". Visión artificial - ECCV 2004. Apuntes de clase en informática. Vol. 3021. págs. 228–241. doi :10.1007/978-3-540-24670-1_18. ISBN 978-3-540-21984-2. ISSN 0302-9743.
^ Zisserman, A.
^ Ling Shao, Timor Kadir y Michael Brady. Detección de regiones distintivas invariantes geométricas y fotométricas. Ciencias de la información. 177 (4):1088-1122, 2007 doi :10.1016/j.ins.2006.09.003
^ W. Li; G. Bebis; NG Bourbakis (2008). "Reconocimiento de objetos en 3-D mediante vistas en 2-D". IEEE Transactions on Image Processing . 17 (11): 2236–2255. Bibcode :2008ITIP...17.2236L. CiteSeerX 10.1.1.158.1872 . doi :10.1109/tip.2008.2003404. PMID 18854254. S2CID 5529825.
^ [1] Kadir,T Descarga de GreedyCluster1.m
^ Una comparación de detectores de regiones afines. K. Mikolajczyk, T. Tuytelaars, C. Schmid, A. Zisserman, J. Matas, F. Schaffalitzky, T. Kadir y L. Van Gool. Revista internacional de visión por computadora
^ [2] Mikolajczyk
^ [3] Schmidt, C.

Lectura adicional

A. Baumberg (2000). "Reliable feature matching across broad separate views" (Coincidencia de características fiable en vistas muy separadas). Actas de la Conferencia IEEE sobre Visión artificial y reconocimiento de patrones . pp. I:1774–1781.
T. Lindeberg (1998). "Detección de características con selección automática de escala" (resumen) . Revista Internacional de Visión por Computador . 30 (2): 77–116. doi :10.1023/A:1008045108935. S2CID 723210.(Puntos de interés adaptativos a la escala e invariantes a partir del laplaciano y el determinante de la detección de manchas hessianas, así como mecanismos más generales para la selección automática de escala)
T. Lindeberg (2008–2009). "Espacio de escala". En Benjamin Wah (ed.). Enciclopedia de Ciencias de la Computación e Ingeniería . Vol. IV. John Wiley and Sons. págs. 2495–2504. doi :10.1002/9780470050118.ecse609. ISBN . 978-0470050118.(Resumen y revisión de una serie de detectores de características formulados; basados en una representación del espacio de escala )
T. Lindeberg; J. Garding (1997). "Suavizado adaptado a la forma en la estimación de claves de profundidad 3-D a partir de distorsiones afines de la estructura 2-D local". Image and Vision Computing . 15 (6): 415–434. doi :10.1016/S0262-8856(97)01144-X.(teoría para puntos de interés invariantes afines y descriptores de forma a partir de matrices de segundo momento)
Matas, J.; Chum, O.; Urban, M.; Pajdla, T. (2004). "Estéreo robusto de base amplia a partir de regiones extremas de máxima estabilidad" (PDF) . Image and Vision Computing . 22 (10): 761–767. doi :10.1016/j.imavis.2004.02.006. S2CID 2104851. Archivado desde el original (PDF) el 2019-08-02.
K. Mikolajczyk; C. Schmid (2002). "Un detector de puntos de interés invariante afín". Actas de la Conferencia Europea sobre Visión por Computador .
F. Schaffalitzky; A. Zisserman (2002). "Multi-view matching for unordered image sets, or 'How do I organize my holidays snaps?'" (PDF) . Actas de la Conferencia Europea sobre Visión Artificial . págs. 414–431.
T. Tuytelaars; L. Van Gool (2000). "Estéreo de línea base amplia basado en regiones locales invariantes afines" (PDF) . Actas de la Conferencia Británica de Visión Artificial . págs. 412–422.
S. Agarwal; D. Roth (2002). "Aprendizaje de una representación dispersa para la detección de objetos" (PDF) . Actas de la Conferencia Europea sobre Visión Artificial . págs. 113–130.
E. Borenstein; S. Ullman (2002). "Segmentación descendente y específica de clase". Actas de la Conferencia Europea sobre Visión por Computador . págs. 109–124. CiteSeerX 10.1.1.908.9327 .
R. Fergus; P. Perona; A. Zisserman (2003). "Reconocimiento de clases de objetos mediante aprendizaje invariante de escala no supervisado" (PDF) . Actas de la Conferencia IEEE sobre Visión artificial y reconocimiento de patrones . pp. II:264–271.
M. Weber; M. Welling; P. Perona (2002). "Aprendizaje no supervisado de modelos para reconocimiento" (PDF) . Actas de la Conferencia Europea sobre Visión por Computador . S2CID 14778727. Archivado desde el original (PDF) el 2 de agosto de 2019.