stringtranslate.com

Detector de prominencia Kadir-Brady

El detector de prominencia Kadir-Brady extrae características de objetos en imágenes que son distintas y representativas. Fue inventado por Timor Kadir y J. Michael Brady [1] en 2001 y Kadir y Brady introdujeron una versión invariante afín en 2004 [2] y Shao et al diseñaron una versión robusta. [3] en 2007.

El detector utiliza algoritmos para eliminar de manera más eficiente el ruido de fondo y así identificar más fácilmente características que pueden usarse en un modelo 3D. A medida que el detector escanea imágenes, utiliza los tres conceptos básicos de transformación global, perturbaciones locales y variaciones intraclase para definir las áreas de búsqueda e identifica regiones únicas de esas imágenes en lugar de utilizar las búsquedas más tradicionales de esquinas o manchas. Intenta ser invariante ante transformaciones afines y cambios de iluminación. [4]

Esto conduce a una búsqueda más orientada a objetos que los métodos anteriores y supera a otros detectores debido a que las imágenes no se desenfocan, la capacidad de ignorar regiones que cambian lentamente y una definición más amplia de las propiedades de la geometría de la superficie. Como resultado, el detector de prominencia Kadir-Brady es más capaz de reconocer objetos que otros detectores cuyo enfoque principal es la correspondencia de imágenes completas.

Introducción

Muchas aplicaciones de procesamiento de imágenes y visión por computadora trabajan directamente con las características extraídas de una imagen, en lugar de con la imagen sin procesar; por ejemplo, para calcular correspondencias de imágenes o para aprender categorías de objetos. Dependiendo de las aplicaciones, se prefieren diferentes características. Sin embargo, existen tres clases amplias de cambios de imagen en las que puede ser necesario un buen rendimiento:

Fig. 1. Las regiones detectadas, ilustradas por un punto central y un límite, deben conmutar con el cambio de punto de vista, aquí representado por la transformación H.

Transformación global : las características deben ser repetibles en toda la clase esperada de transformaciones de imágenes globales. Estos incluyen transformaciones tanto geométricas como fotométricas que surgen debido a cambios en las condiciones de la imagen. Por ejemplo, la detección de región debe ser covariante con el punto de vista, como se ilustra en la Figura 1. En resumen, requerimos que la segmentación conmute con el cambio de punto de vista. Esta propiedad se evaluará en función de la repetibilidad y precisión de la localización y la estimación de la región.

Perturbaciones locales : las características deben ser insensibles a clases de perturbaciones de imagen semilocales. Por ejemplo, un rasgo que responde al ojo de un rostro humano no debería verse afectado por ningún movimiento de la boca. Una segunda clase de perturbación es cuando una región es vecina de un límite de primer plano/fondo. Se puede requerir que el detector detecte la región del primer plano a pesar de los cambios en el fondo.

Variaciones dentro de la clase : las características deben capturar las partes correspondientes del objeto bajo variaciones dentro de la clase en los objetos. Por ejemplo, los faros de un coche de diferentes marcas (imagen desde el mismo punto de vista).

Todos los algoritmos de detección de características intentan detectar regiones que son estables bajo los tres tipos de cambios de imagen descritos anteriormente. En lugar de encontrar una esquina, una mancha o cualquier forma específica de región, el detector de prominencia Kadir-Brady busca regiones que sean localmente complejas y globalmente discriminativas. Estas regiones suelen corresponder a regiones más estables bajo este tipo de cambios de imagen.

Prominencia de la teoría de la información

En el campo de la teoría de la información , la entropía de Shannon se define para cuantificar la complejidad de una distribución p como . Por lo tanto, una entropía más alta significa que p es más complejo y, por lo tanto, más impredecible.

Para medir la complejidad de una región de imagen alrededor de un punto con forma , se define un descriptor que toma valores (por ejemplo, en una imagen de nivel de grises de 8 bits , D oscilaría entre 0 y 255 para cada píxel) de modo que , la probabilidad del descriptor El valor que ocurre en la región se puede calcular. Además, la entropía de la región de la imagen se puede calcular como

Usando esta ecuación de entropía podemos realizar cálculos adicionales para cada forma de punto y región . Una región más compleja, como la región del ojo, tiene un distribuidor más complejo y, por tanto, una entropía más alta.

es una buena medida de la complejidad local. La entropía solo mide la estadística del atributo local. No mide la disposición espacial del atributo local. Sin embargo, estas cuatro regiones no son igualmente discriminatorias ante el cambio de escala. Esta observación se utiliza para definir la medida discriminativa en las subsecciones.

Las siguientes subsecciones discutirán diferentes métodos para seleccionar regiones con alta complejidad local y mayor discriminación entre diferentes regiones.

Prominencia invariante de similitud

La primera versión del detector de prominencia Kadir-Brady [10] solo encuentra regiones salientes invariantes bajo transformación de similitud . El algoritmo encuentra regiones circulares con diferentes escalas. En otras palabras, dado , donde s es el parámetro de escala de una región circular , el algoritmo selecciona un conjunto de regiones circulares, .

El método consta de tres pasos:

La prominencia final es el producto de y .

Para cada x, el método elige una escala y calcula la puntuación destacada . Al comparar diferentes puntos, el detector puede clasificar la prominencia de los puntos y elegir los más representativos.

Prominencia invariante afín

El método anterior es invariante al grupo de similitud de transformaciones geométricas y a los desplazamientos fotométricos. Sin embargo, como se mencionó en las observaciones iniciales, el detector ideal debería detectar una región invariante hasta el cambio de punto de vista. Hay varios detectores [] que pueden detectar una región invariante afín, que es una mejor aproximación del cambio de punto de vista que la transformación de similitud.

Para detectar una región invariante afín, el detector necesita detectar una elipse como en la figura 4. Ahora está parametrizado por tres parámetros (s, "ρ", "θ"), donde "ρ" es la relación del eje y "θ" la orientación de la elipse.

Esta modificación aumenta el espacio de búsqueda del algoritmo anterior desde una escala a un conjunto de parámetros y por tanto aumenta la complejidad del detector de prominencia invariante afín. En la práctica, el detector de prominencia invariante afín comienza con el conjunto de puntos y escalas generados a partir del detector de prominencia invariante de similitud y luego se aproxima iterativamente a los parámetros subóptimos.

Comparación

Aunque el detector de prominencia invariante de similitud es más rápido que el detector de prominencia invariante afín, también tiene el inconveniente de favorecer la estructura isotrópica, ya que la medida discriminativa se mide en una escala isotrópica.

Para resumir: el detector de prominencia invariante afín es invariante a la transformación afín y es capaz de detectar más regiones salientes generadas.

Volumen saliente

Es intuitivo seleccionar puntos de una puntuación destacada más alta directamente y detenerse cuando se cumple un cierto umbral en "número de puntos" o "puntuación destacada". Las imágenes naturales contienen ruido y desenfoque de movimiento que actúan como aleatorizadores y generalmente aumentan la entropía, afectando a los valores de entropía previamente bajos más que a los valores de entropía altos.

Un método más sólido sería elegir regiones en lugar de puntos en el espacio de entropía. Aunque los píxeles individuales dentro de una región saliente pueden verse afectados en cualquier instante dado por el ruido, es poco probable que los afecte a todos de tal manera que la región en su conjunto deje de ser saliente.

También es necesario analizar todo el espacio de prominencia de modo que cada característica destacada esté representada. Un enfoque de umbral global daría como resultado características muy destacadas en una parte de la imagen que dominarían el resto. Un enfoque de umbral local requeriría el establecimiento de otro parámetro de escala.

Un algoritmo de agrupamiento simple que cumple con estos dos requisitos se utiliza al final del algoritmo. Funciona seleccionando puntos muy destacados que tengan apoyo local, es decir, puntos cercanos con prominencia y escala similares. Cada región debe estar lo suficientemente distante de todas las demás (en R3) para calificar como una entidad separada. Para mayor solidez utilizamos una representación que incluye todos los puntos en una región seleccionada. El método funciona de la siguiente manera:

  1. Aplicar un umbral global.
  2. Elija el punto saliente más alto en el espacio de prominencia (Y).
  3. Encuentre los K vecinos más cercanos (K es una constante preestablecida).
  4. Pruebe el soporte de estos usando la variación de los puntos centrales.
  5. Encuentre la distancia, D, en R3 desde las regiones salientes ya agrupadas.
  6. Aceptar, si D > media de escala de la región y si está suficientemente agrupada (la varianza es menor que el umbral preestablecido Vth).
  7. Almacenar como escala media y ubicación espacial de K puntos.
  8. Repita desde el paso 2 con el siguiente punto saliente más alto.

El algoritmo se implementa como GreedyCluster1.m en matlab por el Dr. Timor Kadir [5]

Evaluación del desempeño

En el campo de la visión por computadora se han evaluado diferentes detectores de características mediante varias pruebas. La evaluación más profunda se publicó en el International Journal of Computer Vision en 2006. [6] La siguiente subsección analiza el rendimiento del detector de prominencia Kadir-Brady en un subconjunto de una prueba del artículo.

Desempeño bajo transformación global

Para medir la consistencia de una región detectada en el mismo objeto o escena en imágenes bajo transformación global, la puntuación de repetibilidad, propuesta por primera vez por Mikolajczyk y Cordelia Schmid en [18, 19], se calcula de la siguiente manera: [7] [8 ]

En primer lugar, se define el error de superposición de un par de elipses correspondientes y cada una en imágenes diferentes:

donde A es la transformación afín localmente linealizada de la homografía entre las dos imágenes,

y y representan el área de intersección y unión de las elipses respectivamente.

El aviso se escala a una escala fija para contar la variación de tamaño de las diferentes regiones detectadas. Sólo si es menor que cierto , se considera que el par de elipses corresponde.

Luego, la puntuación de repetibilidad para un par de imágenes determinado se calcula como la relación entre el número de correspondencias de región a región y el menor del número de regiones en el par de imágenes, donde solo las regiones ubicadas en la parte de la escena presentes en ambas imágenes se cuentan. En general, nos gustaría que un detector tuviera una puntuación de repetibilidad alta y una gran cantidad de correspondencias.

Las transformaciones globales específicas probadas en el conjunto de datos de prueba son:

El rendimiento del detector de prominencia Kadir-Brady es inferior al de la mayoría de los otros detectores, principalmente porque la cantidad de puntos detectados suele ser menor que la de otros detectores.

El procedimiento preciso se proporciona en el código Matlab de la implementación del software de evaluación del detector.

Rendimiento bajo variación intraclase y perturbaciones de imagen.

En la tarea de categorización de clases de objetos, la capacidad de detectar regiones similares dadas la variación intraclase y las perturbaciones de la imagen en todas las instancias de objetos es muy crítica. Se proponen medidas de repetibilidad sobre la variación intraclase y las perturbaciones de la imagen. La siguiente subsección presentará la definición y discutirá el desempeño.

Prueba de variación intraclase

Supongamos que hay un conjunto de imágenes de la misma clase de objeto, por ejemplo, motocicletas. Un operador de detección de regiones que no se ve afectado por la variación dentro de una clase seleccionará de manera confiable regiones en las partes correspondientes de todos los objetos, por ejemplo, las ruedas, el motor o el asiento de las motocicletas.

La repetibilidad sobre la variación intraclase consiste en medir el número (promedio) de correspondencias correctas sobre el conjunto de imágenes, donde las correspondencias correctas se establecen mediante selección manual.

Una región coincide si cumple tres requisitos:

En detalle, la puntuación media de correspondencia S se mide de la siguiente manera.

Se detectan N regiones en cada imagen de las M imágenes del conjunto de datos. Luego, para una imagen de referencia particular, i , la puntuación de correspondencia viene dada por la proporción de las regiones correspondientes a detectadas para todas las demás imágenes en el conjunto de datos, es decir:

La puntuación se calcula para M/2 selecciones diferentes de la imagen de referencia y se promedia para dar S. La puntuación se evalúa como una función del número de regiones detectadas N.

El detector de prominencia Kadir-Brady otorga la puntuación más alta en tres clases de pruebas: motocicleta, automóvil y rostro. El detector de prominencia indica que la mayoría de las detecciones se realizan cerca del objeto. Por el contrario, los mapas de otros detectores muestran un patrón mucho más difuso en toda el área causado por una mala localización y respuestas falsas al desorden de fondo.

Prueba de perturbaciones de imagen

Para probar la insensibilidad a la perturbación de la imagen, el conjunto de datos se divide en dos partes: la primera contiene imágenes con un fondo uniforme y la segunda imágenes con diversos grados de desorden de fondo. Si el detector es resistente al desorden de fondo, entonces la puntuación de correspondencia promedio S debería ser similar para ambos subconjuntos de imágenes.

En esta prueba, el detector de prominencia también supera a otros detectores debido a tres razones:

El detector de prominencia es más útil en la tarea de reconocimiento de objetos, mientras que otros detectores son más útiles en la tarea de calcular correspondencias de imágenes. Sin embargo, en la tarea de reconocimiento de objetos 3D donde se combinan los tres tipos de cambio de imagen, el detector de prominencia aún podría ser poderoso. [ cita necesaria ]

Implementación de software

Referencias

  1. ^ Kadir, Timor; Zisserman, Andrés; Brady, Michael (2004). "Un detector de regiones salientes invariantes afines". Visión por Computador - ECCV 2004 . Apuntes de conferencias sobre informática. vol. 3021, págs. 228–241. doi :10.1007/978-3-540-24670-1_18. ISBN 978-3-540-21984-2. ISSN  0302-9743.
  2. ^ Zisserman, A.
  3. ^ Ling Shao, Timor Kadir y Michael Brady. Detección de Regiones Distintivas Invariantes Geométricas y Fotométricas. Ciencias de la Información. 177 (4):1088-1122, 2007 doi :10.1016/j.ins.2006.09.003
  4. ^ W. Li; G. Bebis; NG Bourbakis (2008). "Reconocimiento de objetos 3D mediante vistas 2D". Transacciones IEEE sobre procesamiento de imágenes . 17 (11): 2236–2255. Código Bib : 2008ITIP...17.2236L. CiteSeerX 10.1.1.158.1872 . doi :10.1109/tip.2008.2003404. PMID  18854254. S2CID  5529825. 
  5. ^ [1] Descarga de Kadir, T GreedyCluster1.m
  6. ^ Una comparación de detectores de regiones afines. K. Mikolajczyk, T. Tuytelaars, C. Schmid, A. Zisserman, J. Matas, F. Schaffalitzky, T. Kadir y L. Van Gool. Revista internacional de visión por computadora
  7. ^ [2] Mikołajczyk
  8. ^ [3] Schmid, C.

Otras lecturas