stringtranslate.com

Funciones robustas aceleradas

En visión artificial , las características robustas aceleradas ( SURF ) son un descriptor y detector de características locales patentado . Se puede utilizar para tareas como reconocimiento de objetos , registro de imágenes , clasificación o reconstrucción 3D . Se inspira en parte en el descriptor de transformación de características invariante a escala (SIFT). La versión estándar de SURF es varias veces más rápida que SIFT y sus autores afirman que es más robusta frente a diferentes transformaciones de imágenes que SIFT.

Para detectar puntos de interés, SURF utiliza una aproximación entera del determinante del detector de manchas de Hesse , que se puede calcular con tres operaciones enteras utilizando una imagen integral precalculada . Su descriptor de características se basa en la suma de la respuesta de ondículas de Haar alrededor del punto de interés. Estas también se pueden calcular con la ayuda de la imagen integral.

Los descriptores SURF se han utilizado para localizar y reconocer objetos, personas o caras, para reconstruir escenas 3D, para rastrear objetos y para extraer puntos de interés.

SURF fue publicado por primera vez por Herbert Bay , Tinne Tuytelaars y Luc Van Gool, y presentado en la Conferencia Europea sobre Visión por Computador de 2006. Una aplicación del algoritmo está patentada en los Estados Unidos. [1] Una versión "vertical" de SURF (llamada U-SURF) no es invariable a la rotación de la imagen y, por lo tanto, es más rápida de calcular y más adecuada para aplicaciones en las que la cámara permanece más o menos horizontal.

La imagen se transforma en coordenadas, mediante la técnica de pirámide multiresolución , para copiar la imagen original con forma de pirámide gaussiana o pirámide laplaciana y obtener una imagen del mismo tamaño pero con ancho de banda reducido. De esta forma se consigue un efecto de desenfoque especial sobre la imagen original, llamado Escala-Espacio y se consigue que los puntos de interés sean invariantes en escala.

Algoritmo y características

El algoritmo SURF se basa en los mismos principios y pasos que SIFT, pero los detalles de cada paso son diferentes. El algoritmo tiene tres partes principales: detección de puntos de interés, descripción del vecindario local y comparación.

Detección

SURF utiliza filtros de forma cuadrada como aproximación del suavizado gaussiano . (El enfoque SIFT utiliza filtros en cascada para detectar puntos característicos invariantes de escala, donde la diferencia de gaussianas (DoG) se calcula en imágenes reescaladas de manera progresiva). Filtrar la imagen con un cuadrado es mucho más rápido si se utiliza la imagen integral :

La suma de la imagen original dentro de un rectángulo se puede evaluar rápidamente utilizando la imagen integral, lo que requiere evaluaciones en las cuatro esquinas del rectángulo.

SURF utiliza un detector de manchas basado en la matriz de Hesse para encontrar puntos de interés. El determinante de la matriz de Hesse se utiliza como medida del cambio local alrededor del punto y se eligen los puntos en los que este determinante es máximo. A diferencia del detector de Hesse-Laplaciano de Mikolajczyk y Schmid, SURF también utiliza el determinante de la matriz de Hesse para seleccionar la escala, como también hace Lindeberg. Dado un punto p=(x, y) en una imagen I, la matriz de Hesse H(p, σ) en el punto p y la escala σ, es:

donde etc. es la convolución de la derivada de segundo orden de gaussiana con la imagen en el punto .

El filtro de caja de tamaño 9×9 es una aproximación de un gaussiano con σ=1,2 y representa el nivel más bajo (resolución espacial más alta) para mapas de respuesta de blobs.

Representación en escala-espacio y ubicación de puntos de interés

Los puntos de interés se pueden encontrar en diferentes escalas, en parte porque la búsqueda de correspondencias a menudo requiere imágenes de comparación en las que se ven a diferentes escalas. En otros algoritmos de detección de características, el espacio de escala suele realizarse como una pirámide de imágenes. Las imágenes se suavizan repetidamente con un filtro gaussiano y luego se submuestrean para obtener el siguiente nivel superior de la pirámide. Por lo tanto, se calculan varios pisos o escaleras con diferentes medidas de las máscaras:

El espacio de escala se divide en una serie de octavas, donde una octava se refiere a una serie de mapas de respuesta que cubren una duplicación de la escala. En SURF, el nivel más bajo del espacio de escala se obtiene a partir de la salida de los filtros 9x9.

Por lo tanto, a diferencia de los métodos anteriores, los espacios de escala en SURF se implementan aplicando filtros de caja de diferentes tamaños. En consecuencia, el espacio de escala se analiza aumentando el tamaño del filtro en lugar de reducir iterativamente el tamaño de la imagen. La salida del filtro 9×9 anterior se considera como la capa de escala inicial en la escala s  = 1,2 (que corresponde a las derivadas gaussianas con σ  = 1,2). Las siguientes capas se obtienen filtrando la imagen con máscaras gradualmente más grandes, teniendo en cuenta la naturaleza discreta de las imágenes integrales y la estructura específica del filtro. Esto da como resultado filtros de tamaño 9×9, 15×15, 21×21, 27×27,... Se aplica una supresión no máxima en un entorno 3×3×3 para localizar puntos de interés en la imagen y sobre escalas. Luego, los máximos del determinante de la matriz hessiana se interpolan en el espacio de escala e imagen con el método propuesto por Brown, et al. La interpolación del espacio de escala es especialmente importante en este caso, ya que la diferencia de escala entre las primeras capas de cada octava es relativamente grande.

Descriptor

El objetivo de un descriptor es proporcionar una descripción única y sólida de una característica de la imagen , por ejemplo, describiendo la distribución de intensidad de los píxeles en las proximidades del punto de interés. La mayoría de los descriptores se calculan de manera local, por lo que se obtiene una descripción para cada punto de interés identificado previamente.

La dimensionalidad del descriptor tiene un impacto directo tanto en su complejidad computacional como en la robustez y precisión de la comparación de puntos. Un descriptor corto puede ser más robusto frente a variaciones de apariencia, pero puede no ofrecer suficiente discriminación y, por lo tanto, dar demasiados falsos positivos.

El primer paso consiste en fijar una orientación reproducible a partir de la información de una región circular alrededor del punto de interés. A continuación, construimos una región cuadrada alineada con la orientación seleccionada y extraemos de ella el descriptor SURF.

Tarea de orientación

Para lograr la invariancia rotacional, se debe encontrar la orientación del punto de interés. Se calculan las respuestas wavelet de Haar en las direcciones x e y dentro de un entorno circular de radio alrededor del punto de interés, donde es la escala en la que se detectó el punto de interés. Las respuestas obtenidas se ponderan mediante una función gaussiana centrada en el punto de interés, luego se grafican como puntos en un espacio bidimensional, con la respuesta horizontal en la abscisa y la respuesta vertical en la ordenada . La orientación dominante se estima calculando la suma de todas las respuestas dentro de una ventana de orientación deslizante de tamaño π/3. Se suman las respuestas horizontal y vertical dentro de la ventana. Las dos respuestas sumadas producen un vector de orientación local. El vector más largo en general define la orientación del punto de interés. El tamaño de la ventana deslizante es un parámetro que se debe elegir con cuidado para lograr un equilibrio deseado entre robustez y resolución angular.

Descriptor basado en la suma de las respuestas wavelet de Haar

Para describir la región alrededor del punto, se extrae una región cuadrada, centrada en el punto de interés y orientada según la orientación seleccionada anteriormente. El tamaño de esta ventana es de 20 s.

La región de interés se divide en subregiones cuadradas más pequeñas de 4x4 y, para cada una de ellas, se extraen las respuestas de wavelet de Haar en puntos de muestra espaciados regularmente de 5x5. Las respuestas se ponderan con una gaussiana (para ofrecer mayor robustez frente a deformaciones, ruido y traslación).

Pareo

Comparando los descriptores obtenidos de diferentes imágenes, se pueden encontrar pares coincidentes.

Véase también

Referencias

  1. ^ US 2009238460, Ryuji Funayama, Hiromichi Yanagihara, Luc Van Gool, Tinne Tuytelaars, Herbert Bay, "DETECTOR Y DESCRIPTOR DE PUNTOS DE INTERÉS ROBUSTO", publicado el 24 de septiembre de 2009 

Fuentes

Enlaces externos