Transformación de características invariantes de escala

La transformada de características invariantes de escala ( SIFT ) es un algoritmo de visión por computadora para detectar, describir y hacer coincidir características locales en imágenes, inventado por David Lowe en 1999. ^[1] Las aplicaciones incluyen reconocimiento de objetos , mapeo y navegación robótica, unión de imágenes , modelado 3D , reconocimiento de gestos , seguimiento de video , identificación individual de vida silvestre y coincidencia de movimiento .

Los puntos clave de los objetos de SIFT se extraen primero de un conjunto de imágenes de referencia ^[1] y se almacenan en una base de datos. Un objeto se reconoce en una nueva imagen comparando individualmente cada característica de la nueva imagen con esta base de datos y encontrando características coincidentes candidatas en función de la distancia euclidiana de sus vectores de características. Del conjunto completo de coincidencias, se identifican subconjuntos de puntos clave que coinciden con el objeto y su ubicación, escala y orientación en la nueva imagen para filtrar las buenas coincidencias. La determinación de grupos consistentes se realiza rápidamente utilizando una implementación eficiente de tabla hash de la transformada de Hough generalizada . Cada grupo de 3 o más características que coinciden con un objeto y su postura se somete a una verificación más detallada del modelo y, posteriormente, se descartan los valores atípicos. Finalmente, se calcula la probabilidad de que un conjunto particular de características indique la presencia de un objeto, dada la precisión del ajuste y la cantidad de coincidencias falsas probables. Las coincidencias de objetos que pasan todas estas pruebas se pueden identificar como correctas con alta confianza. ^[2]

Aunque el algoritmo SIFT estaba previamente protegido por una patente, su patente expiró en 2020. ^[3]

Descripción general

Para cualquier objeto de una imagen, podemos extraer puntos importantes de la imagen para proporcionar una "descripción de las características" del objeto. Esta descripción, extraída de una imagen de entrenamiento, puede utilizarse para localizar el objeto en una nueva imagen (no vista anteriormente) que contenga otros objetos. Para hacer esto de forma fiable, las características deben ser detectables incluso si la imagen está escalada o si tiene ruido y una iluminación diferente. Dichos puntos suelen encontrarse en regiones de alto contraste de la imagen, como los bordes de los objetos.

Otra característica importante de estas características es que las posiciones relativas entre ellas en la escena original no deberían cambiar entre imágenes. Por ejemplo, si solo se usaran como características las cuatro esquinas de una puerta, funcionarían independientemente de la posición de la puerta; pero si también se usaran puntos en el marco, el reconocimiento fallaría si la puerta está abierta o cerrada. De manera similar, las características ubicadas en objetos articulados o flexibles normalmente no funcionarían si se produce algún cambio en su geometría interna entre dos imágenes en el conjunto que se está procesando. En la práctica, SIFT detecta y utiliza un número mucho mayor de características de las imágenes, lo que reduce la contribución de los errores causados por estas variaciones locales en el error promedio de todos los errores de coincidencia de características.

SIFT ^[3] puede identificar objetos de manera robusta incluso entre desorden y bajo oclusión parcial, porque el descriptor de características SIFT es invariante a la escala uniforme , la orientación , los cambios de iluminación y parcialmente invariante a la distorsión afín . ^[1] Esta sección resume el algoritmo SIFT original y menciona algunas técnicas competitivas disponibles para el reconocimiento de objetos bajo desorden y oclusión parcial.

El descriptor SIFT se basa en mediciones de imágenes en términos de campos receptivos ^[4]^[5]^[6]^[7] sobre los cuales se establecen marcos de referencia invariantes de escala local ^[8]^{[9] mediante}la selección de escala local . ^[10]^[11]^[9] Una explicación teórica general sobre esto se da en el artículo de Scholarpedia sobre SIFT. ^[12]

Tipos de características

La detección y descripción de características locales de la imagen puede ayudar en el reconocimiento de objetos. Las características SIFT son locales y se basan en la apariencia del objeto en puntos de interés particulares, y son invariables a la escala y rotación de la imagen. También son robustas a los cambios en la iluminación, el ruido y los cambios menores en el punto de vista. Además de estas propiedades, son altamente distintivas, relativamente fáciles de extraer y permiten la identificación correcta del objeto con baja probabilidad de desajuste. Son relativamente fáciles de hacer coincidir con una base de datos (grande) de características locales pero, sin embargo, la alta dimensionalidad puede ser un problema y, en general, se utilizan algoritmos probabilísticos como árboles kd con búsqueda de mejor bin primero . La descripción de objetos por un conjunto de características SIFT también es robusta a la oclusión parcial; tan solo 3 características SIFT de un objeto son suficientes para calcular su ubicación y pose. El reconocimiento se puede realizar casi en tiempo real, al menos para bases de datos pequeñas y en hardware informático moderno. ^{[ cita requerida ]}

Etapas

Detección de características invariantes en escala

El método de Lowe para la generación de características de imagen transforma una imagen en una gran colección de vectores de características, cada uno de los cuales es invariante a la traslación, escala y rotación de la imagen, parcialmente invariante a los cambios de iluminación y robusto a la distorsión geométrica local. Estas características comparten propiedades similares con las neuronas en la corteza visual primaria que codifican formas básicas, color y movimiento para la detección de objetos en la visión de los primates. ^[13] Las ubicaciones clave se definen como máximos y mínimos del resultado de la función de diferencia de Gaussianas aplicada en el espacio de escala a una serie de imágenes suavizadas y remuestreadas. Los puntos candidatos de bajo contraste y los puntos de respuesta de borde a lo largo de un borde se descartan. Las orientaciones dominantes se asignan a los puntos clave localizados. Estos pasos aseguran que los puntos clave sean más estables para la coincidencia y el reconocimiento. Luego, los descriptores SIFT robustos a la distorsión afín local se obtienen considerando píxeles alrededor de un radio de la ubicación clave, desenfocando y remuestreando los planos de orientación de la imagen local.

Coincidencia de características e indexación

La indexación consiste en almacenar claves SIFT e identificar claves coincidentes de la nueva imagen. Lowe utilizó una modificación del algoritmo del árbol kd llamado método de búsqueda best-bin-first^[14] que puede identificar los vecinos más cercanos con alta probabilidad utilizando solo una cantidad limitada de cálculo. El algoritmo BBF utiliza un orden de búsqueda modificado para el algoritmo del árbol kd de modo que los bins en el espacio de características se busquen en el orden de su distancia más cercana desde la ubicación de la consulta. Este orden de búsqueda requiere el uso de una cola de prioridad basada en heap para la determinación eficiente del orden de búsqueda. Obtenemos un candidato para cada punto clave identificando su vecino más cercano en la base de datos de puntos clave de las imágenes de entrenamiento. Los vecinos más cercanos se definen como los puntos clave con la distancia euclidiana mínima desde el vector descriptor dado. La forma en que Lowe ^[2] determinó si un candidato dado debería conservarse o "descartarse" es verificando la relación entre la distancia desde este candidato dado y la distancia desde el punto clave más cercano que no es de la misma clase de objeto que el candidato en cuestión (vector de características del candidato / vector de características de clase diferente más cercano), la idea es que solo podemos estar seguros de candidatos en los que las características/puntos clave de clases de objetos distintas no lo "saturan" (no necesariamente desorden geométrico en el espacio de características, sino más bien desorden a lo largo de la mitad derecha (>0) de la línea real), esta es una consecuencia obvia de usar la distancia euclidiana como nuestra medida del vecino más cercano. El umbral de relación para el rechazo es cuando sea superior a 0,8. Este método eliminó el 90% de las coincidencias falsas mientras descartaba menos del 5% de las coincidencias correctas. Para mejorar aún más la eficiencia del algoritmo best-bin-first, se cortó la búsqueda después de verificar los primeros 200 candidatos vecinos más cercanos. Para una base de datos de 100.000 puntos clave, esto proporciona una aceleración de la búsqueda exacta del vecino más cercano de aproximadamente 2 órdenes de magnitud, pero da como resultado una pérdida de menos del 5 % en la cantidad de coincidencias correctas.

Identificación de clústeres mediante votación por transformada de Hough

La transformada de Hough se utiliza para agrupar hipótesis de modelos fiables para buscar claves que coincidan con una determinada pose del modelo . La transformada de Hough identifica grupos de características con una interpretación coherente utilizando cada característica para votar por todas las poses de los objetos que sean coherentes con la característica. Cuando se encuentran grupos de características que votan por la misma pose de un objeto, la probabilidad de que la interpretación sea correcta es mucho mayor que para cualquier característica individual. Se crea una entrada en una tabla hash que predice la ubicación, la orientación y la escala del modelo a partir de la hipótesis coincidente. Se realiza una búsqueda en la tabla hash para identificar todos los grupos de al menos 3 entradas en un contenedor, y los contenedores se ordenan en orden decreciente de tamaño.

Cada uno de los puntos clave de SIFT especifica la ubicación, la escala y la orientación en 2D, y cada punto clave coincidente en la base de datos tiene un registro de sus parámetros relativos a la imagen de entrenamiento en la que se encontró. La transformación de similitud implícita en estos 4 parámetros es solo una aproximación al espacio de pose completo de 6 grados de libertad para un objeto 3D y tampoco tiene en cuenta ninguna deformación no rígida. Por lo tanto, Lowe ^[2] utilizó tamaños de bin amplios de 30 grados para la orientación, un factor de 2 para la escala y 0,25 veces la dimensión máxima de la imagen de entrenamiento proyectada (usando la escala predicha) para la ubicación. Las muestras clave de SIFT generadas en la escala más grande reciben el doble del peso que las de la escala más pequeña. Esto significa que la escala más grande puede, en efecto, filtrar los vecinos más probables para verificar en la escala más pequeña. Esto también mejora el rendimiento del reconocimiento al dar más peso a la escala menos ruidosa. Para evitar el problema de los efectos de límite en la asignación de contenedores, cada coincidencia de puntos clave vota por los 2 contenedores más cercanos en cada dimensión, lo que da un total de 16 entradas para cada hipótesis y amplía aún más el rango de poses.

Verificación del modelo por mínimos cuadrados lineales

Cada grupo identificado se somete entonces a un procedimiento de verificación en el que se realiza una solución de mínimos cuadrados lineales para los parámetros de la transformación afín que relaciona el modelo con la imagen. La transformación afín de un punto del modelo [xy] ^T a un punto de la imagen [uv] ^T se puede escribir de la siguiente manera:

{\begin{bmatrix}u\\v\end{bmatrix}}={\begin{bmatrix}m_{1}&m_{2}\\m_{3}&m_{4}\end{bmatrix}}{\begin{bmatrix}x\\y\end{bmatrix}}+{\begin{bmatrix}t_{x}\\t_{y}\end{bmatrix}}

donde la traslación del modelo es [t _x t _y ] ^T y la rotación, escala y estiramiento afines están representados por los parámetros m ₁ , m ₂ , m ₃ y m ₄ . Para resolver los parámetros de transformación, la ecuación anterior se puede reescribir para reunir las incógnitas en un vector de columna.

{\begin{bmatrix}x&y&0&0&1&0\\0&0&x&y&0&1\\....\\....\end{bmatrix}}{\begin{bmatrix}m1\\m2\\m3\\m4\\t_{x}\\t_{y}\end{bmatrix}}={\begin{bmatrix}u\\v\\.\\.\end{bmatrix}}

Esta ecuación muestra una única coincidencia, pero se pueden añadir cualquier cantidad de coincidencias adicionales, y cada coincidencia aporta dos filas más a la primera y la última matriz. Se necesitan al menos 3 coincidencias para proporcionar una solución. Podemos escribir este sistema lineal como

A{\hat {\mathbf {x} }}\approx \mathbf {b} ,

donde A es una matriz m por n conocida (generalmente con m > n ), x es un vector de parámetros n -dimensional desconocido y b es un vector de medición m -dimensional conocido .

Por lo tanto, el vector minimizador es una solución de la ecuación normal. ${\hat {\mathbf {x} }}$

A^{T}\!A{\hat {\mathbf {x} }}=A^{T}\mathbf {b} .

La solución del sistema de ecuaciones lineales se da en términos de la matriz , llamada pseudoinversa de A , por $(A^{T}A)^{-1}A^{T}$

{\hat {\mathbf {x} }}=(A^{T}\!A)^{-1}A^{T}\mathbf {b} .

que minimiza la suma de los cuadrados de las distancias desde las ubicaciones del modelo proyectado a las ubicaciones de la imagen correspondiente.

Detección de valores atípicos

Ahora es posible eliminar los valores atípicos comprobando la concordancia entre cada característica de la imagen y el modelo, dada la solución de parámetros. Dada la solución de mínimos cuadrados lineales , se requiere que cada coincidencia concuerde dentro de la mitad del rango de error que se utilizó para los parámetros en los contenedores de la transformada de Hough . A medida que se descartan los valores atípicos, la solución de mínimos cuadrados lineales se vuelve a resolver con los puntos restantes y se repite el proceso. Si quedan menos de 3 puntos después de descartar los valores atípicos , se rechaza la coincidencia. Además, se utiliza una fase de coincidencia descendente para agregar cualquier otra coincidencia que concuerde con la posición del modelo proyectado, que puede haberse omitido del contenedor de la transformada de Hough debido a la aproximación de la transformada de similitud u otros errores.

La decisión final de aceptar o rechazar una hipótesis del modelo se basa en un modelo probabilístico detallado. ^[15] Este método calcula primero el número esperado de coincidencias falsas con la pose del modelo, dado el tamaño proyectado del modelo, el número de características dentro de la región y la precisión del ajuste. Luego, un análisis de probabilidad bayesiano proporciona la probabilidad de que el objeto esté presente en función del número real de características coincidentes encontradas. Un modelo se acepta si la probabilidad final de una interpretación correcta es mayor que 0,98. El reconocimiento de objetos basado en SIFT de Lowe brinda excelentes resultados excepto bajo amplias variaciones de iluminación y bajo transformaciones no rígidas.

Algoritmo

Detección de extremos en el espacio de escala

Comenzamos detectando puntos de interés, que se denominan puntos clave en el marco SIFT. La imagen se convoluciona con filtros gaussianos a diferentes escalas y luego se toma la diferencia de imágenes sucesivas con desenfoque gaussiano . Los puntos clave se toman entonces como máximos/mínimos de la diferencia de gaussianas (DoG) que se producen en múltiples escalas. Específicamente, una imagen DoG se da por $D\left(x,y,\sigma \right)$

D\left(x,y,\sigma \right)=L\left(x,y,k_{i}\sigma \right)-L\left(x,y,k_{j}\sigma \right)

¿Dónde está la convolución de la imagen original con el desenfoque gaussiano a escala , es decir,

L\left(x,y,k\sigma \right)

I\left(x,y\right)

G\left(x,y,k\sigma \right)

k\sigma

L\left(x,y,k\sigma \right)=G\left(x,y,k\sigma \right)*I\left(x,y\right)

Por lo tanto, una imagen DoG entre escalas y es simplemente la diferencia de las imágenes con desenfoque gaussiano en las escalas y . Para la detección de extremos en el espacio de escala en el algoritmo SIFT, primero se convoluciona la imagen con desenfoques gaussianos en diferentes escalas. Las imágenes convolucionadas se agrupan por octava (una octava corresponde a duplicar el valor de ), y se selecciona el valor de de modo que obtengamos un número fijo de imágenes convolucionadas por octava. Luego, las imágenes con diferencia de Gauss se toman de las imágenes con desenfoque gaussiano adyacentes por octava. $k_{i}\sigma$ $k_{j}\sigma$ $k_{i}\sigma$ $k_{j}\sigma$ $\sigma$ $k_{i}$

Una vez obtenidas las imágenes DoG, se identifican los puntos clave como mínimos/máximos locales de las imágenes DoG en todas las escalas. Esto se hace comparando cada píxel de las imágenes DoG con sus ocho vecinos en la misma escala y nueve píxeles vecinos correspondientes en cada una de las escalas vecinas. Si el valor del píxel es el máximo o mínimo entre todos los píxeles comparados, se selecciona como punto clave candidato.

Este paso de detección de puntos clave es una variación de uno de los métodos de detección de manchas desarrollados por Lindeberg mediante la detección de los extremos del espacio de escala del laplaciano normalizado a escala; ^[10]^[11] es decir, la detección de puntos que son extremos locales con respecto tanto al espacio como a la escala, en el caso discreto mediante comparaciones con los 26 vecinos más cercanos en un volumen de espacio de escala discretizado. El operador de diferencia de Gaussianas puede verse como una aproximación al laplaciano, con la normalización implícita en la pirámide que también constituye una aproximación discreta del laplaciano normalizado a escala. ^[12] Lindeberg y Bretzner presentaron otra implementación en tiempo real de los extremos del espacio de escala del operador laplaciano basada en una representación piramidal híbrida, ^[16] que se utilizó para la interacción humano-computadora mediante el reconocimiento de gestos en tiempo real en Bretzner et al. (2002). ^[17]

Localización de puntos clave

La detección de extremos en el espacio de escala produce demasiados candidatos a puntos clave, algunos de los cuales son inestables. El siguiente paso del algoritmo es realizar un ajuste detallado a los datos cercanos para obtener una ubicación, escala y relación precisas de las curvaturas principales . Esta información permite rechazar los puntos que tienen un bajo contraste (y, por lo tanto, son sensibles al ruido) o que están mal ubicados a lo largo de un borde.

Interpolación de datos cercanos para una posición precisa

En primer lugar, para cada punto clave candidato, se utiliza la interpolación de datos cercanos para determinar con precisión su posición. El enfoque inicial consistía simplemente en ubicar cada punto clave en la ubicación y escala del punto clave candidato. ^[1] El nuevo enfoque calcula la ubicación interpolada del extremo, lo que mejora sustancialmente la coincidencia y la estabilidad. ^{[2] La interpolación se realiza utilizando la}expansión cuadrática de Taylor de la función de espacio de escala de diferencia de Gauss, con el punto clave candidato como origen. Esta expansión de Taylor viene dada por: $D\left(x,y,\sigma \right)$

D({\textbf {x}})=D+{\frac {\partial D}{\partial {\textbf {x}}}}^{T}{\textbf {x}}+{\frac {1}{2}}{\textbf {x}}^{T}{\frac {\partial ^{2}D}{\partial {\textbf {x}}^{2}}}{\textbf {x}}

donde D y sus derivadas se evalúan en el punto clave candidato y es el desplazamiento desde este punto. La ubicación del extremo, , se determina tomando la derivada de esta función con respecto a y estableciéndola en cero. Si el desplazamiento es mayor que en cualquier dimensión, entonces eso es una indicación de que el extremo se encuentra más cerca de otro punto clave candidato. En este caso, el punto clave candidato se cambia y la interpolación se realiza en su lugar sobre ese punto. De lo contrario, el desplazamiento se agrega a su punto clave candidato para obtener la estimación interpolada para la ubicación del extremo. Una determinación de subpíxeles similar de las ubicaciones de los extremos del espacio de escala se realiza en la implementación en tiempo real basada en pirámides híbridas desarrolladas por Lindeberg y sus colaboradores. ^[16] ${\textbf {x}}=\left(x,y,\sigma \right)^{T}$ ${\hat {\textbf {x}}}$ ${\textbf {x}}$ ${\hat {\textbf {x}}}$ $0.5$

Descartar puntos clave de bajo contraste

Para descartar los puntos clave con bajo contraste, se calcula el valor de la expansión de Taylor de segundo orden en el desplazamiento . Si este valor es menor que , se descarta el punto clave candidato. De lo contrario, se conserva, con una ubicación final en el espacio de escala , donde es la ubicación original del punto clave. $D({\textbf {x}})$ ${\hat {\textbf {x}}}$ $0.03$ ${\textbf {y}}+{\hat {\textbf {x}}}$ ${\textbf {y}}$

Eliminación de respuestas de borde

La función DoG tendrá respuestas fuertes a lo largo de los bordes, incluso si el punto clave candidato no es robusto a pequeñas cantidades de ruido. Por lo tanto, para aumentar la estabilidad, necesitamos eliminar los puntos clave que tienen ubicaciones mal determinadas pero que tienen respuestas altas en los bordes.

Para picos mal definidos en la función DoG, la curvatura principal a lo largo del borde sería mucho mayor que la curvatura principal a lo largo del mismo. Encontrar estas curvaturas principales equivale a resolver los valores propios de la matriz hessiana de segundo orden , H :

{\textbf {H}}={\begin{bmatrix}D_{xx}&D_{xy}\\D_{xy}&D_{yy}\end{bmatrix}}

Los valores propios de H son proporcionales a las curvaturas principales de D. Resulta que la razón de los dos valores propios, digamos, es la mayor, y la menor, con razón , es suficiente para los propósitos de SIFT. La traza de H , es decir, , nos da la suma de los dos valores propios, mientras que su determinante, es decir, , produce el producto. Se puede demostrar que la razón es igual a , que depende solo de la razón de los valores propios en lugar de sus valores individuales. R es mínimo cuando los valores propios son iguales entre sí. Por lo tanto, cuanto mayor sea la diferencia absoluta entre los dos valores propios, lo que es equivalente a una diferencia absoluta mayor entre las dos curvaturas principales de D, mayor será el valor de R. De ello se deduce que, para alguna razón de valores propios umbral , si R para un punto clave candidato es mayor que , ese punto clave está mal localizado y, por lo tanto, se rechaza. El nuevo enfoque utiliza . ^[2] $\alpha$ $\beta$ $r=\alpha /\beta$ $D_{xx}+D_{yy}$ $D_{xx}D_{yy}-D_{xy}^{2}$ ${\text{R}}=\operatorname {Tr} ({\textbf {H}})^{2}/\operatorname {Det} ({\textbf {H}})$ $(r+1)^{2}/r$ $r_{\text{th}}$ $(r_{\text{th}}+1)^{2}/r_{\text{th}}$ $r_{\text{th}}=10$

Este paso de procesamiento para suprimir las respuestas en los bordes es una transferencia de un enfoque correspondiente en el operador de Harris para la detección de esquinas. La diferencia es que la medida para el umbral se calcula a partir de la matriz de Hesse en lugar de una matriz de segundo momento .

Tarea de orientación

En este paso, a cada punto clave se le asignan una o más orientaciones en función de las direcciones de gradiente de la imagen local. Este es el paso clave para lograr la invariancia a la rotación , ya que el descriptor del punto clave se puede representar en relación con esta orientación y, por lo tanto, lograr la invariancia a la rotación de la imagen.

En primer lugar, se toma la imagen suavizada gaussianamente en la escala del punto clave para que todos los cálculos se realicen de manera invariante a escala. Para una muestra de imagen en la escala , la magnitud del gradiente, , y la orientación, , se calculan previamente utilizando diferencias de píxeles: $L\left(x,y,\sigma \right)$ $\sigma$ $L\left(x,y\right)$ $\sigma$ $m\left(x,y\right)$ $\theta \left(x,y\right)$

m\left(x,y\right)={\sqrt {\left(L\left(x+1,y\right)-L\left(x-1,y\right)\right)^{2}+\left(L\left(x,y+1\right)-L\left(x,y-1\right)\right)^{2}}}

\theta \left(x,y\right)=\mathrm {atan2} \left(L\left(x,y+1\right)-L\left(x,y-1\right),L\left(x+1,y\right)-L\left(x-1,y\right)\right)

Los cálculos de magnitud y dirección para el gradiente se realizan para cada píxel en una región vecina alrededor del punto clave en la imagen borrosa gaussiana L. Se forma un histograma de orientación con 36 bins, cada bin cubre 10 grados. Cada muestra en la ventana vecina agregada a un bin del histograma se pondera por su magnitud de gradiente y por una ventana circular ponderada gaussianamente con una que es 1,5 veces la escala del punto clave. Los picos en este histograma corresponden a orientaciones dominantes. Una vez que se completa el histograma, las orientaciones correspondientes al pico más alto y los picos locales que están dentro del 80% de los picos más altos se asignan al punto clave. En el caso de que se asignen múltiples orientaciones, se crea un punto clave adicional que tiene la misma ubicación y escala que el punto clave original para cada orientación adicional. $\sigma$

Descriptor de puntos clave

Los pasos anteriores encontraron ubicaciones de puntos clave en escalas particulares y les asignaron orientaciones. Esto aseguró la invariancia con respecto a la ubicación, escala y rotación de la imagen. Ahora queremos calcular un vector descriptor para cada punto clave de modo que el descriptor sea altamente distintivo y parcialmente invariante con respecto a las variaciones restantes, como la iluminación, el punto de vista 3D, etc. Este paso se realiza en la imagen más cercana en escala a la escala del punto clave.

En primer lugar, se crea un conjunto de histogramas de orientación en vecindarios de píxeles de 4 × 4 con 8 contenedores cada uno. Estos histogramas se calculan a partir de los valores de magnitud y orientación de las muestras en una región de 16 × 16 alrededor del punto clave, de modo que cada histograma contenga muestras de una subregión de 4 × 4 de la región del vecindario original. Las magnitudes y orientaciones del gradiente de la imagen se muestrean alrededor de la ubicación del punto clave, utilizando la escala del punto clave para seleccionar el nivel de desenfoque gaussiano para la imagen. Para lograr la invariancia de la orientación, las coordenadas del descriptor y las orientaciones del gradiente se rotan en relación con la orientación del punto clave. Las magnitudes se ponderan además mediante una función gaussiana con un valor igual a la mitad del ancho de la ventana del descriptor. El descriptor se convierte entonces en un vector de todos los valores de estos histogramas. Dado que hay 4 × 4 = 16 histogramas, cada uno con 8 contenedores, el vector tiene 128 elementos. Este vector se normaliza luego a una longitud unitaria para mejorar la invariancia a los cambios afines en la iluminación. Para reducir los efectos de la iluminación no lineal, se aplica un umbral de 0,2 y el vector se normaliza nuevamente. El proceso de umbralización, también conocido como fijación, puede mejorar los resultados de la correspondencia incluso cuando no hay efectos de iluminación no lineal. ^[18] El umbral de 0,2 se eligió empíricamente y, al reemplazar el umbral fijo por uno calculado sistemáticamente, se pueden mejorar los resultados de la correspondencia. ^[18] $\sigma$

Aunque la dimensión del descriptor, es decir, 128, parece alta, los descriptores con una dimensión menor que esta no funcionan tan bien en todo el rango de tareas de coincidencia ^[2] y el costo computacional sigue siendo bajo debido al método BBF aproximado (ver más abajo) utilizado para encontrar el vecino más cercano. Los descriptores más largos continúan funcionando mejor, pero no por mucho y existe un peligro adicional de mayor sensibilidad a la distorsión y la oclusión. También se muestra que la precisión de coincidencia de características es superior al 50% para cambios de punto de vista de hasta 50 grados. Por lo tanto, los descriptores SIFT son invariantes a cambios afines menores. Para probar la distinción de los descriptores SIFT, la precisión de coincidencia también se mide contra un número variable de puntos clave en la base de datos de prueba, y se muestra que la precisión de coincidencia disminuye solo muy ligeramente para tamaños de base de datos muy grandes, lo que indica que las características SIFT son altamente distintivas.

Comparación de las características de SIFT con otras características locales

Se ha realizado un estudio exhaustivo sobre la evaluación del rendimiento de diferentes descriptores locales, incluido SIFT, utilizando una variedad de detectores. ^[19] Los principales resultados se resumen a continuación:

Las funciones SIFT y GLOH similares a SIFT muestran las mayores precisiones de coincidencia ( tasas de recuperación ) para una transformación afín de 50 grados. Después de este límite de transformación, los resultados comienzan a volverse poco confiables.
La distinción de los descriptores se mide sumando los valores propios de los descriptores, obtenidos mediante el análisis de componentes principales de los descriptores normalizados por su varianza. Esto corresponde a la cantidad de varianza capturada por diferentes descriptores, por lo tanto, a su distinción. Las características PCA-SIFT (Análisis de componentes principales aplicado a descriptores SIFT), GLOH y SIFT arrojan los valores más altos.
Los descriptores basados en SIFT superan a otros descriptores locales contemporáneos tanto en escenas texturizadas como estructuradas, y la diferencia en el rendimiento es mayor en la escena texturizada.
Para cambios de escala en el rango de 2 a 2,5 y rotaciones de imágenes en el rango de 30 a 45 grados, los descriptores SIFT y basados en SIFT nuevamente superan a otros descriptores locales contemporáneos con contenido de escena tanto texturizado como estructurado.
La introducción de desenfoque afecta a todos los descriptores locales, especialmente a los basados en bordes, como el contexto de forma , porque los bordes desaparecen en el caso de un desenfoque fuerte. Pero GLOH, PCA-SIFT y SIFT aún tuvieron un mejor desempeño que los demás. Esto también es cierto para la evaluación en el caso de cambios de iluminación.

Las evaluaciones realizadas sugieren firmemente que los descriptores basados en SIFT, que se basan en regiones, son los más robustos y distintivos y, por lo tanto, los más adecuados para la correspondencia de características. Sin embargo, los descriptores de características más recientes, como SURF, no se han evaluado en este estudio.

Posteriormente se ha demostrado que SURF tiene un rendimiento similar a SIFT, al mismo tiempo que es mucho más rápido. ^[20] Otros estudios concluyen que cuando la velocidad no es crítica, SIFT supera a SURF. ^[21]^[22] Específicamente, sin tener en cuenta los efectos de discretización, el descriptor de imagen puro en SIFT es significativamente mejor que el descriptor de imagen puro en SURF, mientras que los extremos del espacio de escala del determinante del hessiano subyacente al detector de punto de interés puro en SURF constituyen puntos de interés significativamente mejores en comparación con los extremos del espacio de escala del laplaciano al que el detector de punto de interés en SIFT constituye una aproximación numérica. ^[21]

El rendimiento de la correspondencia de imágenes mediante descriptores SIFT se puede mejorar en el sentido de lograr puntuaciones de eficiencia más altas y puntuaciones de precisión 1 más bajas al reemplazar los extremos del espacio de escala del operador de diferencia de gaussianas en el SIFT original por los extremos del espacio de escala del determinante de la hessiana, o más generalmente considerando una familia más general de puntos de interés del espacio de escala generalizados. ^[21]

Recientemente, se ha propuesto una ligera variación del descriptor que emplea una cuadrícula de histograma irregular que mejora significativamente su rendimiento. ^[23] En lugar de utilizar una cuadrícula de 4 × 4 de compartimentos de histograma, todos los compartimentos se extienden hasta el centro de la característica. Esto mejora la robustez del descriptor a los cambios de escala.

Se ha demostrado que el descriptor SIFT-Rank ^[24] mejora el rendimiento del descriptor SIFT estándar para la correspondencia de características afines. Un descriptor SIFT-Rank se genera a partir de un descriptor SIFT estándar, estableciendo cada bin del histograma en su rango en una matriz ordenada de bins. La distancia euclidiana entre los descriptores SIFT-Rank es invariante a cambios monótonos arbitrarios en los valores de los bins del histograma y está relacionada con el coeficiente de correlación de rango de Spearman .

Aplicaciones

Reconocimiento de objetos mediante funciones SIFT

Dada la capacidad de SIFT para encontrar puntos clave distintivos que son invariables a la ubicación, escala y rotación, y robustos a transformaciones afines (cambios en escala , rotación , cizallamiento y posición) y cambios en la iluminación, se pueden utilizar para el reconocimiento de objetos. Los pasos se detallan a continuación.

En primer lugar, las características SIFT se obtienen de la imagen de entrada utilizando el algoritmo descrito anteriormente.
Estas características se corresponden con la base de datos de características SIFT obtenida de las imágenes de entrenamiento. Esta correspondencia de características se realiza a través de un enfoque del vecino más cercano basado en la distancia euclidiana. Para aumentar la robustez, se rechazan las correspondencias para aquellos puntos clave para los cuales la relación entre la distancia del vecino más cercano y la distancia del segundo vecino más cercano es mayor que 0,8. Esto descarta muchas de las correspondencias falsas que surgen del desorden de fondo. Finalmente, para evitar la costosa búsqueda requerida para encontrar el vecino más cercano basado en la distancia euclidiana, se utiliza un algoritmo aproximado llamado algoritmo best-bin-first. ^[14] Este es un método rápido para devolver el vecino más cercano con alta probabilidad y puede dar una aceleración por factor de 1000 al encontrar el vecino más cercano (de interés) el 95% del tiempo.
Aunque la prueba de relación de distancias descrita anteriormente descarta muchas de las coincidencias falsas que surgen del desorden de fondo, aún tenemos coincidencias que pertenecen a diferentes objetos. Por lo tanto, para aumentar la solidez de la identificación de objetos, queremos agrupar aquellas características que pertenecen al mismo objeto y rechazar las coincidencias que quedan fuera del proceso de agrupamiento. Esto se hace utilizando la transformada de Hough . Esto identificará grupos de características que votan por la misma pose de objeto. Cuando se encuentran grupos de características que votan por la misma pose de un objeto, la probabilidad de que la interpretación sea correcta es mucho mayor que para cualquier característica individual. Cada punto clave vota por el conjunto de poses de objeto que son consistentes con la ubicación, escala y orientación del punto clave. Los contenedores que acumulan al menos 3 votos se identifican como coincidencias de objeto/pose candidatas.
Para cada grupo de candidatos, se obtiene una solución de mínimos cuadrados para los mejores parámetros de proyección afín estimados que relacionan la imagen de entrenamiento con la imagen de entrada. Si la proyección de un punto clave a través de estos parámetros se encuentra dentro de la mitad del rango de error que se utilizó para los parámetros en los intervalos de la transformada de Hough, se mantiene la coincidencia del punto clave. Si quedan menos de 3 puntos después de descartar los valores atípicos para un intervalo, se rechaza la coincidencia del objeto. El ajuste de mínimos cuadrados se repite hasta que no se produzcan más rechazos. Esto funciona mejor para el reconocimiento de superficies planas que para el reconocimiento de objetos 3D, ya que el modelo afín ya no es preciso para los objetos 3D.
En esta revista, ^[25] autores propusieron un nuevo enfoque para utilizar descriptores SIFT con fines de detección de objetos múltiples. El enfoque de detección de objetos múltiples propuesto se prueba en imágenes aéreas y satelitales.

Las características de SIFT se pueden aplicar básicamente a cualquier tarea que requiera la identificación de ubicaciones coincidentes entre imágenes. Se ha trabajado en aplicaciones como el reconocimiento de categorías de objetos particulares en imágenes 2D, reconstrucción 3D, seguimiento y segmentación de movimiento, localización de robots, unión de panoramas de imágenes y calibración epipolar . Algunas de estas se analizan con más detalle a continuación.

Localización y mapeo de robots

En esta aplicación, ^[26] se utiliza un sistema estéreo trinocular para determinar estimaciones 3D para ubicaciones de puntos clave. Los puntos clave se utilizan solo cuando aparecen en las 3 imágenes con disparidades consistentes, lo que da como resultado muy pocos valores atípicos. A medida que el robot se mueve, se localiza utilizando coincidencias de características con el mapa 3D existente y luego agrega características al mapa de manera incremental mientras actualiza sus posiciones 3D utilizando un filtro Kalman . Esto proporciona una solución robusta y precisa al problema de la localización del robot en entornos desconocidos. Los solucionadores 3D recientes aprovechan el uso de direcciones de puntos clave para resolver la geometría trinocular a partir de tres puntos clave ^[27] y la pose absoluta a partir de solo dos puntos clave, ^[28] una medición a menudo ignorada pero útil disponible en SIFT. Estas mediciones de orientación reducen la cantidad de correspondencias requeridas, lo que aumenta aún más la robustez de manera exponencial.

Costura panorámica

La correspondencia de características SIFT se puede utilizar en la unión de imágenes para la reconstrucción totalmente automatizada de panoramas a partir de imágenes no panorámicas. Las características SIFT extraídas de las imágenes de entrada se comparan entre sí para encontrar k vecinos más cercanos para cada característica. Estas correspondencias se utilizan luego para encontrar m imágenes candidatas coincidentes para cada imagen. Luego se calculan las homografías entre pares de imágenes utilizando RANSAC y se utiliza un modelo probabilístico para la verificación. Debido a que no hay restricción en las imágenes de entrada, se aplica la búsqueda de grafos para encontrar componentes conectados de coincidencias de imágenes de modo que cada componente conectado corresponda a un panorama. Finalmente, para cada conjunto de componentes conectados se realiza un ajuste para resolver los parámetros conjuntos de la cámara, y el panorama se renderiza utilizando una combinación multibanda. Debido al enfoque de reconocimiento de objetos inspirado en SIFT para la unión de panoramas, el sistema resultante es insensible al orden, la orientación, la escala y la iluminación de las imágenes. Las imágenes de entrada pueden contener múltiples panoramas e imágenes de ruido (algunas de las cuales pueden no ser ni siquiera parte de la imagen compuesta), y las secuencias panorámicas se reconocen y se renderizan como salida. ^[29]

Modelado, reconocimiento y seguimiento de escenas 3D

Esta aplicación utiliza las características de SIFT para el reconocimiento de objetos 3D y el modelado 3D en el contexto de la realidad aumentada , en la que los objetos sintéticos con una pose precisa se superponen a imágenes reales. La coincidencia SIFT se realiza para una serie de imágenes 2D de una escena u objeto tomadas desde diferentes ángulos. Esto se utiliza con el ajuste de paquete inicializado a partir de una matriz esencial o un tensor trifocal para construir un modelo 3D disperso de la escena vista y para recuperar simultáneamente las poses de la cámara y los parámetros de calibración . Luego, la posición, la orientación y el tamaño del objeto virtual se definen en relación con el marco de coordenadas del modelo recuperado. Para el movimiento de coincidencia en línea , las características de SIFT se extraen nuevamente del marco de video actual y se combinan con las características ya calculadas para el modelo mundial, lo que da como resultado un conjunto de correspondencias 2D a 3D. Estas correspondencias luego se utilizan para calcular la pose actual de la cámara para la proyección virtual y la representación final. Se utiliza una técnica de regularización para reducir la fluctuación en la proyección virtual. ^[30] El uso de direcciones SIFT también se ha utilizado para aumentar la robustez de este proceso. ^[27]^[28] También se han evaluado extensiones 3D de SIFT para el reconocimiento y recuperación de objetos 3D reales . ^[31]^[32]

Descriptores similares a 3D SIFT para el reconocimiento de acciones humanas

Se han estudiado extensiones del descriptor SIFT a datos espacio-temporales 2+1-dimensionales en el contexto del reconocimiento de acciones humanas en secuencias de vídeo. ^[31]^[33]^[34]^[35] El cálculo de histogramas dependientes de la posición local en el algoritmo SIFT 2D se extiende de dos a tres dimensiones para describir las características SIFT en un dominio espacio-temporal. Para la aplicación al reconocimiento de acciones humanas en una secuencia de vídeo, el muestreo de los vídeos de entrenamiento se lleva a cabo en puntos de interés espacio-temporales o en ubicaciones, tiempos y escalas determinados aleatoriamente. Las regiones espacio-temporales alrededor de estos puntos de interés se describen luego utilizando el descriptor SIFT 3D. Estos descriptores se agrupan para formar un modelo de bolsa de palabras espacio-temporal . Los descriptores SIFT 3D extraídos de los vídeos de prueba se comparan luego con estas palabras para la clasificación de acciones humanas.

Los autores informan resultados mucho mejores con su enfoque de descriptor SIFT 3D que con otros enfoques como descriptores SIFT 2D simples y Magnitud de gradiente. ^[36]

Análisis del cerebro humano en imágenes de resonancia magnética 3D

La técnica de morfometría basada en características (FBM) ^[37] utiliza los extremos en una diferencia de escala gaussiana para analizar y clasificar imágenes de resonancia magnética (IRM) 3D del cerebro humano. FBM modela la imagen de manera probabilística como un collage de características independientes, condicionadas a la geometría de la imagen y las etiquetas de grupo, por ejemplo, sujetos sanos y sujetos con enfermedad de Alzheimer (EA). Las características se extraen primero en imágenes individuales a partir de una diferencia de escala gaussiana 4D, luego se modelan en términos de su apariencia, geometría y estadísticas de coocurrencia de grupo en un conjunto de imágenes. FBM se validó en el análisis de EA utilizando un conjunto de ~200 IRM volumétricas del cerebro humano, identificando automáticamente indicadores establecidos de EA en el cerebro y clasificando EA leve en nuevas imágenes con una tasa del 80%. ^[37]

Métodos en competencia

Los métodos alternativos para el reconocimiento de objetos invariantes de escala en condiciones de desorden/oclusión parcial incluyen los siguientes.

RIFT ^[38] es una generalización invariante de rotación de SIFT. El descriptor RIFT se construye utilizando parches circulares normalizados divididos en anillos concéntricos de igual ancho y dentro de cada anillo se calcula un histograma de orientación de gradiente. Para mantener la invariancia de rotación, la orientación se mide en cada punto en relación con la dirección que apunta hacia afuera desde el centro.

RootSIFT ^[39] es una variante de SIFT que modifica la normalización de descriptores. Debido a que los descriptores SIFT son histogramas (y también lo son las distribuciones de probabilidad ), la distancia euclidiana no es una forma precisa de medir su similitud. Las mejores métricas de similitud resultan ser las adaptadas a las distribuciones de probabilidad, como el coeficiente de Bhattacharyya (también llamado kernel de Hellinger). Para este propósito, el descriptor originalmente normalizado se normaliza primero y se calcula la raíz cuadrada de cada elemento, seguido de la renormalización. Después de estas manipulaciones algebraicas, los descriptores RootSIFT se pueden comparar normalmente utilizando la distancia euclidiana , que es equivalente a utilizar el kernel de Hellinger en los descriptores SIFT originales. Este esquema de normalización denominado "L1-sqrt" se introdujo previamente para la normalización de bloques de características HOG cuya variante de descriptor de disposición de bloques rectangulares (R-HOG) es conceptualmente similar al descriptor SIFT. $\ell ^{2}$ $\ell ^{1}$ $\ell ^{2}$

G-RIF: ^[40] La característica invariante robusta generalizada es un descriptor de contexto general que codifica la orientación de los bordes, la densidad de los bordes y la información de tono en una forma unificada que combina la información perceptual con la codificación espacial. El esquema de reconocimiento de objetos utiliza la votación basada en el contexto vecino para estimar los modelos de objetos.

" SURF : ^[41] Speeded Up Robust Features" es un detector/descriptor de puntos de interés de alto rendimiento, invariante en escala y rotación, que se afirma que se aproxima o incluso supera a los esquemas propuestos anteriormente con respecto a la repetibilidad, la distinción y la robustez. SURF se basa en imágenes integrales para las convoluciones de imágenes para reducir el tiempo de cálculo, se basa en las fortalezas de los principales detectores y descriptores existentes (utilizando una medida rápida basada en la matriz Hessiana para el detector y un descriptor basado en la distribución). Describe una distribución de respuestas de wavelet de Haar dentro del vecindario del punto de interés. Se utilizan imágenes integrales para la velocidad y solo se utilizan 64 dimensiones, lo que reduce el tiempo para el cálculo y la coincidencia de características. El paso de indexación se basa en el signo del Laplaciano , que aumenta la velocidad de coincidencia y la robustez del descriptor.

PCA-SIFT ^[42] y GLOH ^[19] son variantes de SIFT. El descriptor PCA-SIFT es un vector de gradientes de imagen en dirección x e y calculado dentro de la región de soporte. La región de gradiente se muestrea en 39×39 ubicaciones, por lo tanto, el vector tiene una dimensión de 3042. La dimensión se reduce a 36 con PCA . El histograma de orientación-ubicación de gradiente ( GLOH ) es una extensión del descriptor SIFT diseñado para aumentar su robustez y distinción. El descriptor SIFT se calcula para una cuadrícula de ubicación log-polar con tres contenedores en dirección radial (el radio se establece en 6, 11 y 15) y 8 en dirección angular, lo que da como resultado 17 contenedores de ubicación. El contenedor central no está dividido en direcciones angulares. Las orientaciones de gradiente se cuantifican en 16 contenedores, lo que da como resultado un histograma de 272 contenedores. El tamaño de este descriptor se reduce con PCA . La matriz de covarianza para PCA se estima en parches de imagen recopilados de varias imágenes. Los 128 vectores propios más grandes se utilizan para la descripción.

Gauss-SIFT ^[21] es un descriptor de imagen puro definido al realizar todas las mediciones de imagen subyacentes al descriptor de imagen puro en SIFT mediante respuestas derivadas gaussianas en oposición a aproximaciones derivadas en una pirámide de imágenes como se hace en SIFT regular. De esta manera, los efectos de discretización sobre el espacio y la escala se pueden reducir al mínimo, lo que permite descriptores de imagen potencialmente más precisos. En Lindeberg (2015) ^[21] dichos descriptores de imagen Gauss-SIFT puros se combinaron con un conjunto de puntos de interés de escala-espacio generalizados que comprenden el Laplaciano del Gaussiano , el determinante del Hessiano , cuatro nuevas medidas de fuerza de característica Hessiana sin signo o con signo, así como puntos de interés de Harris-Laplace y Shi-y-Tomasi . En una evaluación experimental extensa sobre un conjunto de datos de pósters que comprende múltiples vistas de 12 pósters sobre transformaciones de escala de hasta un factor de 6 y variaciones de dirección de visualización de hasta un ángulo de inclinación de 45 grados, se demostró que se podía obtener un aumento sustancial en el rendimiento de la coincidencia de imágenes (puntajes de eficiencia más altos y puntajes de precisión 1 más bajos ) al reemplazar el laplaciano de los puntos de interés gaussianos por el determinante de los puntos de interés hessianos. Dado que los puntos de interés de diferencia de gaussianos constituyen una aproximación numérica del laplaciano de los puntos de interés gaussianos, esto demuestra que es posible un aumento sustancial en el rendimiento de la coincidencia al reemplazar los puntos de interés de diferencia de gaussianos en SIFT por el determinante de los puntos de interés hessianos. Además, se puede obtener un aumento adicional en el rendimiento al considerar la medida de intensidad de característica hessiana sin signo . Una comparación cuantitativa entre el descriptor Gauss-SIFT y un descriptor Gauss-SURF correspondiente también mostró que Gauss-SIFT generalmente funciona significativamente mejor que Gauss-SURF para una gran cantidad de detectores de puntos de interés en diferentes escalas espaciales. Por lo tanto, este estudio muestra que, sin tener en cuenta los efectos de discretización, el descriptor de imagen pura en SIFT es significativamente mejor que el descriptor de imagen pura en SURF, mientras que el detector de puntos de interés subyacente en SURF, que puede verse como una aproximación numérica a los extremos en escalas espaciales del determinante del hessiano, es significativamente mejor que el detector de puntos de interés subyacente en SIFT. $D_{1}L=\operatorname {det} HL-k\,\operatorname {trace} ^{2}HL\,{\mbox{if}}\operatorname {det} HL-k\,\operatorname {trace} ^{2}HL>0\,{\mbox{or 0 otherwise}}$

Wagner et al. desarrollaron dos algoritmos de reconocimiento de objetos especialmente diseñados teniendo en cuenta las limitaciones de los teléfonos móviles actuales. ^[43] A diferencia del enfoque SIFT clásico, Wagner et al. utilizan el detector de esquinas FAST para la detección de características. El algoritmo también distingue entre la fase de preparación fuera de línea, donde las características se crean a diferentes niveles de escala, y la fase en línea, donde las características solo se crean a nivel de escala fija actual de la imagen de la cámara del teléfono. Además, las características se crean a partir de un tamaño de parche fijo de 15 × 15 píxeles y forman un descriptor SIFT con solo 36 dimensiones. El enfoque se ha ampliado aún más mediante la integración de un árbol de vocabulario escalable en la tubería de reconocimiento. ^[44] Esto permite el reconocimiento eficiente de una mayor cantidad de objetos en teléfonos móviles. El enfoque está restringido principalmente por la cantidad de RAM disponible .

KAZE y A-KAZE (KAZE Features y Accelerated-Kaze Features) son un nuevo método de detección y descripción de características 2D que funciona mejor que SIFT y SURF. Gana mucha popularidad debido a su código fuente abierto. KAZE fue creado originalmente por Pablo F. Alcantarilla, Adrien Bartoli y Andrew J. Davison. ^[45]

Véase también

Referencias

^ abcd Lowe, David G. (1999). "Reconocimiento de objetos a partir de características invariantes en la escala local" (PDF) . Actas de la Conferencia Internacional sobre Visión por Computador . Vol. 2. págs. 1150–1157. doi :10.1109/ICCV.1999.790410.
^ abcdef Lowe, David G. (2004). "Características distintivas de la imagen a partir de puntos clave invariantes en la escala". Revista internacional de visión artificial . 60 (2): 91–110. CiteSeerX 10.1.1.73.2924 . doi :10.1023/B:VISI.0000029664.99615.94. S2CID 221242327.
^ ab Patente estadounidense 6.711.293 , "Método y aparato para identificar características invariantes de escala en una imagen y uso de los mismos para localizar un objeto en una imagen", patente de David Lowe para el algoritmo SIFT, 23 de marzo de 2004
^ Koenderink, Jan y van Doorn, Respuesta: "Representación de la geometría local en el sistema visual Archivado el 2 de agosto de 2019 en Wayback Machine ", Biological Cybernetics, vol 3, pp 383-396, 1987
^ Koenderink, Jan y van Doorn, Respuesta: "Operadores de vecindad genéricos", IEEE Transactions on Pattern Analysis and Machine Intelligence, vol 14, pp 597-605, 1992
^ Lindeberg, Tony (diciembre de 2013). "Una teoría computacional de los campos receptivos visuales". Cibernética biológica . 107 (6): 589–635. doi :10.1007/s00422-013-0569-z. PMC 3840297 . PMID 24197240.
^ Lindeberg, Tony (2013). Teoría axiomática generalizada del espacio de escala. Avances en imágenes y física electrónica. Vol. 178. págs. 1–96. doi :10.1016/b978-0-12-407701-0.00001-7. ISBN 978-0-12-407701-0.
^ Lindeberg, Tony (19 de julio de 2013). "Invariancia de las operaciones visuales a nivel de los campos receptivos". PLOS ONE . 8 (7): e66990. arXiv : 1210.0754 . Bibcode :2013PLoSO...866990L. doi : 10.1371/journal.pone.0066990 . PMC 3716821 . PMID 23894283.
^ ab T. Lindeberg (2014) "Selección de escala", Computer Vision: A Reference Guide, (K. Ikeuchi, Editor), Springer, páginas 701-713.
^ ab Lindeberg, T., Teoría del espacio de escala en la visión por computadora, Kluwer Academic Publishers, 1994, ISBN 0-7923-9418-6
^ ab Lindeberg, Tony (1998). "Detección de características con selección automática de escala". Revista internacional de visión artificial . 30 (2): 79–116. doi :10.1023/A:1008045108935. S2CID 723210.
^ ab Lindeberg, Tony (2012). "Transformación de características invariantes de escala". Scholarpedia . 7 (5): 10491. Bibcode :2012SchpJ...710491L. doi : 10.4249/scholarpedia.10491 .
^ Serre, T., Kouh, M., Cadieu, C., Knoblich, U., Kreiman, G., Poggio, T., “Una teoría de reconocimiento de objetos: cálculos y circuitos en la ruta de avance de la corriente ventral en la corteza visual de los primates Archivado el 20 de julio de 2011 en Wayback Machine ”, Informe técnico del Laboratorio de Ciencias de la Computación e Inteligencia Artificial, 19 de diciembre de 2005 MIT-CSAIL-TR-2005-082.
^ ab Beis, J.; Lowe, David G. (1997). "Indexación de formas mediante búsqueda aproximada del vecino más cercano en espacios de alta dimensión" (PDF) . Conferencia sobre Visión por Computador y Reconocimiento de Patrones, Puerto Rico: sn . pp. 1000–1006. doi :10.1109/CVPR.1997.609451.
^ Lowe, DG, Agrupamiento de vistas de características locales para reconocimiento de objetos 3D. Conferencia IEEE sobre visión artificial y reconocimiento de patrones, Kauai, Hawái, 2001, págs. 682-688.
^ ab Lindeberg, Tony; Bretzner, Lars (2003). "Selección de escala en tiempo real en representaciones híbridas multiescala". Métodos de espacio de escala en visión artificial. Apuntes de clase en informática. Vol. 2695. págs. 148–163. doi :10.1007/3-540-44935-3_11. ISBN 978-3-540-40368-5.
^ Lars Bretzner, Ivan Laptev, Tony Lindeberg "Reconocimiento de gestos de la mano mediante características de color de múltiples escalas, modelos jerárquicos y filtrado de partículas", Actas de la Quinta Conferencia Internacional IEEE sobre Reconocimiento Automático de Rostros y Gestos, Washington, DC, EE. UU., 21-21 de mayo de 2002, páginas 423-428. ISBN 0-7695-1602-5 , doi :10.1109/AFGR.2002.1004190
^ ab Kirchner, Matthew R. "Umbralización automática de descriptores SIFT". En Procesamiento de imágenes (ICIP), Conferencia internacional IEEE de 2016 , págs. 291-295. IEEE, 2016.
^ ab Mikolajczyk, K.; Schmid, C. (2005). "Una evaluación del rendimiento de los descriptores locales" (PDF) . IEEE Transactions on Pattern Analysis and Machine Intelligence . 27 (10): 1615–1630. CiteSeerX 10.1.1.230.255 . doi :10.1109/TPAMI.2005.188. PMID 16237996. S2CID 2572455.
^ "TU-chemnitz.de" (PDF) .
^ abcde Lindeberg, Tony (1 de mayo de 2015). "Coincidencia de imágenes mediante puntos de interés generalizados en el espacio de escala". Revista de imágenes y visión matemática . 52 (1): 3–36. Bibcode :2015JMIV...52....3L. doi : 10.1007/s10851-014-0541-0 . S2CID 254657377.
^ Edouard Oyallon, Julien Rabin, "Un análisis e implementación del método SURF y su comparación con SIFT", Procesamiento de imágenes en línea
^ Cui, Y.; Hasler, N.; Thormaehlen, T.; Seidel, H.-P. (julio de 2009). "Transformación de características invariantes de escala con agrupamiento de histogramas de orientación irregular" (PDF) . Actas de la Conferencia internacional sobre análisis y reconocimiento de imágenes (ICIAR 2009) . Halifax, Canadá: Springer. Archivado desde el original (PDF) el 23 de septiembre de 2010 . Consultado el 8 de abril de 2009 .
^ Matthew Toews; William M. Wells III (2009). "SIFT-Rank: Descriptores ordinales para correspondencia de características invariantes" (PDF) . IEEE International Conference on Computer Vision and Pattern Recognition . págs. 172–177. doi :10.1109/CVPR.2009.5206849.
^ Beril Sirmacek y Cem Unsalan (2009). "Detección de áreas urbanas y edificios mediante puntos clave SIFT y teoría de grafos". IEEE Transactions on Geoscience and Remote Sensing . 47 (4): 1156–1167. Bibcode :2009ITGRS..47.1156S. doi :10.1109/TGRS.2008.2008440. S2CID 6629776.
^ Se, S.; Lowe, David G.; Little, J. (2001). "Localización y mapeo de robots móviles basados en visión utilizando características invariantes de escala". Actas de la Conferencia Internacional IEEE sobre Robótica y Automatización (ICRA) . Vol. 2. p. 2051. doi :10.1109/ROBOT.2001.932909.
^ ab Fabbri, Ricardo; Duff, Timothy; Fan, Hongyi; Regan, Margaret; de Pinho, David; Tsigaridas, Elias; Wampler, Charles; Hauenstein, Jonathan; Kimia, Benjamin; Leykin, Anton; Pajdla, Tomas (23 de marzo de 2019). "Pose relativa trifocal a partir de líneas en puntos y su solución eficiente". arXiv : 1903.09755 [cs.CV].
^ ab Fabbri, Ricardo; Giblin, Peter; Kimia, Benjamin (2012). "Estimación de la posición de la cámara mediante geometría diferencial de curvas de primer orden". Visión artificial – ECCV 2012 (PDF) . Apuntes de clase en informática. Vol. 7575. págs. 231–244. doi :10.1007/978-3-642-33765-9_17. ISBN 978-3-642-33764-2. Número de identificación del sujeto 15402824.
^ Brown, M.; Lowe, David G. (2003). "Recognising Panoramas" (PDF) . Actas de la novena Conferencia Internacional IEEE sobre Visión por Computador . Vol. 2. págs. 1218–1225. doi :10.1109/ICCV.2003.1238630.
^ Iryna Gordon y David G. Lowe, "Qué y dónde: reconocimiento de objetos en 3D con una pose precisa", en Toward Category-Level Object Recognition (Hacia el reconocimiento de objetos a nivel de categoría), (Springer-Verlag, 2006), págs. 67-82
^ ab Flitton, G.; Breckon, T. (2010). "Reconocimiento de objetos mediante 3D SIFT en volúmenes de TC complejos" (PDF) . Actas de la British Machine Vision Conference . págs. 11.1–12. doi : 10.5244/C.24.11 .
^ Flitton, GT, Breckon, TP, Megherbi, N. (2013). "Una comparación de descriptores de puntos de interés 3D con aplicación a la detección de objetos de equipaje de aeropuerto en imágenes de TC complejas". Reconocimiento de patrones . 46 (9): 2420–2436. Bibcode :2013PatRe..46.2420F. doi :10.1016/j.patcog.2013.02.008. hdl : 1826/15213 .{{cite journal}}: CS1 maint: multiple names: authors list (link)
^ Laptev, Ivan y Lindeberg, Tony (2004). "Descriptores locales para el reconocimiento espacio-temporal". Taller ECCV'04 sobre coherencia espacial para el análisis visual del movimiento, Springer Lecture Notes in Computer Science, volumen 3667. págs. 91–103. CiteSeerX 10.1.1.78.400 . doi :10.1007/11676959_8.
^ Ivan Laptev, Barbara Caputo, Christian Schuldt y Tony Lindeberg (2007). "Eventos de movimiento adaptados a la velocidad local para el reconocimiento espacio-temporal". Visión artificial y comprensión de imágenes . 108 (3): 207–229. CiteSeerX 10.1.1.168.5780 . doi :10.1016/j.cviu.2006.11.023. {{cite journal}}: CS1 maint: multiple names: authors list (link)
^ Scovanner, Paul; Ali, S; Shah, M (2007). "Un descriptor de tamizado tridimensional y su aplicación al reconocimiento de acciones". Actas de la 15.ª Conferencia Internacional sobre Multimedia . págs. 357–360. doi :10.1145/1291233.1291311.
^ Niebles, JC Wang, H. y Li, Fei-Fei (2006). "Aprendizaje no supervisado de categorías de acciones humanas utilizando palabras espacio-temporales". Actas de la British Machine Vision Conference (BMVC) . Edimburgo. Archivado desde el original el 2008-07-05 . Consultado el 20 de agosto de 2008 .{{cite conference}}: CS1 maint: multiple names: authors list (link)
^ por Matthew Toews; William M. Wells III; D. Louis Collins; Tal Arbel (2010). "Morfometría basada en características: descubrimiento de patrones anatómicos relacionados con grupos" (PDF) . NeuroImage . 49 (3): 2318–2327. doi :10.1016/j.neuroimage.2009.10.032. PMC 4321966 . PMID 19853047.
^ Lazebnik, S. , Schmid, C. y Ponce, J., "Partes afines semilocales para reconocimiento de objetos", Actas de la Conferencia británica sobre visión artificial, 2004.
^ Arandjelović, Relja; Zisserman, Andrew (2012). "Tres cosas que todos deberían saber para mejorar la recuperación de objetos". Conferencia IEEE de 2012 sobre visión artificial y reconocimiento de patrones . págs. 2911–2918. doi :10.1109/CVPR.2012.6248018.
^ Sungho Kim, Kuk-Jin Yoon, In So Kweon, "Reconocimiento de objetos utilizando una característica invariante robusta generalizada y la ley de proximidad y similitud de la Gestalt", Taller de la Conferencia sobre visión artificial y reconocimiento de patrones (CVPRW'06), 2006
^ Bay, H., Tuytelaars, T., Van Gool, L., "SURF: Speeded Up Robust Features", Actas de la novena Conferencia Europea sobre Visión por Computador, mayo de 2006.
^ Ke, Y., y Sukthankar, R., "PCA-SIFT: una representación más distintiva para descriptores de imágenes locales", Visión artificial y reconocimiento de patrones, 2004.
^ D. Wagner, G. Reitmayr, A. Mulloni, T. Drummond y D. Schmalstieg, "Seguimiento de pose a partir de características naturales en teléfonos móviles Archivado el 12 de junio de 2009 en Wayback Machine " Actas del Simposio Internacional sobre Realidad Mixta y Aumentada, 2008.
^ N. Henze, T. Schinke y S. Boll, "¿Qué es eso? Reconocimiento de objetos a partir de características naturales en un teléfono móvil", Actas del taller sobre interacción móvil con el mundo real, 2009.
^ "kaze". www.robesafe.com .

Enlaces externos

Estudios relacionados:

Wang, YuanBin; Bin, Zhang; Ge, Yu (2008). "Las relaciones invariantes de la proyección 3D a 2D de conjuntos de puntos". Revista de investigación de reconocimiento de patrones . 3 (1): 14–23. doi :10.13176/11.26.
Lowe, David G. (noviembre de 2004). "Características distintivas de imágenes a partir de puntos clave invariantes en escala". Revista internacional de visión artificial . 60 (2): 91–110. doi :10.1023/B:VISI.0000029664.99615.94.
Mikolajczyk, K.; Schmid, C. (octubre de 2005). "Una evaluación del rendimiento de los descriptores locales". IEEE Transactions on Pattern Analysis and Machine Intelligence . 27 (10): 1615–1630. doi :10.1109/TPAMI.2005.188. PMID 16237996.
Andrea Maricela Plaza Cordero, Jorge Luis Zambrano-Martinez, " Estudio y Selección de las Técnicas SIFT, SURF y ASIFT de Reconocimiento de Imágenes para el Diseño de un Prototipo en Dispositivos Móviles", 15º Concurso de Trabajos Estudiantiles, EST 2012
«PCA-SIFT: una representación más distintiva para descriptores de imágenes locales». Archivado desde el original el 26 de enero de 2020.
Lazebnik, S. , Schmid, C. y Ponce, J., Semi-Local Affine Parts for Object Recognition, BMVC, 2004. Archivado el 11 de octubre de 2017 en Wayback Machine.

Tutoriales:

Transformación de características invariante en escala (SIFT) en Scholarpedia
Una sencilla guía paso a paso para SIFT
"SIFT para la detección de múltiples objetos". Archivado desde el original el 3 de abril de 2015.
"La anatomía del método SIFT" en Procesamiento de imágenes en línea, un estudio detallado de cada paso del algoritmo con una implementación de código abierto y una demostración web para probar diferentes parámetros

Implementaciones:

Implementación de SIFT por parte de Rob Hess, consultado el 21 de noviembre de 2012
ASIFT (Affine SIFT): comparación de puntos de vista con SIFT, con código fuente y demostración en línea
VLFeat, una biblioteca de visión por computadora de código abierto en C (con una interfaz MEX a MATLAB), que incluye una implementación de SIFT
LIP-VIREO Archivado el 11 de mayo de 2017 en Wayback Machine . Un conjunto de herramientas para la extracción de características de puntos clave (binarios para Windows, Linux y SunOS), que incluye una implementación de SIFT
(Paralelo) SIFT en C#, algoritmo SIFT en C# usando Emgu CV y también una versión paralela modificada del algoritmo.
DoH y LoG + afín, detector de blobs adaptado de una caja de herramientas SIFT
ezSIFT: una implementación de SIFT independiente y fácil de usar en C/C++. Una implementación de SIFT de código abierto y autónoma que no requiere otras bibliotecas.
Una implementación de 3D SIFT: detección y comparación en imágenes volumétricas.