Característica (visión por computadora)

En visión por computadora y procesamiento de imágenes , una característica es una información sobre el contenido de una imagen; normalmente sobre si una determinada región de la imagen tiene determinadas propiedades. Las características pueden ser estructuras específicas en la imagen, como puntos, bordes u objetos. Las características también pueden ser el resultado de una operación general de vecindad o de una detección de características aplicada a la imagen. Otros ejemplos de características están relacionados con el movimiento en secuencias de imágenes o con formas definidas en términos de curvas o límites entre diferentes regiones de la imagen.

En términos más generales, una característica es cualquier información que sea relevante para resolver la tarea computacional relacionada con una determinada aplicación. Este es el mismo sentido que la característica del aprendizaje automático y el reconocimiento de patrones en general, aunque el procesamiento de imágenes tiene una colección de características muy sofisticada. El concepto de característica es muy general y la elección de características en un sistema de visión por computadora en particular puede depender en gran medida del problema específico en cuestión.

Definición

No existe una definición universal o exacta de lo que constituye una característica y la definición exacta a menudo depende del problema o del tipo de aplicación. Sin embargo, una característica normalmente se define como una parte "interesante" de una imagen y las características se utilizan como punto de partida para muchos algoritmos de visión por computadora.

Dado que las características se utilizan como punto de partida y primitivas principales para algoritmos posteriores, el algoritmo general a menudo será tan bueno como su detector de características. En consecuencia, la propiedad deseable para un detector de características es la repetibilidad : si la misma característica se detectará o no en dos o más imágenes diferentes de la misma escena.

La detección de características es una operación de procesamiento de imágenes de bajo nivel . Es decir, generalmente se realiza como la primera operación en una imagen y examina cada píxel para ver si hay una característica presente en ese píxel. Si esto es parte de un algoritmo más grande, entonces el algoritmo normalmente solo examinará la imagen en la región de las características. Como requisito previo incorporado para la detección de características, la imagen de entrada generalmente se suaviza mediante un núcleo gaussiano en una representación de espacio de escala y se calculan una o varias imágenes de características, a menudo expresadas en términos de operaciones derivadas de imágenes locales.

Ocasionalmente, cuando la detección de características es costosa desde el punto de vista computacional y existen limitaciones de tiempo, se puede usar un algoritmo de nivel superior para guiar la etapa de detección de características, de modo que solo se busquen características en ciertas partes de la imagen.

Existen muchos algoritmos de visión por computadora que utilizan la detección de características como paso inicial, por lo que se ha desarrollado una gran cantidad de detectores de características. Estos varían ampliamente en los tipos de características detectadas, la complejidad computacional y la repetibilidad.

Cuando las características se definen en términos de operaciones de vecindad local aplicadas a una imagen, un procedimiento comúnmente conocido como extracción de características , se puede distinguir entre enfoques de detección de características que producen decisiones locales sobre si hay una característica de un tipo determinado en un punto determinado de la imagen o no, y aquellos que producen datos no binarios como resultado. La distinción se vuelve relevante cuando las características detectadas resultantes son relativamente escasas. Aunque se toman decisiones locales, no es necesario que el resultado de un paso de detección de características sea una imagen binaria. El resultado suele representarse en términos de conjuntos de coordenadas (conectadas o no) de los puntos de la imagen donde se han detectado características, a veces con una precisión de subpíxeles.

Cuando la extracción de características se realiza sin una toma de decisiones local, el resultado a menudo se denomina imagen de características . En consecuencia, una imagen característica puede verse como una imagen en el sentido de que es una función de las mismas variables espaciales (o temporales) que la imagen original, pero donde los valores de los píxeles contienen información sobre las características de la imagen en lugar de la intensidad o el color. Esto significa que una imagen característica se puede procesar de forma similar a una imagen normal generada por un sensor de imagen. Las imágenes de características también se calculan a menudo como un paso integrado en algoritmos para la detección de características.

Vectores de características y espacios de características

En algunas aplicaciones, no basta con extraer sólo un tipo de característica para obtener la información relevante de los datos de la imagen. En su lugar, se extraen dos o más características diferentes, lo que da como resultado dos o más descriptores de características en cada punto de la imagen. Una práctica común es organizar la información proporcionada por todos estos descriptores como elementos de un solo vector, comúnmente denominado vector de características . El conjunto de todos los vectores de características posibles constituye un espacio de características . ^[1]

Un ejemplo común de vectores de características aparece cuando cada punto de la imagen debe clasificarse como perteneciente a una clase específica. Suponiendo que cada punto de la imagen tiene un vector de características correspondiente basado en un conjunto adecuado de características, lo que significa que cada clase está bien separada en el espacio de características correspondiente, la clasificación de cada punto de la imagen se puede realizar utilizando el método de clasificación estándar .

Otro ejemplo relacionado ocurre cuando se aplica a imágenes un procesamiento basado en redes neuronales . Los datos de entrada que se alimentan a la red neuronal a menudo se dan en términos de un vector de características de cada punto de la imagen, donde el vector se construye a partir de varias características diferentes extraídas de los datos de la imagen. Durante una fase de aprendizaje, la red puede encontrar por sí misma qué combinaciones de diferentes características son útiles para resolver el problema en cuestión.

Tipos

Bordes

Los bordes son puntos donde hay un límite (o un borde) entre dos regiones de la imagen. En general, un borde puede tener una forma casi arbitraria y puede incluir uniones. En la práctica, los bordes suelen definirse como conjuntos de puntos en la imagen que tienen una magnitud de gradiente fuerte . Además, algunos algoritmos comunes encadenan puntos de alto gradiente para formar una descripción más completa de un borde. Estos algoritmos suelen imponer algunas restricciones a las propiedades de un borde, como la forma, la suavidad y el valor del gradiente.

Localmente, los bordes tienen una estructura unidimensional.

Esquinas/puntos de interés

Los términos esquinas y puntos de interés se usan de manera algo intercambiable y se refieren a características puntuales en una imagen, que tienen una estructura bidimensional local. El nombre "Esquina" surgió desde que los primeros algoritmos realizaron por primera vez la detección de bordes y luego analizaron los bordes para encontrar cambios rápidos de dirección (esquinas). Luego, estos algoritmos se desarrollaron para que ya no fuera necesaria la detección explícita de bordes, por ejemplo buscando altos niveles de curvatura en el gradiente de la imagen . Entonces se observó que las llamadas esquinas también se detectaban en partes de la imagen que no eran esquinas en el sentido tradicional (por ejemplo, se puede detectar un pequeño punto brillante sobre un fondo oscuro). Estos puntos se conocen con frecuencia como puntos de interés, pero la tradición utiliza el término "esquina" ^{[ cita necesaria ]} .

Blobs/regiones de puntos de interés

Los blobs proporcionan una descripción complementaria de las estructuras de la imagen en términos de regiones, a diferencia de las esquinas que son más puntuales. Sin embargo, los descriptores de blobs a menudo pueden contener un punto preferido (un máximo local de la respuesta de un operador o un centro de gravedad), lo que significa que muchos detectores de blobs también pueden considerarse operadores de puntos de interés. Los detectores de manchas pueden detectar áreas en una imagen que son demasiado suaves para ser detectadas por un detector de esquinas.

Considere reducir una imagen y luego realizar la detección de esquinas. El detector responderá a puntos que son nítidos en la imagen reducida, pero que pueden ser suaves en la imagen original. Es en este punto que la diferencia entre un detector de esquinas y un detector de manchas se vuelve algo vaga. En gran medida, esta distinción puede remediarse incluyendo una noción apropiada de escala. Sin embargo, debido a sus propiedades de respuesta a diferentes tipos de estructuras de imágenes a diferentes escalas, los detectores de burbujas LoG y DoH también se mencionan en el artículo sobre detección de esquinas .

Crestas

Para objetos alargados, la noción de crestas es una herramienta natural. Un descriptor de cresta calculado a partir de una imagen de nivel de grises puede verse como una generalización de un eje medial . Desde un punto de vista práctico, una cresta puede considerarse como una curva unidimensional que representa un eje de simetría y, además, tiene un atributo de ancho de cresta local asociado con cada punto de cresta. Desafortunadamente, sin embargo, es algorítmicamente más difícil extraer características de crestas de clases generales de imágenes de nivel de grises que características de bordes, esquinas o manchas. Sin embargo, los descriptores de crestas se utilizan con frecuencia para la extracción de carreteras en imágenes aéreas y para extraer vasos sanguíneos en imágenes médicas; consulte detección de crestas .

Detección

La detección de características incluye métodos para calcular abstracciones de información de la imagen y tomar decisiones locales en cada punto de la imagen, ya sea que exista una característica de la imagen de un tipo determinado en ese punto o no. Las características resultantes serán subconjuntos del dominio de la imagen, a menudo en forma de puntos aislados, curvas continuas o regiones conectadas.

La extracción de características a veces se realiza a través de varias escalas. Uno de estos métodos es la transformación de características invariantes de escala (SIFT).

Extracción

Una vez que se han detectado las características, se puede extraer un parche de imagen local alrededor de la característica. Esta extracción puede implicar cantidades bastante considerables de procesamiento de imágenes. El resultado se conoce como descriptor de características o vector de características. Entre los enfoques que se utilizan para la descripción de características, se pueden mencionar N -jets e histogramas locales (consulte la transformación de características invariantes de escala para ver un ejemplo de un descriptor de histograma local). Además de dicha información de atributos, el paso de detección de características por sí solo también puede proporcionar atributos complementarios, tales como la orientación del borde y la magnitud del gradiente en la detección de bordes y la polaridad y la fuerza de la mancha en la detección de manchas.

Nivel bajo

Curvatura

Dirección del borde, cambio de intensidad, autocorrelación .

Movimiento de imagen

Detección de movimiento . Enfoque territorial y diferencial. Flujo óptico .

Basado en forma

Umbral
Extracción de manchas
Comparación de plantillas
gran transformación
- Líneas
- Círculos/elipses
- Formas arbitrarias (transformada de Hough generalizada)
- Funciona con cualquier característica parametrizable (variables de clase, detección de clústeres, etc.)
Transformada de Hough generalizada

Métodos flexibles

Formas deformables y parametrizadas.
Contornos activos (serpientes)

Representación

Una característica de imagen específica, definida en términos de una estructura específica en los datos de la imagen, a menudo se puede representar de diferentes maneras. Por ejemplo, un borde se puede representar como una variable booleana en cada punto de la imagen que describe si hay un borde presente en ese punto. Alternativamente, podemos usar una representación que proporcione una medida de certeza en lugar de una declaración booleana de la existencia del borde y combinar esto con información sobre la orientación del borde. De manera similar, el color de una región específica se puede representar en términos de color promedio (tres escalares) o de un histograma de color (tres funciones).

Cuando se diseña un sistema de visión por computadora o un algoritmo de visión por computadora, la elección de la representación de características puede ser una cuestión crítica. En algunos casos, puede ser necesario un mayor nivel de detalle en la descripción de una característica para resolver el problema, pero esto tiene el costo de tener que lidiar con más datos y un procesamiento más exigente. A continuación se analizan algunos de los factores que son relevantes para elegir una representación adecuada. En esta discusión, una instancia de una representación de característica se conoce comodescriptor de característica , o simplementedescriptor.

Certeza o confianza

Dos ejemplos de características de la imagen son la orientación del borde local y la velocidad local en una secuencia de imágenes. En el caso de la orientación, el valor de esta característica puede ser más o menos indefinido si hay más de un borde presente en la vecindad correspondiente. La velocidad local no está definida si la región de la imagen correspondiente no contiene ninguna variación espacial. Como consecuencia de esta observación, puede ser relevante utilizar una representación de característica que incluya una medida de certeza o confianza relacionada con la afirmación sobre el valor de la característica. De lo contrario, es una situación típica que se utilice el mismo descriptor para representar valores de características de baja certeza y valores de características cercanos a cero, con la consiguiente ambigüedad en la interpretación de este descriptor. Dependiendo de la aplicación, tal ambigüedad puede ser aceptable o no.

En particular, si se utilizará una imagen destacada en un procesamiento posterior, puede ser una buena idea emplear una representación de características que incluya información sobre certeza o confianza . Esto permite calcular un nuevo descriptor de característica a partir de varios descriptores, por ejemplo calculado en el mismo punto de la imagen pero a diferentes escalas, o desde puntos diferentes pero vecinos, en términos de un promedio ponderado donde los pesos se derivan de las certezas correspondientes. En el caso más sencillo, el cálculo correspondiente se puede implementar como un filtrado de paso bajo de la imagen destacada. La imagen característica resultante será, en general, más estable al ruido.

Promedio

Además de tener medidas de certeza incluidas en la representación, la representación de los valores característicos correspondientes puede ser adecuada o no para una operación de promediación . La mayoría de las representaciones de características se pueden promediar en la práctica, pero sólo en ciertos casos se puede dar al descriptor resultante una interpretación correcta en términos de un valor de característica. Estas representaciones se denominan promediables .

Por ejemplo, si la orientación de un borde se representa en términos de un ángulo, esta representación debe tener una discontinuidad donde el ángulo pasa de su valor máximo a su valor mínimo. En consecuencia, puede suceder que dos orientaciones similares estén representadas por ángulos que tengan una media que no sea cercana a ninguno de los ángulos originales y, por tanto, esta representación no sea promediable. Existen otras representaciones de la orientación de los bordes, como el tensor de estructura , que son promediables.

Otro ejemplo se relaciona con el movimiento, donde en algunos casos solo se puede extraer la velocidad normal relativa a algún borde. Si se han extraído dos de estas características y se puede suponer que se refieren a la misma velocidad verdadera, esta velocidad no se proporciona como el promedio de los vectores de velocidad normales. Por tanto, los vectores de velocidad normales no son promediables. En cambio, existen otras representaciones de movimientos, que utilizan matrices o tensores, que dan la velocidad verdadera en términos de una operación promedio de los descriptores de velocidad normal. ^{[ cita necesaria ]}

Pareo

Las características detectadas en cada imagen se pueden comparar en varias imágenes para establecer características correspondientes, como puntos correspondientes .

El algoritmo se basa en comparar y analizar correspondencias de puntos entre la imagen de referencia y la imagen de destino. Si alguna parte de la escena desordenada comparte correspondencias mayores que el umbral, esa parte de la imagen de la escena desordenada se selecciona y se considera que incluye el objeto de referencia allí. ^[18]

Ver también

Referencias

^ Scott E Umbaugh (27 de enero de 2005). Imágenes por computadora: análisis y procesamiento de imágenes digitales. Prensa CRC. ISBN 978-0-8493-2919-7.
^ Ferrie, C. y Kaiser, S. (2019). Redes neuronales para bebés . Libros de consulta. ISBN 1492671207.{{cite book}}: CS1 maint: multiple names: authors list (link)
^ Canny, J. (1986). "Un enfoque computacional para la detección de bordes". Transacciones IEEE sobre análisis de patrones e inteligencia artificial . 8 (6): 679–714. doi :10.1109/TPAMI.1986.4767851. PMID 21869365. S2CID 13284142.
^ C. Harris; M. Stephens (1988). "Un detector combinado de esquinas y bordes" (PDF) . Actas de la 4ª Conferencia de Alvey Vision . págs. 147-151.
^ SM Smith; JM Brady (mayo de 1997). "SUSAN: un nuevo enfoque para el procesamiento de imágenes de bajo nivel". Revista Internacional de Visión por Computadora . 23 (1): 45–78. doi :10.1023/A:1007963824710. S2CID 15033310.
^ J. Shi; C. Tomasi (junio de 1994). "Buenas funciones para realizar un seguimiento". Novena Conferencia IEEE sobre visión por computadora y reconocimiento de patrones . Saltador.
^ abc T. Lindeberg (1998). "Detección de características con selección automática de escala" (resumen) . Revista Internacional de Visión por Computadora . 30 (2): 77-116. doi :10.1023/A:1008045108935. S2CID 723210.
^ E. Rosten; T. Drummond (2006). "Aprendizaje automático para la detección de esquinas de alta velocidad". Conferencia Europea sobre Visión por Computador . Saltador. págs. 430–443. CiteSeerX 10.1.1.60.3991 . doi :10.1007/11744023_34.
^ JL Crowley y AC Parker, "Una representación de la forma basada en picos y crestas en la diferencia de la transformada de paso bajo ^{[ enlace muerto ]} ", IEEE Transactions on PAMI, PAMI 6 (2), págs. 156-170, marzo de 1984.
^ D. Lowe (2004). "Características distintivas de la imagen a partir de puntos clave invariantes de escala". Revista Internacional de Visión por Computadora . 60 (2): 91. CiteSeerX 10.1.1.73.2924 . doi :10.1023/B:VISI.0000029664.99615.94. S2CID 221242327.
^ T. Lindeberg "Propiedades de selección de escala de detectores de puntos de interés de espacio de escala generalizados", Journal of Mathematical Imaging and Vision, volumen 46, número 2, páginas 177-210, 2013.
^ T. Lindeberg ``Coincidencia de imágenes utilizando puntos de interés del espacio de escala generalizado", Journal of Mathematical Imaging and Vision, volumen 52, número 1, páginas 3-36, 2015.
^ J. Matas; O. amigo; M. Urbano; T. Pajdla (2002). "Estéreo de línea de base amplia y robusta desde regiones extremas de máxima estabilidad" (PDF) . Conferencia británica sobre visión artificial . págs. 384–393.
^ R. Haralick, "Crestas y valles en imágenes digitales", Visión por computadora, gráficos y procesamiento de imágenes, vol. 22, núm. 10, págs. 28-38, abril de 1983.
^ D. Eberly, R. Gardner, B. Morse, S. Pizer, C. Scharlach, Crestas para análisis de imágenes, Journal of Mathematical Imaging and Vision, v.4 n. 4, págs. 353–373, diciembre de 1994.
^ T. Lindeberg (1998). "Detección de bordes y detección de crestas con selección automática de escala" (resumen) . Revista Internacional de Visión por Computadora . 30 (2): 117-154. doi :10.1023/A:1008097225773. S2CID 207658261.
^ T. Lindeberg (1993). "Detección de estructuras de imágenes salientes similares a manchas y sus escalas con un boceto primario de espacio de escala: un método para centrar la atención" (resumen) . Revista Internacional de Visión por Computadora . 11 (3): 283–318. doi :10.1007/BF01469346. S2CID 11998035.
^ "Detección de objetos en una escena desordenada mediante coincidencia de características puntuales: MATLAB y Simulink". www.mathworks.com . Consultado el 6 de julio de 2019 .

Otras lecturas

T. Lindeberg (2009). "Espacio de escala". En Benjamín Wah (ed.). Enciclopedia de Ingeniería y Ciencias de la Computación . vol. IV. John Wiley e hijos. págs. 2495–2504. doi : 10.1002/9780470050118.ecse609. ISBN 978-0470050118.(resumen y revisión de una serie de detectores de características formulados en base a operaciones de espacio de escala)