Esquema del reconocimiento de objetos

Reconocimiento de objetos : tecnología en el campo de la visión por computadora para encontrar e identificar objetos en una secuencia de imágenes o videos. Los seres humanos reconocen multitud de objetos en imágenes con poco esfuerzo, a pesar de que la imagen de los objetos puede variar algo en diferentes puntos de vista, en muchos tamaños y escalas diferentes o incluso cuando se trasladan o giran. Los objetos pueden reconocerse incluso cuando están parcialmente ocultos a la vista. Esta tarea sigue siendo un desafío para los sistemas de visión por computadora. Se han implementado muchos enfoques para esta tarea a lo largo de varias décadas.

Enfoques basados en modelos de objetos tipo CAD

Reconocimiento por partes

Cilindros generalizados ( Thomas Binford )
Geones ( Irving Biederman )
Dickinson, Forsyth y Ponce

Métodos basados en la apariencia

Utilice imágenes de ejemplo (llamadas plantillas o ejemplares) de los objetos para realizar el reconocimiento.
Los objetos se ven diferentes bajo diferentes condiciones:
- Cambios de iluminación o color.
- Cambios en la dirección de visión.
- Cambios de tamaño/forma
Es poco probable que un solo ejemplo tenga éxito confiable. Sin embargo, es imposible representar todas las apariencias de un objeto.

Coincidencia de bordes

Utiliza técnicas de detección de bordes, como la detección de bordes Canny , para encontrar bordes.
Los cambios de iluminación y color no suelen tener mucho efecto en los bordes de la imagen.
Estrategia:
1. Detectar bordes en plantilla e imagen.
2. Compara imágenes de bordes para encontrar la plantilla.
3. Debe considerar el rango de posibles posiciones de la plantilla.
Mediciones:
- Bien: cuenta el número de bordes superpuestos. No es resistente a los cambios de forma.
- Mejor: cuente la cantidad de píxeles del borde de la plantilla con cierta distancia de un borde en la imagen de búsqueda
- Óptimo: determine la distribución de probabilidad de la distancia al borde más cercano en la imagen de búsqueda (si la plantilla está en la posición correcta). Estimar la probabilidad de que cada posición de la plantilla genere una imagen

Búsqueda de divide y vencerás

Estrategia:
- Considere todas las posiciones como un conjunto (una celda en el espacio de posiciones)
- Determinar el límite inferior de la puntuación en la mejor posición de la celda
- Si el límite es demasiado grande, pode la celda.
- Si el límite no es demasiado grande, divida la celda en subceldas y pruebe cada subcelda de forma recursiva
- El proceso se detiene cuando la célula es "lo suficientemente pequeña"
A diferencia de la búsqueda de resolución múltiple, se garantiza que esta técnica encontrará todas las coincidencias que cumplan el criterio (suponiendo que el límite inferior sea preciso)
Encontrar el límite:
- Para encontrar el límite inferior de la mejor puntuación, observe la puntuación de la posición de la plantilla representada por el centro de la celda.
- Reste el cambio máximo de la posición "central" para cualquier otra posición en la celda (ocurre en las esquinas de la celda)
Las complejidades surgen al determinar los límites de la distancia ^{[ cita necesaria ]}

Coincidencia de escala de grises

Los bordes son (en su mayoría) resistentes a los cambios de iluminación, sin embargo, desperdician mucha información.
Debe calcular la distancia de los píxeles en función de la posición y la intensidad de los píxeles.
También se puede aplicar al color.

Coincidencia de gradiente

Otra forma de ser resistente a los cambios de iluminación sin desperdiciar tanta información es comparar los gradientes de la imagen.
La comparación se realiza como si se compararan imágenes en escala de grises.
Alternativa simple: usar correlación (normalizada)

Histogramas de respuestas de campo receptivo.

Evita correspondencias de puntos explícitas
Relaciones entre diferentes puntos de la imagen codificados implícitamente en las respuestas del campo receptivo.
Swain y Ballard (1991), ^[2] Schiele y Crowley (2000), ^[3] Linde y Lindeberg (2004, 2012) ^[4]^[5]

Grandes bases de modelos

Un enfoque para buscar eficientemente en la base de datos una imagen específica es utilizar vectores propios de las plantillas (llamados caras propias )
Las bases de modelos son una colección de modelos geométricos de los objetos que deben reconocerse.

Métodos basados en características

se utiliza una búsqueda para encontrar coincidencias factibles entre las características del objeto y las características de la imagen .
la restricción principal es que una única posición del objeto debe dar cuenta de todas las coincidencias factibles.
Métodos que extraen características de los objetos a reconocer y de las imágenes a buscar.
- parches de superficie
- esquinas
- bordes lineales

Árboles de interpretación

Un método para buscar coincidencias factibles es buscar a través de un árbol.
Cada nodo del árbol representa un conjunto de coincidencias.
- El nodo raíz representa un conjunto vacío
- Cada otro nodo es la unión de las coincidencias en el nodo principal y una coincidencia adicional.
- El comodín se utiliza para funciones que no coinciden
Los nodos se "podan" cuando el conjunto de coincidencias no es factible.
- Un nodo podado no tiene hijos
Históricamente significativo y todavía utilizado, pero con menos frecuencia.

Plantear hipótesis y probar

Idea general:
- Plantear una hipótesis sobre una correspondencia entre una colección de características de una imagen y una colección de características de un objeto.
- Luego use esto para generar una hipótesis sobre la proyección desde el marco de coordenadas del objeto al marco de la imagen.
- Utilice esta hipótesis de proyección para generar una representación del objeto. Este paso suele conocerse como retroproyección.
- Compare la representación con la imagen y, si las dos son suficientemente similares, acepte la hipótesis.
Obtención de hipótesis:
- Hay una variedad de formas diferentes de generar hipótesis.
- Cuando se conocen los parámetros intrínsecos de la cámara, la hipótesis equivale a una posición y orientación hipotética –pose– del objeto.
- Utilizar restricciones geométricas
- Construya una correspondencia para pequeños conjuntos de características de objetos con cada subconjunto de puntos de imagen del tamaño correcto. (Estas son las hipótesis)
Tres enfoques básicos:
- Obtención de hipótesis por coherencia de postura
- Obtención de hipótesis mediante agrupación de poses
- Obtención de hipótesis mediante el uso de invariantes
Búsqueda de gastos que también es redundante, pero se puede mejorar usando Aleatorización y/o Agrupación
- Aleatorización
  - Examinar pequeños conjuntos de características de la imagen hasta que la probabilidad de que falte un objeto sea pequeña.
  - Para cada conjunto de características de la imagen, se deben considerar todos los posibles conjuntos coincidentes de características del modelo.
  - Fórmula:
    (1 – W ^c ) ^k = Z
    - W = la fracción de puntos de imagen que son "buenos" (w ~ m/n)
    - c = el número de correspondencias necesarias
    - k = el número de ensayos
    - Z = la probabilidad de que cada ensayo utilice una (o más) correspondencias incorrectas
- Agrupamiento
  - Si podemos determinar grupos de puntos que probablemente provengan del mismo objeto, podemos reducir el número de hipótesis que deben examinarse.

Pose consistencia

También llamado Alineación, ya que el objeto se alinea con la imagen.
Las correspondencias entre las características de la imagen y las características del modelo no son independientes: restricciones geométricas
Un pequeño número de correspondencias da como resultado la posición del objeto; las demás deben ser coherentes con esta
Idea general:
- Si planteamos la hipótesis de una coincidencia entre un grupo suficientemente grande de características de la imagen y un grupo suficientemente grande de características del objeto, entonces podemos recuperar los parámetros faltantes de la cámara a partir de esta hipótesis (y así renderizar el resto del objeto).
Estrategia:
- Generar hipótesis utilizando una pequeña cantidad de correspondencias (por ejemplo, triples de puntos para el reconocimiento 3D)
- Proyecte otras características del modelo en la imagen ( proyecto posterior ) y verifique correspondencias adicionales
Utilice la menor cantidad de correspondencias necesarias para lograr poses de objetos discretos.

Pose de agrupamiento

Idea general:
- Cada objeto conduce a muchos conjuntos correctos de correspondencias, cada uno de los cuales tiene (aproximadamente) la misma pose.
- Vota por la pose. Utilice una matriz de acumulador que represente el espacio de pose para cada objeto.
- Esta es esencialmente una transformada de Hough.
Estrategia:
- Para cada objeto, configure una matriz de acumuladores que represente el espacio de pose; cada elemento en la matriz de acumuladores corresponde a un "cubo" en el espacio de pose.
- Luego tome cada grupo de cuadros de imagen y plantee una hipótesis sobre una correspondencia entre él y cada grupo de cuadros de cada objeto.
- Para cada una de estas correspondencias, determine los parámetros de pose y realice una entrada en la matriz del acumulador para el objeto actual en el valor de pose.
- Si hay una gran cantidad de votos en la matriz acumuladora de cualquier objeto, esto puede interpretarse como evidencia de la presencia de ese objeto en esa pose.
- La evidencia se puede comprobar mediante un método de verificación.
Tenga en cuenta que este método utiliza conjuntos de correspondencias, en lugar de correspondencias individuales.
- La implementación es más fácil, ya que cada conjunto produce una pequeña cantidad de posibles poses de objetos.
Mejora
- La resistencia al ruido de este método se puede mejorar al no contar los votos de los objetos en posiciones donde el voto es obviamente poco confiable.
§ Por ejemplo, en los casos en los que, si el objeto estuviera en esa pose, el grupo del marco del objeto sería invisible.
- Estas mejoras son suficientes para producir sistemas de trabajo.

Invariancia

Hay propiedades geométricas que son invariantes a las transformaciones de la cámara.
Se desarrolla más fácilmente para imágenes de objetos planos, pero también se puede aplicar a otros casos.

hash geométrico

Un algoritmo que utiliza invariantes geométricos para votar por hipótesis de objetos.
Similar al agrupamiento de poses, sin embargo, en lugar de votar sobre la pose, ahora votamos sobre la geometría.
Una técnica desarrollada originalmente para comparar características geométricas (vistas afines no calibradas de modelos planos) con una base de datos de dichas características.
Ampliamente utilizado para coincidencia de patrones, CAD/CAM e imágenes médicas.
Es difícil elegir el tamaño de los cubos.
Es difícil estar seguro de qué significa “suficiente”. Por lo tanto, puede existir cierto peligro de que la mesa se atasque.

Transformación de características invariantes de escala(TAMIZAR)

Los puntos clave de los objetos se extraen primero de un conjunto de imágenes de referencia y se almacenan en una base de datos.
Un objeto se reconoce en una nueva imagen comparando individualmente cada característica de la nueva imagen con esta base de datos y encontrando características candidatas coincidentes en función de la distancia euclidiana de sus vectores de características.
Lowe (2004) ^[6]^[7]

Funciones robustas aceleradas(NAVEGAR)

Un detector y descriptor de imágenes robusto
La versión estándar es varias veces más rápida que SIFT y sus autores afirman que es más robusta frente a diferentes transformaciones de imágenes que SIFT.
Se basó en sumas de respuestas aproximadas de wavelets de Haar 2D y se hizo un uso eficiente de imágenes integrales.
Bahía y col. (2008) ^[8]

Representaciones de bolsa de palabras.

Algoritmo genético

Los algoritmos genéticos pueden funcionar sin conocimiento previo de un conjunto de datos determinado y pueden desarrollar procedimientos de reconocimiento sin intervención humana. Un proyecto reciente logró una precisión del 100 por ciento en los conjuntos de datos de imágenes de referencia de motocicletas, rostros, aviones y automóviles de Caltech y una precisión del 99,4 por ciento en conjuntos de datos de imágenes de especies de peces. ^[9]^[10]

Otros enfoques

Reconocimiento y reconstrucción de objetos 3D ^[11]
Reconocimiento de objetos de inspiración biológica
Redes neuronales artificiales y aprendizaje profundo , especialmente redes neuronales convolucionales.
Contexto ^[12]^[13]
Modelos de objetos 3D explícitos e implícitos.
Indexación rápida ^[14]
Representaciones de escenas globales ^[12]
Histogramas de gradiente
Gramáticas estocásticas ^[15]
Aprendizaje por transferencia intraclase
Categorización de objetos a partir de la búsqueda de imágenes.
Reflectancia ^[16]
Forma a partir del sombreado ^[17]
Comparación de plantillas
Textura ^[18]
Modelos temáticos ^[13]
Aprendizaje sin supervisión
Detección basada en ventanas
Modelo de pieza deformable
Distribución de Bingham ^[19]

Aplicaciones

Los métodos de reconocimiento de objetos tienen las siguientes aplicaciones:

Reconocimiento de actividad ^[20]
Anotación automática de imágenes ^[21]^[22]
Reconocimiento automático de objetivos
Ojos de Android: reconocimiento de objetos ^[23]
Diagnóstico asistido por ordenador ^[24]
Panorámicas de imágenes ^[25]
Marca de agua de imagen ^[26]
Localización global de robots ^[27]
Detección de rostros ^[28]
Reconocimiento óptico de caracteres ^[29]
Control de calidad de fabricación ^[30]
Recuperación de imágenes basada en contenido ^[31]
Conteo y monitoreo de objetos ^[32]
Sistemas de aparcamiento automatizados ^[33]
Posicionamiento y seguimiento visual ^[34]
Estabilización de vídeo ^[35]
Detección de peatones
Asistencia de velocidad inteligente (en automóviles y otros vehículos)

Encuestas

Daniilides y Eklundh, Edelman.
Roth, Peter M. y Winter, Martín (2008). «MÉTODOS DE ENCUESTA BASADOS EN LA APARIENCIA PARA EL RECONOCIMIENTO DE OBJETOS» (PDF) . Reporte técnico . ICG-TR-01/08. Archivado desde el original (PDF) el 21 de septiembre de 2015 . Consultado el 26 de febrero de 2016 .

Ver también

Histograma de gradientes orientados
Red neuronal convolucional
OpenCV
Transformación de características invariantes de escala (SIFT)
Detección de objetos
Artículo de Scholarpedia sobre transformación de características invariantes de escala y métodos de reconocimiento de objetos relacionados
NAVEGAR
Comparación de plantillas
Función de canal integral

Liza

Notas

^ Rahesh Mohan y Rakamant Nevatia (1992). "Organización perceptual para segmentación y descripción de escenas" (PDF) . IEEE Trans Pattern Anal Mach Intell .
^ Swain, Michael J.; Ballard, Dana H. (1 de noviembre de 1991). "Indexación de colores". Revista Internacional de Visión por Computadora . 7 (1): 11–32. doi :10.1007/BF00130487. ISSN 1573-1405. S2CID 8167136.
^ Schiele, Bernt; Crowley, James L. (1 de enero de 2000). "Reconocimiento sin correspondencia mediante histogramas de campo receptivo multidimensional". Revista Internacional de Visión por Computadora . 36 (1): 31–50. doi :10.1023/A:1008120406972. ISSN 1573-1405. S2CID 2551159.
^ O. Linde y T. Lindeberg "Reconocimiento de objetos utilizando histogramas de campo receptivo compuestos de mayor dimensionalidad", Proc. Conferencia internacional sobre reconocimiento de patrones (ICPR'04), Cambridge, Reino Unido II:1-6, 2004.
^ O. Linde; T. Lindeberg (2012). "Histogramas de señales complejas compuestas: una investigación del contenido de la información en descriptores de imágenes basados en campos receptivos para el reconocimiento de objetos". Visión por computadora y comprensión de imágenes . 116 (4): 538–560. doi :10.1016/j.cviu.2011.12.003.
^ Lowe, DG, "Características distintivas de la imagen a partir de puntos clave invariantes de escala", Revista internacional de visión por computadora, 60, 2, págs. 91-110, 2004.
^ Lindeberg, Tony (2012). "Transformación de características invariantes de escala". Scholarpedia . 7 (5): 10491. Código bibliográfico : 2012SchpJ...710491L. doi : 10.4249/scholarpedia.10491 .
^ Bahía, Herbert; Ess, Andrés; Tuytelaars, Tinne; Van Gool, Luc (2008). "Funciones robustas aceleradas (SURF)". Visión por computadora y comprensión de imágenes . 110 (3): 346–359. CiteSeerX 10.1.1.205.738 . doi :10.1016/j.cviu.2007.09.014. S2CID 14777911.
^ "El nuevo algoritmo de reconocimiento de objetos aprende sobre la marcha". Gizmag.com. 20 de enero de 2014 . Consultado el 21 de enero de 2014 .
^ Lillywhite, K.; Lee, DJ; Tippetts, B.; Archibald, J. (2013). "Un método de construcción de características para el reconocimiento general de objetos". Reconocimiento de patrones . 46 (12): 3300. Código bibliográfico : 2013PatRe..46.3300L. doi :10.1016/j.patcog.2013.06.002.
^ Brown, Matthew y David G. Lowe. "Reconocimiento y reconstrucción de objetos 3D sin supervisión en conjuntos de datos desordenados". Modelado e imágenes digitales 3-D, 2005. 3DIM 2005. Quinta Conferencia Internacional sobre. IEEE, 2005.
^ ab Oliva, Aude y Antonio Torralba. "El papel del contexto en el reconocimiento de objetos". Tendencias en ciencias cognitivas 11.12 (2007): 520-527.
^ ab Niu, Zhenxing y col. "Modelo de tema consciente del contexto para el reconocimiento de escenas". Conferencia IEEE 2012 sobre visión por computadora y reconocimiento de patrones. IEEE, 2012.
^ Stein, Fridtjof y Gérard Medioni. "Indexación estructural: reconocimiento eficiente de objetos 3D". Transacciones IEEE sobre análisis de patrones e inteligencia artificial 2 (1992): 125-145.
^ Zhu, Song-Chun y David Mumford. "Una gramática estocástica de imágenes". Fundamentos y tendencias en visión y gráficos por computadora 2.4 (2007): 259-362.
^ Nayar, Shree K. y Ruud M. Bolle. "Reconocimiento de objetos basado en reflectancia". Revista internacional de visión por computadora 17.3 (1996): 219-240.
^ Worthington, Philip L. y Edwin R. Hancock. "Reconocimiento de objetos mediante forma a partir de sombreado". Transacciones IEEE sobre análisis de patrones e inteligencia artificial 23.5 (2001): 535-542.
^ Shotton, Jamie y col. "Textonboost para la comprensión de imágenes: reconocimiento y segmentación de objetos de múltiples clases mediante el modelado conjunto de textura, diseño y contexto". Revista internacional de visión por computadora 81.1 (2009): 2-23.
^ "Mejor visión del robot". KurzweilAI . Consultado el 9 de octubre de 2013 .
^ Donahue, Jeffrey y col. "Redes convolucionales recurrentes a largo plazo para reconocimiento y descripción visual". Actas de la conferencia IEEE sobre visión por computadora y reconocimiento de patrones. 2015.
^ Karpathy, Andrej y Li Fei-Fei. "Alineaciones visual-semánticas profundas para generar descripciones de imágenes". Actas de la conferencia IEEE sobre visión por computadora y reconocimiento de patrones. 2015.
^ P Duygulu; K Barnard; N de Fretias y D Forsyth (2002). "Reconocimiento de objetos como traducción automática: aprendizaje de un léxico para un vocabulario de imágenes fijas". Actas de la Conferencia europea sobre visión por computadora . págs. 97-112. Archivado desde el original el 5 de marzo de 2005.
^ "Android mira la visión por computadora".Martha J. Farah "Visual Agnosia", Neurociencia cognitiva informática de visión por computadora, MIT Press, 2011-05-01, páginas 760-781, ISSN 1468-4233 [1] ^{[ enlace muerto ]}
^ Esteva, André y col. "Clasificación del cáncer de piel a nivel dermatólogo con redes neuronales profundas". Naturaleza 542.7639 (2017): 115.
^ Brown, M. y Lowe, DG, "Reconocimiento de panorámicas archivado el 25 de diciembre de 2014 en Wayback Machine ", ICCV, p. 1218, Novena Conferencia Internacional IEEE sobre Visión por Computadora (ICCV'03) - Volumen 2, Niza, Francia, 2003
^ Li, L., Guo, B. y Shao, K., "Marca de agua de imagen geométricamente robusta mediante transformación de características invariantes de escala y momentos de Zernike", Chinese Optics Letters, volumen 5, número 6, págs. 332-335, 2007 .
^ Se, S., Lowe, DG y Little, JJ, "Localización y mapeo global basados en visión para robots móviles", IEEE Transactions on Robotics, 21, 3 (2005), págs.
^ Thomas Serre, Maximillian Riesenhuber, Jennifer Louie, Tomaso Poggio, "Sobre el papel de las características específicas de los objetos para el reconocimiento de objetos del mundo real en la visión biológica". Laboratorio de Inteligencia Artificial y Departamento de Ciencias Cognitivas y del Cerebro, Instituto de Tecnología de Massachusetts, Centro de Aprendizaje Biológico y Computacional, Instituto McGovern para la Investigación del Cerebro, Cambridge, MA, EE. UU.
^ Permaloff, Anne; Grafton, Carl (1992). "Reconocimiento óptico de caracteres". PD: Ciencia Política y Política . 25 (3): 523–531. doi :10.2307/419444. ISSN 1049-0965. JSTOR 419444. S2CID 64806776.
^ Christian Demant, Bernd Streicher-Abel, Peter Waszkewitz, "Procesamiento de imágenes industriales: control de calidad visual en la fabricación" Esquema del reconocimiento de objetos en Google Books
^ Nuno Vasconcelos "Indexación de imágenes con jerarquías de mezclas" Archivado el 18 de enero de 2011 en Wayback Machine Compaq Computer Corporation, Proc. Conferencia IEEE sobre visión por computadora y reconocimiento de patrones, Kauai, Hawaii, 2001
^ Heikkilä, Janne; Silvén, Olli (2004). "Un sistema en tiempo real para el seguimiento de ciclistas y peatones". Computación de Imagen y Visión . 22 (7): 563–570. doi :10.1016/j.imavis.2003.09.010.
^ Jung, Ho Gi; Kim, Dong Suk; Yoon, Pal Joo; Kim, Jaihie (2006). "Reconocimiento de marcas de espacios de estacionamiento basado en análisis de estructura para sistema de estacionamiento semiautomático". En Yeung, Dit-Yan; Kwok, James T.; Fred, Ana; Roli, Fabio; de Ridder, Dick (eds.). Reconocimiento de patrones estructurales, sintácticos y estadísticos . Apuntes de conferencias sobre informática. vol. 4109. Berlín, Heidelberg: Springer. págs. 384–393. doi : 10.1007/11815921_42 . ISBN 978-3-540-37241-7.
^ SK Nayar, H. Murase y SA Nene, "Aprendizaje, posicionamiento y seguimiento de la apariencia visual" Proc. De IEEE Internacional. Conf. sobre Robótica y Automatización, San Diego, mayo de 1994
^ Liu, F.; Gleicher, M.; Jin, H.; Agarwala, A. (2009). "Deformaciones que preservan el contenido para la estabilización de video 3D". Transacciones ACM sobre gráficos . 28 (3): 1. CiteSeerX 10.1.1.678.3088 . doi :10.1145/1531326.1531350.

Referencias

Elgammal, Ahmed "CS 534: Reconocimiento basado en modelos 3D de visión por computadora", Departamento de Ciencias de la Computación, Universidad de Rutgers;
Hartley, Richard y Zisserman, Andrew "Geometría de vista múltiple en visión por computadora", Cambridge Press, 2000, ISBN 0-521-62304-9 .
Roth, Peter M. y Winter, Martin "Encuesta de métodos basados en la apariencia para el reconocimiento de objetos", Informe técnico ICG-TR-01/08, Inst. de Visión y Gráficos por Computadora, Universidad Tecnológica de Graz, Austria; 15 de enero de 2008.
Collins, Robert "Conferencia 31: Reconocimiento de objetos: claves SIFT", CSE486, Penn State
IPRG Archivado el 28 de diciembre de 2020 en Wayback Machine Procesamiento de imágenes: Grupo de investigación abierto en línea
Christian Szegedy Archivado el 6 de septiembre de 2015 en Wayback Machine , Alexander Toshev Archivado el 4 de octubre de 2015 en Wayback Machine y Dumitru Erhan. Redes neuronales profundas para la detección de objetos. Avances en los sistemas de procesamiento de información neuronal 26 Archivado el 5 de septiembre de 2020 en Wayback Machine , 2013. páginas 2553–2561.