Guía temática sobre reconocimiento de objetos
Reconocimiento de objetos : tecnología en el campo de la visión artificial para encontrar e identificar objetos en una imagen o secuencia de vídeo. Los seres humanos reconocen una multitud de objetos en imágenes con poco esfuerzo, a pesar de que la imagen de los objetos puede variar un poco en diferentes puntos de vista, en muchos tamaños y escalas diferentes o incluso cuando se trasladan o giran. Los objetos pueden reconocerse incluso cuando están parcialmente obstruidos a la vista. Esta tarea sigue siendo un desafío para los sistemas de visión artificial. A lo largo de varias décadas se han implementado muchos enfoques para la tarea.
Enfoques basados en modelos de objetos tipo CAD
Reconocimiento por partes
Métodos basados en la apariencia
- Utilice imágenes de ejemplo (llamadas plantillas o ejemplares) de los objetos para realizar el reconocimiento.
- Los objetos se ven diferentes en distintas condiciones:
- Cambios en la iluminación o el color.
- Cambios en la dirección de visualización
- Cambios de tamaño/forma
- Es poco probable que un único ejemplar dé buenos resultados, pero es imposible representar todas las apariencias de un objeto.
Coincidencia de bordes
- Utiliza técnicas de detección de bordes, como la detección de bordes Canny , para encontrar bordes.
- Los cambios en la iluminación y el color generalmente no tienen mucho efecto en los bordes de la imagen.
- Estrategia:
- Detectar bordes en la plantilla y la imagen
- Comparar imágenes de bordes para encontrar la plantilla
- Se debe considerar el rango de posibles posiciones de la plantilla.
- Medidas:
- Bueno: cuenta la cantidad de bordes superpuestos. No es resistente a los cambios de forma.
- Mejor: cuente la cantidad de píxeles del borde de la plantilla con cierta distancia de un borde en la imagen de búsqueda
- Mejor: determinar la distribución de probabilidad de la distancia al borde más cercano en la imagen de búsqueda (si la plantilla está en la posición correcta). Estimar la probabilidad de que cada posición de plantilla genere una imagen
Búsqueda de divide y vencerás
- Estrategia:
- Considere todas las posiciones como un conjunto (una celda en el espacio de posiciones)
- Determinar el límite inferior de la puntuación en la mejor posición en la celda
- Si el límite es demasiado grande, podar la celda
- Si el límite no es demasiado grande, divida la celda en subceldas y pruebe cada subcelda de forma recursiva
- El proceso se detiene cuando la célula es “suficientemente pequeña”
- A diferencia de la búsqueda de múltiples resoluciones, esta técnica garantiza encontrar todas las coincidencias que cumplan con el criterio (suponiendo que el límite inferior sea preciso).
- Encontrar el límite:
- Para encontrar el límite inferior de la mejor puntuación, observe la puntuación de la posición de la plantilla representada por el centro de la celda.
- Restar el cambio máximo de la posición “central” para cualquier otra posición en la celda (ocurre en las esquinas de la celda)
- Surgen complejidades a la hora de determinar límites en la distancia [ cita requerida ]
Coincidencia de escala de grises
- Los bordes son (en su mayoría) resistentes a los cambios de iluminación, sin embargo, pierden mucha información.
- Debe calcular la distancia del píxel como una función tanto de la posición del píxel como de la intensidad del píxel.
- También se puede aplicar al color.
Coincidencia de gradientes
- Otra forma de ser robusto a los cambios de iluminación sin perder tanta información es comparar gradientes de imágenes.
- La coincidencia se realiza como la coincidencia de imágenes en escala de grises.
- Alternativa simple: utilizar correlación (normalizada)
Histogramas de las respuestas del campo receptivo
- Evita correspondencias de puntos explícitas
- Relaciones entre diferentes puntos de imagen codificados implícitamente en las respuestas del campo receptivo
- Swain y Ballard (1991), [2] Schiele y Crowley (2000), [3] Linde y Lindeberg (2004, 2012) [4] [5]
Bases de modelos grandes
- Un enfoque para buscar de manera eficiente en la base de datos una imagen específica es utilizar vectores propios de las plantillas (llamados caras propias ).
- Las bases de modelos son una colección de modelos geométricos de los objetos que deben reconocerse.
Métodos basados en características
- Se utiliza una búsqueda para encontrar coincidencias factibles entre las características del objeto y las características de la imagen .
- La restricción principal es que una única posición del objeto debe dar cuenta de todas las coincidencias posibles.
- métodos que extraen características de los objetos a reconocer y de las imágenes a buscar.
- parches de superficie
- esquinas
- bordes lineales
Árboles de interpretación
- Un método para buscar coincidencias factibles es buscar a través de un árbol.
- Cada nodo del árbol representa un conjunto de coincidencias.
- El nodo raíz representa un conjunto vacío
- Cada otro nodo es la unión de las coincidencias del nodo padre y una coincidencia adicional.
- El comodín se utiliza para funciones que no coinciden
- Los nodos se “podan” cuando el conjunto de coincidencias no es viable.
- Un nodo podado no tiene hijos
- Históricamente significativo y todavía utilizado, pero con menos frecuencia.
Formular hipótesis y probar
- Idea general:
- Planteamos la hipótesis de una correspondencia entre una colección de características de imagen y una colección de características de objeto.
- Luego use esto para generar una hipótesis sobre la proyección desde el marco de coordenadas del objeto al marco de la imagen.
- Utilice esta hipótesis de proyección para generar una representación del objeto. Este paso se conoce habitualmente como retroproyección.
- Compare la representación con la imagen y, si las dos son suficientemente similares, acepte la hipótesis.
- Obtención de hipótesis:
- Hay una variedad de formas diferentes de generar hipótesis.
- Cuando se conocen los parámetros intrínsecos de la cámara, la hipótesis equivale a una posición y orientación hipotética – pose – del objeto.
- Utilizar restricciones geométricas
- Construir una correspondencia entre pequeños conjuntos de características de objetos y cada subconjunto de puntos de imagen de tamaño correcto. (Estas son las hipótesis)
- Tres enfoques básicos:
- Obtención de hipótesis por consistencia de posturas
- Obtención de hipótesis mediante agrupamiento de poses
- Obtención de hipótesis mediante el uso de invariantes
- Búsqueda de gastos que también es redundante, pero que se puede mejorar mediante aleatorización y/o agrupación
- Aleatorización
- Examinar pequeños conjuntos de características de la imagen hasta que la probabilidad de que falte un objeto sea mínima
- Para cada conjunto de características de la imagen, se deben considerar todos los posibles conjuntos coincidentes de características del modelo.
- Fórmula:
- (1 – W c ) k = Z
- W = la fracción de puntos de imagen que son “buenos” (w ~ m/n)
- c = el número de correspondencias necesarias
- k = el número de ensayos
- Z = la probabilidad de que cada ensayo utilice una (o más) correspondencias incorrectas
- Agrupamiento
- Si podemos determinar grupos de puntos que probablemente provengan del mismo objeto, podemos reducir el número de hipótesis que deben examinarse.
Consistencia de pose
- También llamado Alineación, ya que el objeto se alinea con la imagen.
- Las correspondencias entre las características de la imagen y las características del modelo no son independientes – Restricciones geométricas
- Un pequeño número de correspondencias da como resultado la posición del objeto; las demás deben ser coherentes con esta
- Idea general:
- Si planteamos la hipótesis de una coincidencia entre un grupo suficientemente grande de características de imagen y un grupo suficientemente grande de características de objeto, entonces podemos recuperar los parámetros de cámara faltantes a partir de esta hipótesis (y así representar el resto del objeto).
- Estrategia:
- Generar hipótesis utilizando un pequeño número de correspondencias (por ejemplo, triples de puntos para reconocimiento 3D)
- Proyectar otras características del modelo en la imagen ( retroproyecto ) y verificar correspondencias adicionales
- Utilice el menor número de correspondencias necesarias para lograr poses de objetos discretos
Agrupamiento de poses
- Idea general:
- Cada objeto conduce a muchos conjuntos correctos de correspondencias, cada uno de los cuales tiene (aproximadamente) la misma pose.
- Votación sobre la pose. Utilizar una matriz de acumuladores que represente el espacio de pose para cada objeto
- Esto es esencialmente una transformada de Hough.
- Estrategia:
- Para cada objeto, configure una matriz de acumuladores que represente el espacio de pose: cada elemento de la matriz de acumuladores corresponde a un “cubo” en el espacio de pose.
- Luego tome cada grupo de cuadros de imagen y plantee la hipótesis de una correspondencia entre él y cada grupo de cuadros de cada objeto.
- Para cada una de estas correspondencias, determine los parámetros de pose y haga una entrada en la matriz del acumulador para el objeto actual en el valor de pose.
- Si hay una gran cantidad de votos en la matriz de acumuladores de cualquier objeto, esto puede interpretarse como evidencia de la presencia de ese objeto en esa posición.
- La evidencia se puede comprobar mediante un método de verificación.
- Tenga en cuenta que este método utiliza conjuntos de correspondencias, en lugar de correspondencias individuales.
- La implementación es más fácil, ya que cada conjunto produce una pequeña cantidad de posibles poses de objetos.
- Mejora
- La resistencia al ruido de este método se puede mejorar al no contar los votos de los objetos en posiciones en las que el voto es obviamente poco confiable.
- § Por ejemplo, en los casos en que, si el objeto estuviera en esa pose, el grupo de marcos de objetos sería invisible.
- Estas mejoras son suficientes para obtener sistemas que funcionen.
Invariancia
- Hay propiedades geométricas que son invariables a las transformaciones de la cámara.
- Se desarrolla más fácilmente para imágenes de objetos planos, pero también se puede aplicar a otros casos.
Hashing geométrico
- Un algoritmo que utiliza invariantes geométricos para votar por hipótesis de objetos.
- Similar a la agrupación de poses, sin embargo, en lugar de votar por pose, ahora votamos por geometría.
- Una técnica desarrollada originalmente para hacer coincidir características geométricas (vistas afines no calibradas de modelos planos) con una base de datos de dichas características.
- Ampliamente utilizado para comparación de patrones, CAD/CAM e imágenes médicas.
- Es difícil elegir el tamaño de los cubos.
- Es difícil saber con certeza qué significa “suficiente”. Por lo tanto, puede existir cierto peligro de que la tabla se obstruya.
Transformación de características invariantes de escala(TAMIZAR A)
- Los puntos clave de los objetos se extraen primero de un conjunto de imágenes de referencia y se almacenan en una base de datos.
- Un objeto se reconoce en una nueva imagen comparando individualmente cada característica de la nueva imagen con esta base de datos y encontrando características coincidentes candidatas según la distancia euclidiana de sus vectores de características.
- Lowe (2004) [6] [7]
Funciones robustas y aceleradas(NAVEGAR)
- Un detector y descriptor de imágenes robusto
- La versión estándar es varias veces más rápida que SIFT y sus autores afirman que es más robusta frente a diferentes transformaciones de imágenes que SIFT.
- Basado en sumas de respuestas wavelet de Haar 2D aproximadas y uso eficiente de imágenes integrales.
- Bay y otros (2008) [8]
Representaciones de bolsa de palabras
Algoritmo genético
Los algoritmos genéticos pueden funcionar sin conocimiento previo de un conjunto de datos determinado y pueden desarrollar procedimientos de reconocimiento sin intervención humana. Un proyecto reciente logró una precisión del 100 por ciento en los conjuntos de datos de referencia de imágenes de motocicletas, rostros, aviones y automóviles de Caltech y una precisión del 99,4 por ciento en los conjuntos de datos de imágenes de especies de peces. [9] [10]
Otros enfoques
Aplicaciones
Los métodos de reconocimiento de objetos tienen las siguientes aplicaciones:
Encuestas
- Daniilides y Eklundh, Edelman.
- Roth, Peter M. y Winter, Martin (2008). "MÉTODOS DE ENCUESTA BASADOS EN LA APARIENCIA PARA EL RECONOCIMIENTO DE OBJETOS" (PDF) . Informe técnico . ICG-TR-01/08. Archivado desde el original (PDF) el 2015-09-21 . Consultado el 2016-02-26 .
Véase también
- Liza
Notas
- ^ Rahesh Mohan y Rakamant Nevatia (1992). "Organización perceptual para la segmentación y descripción de escenas" (PDF) . IEEE Trans Pattern Anal Mach Intell .
- ^ Swain, Michael J.; Ballard, Dana H. (1 de noviembre de 1991). "Indexación de color". Revista internacional de visión por computadora . 7 (1): 11–32. doi :10.1007/BF00130487. ISSN 1573-1405. S2CID 8167136.
- ^ Schiele, Bernt; Crowley, James L. (1 de enero de 2000). "Reconocimiento sin correspondencia mediante histogramas de campos receptivos multidimensionales". Revista internacional de visión artificial . 36 (1): 31–50. doi :10.1023/A:1008120406972. ISSN 1573-1405. S2CID 2551159.
- ^ O. Linde y T. Lindeberg "Reconocimiento de objetos utilizando histogramas de campos receptivos compuestos de mayor dimensionalidad", Proc. Conferencia internacional sobre reconocimiento de patrones (ICPR'04), Cambridge, Reino Unido II:1-6, 2004.
- ^ O. Linde; T. Lindeberg (2012). "Histogramas compuestos de señales complejas: una investigación del contenido de información en descriptores de imágenes basados en campos receptivos para el reconocimiento de objetos". Visión artificial y comprensión de imágenes . 116 (4): 538–560. doi :10.1016/j.cviu.2011.12.003.
- ^ Lowe, DG, "Características distintivas de la imagen a partir de puntos clave invariantes en escala", International Journal of Computer Vision, 60, 2, págs. 91-110, 2004.
- ^ Lindeberg, Tony (2012). "Transformación de características invariantes de escala". Scholarpedia . 7 (5): 10491. Bibcode :2012SchpJ...710491L. doi : 10.4249/scholarpedia.10491 .
- ^ Bay, Herbert; Ess, Andreas; Tuytelaars, Tinne; Van Gool, Luc (2008). "Características robustas aceleradas (SURF)". Visión artificial y comprensión de imágenes . 110 (3): 346–359. CiteSeerX 10.1.1.205.738 . doi :10.1016/j.cviu.2007.09.014. S2CID 14777911.
- ^ "Nuevo algoritmo de reconocimiento de objetos aprende sobre la marcha". Gizmag.com. 20 de enero de 2014. Consultado el 21 de enero de 2014 .
- ^ Lillywhite, K.; Lee, DJ; Tippetts, B.; Archibald, J. (2013). "Un método de construcción de características para el reconocimiento general de objetos". Reconocimiento de patrones . 46 (12): 3300. Bibcode :2013PatRe..46.3300L. doi :10.1016/j.patcog.2013.06.002.
- ^ Brown, Matthew y David G. Lowe. "Reconocimiento y reconstrucción de objetos 3D no supervisados en conjuntos de datos desordenados". Imágenes y modelado digital 3D, 2005. 3DIM 2005. Quinta conferencia internacional sobre. IEEE, 2005.
- ^ ab Oliva, Aude y Antonio Torralba. "El papel del contexto en el reconocimiento de objetos". Tendencias en ciencias cognitivas 11.12 (2007): 520-527.
- ^ ab Niu, Zhenxing, et al. "Modelo de tema sensible al contexto para reconocimiento de escenas". Conferencia IEEE de 2012 sobre visión artificial y reconocimiento de patrones. IEEE, 2012.
- ^ Stein, Fridtjof y Gérard Medioni. "Indexación estructural: reconocimiento eficiente de objetos en 3D". IEEE Transactions on Pattern Analysis & Machine Intelligence 2 (1992): 125-145.
- ^ Zhu, Song-Chun y David Mumford. "Una gramática estocástica de imágenes". Fundamentos y tendencias en gráficos y visión por computadora 2.4 (2007): 259-362.
- ^ Nayar, Shree K. y Ruud M. Bolle. "Reconocimiento de objetos basado en reflectancia". Revista internacional de visión artificial 17.3 (1996): 219-240.
- ^ Worthington, Philip L. y Edwin R. Hancock. "Reconocimiento de objetos mediante el uso de la forma a partir del sombreado". IEEE Transactions on Pattern Analysis and Machine Intelligence 23.5 (2001): 535-542.
- ^ Shotton, Jamie, et al. "Textonboost para la comprensión de imágenes: reconocimiento y segmentación de objetos multiclase mediante el modelado conjunto de textura, diseño y contexto". Revista internacional de visión artificial 81.1 (2009): 2-23.
- ^ "Mejor visión del robot". KurzweilAI . Consultado el 9 de octubre de 2013 .
- ^ Donahue, Jeffrey, et al. "Redes convolucionales recurrentes a largo plazo para el reconocimiento y descripción visual". Actas de la conferencia IEEE sobre visión artificial y reconocimiento de patrones. 2015.
- ^ Karpathy, Andrej y Li Fei-Fei. "Alineaciones visuales y semánticas profundas para generar descripciones de imágenes". Actas de la conferencia IEEE sobre visión artificial y reconocimiento de patrones. 2015.
- ^ P Duygulu; K Barnard; N de Fretias y D Forsyth (2002). "Reconocimiento de objetos como traducción automática: aprendizaje de un léxico para un vocabulario de imágenes fijas". Actas de la Conferencia Europea sobre Visión por Computador . pp. 97–112. Archivado desde el original el 5 de marzo de 2005.
- ^ "Android Eyes Visión por Computadora".Martha J. Farah "Visual Agnosia", Computer Vision Computing Cognitive Neuroscience, MIT Press, 2011-05-01, Páginas 760-781, ISSN 1468-4233 [1] [ enlace roto ]
- ^ Esteva, Andre, et al. "Clasificación del cáncer de piel a nivel de dermatólogo con redes neuronales profundas". Nature 542.7639 (2017): 115.
- ^ Brown, M., y Lowe, DG, "Reconocimiento de panoramas Archivado el 25 de diciembre de 2014 en Wayback Machine ", ICCV, pág. 1218, Novena Conferencia Internacional IEEE sobre Visión por Computador (ICCV'03) - Volumen 2, Niza, Francia, 2003
- ^ Li, L., Guo, B. y Shao, K., "Marca de agua de imagen geométricamente robusta utilizando transformaciones de características invariantes de escala y momentos Zernike", Chinese Optics Letters, Volumen 5, Número 6, págs. 332-335, 2007.
- ^ Se,S., Lowe, DG y Little, JJ,"Localización y mapeo global basado en visión para robots móviles", IEEE Transactions on Robotics, 21, 3 (2005), págs. 364-375.
- ^ Thomas Serre, Maximillian Riesenhuber, Jennifer Louie, Tomaso Poggio, "Sobre el papel de las características específicas de los objetos para el reconocimiento de objetos del mundo real en la visión biológica". Laboratorio de Inteligencia Artificial y Departamento de Ciencias Cognitivas y Cerebrales, Instituto Tecnológico de Massachusetts, Centro de Aprendizaje Biológico y Computacional, Instituto McGovern para la Investigación Cerebral, Cambridge, MA, EE. UU.
- ^ Permaloff, Anne; Grafton, Carl (1992). "Reconocimiento óptico de caracteres". PS: Ciencia política y política . 25 (3): 523–531. doi :10.2307/419444. ISSN 1049-0965. JSTOR 419444. S2CID 64806776.
- ^ Christian Demant, Bernd Streicher-Abel, Peter Waszkewitz, "Procesamiento de imágenes industriales: control de calidad visual en la fabricación" Esquema del reconocimiento de objetos en Google Books
- ^ Nuno Vasconcelos "Indexación de imágenes con jerarquías de mezclas" Archivado el 18 de enero de 2011 en Wayback Machine Compaq Computer Corporation, Proc. Conferencia IEEE sobre visión artificial y reconocimiento de patrones, Kauai, Hawái, 2001
- ^ Heikkilä, Janne; Silvén, Olli (2004). "Un sistema en tiempo real para el seguimiento de ciclistas y peatones". Image and Vision Computing . 22 (7): 563–570. doi :10.1016/j.imavis.2003.09.010.
- ^ Jung, Ho Gi; Kim, Dong Suk; Yoon, Pal Joo; Kim, Jaihie (2006). "Reconocimiento de marcas de plazas de aparcamiento basado en análisis de estructura para sistemas de aparcamiento semiautomáticos". En Yeung, Dit-Yan; Kwok, James T.; Fred, Ana; Roli, Fabio; de Ridder, Dick (eds.). Reconocimiento de patrones estructurales, sintácticos y estadísticos . Notas de clase en informática. Vol. 4109. Berlín, Heidelberg: Springer. págs. 384–393. doi : 10.1007/11815921_42 . ISBN . 978-3-540-37241-7.
- ^ SK Nayar, H. Murase y SA Nene, "Aprendizaje, posicionamiento y seguimiento de la apariencia visual", Actas de la Conferencia Internacional IEEE sobre Robótica y Automatización, San Diego, mayo de 1994
- ^ Liu, F.; Gleicher, M.; Jin, H.; Agarwala, A. (2009). "Deformaciones que preservan el contenido para la estabilización de vídeo 3D". ACM Transactions on Graphics . 28 (3): 1. CiteSeerX 10.1.1.678.3088 . doi :10.1145/1531326.1531350.
Referencias
- Elgammal, Ahmed "CS 534: Reconocimiento basado en modelos 3D de visión artificial", Departamento de Ciencias de la Computación, Universidad Rutgers;
- Hartley, Richard y Zisserman, Andrew "Geometría de vista múltiple en visión por computadora", Cambridge Press, 2000, ISBN 0-521-62304-9 .
- Roth, Peter M. y Winter, Martin "Estudio de métodos basados en la apariencia para el reconocimiento de objetos", Informe técnico ICG-TR-01/08, Instituto de Gráficos y Visión por Computadora, Universidad Tecnológica de Graz, Austria; 15 de enero de 2008.
- Collins, Robert "Conferencia 31: Reconocimiento de objetos: teclas SIFT", CSE486, Penn State
- IPRG Archivado el 28 de diciembre de 2020 en Wayback Machine Procesamiento de imágenes - Grupo de investigación abierto en línea
- Christian Szegedy Archivado el 6 de septiembre de 2015 en Wayback Machine , Alexander Toshev Archivado el 4 de octubre de 2015 en Wayback Machine y Dumitru Erhan. Redes neuronales profundas para la detección de objetos. Avances en sistemas de procesamiento de información neuronal 26 Archivado el 5 de septiembre de 2020 en Wayback Machine , 2013. página 2553–2561.
Enlaces externos