stringtranslate.com

Recortes de gráficos en visión artificial

Tal como se aplica en el campo de la visión por computadora , la optimización del corte de gráficos se puede emplear para resolver de manera eficiente una amplia variedad de problemas de visión por computadora de bajo nivel ( visión temprana [1] ), como el suavizado de imágenes , el problema de correspondencia estéreo , la segmentación de imágenes , la cosegmentación de objetos y muchos otros problemas de visión por computadora que se pueden formular en términos de minimización de energía .

Muchos de estos problemas de minimización de energía se pueden aproximar resolviendo un problema de flujo máximo en un gráfico [2] (y así, mediante el teorema de corte mínimo de flujo máximo , definir un corte mínimo del gráfico).

En la mayoría de las formulaciones de tales problemas en visión por computadora, la solución de energía mínima corresponde a la estimación máxima a posteriori de una solución.

Aunque muchos algoritmos de visión por computadora implican cortar un gráfico (por ejemplo, cortes normalizados), el término "cortes de gráficos" se aplica específicamente a aquellos modelos que emplean una optimización de flujo máximo/corte mínimo (otros algoritmos de corte de gráficos pueden considerarse como algoritmos de partición de gráficos ).

Los problemas "binarios" (como la eliminación de ruido de una imagen binaria ) se pueden resolver con exactitud utilizando este enfoque; los problemas en los que los píxeles se pueden etiquetar con más de dos etiquetas diferentes (como la correspondencia estéreo o la eliminación de ruido de una imagen en escala de grises ) no se pueden resolver con exactitud, pero las soluciones producidas suelen estar cerca del óptimo global.

Historia

La teoría fundamental de los cortes de grafos se aplicó por primera vez en la visión por computadora en el artículo seminal de Greig, Porteous y Seheult [3] de la Universidad de Durham . Allan Seheult y Bruce Porteous eran miembros del elogiado grupo de estadística de Durham de la época, dirigido por Julian Besag y Peter Green , y la experta en optimización Margaret Greig era conocida por ser la primera mujer miembro del personal del Departamento de Ciencias Matemáticas de Durham.

En el contexto estadístico bayesiano de suavizado de imágenes ruidosas (o corruptas), demostraron cómo la estimación máxima a posteriori de una imagen binaria se puede obtener exactamente maximizando el flujo a través de una red de imágenes asociada, lo que implica la introducción de una fuente y un sumidero . Por lo tanto, se demostró que el problema se podía resolver de manera eficiente. Antes de este resultado, se utilizaban técnicas aproximadas como el recocido simulado (como propusieron los hermanos Geman ), [4] o los modos condicionales iterados (un tipo de algoritmo voraz sugerido por Julian Besag ) [5] para resolver tales problemas de suavizado de imágenes.

Aunque el problema general de los colores es NP difícil para el enfoque de Greig, Porteous y Seheult [3] ha resultado [6] [7] tener una amplia aplicabilidad en problemas generales de visión por computadora. Para problemas generales, el enfoque de Greig, Porteous y Seheult se aplica a menudo de forma iterativa a secuencias de problemas binarios relacionados, generalmente produciendo soluciones casi óptimas.

En 2011, C. Couprie et al . [8] propusieron un marco de segmentación de imágenes general, llamado "Power Watershed", que minimizaba una función indicadora de valor real de [0,1] sobre un gráfico, restringido por semillas de usuario (o términos unarios) establecidas en 0 o 1, en el que la minimización de la función indicadora sobre el gráfico se optimiza con respecto a un exponente . Cuando , Power Watershed se optimiza mediante cortes de gráfico, cuando Power Watershed se optimiza mediante caminos más cortos, se optimiza mediante el algoritmo de caminante aleatorio y se optimiza mediante el algoritmo de cuenca hidrográfica . De esta manera, Power Watershed puede verse como una generalización de cortes de gráfico que proporciona una conexión directa con otros algoritmos de segmentación/agrupamiento de optimización de energía.

Segmentación binaria de imágenes

Notación

Métodos existentes

  1. El primer paso optimiza los parámetros de color utilizando K-means.
  2. El segundo paso ejecuta el algoritmo habitual de cortes de gráficos.
Estos 2 pasos se repiten recursivamente hasta la convergencia.

Función energética

donde la energía se compone de dos modelos diferentes ( y ):

Probabilidad / Modelo de color / Término regional

— término unario que describe la probabilidad de cada color.

Histograma
GMM (modelo de mezcla gaussiana)
Texón
  1. Determinar una buena escala natural para los elementos de textura.
  2. Calcular estadísticas no paramétricas de los texones del interior del modelo, ya sea en intensidad o en respuestas del filtro de Gabor.

Modelo previo / Modelo de coherencia / Término límite

— término binario que describe la coherencia entre píxeles vecinos.

Crítica

Los métodos de corte de grafos se han convertido en alternativas populares a los enfoques basados ​​en conjuntos de niveles para optimizar la ubicación de un contorno (consulte [9] para una comparación exhaustiva). Sin embargo, los enfoques de corte de grafos han sido criticados en la literatura por varios problemas:

Algoritmo

Implementación (exacta)

El algoritmo Boykov-Kolmogorov [17] es una forma eficiente de calcular el flujo máximo para gráficos relacionados con la visión por computadora.

Implementación (aproximación)

El algoritmo Sim Cut [18] aproxima el corte mínimo del grafo. El algoritmo implementa una solución mediante la simulación de una red eléctrica. Este es el enfoque sugerido por el teorema de flujo máximo de Cederbaum . [19] [20] La aceleración del algoritmo es posible mediante computación paralela .

Software

Referencias

  1. ^ Adelson, Edward H. y James R. Bergen (1991), "La función plenóptica y los elementos de la visión temprana", Modelos computacionales del procesamiento visual 1.2 (1991).
  2. ^ Boykov, Y., Veksler, O. y Zabih, R. (2001), "Minimización rápida de energía aproximada a través de cortes de gráficos", IEEE Transactions on Pattern Analysis and Machine Intelligence, 23(11): 1222-1239.
  3. ^ ab DM Greig, BT Porteous y AH Seheult (1989), Estimación exacta máxima a posteriori para imágenes binarias , Journal of the Royal Statistical Society, Serie B, 51 , 271–279.
  4. ^ D. Geman y S. Geman (1984), Relajación estocástica, distribuciones de Gibbs y restauración bayesiana de imágenes , IEEE Trans. Pattern Anal. Mach. Intell., 6 , 721–741.
  5. ^ JE Besag (1986), Sobre el análisis estadístico de imágenes sucias (con discusión) , Journal of the Royal Statistical Society Series B, 48 , 259–302
  6. ^ Y. Boykov, O. Veksler y R. Zabih (1998), "Campos aleatorios de Markov con aproximaciones eficientes", Conferencia internacional sobre visión por computadora y reconocimiento de patrones (CVPR) .
  7. ^ ab Y. Boykov, O. Veksler y R. Zabih (2001), "Minimización rápida de energía aproximada mediante cortes de gráficos", IEEE Transactions on Pattern Analysis and Machine Intelligence , 29 , 1222–1239.
  8. ^ Camille Couprie, Leo Grady, Laurent Najman y Hugues Talbot, "Cuencas hidrográficas de potencia: un marco de optimización basado en gráficos unificador", IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 33, n.º 7, págs. 1384-1399, julio de 2011
  9. ^ Leo Grady y Christopher Alvino (2009), "La función Mumford-Shah suave por partes en un gráfico arbitrario", IEEE Trans. on Image Processing, págs. 2547–2561
  10. ^ Yuri Boykov y Vladimir Kolmogorov (2003), "Cálculo de geodésicas y superficies mínimas mediante cortes de gráficos", Proc. de ICCV
  11. ^ Ben Appleton y Hugues Talbot (2006), "Superficies globalmente mínimas mediante flujos máximos continuos", IEEE Transactions on Pattern Analysis and Machine Intelligence, págs. 106-118
  12. ^ Ali Kemal Sinop y Leo Grady, "Un marco de segmentación de imágenes con semillas que unifica los cortes de gráficos y el caminante aleatorio que produce un nuevo algoritmo", Proc. de ICCV, 2007
  13. ^ Vladimir Kolmogorov y Yuri Boykov (2005), "¿Qué métricas se pueden aproximar mediante cortes geográficos u optimización global de longitud/área y flujo?", Proc. of ICCV, págs. 564-571
  14. ^ Nicolas Lermé, François Malgouyres y Lucas Létocart (2010), "Reducción de gráficos en la segmentación por corte de gráficos Archivado el 27 de marzo de 2012 en Wayback Machine ", Proc. de ICIP, págs. 3045–3048
  15. ^ Herve Lombaert, Yiyong Sun, Leo Grady, Chenyang Xu (2005), "Un método de corte de gráficos en bandas de múltiples niveles para la segmentación rápida de imágenes", Proc. of ICCV, págs. 259-265
  16. ^ Yin Li, Jian Sun, Chi-Keung Tang y Heung-Yeung Shum (2004), "Ajuste perezoso", ACM Transactions on Graphics, págs. 303-308
  17. ^ Yuri Boykov, Vladimir Kolmogorov: Una comparación experimental de algoritmos de flujo máximo/corte mínimo para la minimización de energía en la visión. IEEE Trans. Pattern Anal. Mach. Intell. 26(9): 1124–1137 (2004)
  18. ^ PJ Yim: "Método y sistema para la segmentación de imágenes", patente de Estados Unidos US8929636, 6 de enero de 2016
  19. ^ Cederbaum, I. (1962-08-01). "Sobre el funcionamiento óptimo de las redes de comunicación". Revista del Instituto Franklin . 274 (2): 130–141. doi :10.1016/0016-0032(62)90401-5. ISSN  0016-0032.
  20. ^ IT Frisch, "Sobre análogos eléctricos para redes de flujo", Actas del IEEE, 57:2, págs. 209-210, 1969