stringtranslate.com

Cosegmentación de objetos

Ejemplos de fotogramas de vídeo y sus anotaciones de cosegmentación de objetos (verdad fundamental) en el conjunto de datos Noisy-ViDiSeg [1] . Los segmentos de objetos se representan con el borde rojo.

En visión artificial , la cosegmentación de objetos es un caso especial de segmentación de imágenes , que se define como la segmentación conjunta de objetos semánticamente similares en múltiples imágenes o fotogramas de vídeo. [2] [3]

Desafíos

A menudo resulta complicado extraer máscaras de segmentación de un objetivo/objeto de una colección ruidosa de imágenes o fotogramas de vídeo, lo que implica el descubrimiento de objetos junto con la segmentación . Una colección ruidosa implica que el objeto/objetivo está presente esporádicamente en un conjunto de imágenes o que el objeto/objetivo desaparece de forma intermitente a lo largo del vídeo de interés. Los primeros métodos [4] [5] suelen implicar representaciones de nivel medio, como propuestas de objetos .

Métodos basados ​​en redes dinámicas de Markov

El proceso de inferencia de dos redes dinámicas de Markov acopladas para obtener el descubrimiento y segmentación conjunta de objetos de vídeo [1]
Un marco conjunto de descubrimiento de objetos y cosegmentación basado en redes de Markov dinámicas acopladas [1] .

Recientemente se ha propuesto un método conjunto de descubrimiento de objetos y cosegmentación basado en redes de Markov dinámicas acopladas [1] , que promete mejoras significativas en robustez frente a fotogramas de vídeo irrelevantes o ruidosos.

A diferencia de los esfuerzos anteriores que asumen convenientemente la presencia consistente de los objetos objetivo a lo largo del video de entrada, este algoritmo basado en red dinámica dual acoplada de Markov lleva a cabo simultáneamente las tareas de detección y segmentación con dos redes de Markov respectivas actualizadas conjuntamente a través de la propagación de creencias.

En concreto, la red de Markov responsable de la segmentación se inicializa con superpíxeles y proporciona información a su homóloga de Markov responsable de la tarea de detección de objetos. Por el contrario, la red de Markov responsable de la detección construye el gráfico de propuesta de objetos con entradas que incluyen los tubos de segmentación espaciotemporal.

Métodos basados ​​en cortes de gráficos

La optimización de cortes de gráficos es una herramienta popular en la visión artificial, especialmente en las primeras aplicaciones de segmentación de imágenes . Como una extensión de los cortes de gráficos regulares, se propone el corte de hipergráficos de múltiples niveles [6] para dar cuenta de correspondencias de orden superior más complejas entre grupos de videos más allá de las correlaciones típicas por pares.

Con esta extensión del hipergrafo, se podrían incorporar sin problemas múltiples modalidades de correspondencias, incluidas la apariencia de bajo nivel, la prominencia, el movimiento coherente y las características de alto nivel, como las regiones de objetos, en el cálculo del hiperarista. Además, como ventaja fundamental sobre el enfoque basado en la coocurrencia , el hipergrafo retiene implícitamente correspondencias más complejas entre sus vértices, y los pesos del hiperarista se calculan convenientemente mediante la descomposición de valores propios de matrices laplacianas .

Métodos basados ​​en CNN/LSTM

Descripción general de la localización temporal de acciones de gruesas a finas en [7] (a) Localización gruesa. Dado un video sin recortar, primero generamos videoclips que tienen en cuenta la prominencia mediante ventanas deslizantes de longitud variable. La red de propuestas decide si un videoclip contiene alguna acción (por lo que el clip se agrega al conjunto de candidatos) o fondo puro (por lo que el clip se descarta directamente). La red de clasificación posterior predice la clase de acción específica para cada clip candidato y genera los puntajes de clasificación y las etiquetas de acción. (b) Localización fina. Con los puntajes de clasificación y las etiquetas de acción de la localización gruesa anterior, se lleva a cabo una predicción adicional de la categoría de video y se obtienen sus cuadros de inicio y final.
Diagrama de flujo del detector de localización de acciones espacio-temporales Segment-tube. [7] Como entrada, un video sin recortar contiene múltiples fotogramas de acciones ( p. ej. , todas las acciones en un video de patinaje artístico en pareja), con solo una parte de estos fotogramas pertenecientes a una categoría relevante ( p. ej ., DeathSpirals). Generalmente hay acciones anteriores y posteriores irrelevantes (fondo). El detector Segment-tube alterna la optimización de la localización temporal y la segmentación espacial de forma iterativa. La salida final es una secuencia de máscaras de segmentación por fotograma con fotogramas de inicio/final precisos denotados con el fragmento rojo en la parte inferior, mientras que el fondo está marcado con fragmentos verdes en la parte inferior.

En las aplicaciones de localización de acciones , la cosegmentación de objetos también se implementa como el detector espacio-temporal de tubo de segmento . [7] Inspirados por los recientes esfuerzos de localización de acciones espacio-temporales con tubos (secuencias de cuadros delimitadores), Le et al. presentan un nuevo detector de localización de acciones espacio-temporales, Segment-tube, que consiste en secuencias de máscaras de segmentación por cuadro. Este detector Segment-tube puede señalar temporalmente el cuadro inicial/final de cada categoría de acción en presencia de acciones de interferencia anteriores/posteriores en videos sin recortar. Simultáneamente, el detector Segment-tube produce máscaras de segmentación por cuadro en lugar de cuadros delimitadores, lo que ofrece una precisión espacial superior a los tubos. Esto se logra alternando la optimización iterativa entre la localización de acciones temporales y la segmentación de acciones espaciales.

El detector de tubo de segmento propuesto se ilustra en el diagrama de flujo de la derecha. La entrada de muestra es un video sin recortar que contiene todos los fotogramas de un video de patinaje artístico en pareja, y solo una parte de estos fotogramas pertenece a una categoría relevante (por ejemplo, DeathSpirals). Inicializado con segmentación de imágenes basada en la prominencia en fotogramas individuales, este método primero realiza el paso de localización de acción temporal con una CNN 3D en cascada y LSTM , y señala el fotograma inicial y el fotograma final de una acción objetivo con una estrategia de grueso a fino. Posteriormente, el detector de tubo de segmento refina la segmentación espacial por fotograma con corte de gráfico centrándose en fotogramas relevantes identificados por el paso de localización de acción temporal. La optimización alterna entre la localización de acción temporal y la segmentación de acción espacial de manera iterativa. Tras la convergencia práctica, los resultados finales de localización de acción espacio-temporal se obtienen en el formato de una secuencia de máscaras de segmentación por fotograma (fila inferior en el diagrama de flujo) con fotogramas iniciales/finales precisos.

Véase también

Referencias

  1. ^ abcd Liu, Ziyi; Wang, Le; Hua, Gang; Zhang, Qilin; Niu, Zhenxing; Wu, Ying; Zheng, Nanning (2018). "Descubrimiento y segmentación conjunta de objetos de vídeo mediante redes dinámicas acopladas de Markov" (PDF) . IEEE Transactions on Image Processing . 27 (12): 5840–5853. Bibcode :2018ITIP...27.5840L. doi : 10.1109/tip.2018.2859622 . ISSN  1057-7149. PMID  30059300. S2CID  51867241.
  2. ^ Vicente, Sara; Rother, Carsten; Kolmogorov, Vladimir (2011). "Cosegmentación de objetos". CVPR 2011 . IEEE. págs. 2217–2224. doi :10.1109/cvpr.2011.5995530. ISBN 978-1-4577-0394-2.
  3. ^ Chen, Ding-Jie; Chen, Hwann-Tzong; Chang, Long-Wen (2012). "Cosegmentación de objetos de vídeo". Actas de la 20.ª conferencia internacional de la ACM sobre multimedia - MM '12 . Nueva York, Nueva York, EE. UU.: ACM Press. pág. 805. doi :10.1145/2393347.2396317. ISBN 978-1-4503-1089-5.
  4. ^ Lee, Yong Jae; Kim, Jaechul; Grauman, Kristen (2011). "Segmentos clave para la segmentación de objetos de vídeo". Conferencia internacional sobre visión artificial de 2011. IEEE. pp. 1995–2002. CiteSeerX 10.1.1.269.2727 . doi :10.1109/iccv.2011.6126471. ISBN .  978-1-4577-1102-2.
  5. ^ Ma, Tianyang; Latecki, Longin Jan (2012). Cliques de peso máximo con restricciones de mutex para segmentación de objetos de vídeo . IEEE CVPR 2012. págs. 670–677. doi :10.1109/CVPR.2012.6247735. ISBN . 978-1-4673-1228-8.
  6. ^ Wang, Le; Lv, Xin; Zhang, Qilin; Niu, Zhenxing; Zheng, Nanning; Hua, Gang (2020). "Cosegmentación de objetos en vídeos ruidosos con hipergrafo multinivel" (PDF) . Transacciones IEEE sobre multimedia . 23 . IEEE: 1. doi :10.1109/tmm.2020.2995266. ISSN  1520-9210. S2CID  219410031.
  7. ^ abc Wang, Le; Duan, Xuhuan; Zhang, Qilin; Niu, Zhenxing; Hua, Gang; Zheng, Nanning (2018-05-22). "Segment-Tube: localización de acción espacio-temporal en vídeos sin recortar con segmentación por fotograma" (PDF) . Sensores . 18 (5). MDPI AG: 1657. Bibcode :2018Senso..18.1657W. doi : 10.3390/s18051657 . ISSN  1424-8220. PMC 5982167 . PMID  29789447.  El material fue copiado de esta fuente, que está disponible bajo una Licencia Creative Commons Atribución 4.0 Internacional.