stringtranslate.com

Atención temporal visual

Fotogramas de vídeo de la categoría de acción Barras paralelas en el conjunto de datos UCF-101 [1] (a) Los cuatro fotogramas con la puntuación más alta en los pesos de atención temporal del vídeo , en los que el atleta se está desempeñando en las barras paralelas; (b) Los cuatro fotogramas con la puntuación más baja en los pesos de atención temporal del vídeo , en los que el atleta está de pie en el suelo. Todos los pesos son predichos por el algoritmo ATW CNN. [2] Los fotogramas de vídeo con una puntuación alta generalmente capturan los movimientos más distintivos relevantes para la categoría de acción.

La atención temporal visual es un caso especial de atención visual que implica dirigir la atención a un instante específico en el tiempo. De manera similar a su contraparte espacial, la atención espacial visual , estos módulos de atención se han implementado ampliamente en análisis de video en visión artificial para brindar un rendimiento mejorado y una explicación interpretable por humanos [3] de los modelos de aprendizaje profundo .

Así como el mecanismo de atención espacial visual permite que los sistemas de visión humana y/o computacional se enfoquen más en regiones semánticamente más sustanciales en el espacio, los módulos de atención temporal visual permiten que los algoritmos de aprendizaje automático enfaticen más en cuadros de video críticos en tareas de análisis de video , como el reconocimiento de acciones humanas . En sistemas basados ​​en redes neuronales convolucionales , la priorización introducida por el mecanismo de atención se implementa regularmente como una capa de ponderación lineal con parámetros determinados por datos de entrenamiento etiquetados. [3]

Reconocimiento de aplicaciones en acción

Arquitectura CNN ATW. [4] Se utilizan tres flujos CNN para procesar imágenes RGB espaciales, imágenes de flujo óptico temporal e imágenes de flujo óptico deformado temporal, respectivamente. Se emplea un modelo de atención para asignar pesos temporales entre fragmentos para cada flujo/modalidad. Se utiliza una suma ponderada para fusionar las predicciones de los tres flujos/modalidades.

Los algoritmos de segmentación de video recientes a menudo explotan mecanismos de atención tanto espaciales como temporales. [2] [4] La investigación en el reconocimiento de acciones humanas se ha acelerado significativamente desde la introducción de herramientas poderosas como las redes neuronales convolucionales (CNN) . Sin embargo, todavía se están explorando activamente métodos efectivos para la incorporación de información temporal en las CNN. Motivado por los populares modelos de atención recurrente en el procesamiento del lenguaje natural , se propone la CNN ponderada temporal consciente de la atención (ATW CNN) [4] en videos, que incorpora un modelo de atención visual en una CNN multiflujo ponderada temporal. Este modelo de atención se implementa como ponderación temporal y aumenta efectivamente el rendimiento de reconocimiento de representaciones de video. Además, cada flujo en el marco de CNN ATW propuesto es capaz de entrenamiento de extremo a extremo, con parámetros de red y pesos temporales optimizados por descenso de gradiente estocástico (SGD) con retropropagación . Los resultados experimentales muestran que el mecanismo de atención ATW CNN contribuye sustancialmente a las ganancias de rendimiento con los fragmentos más discriminativos al centrarse en segmentos de video más relevantes.


Literatura

Véase también

Referencias

  1. ^ Centro, UCF (17 de octubre de 2013). "UCF101 - Conjunto de datos de reconocimiento de acciones". CRCV . Consultado el 12 de septiembre de 2018 .
  2. ^ ab Zang, Jinliang; Wang, Le; Liu, Ziyi; Zhang, Qilin; Hua, Gang; Zheng, Nanning (2018). "Red neuronal convolucional ponderada temporal basada en la atención para el reconocimiento de acciones". IFIP Advances in Information and Communication Technology . Cham: Springer International Publishing. págs. 97–108. arXiv : 1803.07179 . doi :10.1007/978-3-319-92007-8_9. ISBN 978-3-319-92006-1. ISSN  1868-4238. S2CID  4058889.
  3. ^ ab "NIPS 2017". Simposio sobre aprendizaje automático interpretable . 2017-10-20 . Consultado el 2018-09-12 .
  4. ^ abc Wang, Le; Zang, Jinliang; Zhang, Qilin; Niu, Zhenxing; Hua, Gang; Zheng, Nanning (2018-06-21). "Reconocimiento de acciones mediante una red neuronal convolucional ponderada temporalmente consciente de la atención" (PDF) . Sensores . 18 (7). MDPI AG: 1979. Bibcode :2018Senso..18.1979W. doi : 10.3390/s18071979 . ISSN  1424-8220. PMC 6069475 . PMID  29933555. El material fue copiado de esta fuente, que está disponible bajo una Licencia Creative Commons Atribución 4.0 Internacional.