stringtranslate.com

Atención visual temporal

Fotogramas de vídeo de la categoría de acción Barras paralelas en el conjunto de datos UCF-101 [1] (a) Los cuatro fotogramas con la clasificación más alta en pesos de atención temporal de vídeo , en los que el atleta se desempeña en las barras paralelas; (b) Los cuatro fotogramas con la clasificación más baja en pesos de atención temporal de vídeo , en los que el atleta está de pie en el suelo. Todos los pesos son predichos por el algoritmo ATW CNN. [2] Los cuadros de video altamente ponderados generalmente capturan los movimientos más distintivos relevantes para la categoría de acción.

La atención temporal visual es un caso especial de atención visual que implica dirigir la atención a un instante de tiempo específico. De manera similar a su contraparte espacial, atención espacial visual , estos módulos de atención se han implementado ampliamente en análisis de video en visión por computadora para proporcionar un rendimiento mejorado y una explicación interpretable por humanos [3] de los modelos de aprendizaje profundo .

Como el mecanismo de atención visual espacial permite que los sistemas de visión humana y/o por computadora se centren más en regiones semánticamente más sustanciales del espacio, los módulos de atención visual temporal permiten que los algoritmos de aprendizaje automático enfaticen más los fotogramas de vídeo críticos en las tareas de análisis de vídeo , como el reconocimiento de la acción humana . En los sistemas basados ​​en redes neuronales convolucionales , la priorización introducida por el mecanismo de atención se implementa regularmente como una capa de ponderación lineal con parámetros determinados por datos de entrenamiento etiquetados. [3]

Reconocimiento de Aplicación en Acción

Arquitectura ATW CNN. [4] Se utilizan tres flujos de CNN para procesar imágenes RGB espaciales, imágenes de flujo óptico temporal e imágenes de flujo óptico deformado temporal, respectivamente. Se emplea un modelo de atención para asignar pesos temporales entre fragmentos para cada flujo/modalidad. La suma ponderada se utiliza para fusionar predicciones de las tres corrientes/modalidades.

Los algoritmos de segmentación de vídeo recientes a menudo explotan mecanismos de atención tanto espaciales como temporales. [2] [4] La investigación sobre el reconocimiento de la acción humana se ha acelerado significativamente desde la introducción de herramientas poderosas como las redes neuronales convolucionales (CNN) . Sin embargo, todavía se están explorando activamente métodos eficaces para incorporar información temporal en las CNN. Motivado por los populares modelos de atención recurrente en el procesamiento del lenguaje natural , se propone [4] en videos la CNN ponderada temporal consciente de la atención (ATW CNN) , que incorpora un modelo de atención visual en una CNN de transmisión múltiple ponderada temporal. Este modelo de atención se implementa como ponderación temporal y aumenta efectivamente el rendimiento de reconocimiento de las representaciones de video. Además, cada flujo en el marco ATW CNN propuesto es capaz de realizar un entrenamiento de un extremo a otro, con parámetros de red y pesos temporales optimizados mediante descenso de gradiente estocástico (SGD) con retropropagación . Los resultados experimentales muestran que el mecanismo de atención ATW CNN contribuye sustancialmente a las ganancias de rendimiento con los fragmentos más discriminativos al centrarse en segmentos de vídeo más relevantes.


Literatura

Ver también

Referencias

  1. ^ Centro, UCF (17 de octubre de 2013). "UCF101 - Conjunto de datos de reconocimiento de acciones". CRCV . Consultado el 12 de septiembre de 2018 .
  2. ^ ab Zang, Jinliang; Wang, Le; Liu, Ziyi; Zhang, Qilin; Hua, pandilla; Zheng, Nanning (2018). "Red neuronal convolucional ponderada temporal basada en la atención para el reconocimiento de acciones". Avances del IFIP en tecnologías de la información y las comunicaciones . Cham: Editorial Internacional Springer. págs. 97-108. arXiv : 1803.07179 . doi :10.1007/978-3-319-92007-8_9. ISBN 978-3-319-92006-1. ISSN  1868-4238. S2CID  4058889.
  3. ^ ab "NIPS 2017". Simposio de ML interpretable . 2017-10-20 . Consultado el 12 de septiembre de 2018 .
  4. ^ abc Wang, Le; Zang, Jinliang; Zhang, Qilin; Niu, Zhenxing; Hua, pandilla; Zheng, Nanning (21 de junio de 2018). "Reconocimiento de acciones mediante una red neuronal convolucional ponderada temporal consciente de la atención" (PDF) . Sensores . MDPI AG. 18 (7): 1979. Código bibliográfico : 2018Senso..18.1979W. doi : 10.3390/s18071979 . ISSN  1424-8220. PMC 6069475 . PMID  29933555. El material fue copiado de esta fuente, que está disponible bajo una licencia internacional Creative Commons Attribution 4.0.