La atención temporal visual es un caso especial de atención visual que implica dirigir la atención a un instante de tiempo específico. De manera similar a su contraparte espacial, atención espacial visual , estos módulos de atención se han implementado ampliamente en análisis de video en visión por computadora para proporcionar un rendimiento mejorado y una explicación interpretable por humanos [3] de los modelos de aprendizaje profundo .
Como el mecanismo de atención visual espacial permite que los sistemas de visión humana y/o por computadora se centren más en regiones semánticamente más sustanciales del espacio, los módulos de atención visual temporal permiten que los algoritmos de aprendizaje automático enfaticen más los fotogramas de vídeo críticos en las tareas de análisis de vídeo , como el reconocimiento de la acción humana . En los sistemas basados en redes neuronales convolucionales , la priorización introducida por el mecanismo de atención se implementa regularmente como una capa de ponderación lineal con parámetros determinados por datos de entrenamiento etiquetados. [3]
Los algoritmos de segmentación de vídeo recientes a menudo explotan mecanismos de atención tanto espaciales como temporales. [2] [4] La investigación sobre el reconocimiento de la acción humana se ha acelerado significativamente desde la introducción de herramientas poderosas como las redes neuronales convolucionales (CNN) . Sin embargo, todavía se están explorando activamente métodos eficaces para incorporar información temporal en las CNN. Motivado por los populares modelos de atención recurrente en el procesamiento del lenguaje natural , se propone [4] en videos la CNN ponderada temporal consciente de la atención (ATW CNN) , que incorpora un modelo de atención visual en una CNN de transmisión múltiple ponderada temporal. Este modelo de atención se implementa como ponderación temporal y aumenta efectivamente el rendimiento de reconocimiento de las representaciones de video. Además, cada flujo en el marco ATW CNN propuesto es capaz de realizar un entrenamiento de un extremo a otro, con parámetros de red y pesos temporales optimizados mediante descenso de gradiente estocástico (SGD) con retropropagación . Los resultados experimentales muestran que el mecanismo de atención ATW CNN contribuye sustancialmente a las ganancias de rendimiento con los fragmentos más discriminativos al centrarse en segmentos de vídeo más relevantes.