La atención temporal visual es un caso especial de atención visual que implica dirigir la atención a un instante específico en el tiempo. De manera similar a su contraparte espacial, la atención espacial visual , estos módulos de atención se han implementado ampliamente en análisis de video en visión artificial para brindar un rendimiento mejorado y una explicación interpretable por humanos [3] de los modelos de aprendizaje profundo .
Así como el mecanismo de atención espacial visual permite que los sistemas de visión humana y/o computacional se enfoquen más en regiones semánticamente más sustanciales en el espacio, los módulos de atención temporal visual permiten que los algoritmos de aprendizaje automático enfaticen más en cuadros de video críticos en tareas de análisis de video , como el reconocimiento de acciones humanas . En sistemas basados en redes neuronales convolucionales , la priorización introducida por el mecanismo de atención se implementa regularmente como una capa de ponderación lineal con parámetros determinados por datos de entrenamiento etiquetados. [3]
Los algoritmos de segmentación de video recientes a menudo explotan mecanismos de atención tanto espaciales como temporales. [2] [4] La investigación en el reconocimiento de acciones humanas se ha acelerado significativamente desde la introducción de herramientas poderosas como las redes neuronales convolucionales (CNN) . Sin embargo, todavía se están explorando activamente métodos efectivos para la incorporación de información temporal en las CNN. Motivado por los populares modelos de atención recurrente en el procesamiento del lenguaje natural , se propone la CNN ponderada temporal consciente de la atención (ATW CNN) [4] en videos, que incorpora un modelo de atención visual en una CNN multiflujo ponderada temporal. Este modelo de atención se implementa como ponderación temporal y aumenta efectivamente el rendimiento de reconocimiento de representaciones de video. Además, cada flujo en el marco de CNN ATW propuesto es capaz de entrenamiento de extremo a extremo, con parámetros de red y pesos temporales optimizados por descenso de gradiente estocástico (SGD) con retropropagación . Los resultados experimentales muestran que el mecanismo de atención ATW CNN contribuye sustancialmente a las ganancias de rendimiento con los fragmentos más discriminativos al centrarse en segmentos de video más relevantes.