Atención temporal visual

La atención temporal visual es un caso especial de atención visual que implica dirigir la atención a un instante específico en el tiempo. De manera similar a su contraparte espacial, la atención espacial visual , estos módulos de atención se han implementado ampliamente en análisis de video en visión artificial para brindar un rendimiento mejorado y una explicación interpretable por humanos ^[3] de los modelos de aprendizaje profundo .

Así como el mecanismo de atención espacial visual permite que los sistemas de visión humana y/o computacional se enfoquen más en regiones semánticamente más sustanciales en el espacio, los módulos de atención temporal visual permiten que los algoritmos de aprendizaje automático enfaticen más en cuadros de video críticos en tareas de análisis de video , como el reconocimiento de acciones humanas . En sistemas basados en redes neuronales convolucionales , la priorización introducida por el mecanismo de atención se implementa regularmente como una capa de ponderación lineal con parámetros determinados por datos de entrenamiento etiquetados. ^[3]

Reconocimiento de aplicaciones en acción

Los algoritmos de segmentación de video recientes a menudo explotan mecanismos de atención tanto espaciales como temporales. ^[2]^[4] La investigación en el reconocimiento de acciones humanas se ha acelerado significativamente desde la introducción de herramientas poderosas como las redes neuronales convolucionales (CNN) . Sin embargo, todavía se están explorando activamente métodos efectivos para la incorporación de información temporal en las CNN. Motivado por los populares modelos de atención recurrente en el procesamiento del lenguaje natural , se propone la CNN ponderada temporal consciente de la atención (ATW CNN) ^[4] en videos, que incorpora un modelo de atención visual en una CNN multiflujo ponderada temporal. Este modelo de atención se implementa como ponderación temporal y aumenta efectivamente el rendimiento de reconocimiento de representaciones de video. Además, cada flujo en el marco de CNN ATW propuesto es capaz de entrenamiento de extremo a extremo, con parámetros de red y pesos temporales optimizados por descenso de gradiente estocástico (SGD) con retropropagación . Los resultados experimentales muestran que el mecanismo de atención ATW CNN contribuye sustancialmente a las ganancias de rendimiento con los fragmentos más discriminativos al centrarse en segmentos de video más relevantes.

Literatura

Seibold VC, Balke J y Rolke B (2023): Atención temporal . Frente. Cognir. 2:1168320. doi: 10.3389/fcogn.2023.1168320.

Véase también

Referencias

^ Centro, UCF (17 de octubre de 2013). "UCF101 - Conjunto de datos de reconocimiento de acciones". CRCV . Consultado el 12 de septiembre de 2018 .
^ ab Zang, Jinliang; Wang, Le; Liu, Ziyi; Zhang, Qilin; Hua, Gang; Zheng, Nanning (2018). "Red neuronal convolucional ponderada temporal basada en la atención para el reconocimiento de acciones". IFIP Advances in Information and Communication Technology . Cham: Springer International Publishing. págs. 97–108. arXiv : 1803.07179 . doi :10.1007/978-3-319-92007-8_9. ISBN 978-3-319-92006-1. ISSN 1868-4238. S2CID 4058889.
^ ab "NIPS 2017". Simposio sobre aprendizaje automático interpretable . 2017-10-20 . Consultado el 2018-09-12 .
^ abc Wang, Le; Zang, Jinliang; Zhang, Qilin; Niu, Zhenxing; Hua, Gang; Zheng, Nanning (2018-06-21). "Reconocimiento de acciones mediante una red neuronal convolucional ponderada temporalmente consciente de la atención" (PDF) . Sensores . 18 (7). MDPI AG: 1979. Bibcode :2018Senso..18.1979W. doi : 10.3390/s18071979 . ISSN 1424-8220. PMC 6069475 . PMID 29933555. El material fue copiado de esta fuente, que está disponible bajo una Licencia Creative Commons Atribución 4.0 Internacional.