La familia VGG incluye varias configuraciones con diferentes profundidades, indicadas por la letra "VGG" seguida del número de capas de peso. Las más comunes son VGG-16 (13 capas convolucionales + 3 capas completamente conectadas, 138 millones de parámetros) y VGG-19 (16 + 3, 144 millones de parámetros). [1]
La serie fue históricamente importante como uno de los primeros modelos influyentes diseñados mediante la composición de módulos genéricos, mientras que AlexNet (2012) fue diseñado "desde cero". También fue fundamental para cambiar los núcleos convolucionales estándar en CNN de grandes (hasta 11 por 11 en AlexNet) a solo 3 por 3, una decisión que solo se revisó en ConvNext (2022). [6] [7]
Las redes VGGNet quedaron obsoletas en su mayoría con Inception , ResNet y DenseNet . RepVGG (2021) es una versión actualizada de la arquitectura. [8]
Arquitectura
El principio arquitectónico clave de los modelos VGG es el uso consistente de pequeños filtros convolucionales en toda la red. Esto contrasta con las arquitecturas CNN anteriores que empleaban filtros más grandes, como en AlexNet. [7]
Por ejemplo, dos convoluciones apiladas juntas tienen los mismos píxeles de campo receptivo que una sola convolución, pero esta última utiliza parámetros, mientras que la primera utiliza parámetros (donde es el número de canales). La publicación original mostró que las CNN profundas y estrechas superan significativamente a sus contrapartes superficiales y anchas. [7]
La serie de modelos VGG son redes neuronales profundas compuestas de módulos genéricos:
Módulos convolucionales : capas convolucionales con paso 1, seguidas de activaciones ReLU.
Capas de agrupación máxima : después de algunos módulos convolucionales, capas de agrupación máxima con un filtro y un paso de 2 para reducir el tamaño de los mapas de características. Reduce a la mitad tanto el ancho como la altura, pero conserva la cantidad de canales.
Capas completamente conectadas : tres capas completamente conectadas al final de la red, con tamaños de 4096-4096-1000. La última tiene 1000 canales correspondientes a las 1000 clases de ImageNet.
Capa Softmax : una capa softmax genera la distribución de probabilidad sobre las clases.
La familia VGG incluye varias configuraciones con diferentes profundidades, indicadas con la letra "VGG" seguida del número de capas de peso. Las más comunes son VGG-16 (13 capas convolucionales + 3 capas completamente conectadas) y VGG-19 (16 + 3), indicadas como configuraciones D y E en el artículo original. [10]
Como ejemplo, las 16 capas convolucionales de VGG-19 están estructuradas de la siguiente manera: donde la flecha significa una convolución 3x3 con canales de entrada y canales de salida y paso 1, seguido de activación ReLU. La significa una capa de submuestreo por agrupamiento máximo 2x2 con paso 2.
Referencias
^ ab Simonyan, Karen; Zisserman, Andrew (10 de abril de 2015), Redes convolucionales muy profundas para el reconocimiento de imágenes a gran escala , arXiv : 1409.1556
^ Dhillon, Anamika; Verma, Gyanendra K. (1 de junio de 2020). "Red neuronal convolucional: una revisión de modelos, metodologías y aplicaciones para la detección de objetos". Progreso en Inteligencia Artificial . 9 (2): 85–112. doi :10.1007/s13748-019-00203-0. ISSN 2192-6360.
^ "Resultados de ILSVRC2014". image-net.org . Consultado el 6 de septiembre de 2024 .
^ He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2016). "Aprendizaje residual profundo para reconocimiento de imágenes". Conferencia IEEE de 2016 sobre visión artificial y reconocimiento de patrones (CVPR) . pp. 770–778. arXiv : 1512.03385 . Código Bibliográfico :2016cvpr.confE...1H. doi :10.1109/CVPR.2016.90. ISBN.978-1-4673-8851-1.
^ Gatys, Leon A.; Ecker, Alexander S.; Bethge, Matthias (2016). Transferencia de estilo de imagen mediante redes neuronales convolucionales. Conferencia IEEE sobre visión artificial y reconocimiento de patrones (CVPR). págs. 2414–2423.
^ Liu, Zhuang; Mao, Hanzi; Wu, Chao-Yuan; Feichtenhofer, Christoph; Darrell, Trevor; Xie, Saining (2022). "Una ConvNet para la década de 2020". Actas de la Conferencia IEEE/CVF sobre Visión artificial y reconocimiento de patrones (CVPR) : 11976–11986. arXiv : 2201.03545 .
^ abc Zhang, Aston; Lipton, Zachary; Li, Mu; Smola, Alexander J. (2024). "8.2. Redes que utilizan bloques (VGG)". Sumérjase en el aprendizaje profundo . Cambridge New York Port Melbourne New Delhi Singapore: Cambridge University Press. ISBN978-1-009-38943-3.
^ Ding, Xiaohan; Zhang, Xiangyu; Ma, Ningning; Han, Jungong; Ding, Guiguang; Sun, Jian (2021). "RepVGG: Haciendo que las ConvNets de estilo VGG vuelvan a ser geniales". Actas de la Conferencia IEEE/CVF sobre Visión artificial y reconocimiento de patrones (CVPR) : 13733–13742. arXiv : 2101.03697 .
^ "Redes convolucionales muy profundas para el reconocimiento visual a gran escala". Grupo de Visión por Computador de la Universidad de Oxford . Consultado el 6 de septiembre de 2024 .