stringtranslate.com

VGGNet

Arquitectura del módulo VGG comparada con la arquitectura AlexNet .

Las VGGNets son una serie de redes neuronales convolucionales (CNN) desarrolladas por el Grupo de Geometría Visual (VGG) de la Universidad de Oxford .

La familia VGG incluye varias configuraciones con diferentes profundidades, indicadas por la letra "VGG" seguida del número de capas de peso. Las más comunes son VGG-16 (13 capas convolucionales + 3 capas completamente conectadas, 138 millones de parámetros) y VGG-19 (16 + 3, 144 millones de parámetros). [1]

La familia VGG se aplicó ampliamente en varias áreas de visión por computadora. [2] Un modelo de conjunto de VGGNets logró resultados de vanguardia en el ImageNet Large Scale Visual Recognition Challenge (ILSVRC) en 2014. [1] [3] Se utilizó como una comparación de referencia en el artículo ResNet para la clasificación de imágenes , [4] como la red en la CNN basada en Fast Region para la detección de objetos y como una red base en la transferencia de estilo neuronal . [5]

La serie fue históricamente importante como uno de los primeros modelos influyentes diseñados mediante la composición de módulos genéricos, mientras que AlexNet (2012) fue diseñado "desde cero". También fue fundamental para cambiar los núcleos convolucionales estándar en CNN de grandes (hasta 11 por 11 en AlexNet) a solo 3 por 3, una decisión que solo se revisó en ConvNext (2022). [6] [7]

Las redes VGGNet quedaron obsoletas en su mayoría con Inception , ResNet y DenseNet . RepVGG (2021) es una versión actualizada de la arquitectura. [8]

Arquitectura

Arquitectura de red en red en comparación con la arquitectura VGG. La arquitectura de red en red (2013) [9] fue una CNN anterior. Cambió la arquitectura AlexNet al agregar convoluciones 1x1 y usar un agrupamiento de promedio global después de la última convolución.

El principio arquitectónico clave de los modelos VGG es el uso consistente de pequeños filtros convolucionales en toda la red. Esto contrasta con las arquitecturas CNN anteriores que empleaban filtros más grandes, como en AlexNet. [7]

Por ejemplo, dos convoluciones apiladas juntas tienen los mismos píxeles de campo receptivo que una sola convolución, pero esta última utiliza parámetros, mientras que la primera utiliza parámetros (donde es el número de canales). La publicación original mostró que las CNN profundas y estrechas superan significativamente a sus contrapartes superficiales y anchas. [7]

La serie de modelos VGG son redes neuronales profundas compuestas de módulos genéricos:

  1. Módulos convolucionales : capas convolucionales con paso 1, seguidas de activaciones ReLU.
  2. Capas de agrupación máxima : después de algunos módulos convolucionales, capas de agrupación máxima con un filtro y un paso de 2 para reducir el tamaño de los mapas de características. Reduce a la mitad tanto el ancho como la altura, pero conserva la cantidad de canales.
  3. Capas completamente conectadas : tres capas completamente conectadas al final de la red, con tamaños de 4096-4096-1000. La última tiene 1000 canales correspondientes a las 1000 clases de ImageNet.
  4. Capa Softmax : una capa softmax genera la distribución de probabilidad sobre las clases.

La familia VGG incluye varias configuraciones con diferentes profundidades, indicadas con la letra "VGG" seguida del número de capas de peso. Las más comunes son VGG-16 (13 capas convolucionales + 3 capas completamente conectadas) y VGG-19 (16 + 3), indicadas como configuraciones D y E en el artículo original. [10]

Como ejemplo, las 16 capas convolucionales de VGG-19 están estructuradas de la siguiente manera: donde la flecha significa una convolución 3x3 con canales de entrada y canales de salida y paso 1, seguido de activación ReLU. La significa una capa de submuestreo por agrupamiento máximo 2x2 con paso 2.

Referencias

  1. ^ ab Simonyan, Karen; Zisserman, Andrew (10 de abril de 2015), Redes convolucionales muy profundas para el reconocimiento de imágenes a gran escala , arXiv : 1409.1556
  2. ^ Dhillon, Anamika; Verma, Gyanendra K. (1 de junio de 2020). "Red neuronal convolucional: una revisión de modelos, metodologías y aplicaciones para la detección de objetos". Progreso en Inteligencia Artificial . 9 (2): 85–112. doi :10.1007/s13748-019-00203-0. ISSN  2192-6360.
  3. ^ "Resultados de ILSVRC2014". image-net.org . Consultado el 6 de septiembre de 2024 .
  4. ^ He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2016). "Aprendizaje residual profundo para reconocimiento de imágenes". Conferencia IEEE de 2016 sobre visión artificial y reconocimiento de patrones (CVPR) . pp. 770–778. arXiv : 1512.03385 . Código Bibliográfico :2016cvpr.confE...1H. doi :10.1109/CVPR.2016.90. ISBN. 978-1-4673-8851-1.
  5. ^ Gatys, Leon A.; Ecker, Alexander S.; Bethge, Matthias (2016). Transferencia de estilo de imagen mediante redes neuronales convolucionales. Conferencia IEEE sobre visión artificial y reconocimiento de patrones (CVPR). págs. 2414–2423.
  6. ^ Liu, Zhuang; Mao, Hanzi; Wu, Chao-Yuan; Feichtenhofer, Christoph; Darrell, Trevor; Xie, Saining (2022). "Una ConvNet para la década de 2020". Actas de la Conferencia IEEE/CVF sobre Visión artificial y reconocimiento de patrones (CVPR) : 11976–11986. arXiv : 2201.03545 .
  7. ^ abc Zhang, Aston; Lipton, Zachary; Li, Mu; Smola, Alexander J. (2024). "8.2. Redes que utilizan bloques (VGG)". Sumérjase en el aprendizaje profundo . Cambridge New York Port Melbourne New Delhi Singapore: Cambridge University Press. ISBN 978-1-009-38943-3.
  8. ^ Ding, Xiaohan; Zhang, Xiangyu; Ma, Ningning; Han, Jungong; Ding, Guiguang; Sun, Jian (2021). "RepVGG: Haciendo que las ConvNets de estilo VGG vuelvan a ser geniales". Actas de la Conferencia IEEE/CVF sobre Visión artificial y reconocimiento de patrones (CVPR) : 13733–13742. arXiv : 2101.03697 .
  9. ^ Lin, Min; Chen, Qiang; Yan, Shuicheng (2013). "Red en red". arXiv : 1312.4400 [cs.NE].
  10. ^ "Redes convolucionales muy profundas para el reconocimiento visual a gran escala". Grupo de Visión por Computador de la Universidad de Oxford . Consultado el 6 de septiembre de 2024 .