Inception (arquitectura de aprendizaje profundo)

Inception ^[1] es una familia de redes neuronales convolucionales (CNN) para visión artificial , introducida por investigadores de Google en 2014 como GoogLeNet (posteriormente rebautizada como Inception v1). La serie fue históricamente importante como una CNN temprana que separa el tallo (ingesta de datos), el cuerpo (procesamiento de datos) y la cabeza (predicción), un diseño arquitectónico que persiste en todas las CNN modernas. ^[2]

Modelo Inception-v3.

Historial de versiones

Origen v1

En 2014, un equipo de Google desarrolló la arquitectura GoogLeNet, una instancia de la cual ganó el ImageNet Large-Scale Visual Recognition Challenge 2014 (ILSVRC14). ^[1]^[3]

El nombre proviene de LeNet de 1998, ya que tanto LeNet como GoogLeNet son CNN. También lo llamaron "Inception" en honor a un meme de Internet que decía "necesitamos profundizar", una frase de la película Inception (2010) . ^[1] Debido a que más tarde se lanzaron más versiones, la arquitectura original de Inception fue renombrada nuevamente como "Inception v1".

Los modelos y el código fueron publicados bajo la licencia Apache 2.0 en GitHub. ^[4]

La arquitectura de Inception v1 es una CNN profunda compuesta por 22 capas. La mayoría de estas capas eran "módulos de Inception". El artículo original afirmaba que los módulos de Inception son una "culminación lógica" de Network in Network ^[5] y (Arora et al, 2014). ^[6]

Como Inception v1 es profundo, sufrió el problema del gradiente de desaparición . El equipo lo resolvió utilizando dos "clasificadores auxiliares", que son clasificadores lineales softmax insertados a 1/3 de profundidad y 2/3 de profundidad dentro de la red, y la función de pérdida es una suma ponderada de los tres: $L=0.3L_{aux,1}+0.3L_{aux,2}+L_{real}$

Estos problemas se eliminaron una vez finalizado el entrenamiento. Esto se solucionó posteriormente con la arquitectura ResNet .

La arquitectura consta de tres partes apiladas una sobre otra: ^[2]

El tallo (ingesta de datos): Las primeras capas convolucionales realizan el preprocesamiento de datos para reducir el tamaño de las imágenes a un tamaño menor.
El cuerpo (procesamiento de datos): Los siguientes módulos de Inception realizan la mayor parte del procesamiento de datos.
La cabeza (predicción): La capa final completamente conectada y softmax producen una distribución de probabilidad para la clasificación de imágenes.

Esta estructura se utiliza en la mayoría de las arquitecturas CNN modernas.

Origen v2

Inception v2 se lanzó en 2015, en un artículo que es más famoso por proponer la normalización por lotes . ^[7]^[8] Tenía 13,6 millones de parámetros.

Mejora Inception v1 al agregar normalización por lotes y eliminar la deserción y la normalización de respuesta local que encontraron innecesarias cuando se usa la normalización por lotes.

Origen v3

Inception v3 se lanzó en 2016. ^[7]^[9] Mejora Inception v2 al utilizar convoluciones factorizadas.

Por ejemplo, una única convolución de 5×5 se puede factorizar en 3×3 apiladas sobre otra 3×3. Ambas tienen un campo receptivo de tamaño 5×5. El núcleo de convolución de 5×5 tiene 25 parámetros, en comparación con solo 18 en la versión factorizada. Por lo tanto, la convolución de 5×5 es estrictamente más potente que la versión factorizada. Sin embargo, esta potencia no es necesariamente necesaria. Empíricamente, el equipo de investigación descubrió que las convoluciones factorizadas ayudan.

También utiliza una forma de reducción de dimensión mediante la concatenación de la salida de una capa convolucional y una capa de agrupamiento . Como ejemplo, un tensor de tamaño se puede reducir mediante una convolución con paso 2 a , y mediante agrupamiento máximo con tamaño de agrupamiento a . Luego, estos se concatenan a . $35\veces 35\veces 320$ $17\veces 17\veces 320$ $2\times 2$ $17\veces 17\veces 320$ $17\veces 17\veces 640$

Además de esto, también eliminaron el clasificador auxiliar más bajo durante el entrenamiento. Descubrieron que el cabezal auxiliar funcionaba como una forma de regularización .

También propusieron una regularización de suavizado de etiquetas en la clasificación. Para una imagen con etiqueta , en lugar de hacer que el modelo prediga la distribución de probabilidad , hicieron que el modelo prediga la distribución suavizada donde es el número total de clases. ${\estilo de visualización c}$ $\delta _{c}=(0,0,\puntos ,0,\underbrace {1} _{c{\text{-ésima entrada}}},0,\puntos ,0)$ $(1-\epsilon )\delta _ {c}+\epsilon /K$ ${\estilo de visualización K}$

Origen v4

En 2017, el equipo lanzó Inception v4, Inception ResNet v1 e Inception ResNet v2. ^[10]

Inception v4 es una actualización incremental con aún más convoluciones factorizadas y otras complicaciones que empíricamente se encontró que mejoran los puntos de referencia.

Inception ResNet v1 y v2 son ambas modificaciones de Inception v4, donde se agregan conexiones residuales a cada módulo Inception, inspiradas en la arquitectura ResNet . ^[11]

Excepción

Xception ("Extreme Inception") se publicó en 2017. ^[12] Es una pila lineal de capas de convolución separables en profundidad con conexiones residuales. El diseño se propuso sobre la hipótesis de que en una CNN, las correlaciones entre canales y las correlaciones espaciales en los mapas de características se pueden desacoplar por completo .

Referencias

^ abc Szegedy, Christian; Wei Liu; Yangqing Jia; Sermanet, Pierre; Reed, Scott; Anguelov, Dragomir; Erhan, Dumitru; Vanhoucke, Vincent; Rabinovich, Andrew (junio de 2015). "Profundizando con las convoluciones". Conferencia IEEE de 2015 sobre visión artificial y reconocimiento de patrones (CVPR) . IEEE. págs. 1–9. arXiv : 1409.4842 . doi :10.1109/CVPR.2015.7298594. ISBN . 978-1-4673-6964-0.
^ ab Zhang, Aston; Lipton, Zachary; Li, Mu; Smola, Alexander J. (2024). "8.4. Redes multirrama (GoogLeNet)". Sumérjase en el aprendizaje profundo . Cambridge New York Port Melbourne New Delhi Singapore: Cambridge University Press. ISBN 978-1-009-38943-3.
^ Repositorio oficial de Inception V1 en Kaggle, publicado por Google.
^ "google/inception". Google. 19 de agosto de 2024. Consultado el 19 de agosto de 2024 .
^ Lin, Min; Chen, Qiang; Yan, Shuicheng (4 de marzo de 2014). "Red en red". arXiv : 1312.4400 [cs.NE].
^ Arora, Sanjeev; Bhaskara, Aditya; Ge, Rong; Ma, Tengyu (27 de enero de 2014). "Límites demostrables para el aprendizaje de algunas representaciones profundas". Actas de la 31.ª Conferencia internacional sobre aprendizaje automático . PMLR: 584–592.
^ ab Szegedy, Christian; Vanhoucke, Vincent; Ioffe, Sergey; Shlens, Jon; Wojna, Zbigniew (2016). "Replanteando la arquitectura inicial para la visión artificial": 2818–2826. {{cite journal}}: Requiere citar revista |journal=( ayuda )
^ Repositorio oficial de Inception V2 en Kaggle, publicado por Google.
^ Repositorio oficial de Inception V3 en Kaggle, publicado por Google.
^ Szegedy, Christian; Ioffe, Sergey; Vanhoucke, Vincent; Alemi, Alexander (12 de febrero de 2017). "Inception-v4, Inception-ResNet y el impacto de las conexiones residuales en el aprendizaje". Actas de la Conferencia AAAI sobre Inteligencia Artificial . 31 (1). arXiv : 1602.07261 . doi :10.1609/aaai.v31i1.11231. ISSN 2374-3468.
^ Él, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (10 de diciembre de 2015). Aprendizaje residual profundo para el reconocimiento de imágenes . arXiv : 1512.03385 .
^ Chollet, Francois (2017). "Xception: aprendizaje profundo con convoluciones separables en profundidad": 1251–1258. {{cite journal}}: Requiere citar revista |journal=( ayuda )

Enlaces externos

Una lista de todos los modelos Inception publicados por Google: "models/research/slim/README.md at master · tensorflow/models". GitHub . Consultado el 19 de octubre de 2024 .