Dilución (redes neuronales)

La dilución y el abandono (también llamados DropConnect ^[1] ) son técnicas de regularización para reducir el sobreajuste en redes neuronales artificiales al evitar coadaptaciones complejas en los datos de entrenamiento . Son una forma eficiente de realizar promedios de modelos con redes neuronales. ^[2] La dilución se refiere a la reducción de pesos, ^[3] mientras que la deserción se refiere a "abandonar" u omitir unidades (tanto ocultas como visibles) aleatoriamente durante el proceso de entrenamiento de una red neuronal. ^[4]^[5]^[2] Ambos desencadenan el mismo tipo de regularización.

Tipos y usos

La dilución suele dividirse en dilución débil y dilución fuerte . La dilución débil describe el proceso en el que la fracción finita de conexiones eliminadas es pequeña, y la dilución fuerte se refiere a cuando esta fracción es grande. No existe una distinción clara sobre dónde está el límite entre dilución fuerte y débil y, a menudo, la distinción depende del precedente de un caso de uso específico y tiene implicaciones sobre cómo resolver soluciones exactas.

A veces se utiliza la dilución para añadir ruido de amortiguación a las entradas. En ese caso, la dilución débil se refiere a agregar una pequeña cantidad de ruido de amortiguación, mientras que la dilución fuerte se refiere a agregar una mayor cantidad de ruido de amortiguación. Ambos pueden reescribirse como variantes de dilución de peso.

Estas técnicas también se denominan a veces poda aleatoria de pesos, pero suele ser una operación unidireccional no recurrente. La red se poda y luego se mantiene si supone una mejora con respecto al modelo anterior. Tanto la dilución como el abandono se refieren a un proceso iterativo. La poda de pesos generalmente no implica que la red continúe aprendiendo, mientras que en la dilución/abandono, la red continúa aprendiendo después de aplicar la técnica.

Red lineal generalizada

La salida de una capa de nodos lineales, en una red neuronal artificial, se puede describir como

$y_{i}$ – salida del nodo $i$
$w_{ij}$ – peso real antes de la dilución, también llamado fuerza de conexión de Hebb
$x_{j}$ – entrada desde el nodo $j$

Esto se puede escribir en notación vectorial como

$\mathbf {y}$ – vector de salida
$\mathbf {W}$ – matriz de peso
$\mathbf {x}$ – vector de entrada

Las ecuaciones (1) y (2) se utilizan en las secciones siguientes.

dilución débil

Durante la dilución débil, la fracción finita de conexiones eliminadas (los pesos) es pequeña, lo que da lugar a una pequeña incertidumbre. Este caso límite se puede resolver exactamente con la teoría del campo medio . En dilución débil, el impacto sobre los pesos se puede describir como

${\hat {w_{ij}}}$ – peso diluido
$w_{ij}$ – peso real antes de la dilución
$P(c)$ – la probabilidad de , la probabilidad de mantener un peso $c$

La interpretación de la probabilidad también se puede cambiar de mantener un peso a podarlo. $P(c)$

En notación vectorial esto se puede escribir como

donde la función impone la dilución anterior. $\operatorname {g} (\cdot )$

En la dilución débil sólo se diluye una fracción pequeña y fija de los pesos. Cuando el número de términos en la suma llega a infinito (los pesos de cada nodo), sigue siendo infinito (la fracción es fija), por lo que se puede aplicar la teoría de campo medio . En la notación de Hertz et al. ^[3] esto se escribiría como

$\left\langle h_{i}\right\rangle$ la temperatura media del campo
$c$ – un factor de escala para la temperatura a partir de la probabilidad de mantener el peso
$w_{ij}$ – peso real antes de la dilución, también llamado fuerza de conexión de Hebb
$\left\langle S_{j}\right\rangle$ – los estados medios de equilibrio estable

Hay algunas suposiciones para que esto se cumpla, que no se enumeran aquí. ^[6]^[7]

Dilución fuerte

Cuando la dilución es fuerte, la fracción finita de conexiones eliminadas (los pesos) es grande, dando lugar a una enorme incertidumbre.

Abandonar

La deserción es un caso especial de la ecuación de peso anterior ( 3 ), donde la ecuación antes mencionada se ajusta para eliminar una fila completa en la matriz vectorial, y no solo pesos aleatorios.

$P(c)$ – la probabilidad de mantener una fila en la matriz de peso $c$
$\mathbf {w} _{j}$ – fila real en la matriz de peso antes del abandono
${\hat {\mathbf {w} _{j}}}$ – fila diluida en la matriz de peso

Debido a que la eliminación elimina una fila completa de la matriz vectorial, los supuestos anteriores (no enumerados) para la dilución débil y el uso de la teoría del campo medio no son aplicables.

El proceso mediante el cual el nodo se lleva a cero, ya sea estableciendo los pesos en cero, “eliminando el nodo” o por algún otro medio, no afecta el resultado final y no crea un caso nuevo y único. Si la red neuronal es procesada por un multiplicador de matriz digital de alto rendimiento, entonces probablemente sea más efectivo llevar el valor a cero al final del gráfico del proceso. Si la red es procesada por un procesador restringido, tal vez incluso un procesador neuromorfo analógico, entonces es probable que una solución más eficiente desde el punto de vista energético sea llevar el valor a cero al principio del gráfico del proceso.

la patente de google

Aunque ha habido ejemplos de eliminación aleatoria de conexiones entre neuronas en una red neuronal para mejorar los modelos, ^[3] esta técnica fue introducida por primera vez con el nombre de abandono por Geoffrey Hinton , et al. en 2012. ^[2] Google posee actualmente la patente de la técnica de abandono. ^[8]^{[nota 1]}

Ver también

Notas

^ Lo más probable es que la patente no sea válida debido al art. La “abandono” se ha descrito como “dilución” en publicaciones anteriores. Está descrito por Hertz, Krogh y Palmer en Introducción a la teoría de la computación neuronal (1991) ISBN 0-201-51560-1 , págs. 45, Dilución débil . El texto hace referencia a la teoría de las redes neuronales de Sompolinsky: las reglas de Hebb y más allá en el Coloquio de Heidelberg sobre dinámica brillante (1987) y a los modelos parcialmente conectados de redes neuronales de Canning y Gardner en Journal of Physics (1988). Continúa describiendo una fuerte dilución. Esto es anterior al artículo de Hinton.

Referencias

^ Wan, Li; Zeiler, Mateo; Zhang, Sixin; Le Cun, Yann; Fergus, Rob (2013). "Regularización de Redes Neuronales mediante DropConnect". Actas de la 30ª Conferencia Internacional sobre Aprendizaje Automático, PMLR . 28 (3): 1058–1066 - vía PMLR.
^ abc Hinton, Geoffrey E.; Srivastava, nitish; Krizhevsky, Alex; Sutskever, Ilya; Salakhutdinov, Ruslan R. (2012). "Mejora de las redes neuronales evitando la coadaptación de detectores de características". arXiv : 1207.0580 [cs.NE].
^ abc Hertz, John; Krogh, Anders; Palmer, Richard (1991). Introducción a la Teoría de la Computación Neural . Redwood City, California: Pub Addison-Wesley. Co. págs. 45–46. ISBN 0-201-51560-1.
^ "Abandono: una forma sencilla de evitar el sobreajuste de las redes neuronales". Jmlr.org . Consultado el 26 de julio de 2015 .
^ Warde-Farley, David; Goodfellow, Ian J.; Courville, Aarón; Bengio, Yoshua (20 de diciembre de 2013). "Un análisis empírico de la deserción escolar en redes lineales por partes". arXiv : 1312.6197 [estad.ML].
^ Sompolinsky, H. (1987), "La teoría de las redes neuronales: la regla de Hebb y más allá", Coloquio de Heidelberg sobre dinámica vidriosa , Apuntes de conferencias de física, vol. 275, Berlín, Heidelberg: Springer Berlin Heidelberg, págs. 485–527, Bibcode :1987LNP...275..485S, doi :10.1007/bfb0057531, ISBN 978-3-540-17777-7
^ Enlatado, A; Gardner, E (7 de agosto de 1988). "Modelos de redes neuronales parcialmente conectados". Revista de Física A: Matemática y General . 21 (15): 3275–3284. Código bibliográfico : 1988JPhA...21.3275C. doi :10.1088/0305-4470/21/15/016. ISSN 0305-4470.
^ US 9406017B2, Hinton, Geoffrey E., "Sistema y método para abordar el sobreajuste en una red neuronal", publicado el 2 de agosto de 2016, publicado el 2 de agosto de 2016