Piedra de agua GAN

La red generativa antagónica de Wasserstein (WGAN) es una variante de la red generativa antagónica (GAN) propuesta en 2017 que tiene como objetivo "mejorar la estabilidad del aprendizaje, eliminar problemas como el colapso de modos y proporcionar curvas de aprendizaje significativas útiles para la depuración y las búsquedas de hiperparámetros". ^[1]^[2]

En comparación con el discriminador GAN original, el discriminador GAN de Wasserstein proporciona una mejor señal de aprendizaje al generador. Esto permite que el entrenamiento sea más estable cuando el generador está aprendiendo distribuciones en espacios de dimensiones muy altas.

Motivación

El juego GAN

El método GAN original se basa en el juego GAN, un juego de suma cero con 2 jugadores: generador y discriminador. El juego se define sobre un espacio de probabilidad , el conjunto de estrategias del generador es el conjunto de todas las medidas de probabilidad en , y el conjunto de estrategias del discriminador es el conjunto de funciones mensurables . $(\Omega ,{\mathcal {B}},\mu _{ref})$ $\mu _{G}$ $(\Omega ,{\mathcal {B}})$ $D:\Omega \to [0,1]$

El objetivo del juego es que el generador intente minimizarlo y el discriminador intente maximizarlo. $L(\mu _{G},D):=\mathbb {E} _{x\sim \mu _{ref}}[\ln D(x)]+\mathbb {E} _{x\sim \mu _{G}}[\ln(1-D(x))].$

Un teorema básico del juego GAN establece que

Teorema (el discriminador óptimo calcula la divergencia de Jensen-Shannon) : para cualquier estrategia de generador fija , sea la respuesta óptima , entonces $\mu _{G}$ $D^{*}=\arg \max _{D}L(\mu _{G},D)$

${\begin{aligned}D^{*}(x)&={\frac {d\mu _{ref}}{d(\mu _{ref}+\mu _{G})}}\\L(\mu _{G},D^{*})&=2D_{JS}(\mu _{ref};\mu _{G})-2\ln 2,\end{aligned}}$

donde la derivada es la derivada de Radon-Nikodym , y es la divergencia de Jensen-Shannon . $D_{JS}$

Repita el juego GAN muchas veces, cada vez con el generador moviéndose primero y el discriminador moviéndose segundo. Cada vez que el generador cambia, el discriminador debe adaptarse acercándose al ideal . Como estamos realmente interesados en , la función discriminadora es en sí misma bastante poco interesante. Simplemente realiza un seguimiento de la relación de verosimilitud entre la distribución del generador y la distribución de referencia. En el equilibrio, el discriminador simplemente produce constantemente, habiendo renunciado a intentar percibir cualquier diferencia. ^{[nota 1]} $\mu _{G}$ $D^{*}(x)={\frac {d\mu _{ref}}{d(\mu _{ref}+\mu _{G})}}.$ $\mu _{ref}$ $D$ ${\frac {1}{2}}$

Concretamente, en el juego GAN, arreglemos un generador y mejoremos el discriminador paso a paso, siendo el discriminador en el paso . Entonces (idealmente) tenemos por lo que vemos que el discriminador es en realidad de límite inferior . $\mu _{G}$ $\mu _{D,t}$ $t$ $L(\mu _{G},\mu _{D,1})\leq L(\mu _{G},\mu _{D,2})\leq \cdots \leq \max _{\mu _{D}}L(\mu _{G},\mu _{D})=2D_{JS}(\mu _{ref}\|\mu _{G})-2\ln 2,$ $D_{JS}(\mu _{ref}\|\mu _{G})$

Distancia de Wasserstein

De este modo, vemos que el objetivo del discriminador es principalmente servir de crítico para proporcionar retroalimentación al generador sobre "qué tan lejos está de la perfección", donde "lejos" se define como la divergencia de Jensen-Shannon.

Naturalmente, esto conlleva la posibilidad de utilizar un criterio de lejanía diferente. Hay muchas divergencias posibles entre las que elegir, como la familia de divergencias f , que daría lugar a la f-GAN. ^[3]

La GAN de Wasserstein se obtiene utilizando la métrica de Wasserstein , que satisface un "teorema de representación dual" que hace que sea altamente eficiente calcular:

Teorema (dualidad de Kantorovich-Rubenstein) : Cuando el espacio de probabilidad es un espacio métrico, entonces, para cualquier fijo , donde es la norma de Lipschitz . $\Omega$ $K>0$ $W_{1}(\mu ,\nu )={\frac {1}{K}}\sup _{\|f\|_{L}\leq K}\mathbb {E} _{x\sim \mu }[f(x)]-\mathbb {E} _{y\sim \nu }[f(y)]$ $\|\cdot \|_{L}$

Se puede encontrar una prueba en la página principal sobre la métrica de Wasserstein .

Definición

Por la dualidad Kantorovich-Rubenstein, la definición de GAN de Wasserstein es clara:

Un juego GAN de Wasserstein se define mediante un espacio de probabilidad , donde es un espacio métrico y una constante . $(\Omega ,{\mathcal {B}},\mu _{ref})$ $\Omega$ $K>0$
Hay 2 jugadores: generador y discriminador (también llamado "crítico").
El conjunto de estrategias del generador es el conjunto de todas las medidas de probabilidad en . $\mu _{G}$ $(\Omega ,{\mathcal {B}})$
El conjunto de estrategias del discriminador es el conjunto de funciones mensurables de tipo con norma de Lipschitz acotada: . $D:\Omega \to \mathbb {R}$ $\|D\|_{L}\leq K$
El juego GAN de Wasserstein es un juego de suma cero , con función objetivo $L_{WGAN}(\mu _{G},D):=\mathbb {E} _{x\sim \mu _{G}}[D(x)]-\mathbb {E} _{x\sim \mu _{ref}}[D(x)].$
El generador va primero y el discriminador después. El generador tiene como objetivo minimizar el objetivo y el discriminador tiene como objetivo maximizar el objetivo: $\min _{\mu _{G}}\max _{D}L_{WGAN}(\mu _{G},D).$

Por la dualidad Kantorovich-Rubenstein, para cualquier estrategia de generador , la respuesta óptima del discriminador es , tal que En consecuencia, si el discriminador es bueno, el generador se vería constantemente impulsado a minimizar , y la estrategia óptima para el generador es simplemente , como debería. $\mu _{G}$ $D^{*}$ $L_{WGAN}(\mu _{G},D^{*})=K\cdot W_{1}(\mu _{G},\mu _{ref}).$ $W_{1}(\mu _{G},\mu _{ref})$ $\mu _{G}=\mu _{ref}$

Comparación con GAN

En el juego GAN de Wasserstein, el discriminador proporciona un mejor gradiente que en el juego GAN.

Consideremos, por ejemplo, un juego en la línea real donde tanto como son gaussianos. Entonces, el crítico de Wasserstein óptimo y el discriminador GAN óptimo se representan gráficamente de la siguiente manera: $\mu _{G}$ $\mu _{ref}$ $D_{WGAN}$ $D$

Para el discriminador fijo, el generador debe minimizar los siguientes objetivos:

Para GAN, . $\mathbb {E} _{x\sim \mu _{G}}[\ln(1-D(x))]$
Para Wasserstein GAN, . $\mathbb {E} _{x\sim \mu _{G}}[D_{WGAN}(x)]$

Sea parametrizado por , entonces podemos realizar un descenso de gradiente estocástico utilizando dos estimadores imparciales del gradiente: donde usamos el truco de reparametrización . ^{[nota 2]} $\mu _{G}$ $\theta$ $\nabla _{\theta }\mathbb {E} _{x\sim \mu _{G}}[\ln(1-D(x))]=\mathbb {E} _{x\sim \mu _{G}}[\ln(1-D(x))\cdot \nabla _{\theta }\ln \rho _{\mu _{G}}(x)]$ $\nabla _{\theta }\mathbb {E} _{x\sim \mu _{G}}[D_{WGAN}(x)]=\mathbb {E} _{x\sim \mu _{G}}[D_{WGAN}(x)\cdot \nabla _{\theta }\ln \rho _{\mu _{G}}(x)]$

Como se muestra, el generador en GAN está motivado para dejar que su "deslizamiento hacia abajo del pico" de . Lo mismo ocurre con el generador en Wasserstein GAN. $\mu _{G}$ $\ln(1-D(x))$

En el caso de la GAN de Wasserstein, el gradiente es 1 en casi todas partes, mientras que en el caso de la GAN, el gradiente es plano en el medio y pronunciado en el resto. Como resultado, la varianza del estimador en la GAN suele ser mucho mayor que en la GAN de Wasserstein. Véase también la Figura 3 de ^{[1] .} $D_{WGAN}$ $\ln(1-D)$

El problema con es mucho más grave en situaciones reales de aprendizaje automático. Considere entrenar una GAN para generar ImageNet , una colección de fotos de tamaño 256 por 256. El espacio de todas esas fotos es , y la distribución de imágenes ImageNet, , se concentra en una variedad de dimensión mucho menor en él. En consecuencia, cualquier estrategia de generador casi seguramente estaría completamente disjunta de , lo que hace que . Por lo tanto, un buen discriminador puede distinguir casi perfectamente de , así como cualquier cerca de . Por lo tanto, el gradiente , no crea ninguna señal de aprendizaje para el generador. $D_{JS}$ $\mathbb {R} ^{256^{2}}$ $\mu _{ref}$ $\mu _{G}$ $\mu _{ref}$ $D_{JS}(\mu _{G}\|\mu _{ref})=+\infty$ $\mu _{ref}$ $\mu _{G}$ $\mu _{G}'$ $\mu _{G}$ $\nabla _{\mu _{G}}L(\mu _{G},D)\approx 0$

Se pueden encontrar teoremas detallados en ^{[4] .}

Entrenamiento de GAN de Wasserstein

El entrenamiento del generador en Wasserstein GAN es simplemente un descenso de gradiente , igual que en GAN (o la mayoría de los métodos de aprendizaje profundo), pero el entrenamiento del discriminador es diferente, ya que el discriminador ahora está restringido a tener una norma de Lipschitz acotada. Hay varios métodos para esto.

Limitación superior de la norma de Lipschitz

Sea la función discriminadora que se va a implementar mediante un perceptrón multicapa : donde , y es una función de activación fija con . Por ejemplo, la función tangente hiperbólica satisface el requisito. $D$ $D=D_{n}\circ D_{n-1}\circ \cdots \circ D_{1}$ $D_{i}(x)=h(W_{i}x)$ $h:\mathbb {R} \to \mathbb {R}$ $\sup _{x}|h'(x)|\leq 1$ $h=\tanh$

Entonces, para cualquier , sea , tenemos por la regla de la cadena : Por lo tanto, la norma de Lipschitz de está limitada superiormente por donde es la norma del operador de la matriz, es decir, el valor singular más grande de la matriz, es decir, el radio espectral de la matriz (estos conceptos son los mismos para las matrices, pero diferentes para los operadores lineales generales ). $x$ $x_{i}=(D_{i}\circ D_{i-1}\circ \cdots \circ D_{1})(x)$ $dD(x)=diag(h'(W_{n}x_{n-1}))\cdot W_{n}\cdot diag(h'(W_{n-1}x_{n-2}))\cdot W_{n-1}\cdots diag(h'(W_{1}x))\cdot W_{1}\cdot dx$ $D$ $\|D\|_{L}\leq \sup _{x}\|diag(h'(W_{n}x_{n-1}))\cdot W_{n}\cdot diag(h'(W_{n-1}x_{n-2}))\cdot W_{n-1}\cdots diag(h'(W_{1}x))\cdot W_{1}\|_{F}$ $\|\cdot \|_{s}$

Como , tenemos , y en consecuencia el límite superior: Por lo tanto, si podemos limitar superiormente las normas del operador de cada matriz, podemos limitar superiormente la norma de Lipschitz de . $\sup _{x}|h'(x)|\leq 1$ $\|diag(h'(W_{i}x_{i-1}))\|_{s}=\max _{j}|h'(W_{i}x_{i-1,j})|\leq 1$ $\|D\|_{L}\leq \prod _{i=1}^{n}\|W_{i}\|_{s}$ $\|W_{i}\|_{s}$ $D$

Recorte de peso

Dado que para cualquier matriz , sea , tenemos que al recortar todas las entradas de a dentro de algún intervalo , tenemos que podemos limitar . $m\times l$ $W$ $c=\max _{i,j}|W_{i,j}|$ $\|W\|_{s}^{2}=\sup _{\|x\|_{2}=1}\|Wx\|_{2}^{2}=\sup _{\|x\|_{2}=1}\sum _{i}\left(\sum _{j}W_{i,j}x_{j}\right)^{2}=\sup _{\|x\|_{2}=1}\sum _{i,j,k}W_{ij}W_{ik}x_{j}x_{k}\leq c^{2}ml^{2}$ $W$ $[-c,c]$ $\|W\|_{s}$

Éste es el método de recorte de peso propuesto en el artículo original. ^[1]

Normalización espectral

El radio espectral se puede calcular eficientemente mediante el siguiente algoritmo:

Matriz de ENTRADA y estimación inicial $W$ $x$
Iterar hasta la convergencia . Este es el vector propio de con valor propio . $x\mapsto {\frac {1}{\|Wx\|_{2}}}Wx$ $x^{*}$ $W$ $\|W\|_{s}$
DEVOLVER $x^{*},\|Wx^{*}\|_{2}$

Al reasignar después de cada actualización del discriminador, podemos establecer un límite superior y, por lo tanto, un límite superior . $W_{i}\leftarrow {\frac {W_{i}}{\|W_{i}\|_{s}}}$ $\|W_{i}\|_{s}\leq 1$ $\|D\|_{L}$

El algoritmo se puede acelerar aún más mediante la memorización : en el paso , almacenar . Luego, en el paso , utilizar como estimación inicial para el algoritmo. Dado que está muy cerca de , entonces está cerca de , por lo que esto permite una convergencia rápida. $t$ $x_{i}^{*}(t)$ $t+1$ $x_{i}^{*}(t)$ $W_{i}(t+1)$ $W_{i}(t)$ $x_{i}^{*}(t)$ $x_{i}^{*}(t+1)$

Este es el método de normalización espectral. ^[5]

Penalización por gradiente

En lugar de limitar estrictamente , podemos simplemente agregar un término de "penalización de gradiente" para el discriminador, de la forma donde es una distribución fija utilizada para estimar cuánto ha violado el discriminador el requisito de la norma de Lipschitz. El discriminador, al intentar minimizar la nueva función de pérdida, naturalmente se acercaría a en todas partes, haciendo así . $\|D\|_{L}$ $\mathbb {E} _{x\sim {\hat {\mu }}}[(\|\nabla D(x)\|_{2}-a)^{2}]$ ${\hat {\mu }}$ $\nabla D(x)$ $a$ $\|D\|_{L}\approx a$

Éste es el método de penalización de gradiente. ^[6]

Lectura adicional

De GAN a WGAN
GAN de Wasserstein y la dualidad Kantorovich-Rubinstein
Aprendizaje en profundidad: GAN de Wasserstein

Véase también

Referencias

^ abc Arjovsky, Martin; Chintala, Soumith; Bottou, Léon (17 de julio de 2017). "Redes generativas adversarias de Wasserstein". Conferencia internacional sobre aprendizaje automático . PMLR: 214–223.
^ Weng, Lilian (18 de abril de 2019). "De GAN a WGAN". arXiv : 1904.08994 [cs.LG].
^ Nowozin, Sebastian; Cseke, Botond; Tomioka, Ryota (2016). "f-GAN: Entrenamiento de muestreadores neuronales generativos mediante minimización de divergencia variacional". Avances en sistemas de procesamiento de información neuronal . 29 . Curran Associates, Inc. arXiv : 1606.00709 .
^ Arjovsky, Martin; Bottou, Léon (1 de enero de 2017). "Hacia métodos basados en principios para el entrenamiento de redes generativas antagónicas". arXiv : 1701.04862 . {{cite journal}}: Requiere citar revista |journal=( ayuda )
^ Miyato, Takeru; Kataoka, Toshiki; Koyama, Masanori; Yoshida, Yuichi (16 de febrero de 2018). "Normalización espectral para redes generativas adversarias". arXiv : 1802.05957 [cs.LG].
^ Gulrajani, Ishaan; Ahmed, Faruk; Arjovsky, Martin; Dumoulin, Vincent; Courville, Aaron C (2017). "Entrenamiento mejorado de las GAN de Wasserstein". Avances en sistemas de procesamiento de información neuronal . 30 . Curran Associates, Inc.

Notas

^ En la práctica, el generador nunca podría alcanzar una imitación perfecta, por lo que el discriminador tendría motivación para percibir la diferencia, lo que le permite ser utilizado para otras tareas, como realizar la clasificación ImageNet sin supervisión .
^ En la práctica no es así como se hace, pues en general es intratable, pero teóricamente resulta esclarecedor. $\nabla _{\theta }\ln \rho _{\mu _{G}}(x)$