Red generativa antagónica

Una red generativa antagónica ( GAN ) es una clase de marcos de aprendizaje automático y un marco destacado para abordar la inteligencia artificial generativa . ^[1]^[2] El concepto fue desarrollado inicialmente por Ian Goodfellow y sus colegas en junio de 2014. ^[3] En una GAN, dos redes neuronales compiten entre sí en forma de un juego de suma cero , donde la ganancia de un agente es la pérdida de otro.

Dado un conjunto de entrenamiento, esta técnica aprende a generar nuevos datos con las mismas estadísticas que el conjunto de entrenamiento. Por ejemplo, una GAN entrenada con fotografías puede generar nuevas fotografías que parezcan al menos superficialmente auténticas para los observadores humanos, y que tengan muchas características realistas. Aunque originalmente se propusieron como una forma de modelo generativo para el aprendizaje no supervisado , las GAN también han demostrado ser útiles para el aprendizaje semisupervisado , ^[4] el aprendizaje totalmente supervisado , ^[5] y el aprendizaje de refuerzo . ^[6]

La idea central de una GAN se basa en el entrenamiento "indirecto" a través del discriminador, otra red neuronal que puede determinar cuán "realista" parece la entrada, y que a su vez también se actualiza dinámicamente. ^[7] Esto significa que el generador no está entrenado para minimizar la distancia a una imagen específica, sino para engañar al discriminador. Esto permite que el modelo aprenda de manera no supervisada.

Las GAN son similares al mimetismo en la biología evolutiva , con una carrera armamentista evolutiva entre ambas redes.

Definición

Matemático

El GAN original se define como el siguiente juego : ^[3]

Cada espacio de probabilidad define un juego GAN. $(\Omega ,\mu _{\text{ref}})$
Hay 2 jugadores: generador y discriminador.
El conjunto de estrategias del generador es , el conjunto de todas las medidas de probabilidad en . ${\mathcal {P}}(\Omega )$ $\mu _{G}$ $\Omega$
El conjunto de estrategias del discriminador es el conjunto de núcleos de Markov , donde es el conjunto de medidas de probabilidad en . $\mu _{D}:\Omega \to {\mathcal {P}}[0,1]$ ${\mathcal {P}}[0,1]$ $[0,1]$
El juego GAN es un juego de suma cero , con función objetivo. El generador tiene como objetivo minimizar el objetivo y el discriminador tiene como objetivo maximizar el objetivo. $L(\mu _{G},\mu _{D}):=\operatorname {E} _{x\sim \mu _{\text{ref}},y\sim \mu _{D}(x)}[\ln y]+\operatorname {E} _{x\sim \mu _{G},y\sim \mu _{D}(x)}[\ln(1-y)].$

La tarea del generador es aproximarse a , es decir, hacer coincidir su propia distribución de salida lo más cerca posible con la distribución de referencia. La tarea del discriminador es generar un valor cercano a 1 cuando la entrada parece provenir de la distribución de referencia y generar un valor cercano a 0 cuando la entrada parece provenir de la distribución del generador. $\mu _{G}\approx \mu _{\text{ref}}$

En la práctica

La red generativa genera candidatos mientras que la red discriminativa los evalúa. ^[3] El concurso opera en términos de distribuciones de datos. Normalmente, la red generativa aprende a mapear desde un espacio latente a una distribución de datos de interés, mientras que la red discriminativa distingue los candidatos producidos por el generador de la distribución de datos verdadera. El objetivo de entrenamiento de la red generativa es aumentar la tasa de error de la red discriminativa (es decir, "engañar" a la red discriminadora al producir candidatos nuevos que el discriminador piensa que no están sintetizados (son parte de la distribución de datos verdadera)). ^[3]^[8]

Un conjunto de datos conocido sirve como datos de entrenamiento inicial para el discriminador. El entrenamiento implica presentarle muestras del conjunto de datos de entrenamiento hasta que alcance una precisión aceptable. El generador se entrena en función de si logra engañar al discriminador. Normalmente, el generador se siembra con una entrada aleatoria que se muestrea de un espacio latente predefinido (por ejemplo, una distribución normal multivariante ). A partir de entonces, los candidatos sintetizados por el generador son evaluados por el discriminador. Se aplican procedimientos de retropropagación independientes a ambas redes para que el generador produzca mejores muestras, mientras que el discriminador se vuelve más hábil en marcar muestras sintéticas. ^[9] Cuando se utiliza para la generación de imágenes, el generador es normalmente una red neuronal deconvolucional y el discriminador es una red neuronal convolucional .

Relación con otros métodos de aprendizaje automático estadístico

Las GAN son modelos generativos implícitos , ^[10] lo que significa que no modelan explícitamente la función de probabilidad ni proporcionan un medio para encontrar la variable latente correspondiente a una muestra dada, a diferencia de alternativas como el modelo generativo basado en flujo .

En comparación con las redes de creencias totalmente visibles como WaveNet y PixelRNN y los modelos autorregresivos en general, las GAN pueden generar una muestra completa en una sola pasada, en lugar de múltiples pasadas a través de la red.

En comparación con las máquinas de Boltzmann y los ICA lineales , no hay restricciones en el tipo de función utilizada por la red.

Dado que las redes neuronales son aproximadores universales , las GAN son asintóticamente consistentes . Los autocodificadores variacionales podrían ser aproximadores universales, pero esto no está probado hasta 2017. ^[11]

Propiedades matemáticas

Consideraciones de teoría de la medida

Esta sección proporciona parte de la teoría matemática detrás de estos métodos.

En la teoría de probabilidad moderna basada en la teoría de la medida , un espacio de probabilidad también debe estar equipado con un álgebra σ . Como resultado, una definición más rigurosa del juego GAN haría los siguientes cambios:

Cada espacio de probabilidad define un juego GAN. $(\Omega ,{\mathcal {B}},\mu _{\text{ref}})$
El conjunto de estrategias del generador es , el conjunto de todas las medidas de probabilidad en el espacio de medidas . ${\mathcal {P}}(\Omega ,{\mathcal {B}})$ $\mu _{G}$ $(\Omega ,{\mathcal {B}})$
El conjunto de estrategias del discriminador es el conjunto de núcleos de Markov , donde es el σ-álgebra de Borel en . $\mu _{D}:(\Omega ,{\mathcal {B}})\to {\mathcal {P}}([0,1],{\mathcal {B}}([0,1]))$ ${\mathcal {B}}([0,1])$ $[0,1]$

Dado que en la práctica nunca se plantean cuestiones de mensurabilidad, no nos preocuparán más.

Elección del conjunto de estrategias

En la versión más genérica del juego GAN descrito anteriormente, el conjunto de estrategias para el discriminador contiene todos los núcleos de Markov , y el conjunto de estrategias para el generador contiene distribuciones de probabilidad arbitrarias en . $\mu _{D}:\Omega \to {\mathcal {P}}[0,1]$ $\mu _{G}$ $\Omega$

Sin embargo, como se muestra a continuación, la estrategia discriminadora óptima contra cualquiera es determinista, por lo que no hay pérdida de generalidad al restringir las estrategias del discriminador a funciones deterministas . En la mayoría de las aplicaciones, es una función de red neuronal profunda . $\mu _{G}$ $D:\Omega \to [0,1]$ $D$

En cuanto al generador, si bien teóricamente podría ser cualquier distribución de probabilidad computable, en la práctica, generalmente se implementa como un pushforward : . Es decir, se comienza con una variable aleatoria , donde es una distribución de probabilidad que es fácil de calcular (como la distribución uniforme o la distribución gaussiana ), luego se define una función . Entonces la distribución es la distribución de . $\mu _{G}$ $\mu _{G}=\mu _{Z}\circ G^{-1}$ $z\sim \mu _{Z}$ $\mu _{Z}$ $G:\Omega _{Z}\to \Omega$ $\mu _{G}$ $G(z)$

En consecuencia, la estrategia del generador suele definirse como simplemente , dejando implícito. En este formalismo, el objetivo del juego GAN es $G$ $z\sim \mu _{Z}$ $L(G,D):=\operatorname {E} _{x\sim \mu _{\text{ref}}}[\ln D(x)]+\operatorname {E} _{z\sim \mu _{Z}}[\ln(1-D(G(z)))].$

Reparametrización generativa

La arquitectura GAN tiene dos componentes principales. Uno es la optimización de conversión en un juego, de forma , que es diferente del tipo habitual de optimización, de forma . El otro es la descomposición de en , que puede entenderse como un truco de reparametrización. $\min _{G}\max _{D}L(G,D)$ $\min _{\theta }L(\theta )$ $\mu _{G}$ $\mu _{Z}\circ G^{-1}$

Para ver su importancia, hay que comparar GAN con métodos anteriores para aprender modelos generativos, que estaban plagados de "cálculos probabilísticos intratables que surgen en la estimación de máxima verosimilitud y estrategias relacionadas". ^[3]

Al mismo tiempo, Kingma y Welling ^[12] y Rezende et al. ^[13] desarrollaron la misma idea de reparametrización en un método general de retropropagación estocástica. Entre sus primeras aplicaciones se encontraba el autocodificador variacional .

Orden de movimientos y equilibrios estratégicos

En el artículo original, así como en la mayoría de los artículos posteriores, generalmente se supone que el generador se mueve primero y el discriminador se mueve segundo , lo que da como resultado el siguiente juego minimax: $\min _{\mu _{G}}\max _{\mu _{D}}L(\mu _{G},\mu _{D}):=\operatorname {E} _{x\sim \mu _{\text{ref}},y\sim \mu _{D}(x)}[\ln y]+\operatorname {E} _{x\sim \mu _{G},y\sim \mu _{D}(x)}[\ln(1-y)].$

Si los conjuntos de estrategias del generador y del discriminador están abarcados por un número finito de estrategias, entonces, según el teorema minimax , es decir, el orden de los movimientos no importa. $\min _{\mu _{G}}\max _{\mu _{D}}L(\mu _{G},\mu _{D})=\max _{\mu _{D}}\min _{\mu _{G}}L(\mu _{G},\mu _{D})$

Sin embargo, dado que los conjuntos de estrategias no tienen una extensión finita, el teorema del minimax no se aplica y la idea de un "equilibrio" se torna delicada. A saber, existen los siguientes conceptos diferentes de equilibrio:

Equilibrio cuando el generador se mueve primero y el discriminador se mueve segundo: ${\hat {\mu }}_{G}\in \arg \min _{\mu _{G}}\max _{\mu _{D}}L(\mu _{G},\mu _{D}),\quad {\hat {\mu }}_{D}\in \arg \max _{\mu _{D}}L({\hat {\mu }}_{G},\mu _{D}),\quad$
Equilibrio cuando el discriminador se mueve primero y el generador se mueve segundo: ${\hat {\mu }}_{D}\in \arg \max _{\mu _{D}}\min _{\mu _{G}}L(\mu _{G},\mu _{D}),\quad {\hat {\mu }}_{G}\in \arg \min _{\mu _{G}}L(\mu _{G},{\hat {\mu }}_{D}),$
Equilibrio de Nash , que es estable bajo orden de movimiento simultáneo: $({\hat {\mu }}_{D},{\hat {\mu }}_{G})$ ${\hat {\mu }}_{D}\in \arg \max _{\mu _{D}}L({\hat {\mu }}_{G},\mu _{D}),\quad {\hat {\mu }}_{G}\in \arg \min _{\mu _{G}}L(\mu _{G},{\hat {\mu }}_{D})$

En el caso de los juegos generales, estos equilibrios no tienen por qué coincidir, ni siquiera tener que existir. En el caso del juego GAN original, todos estos equilibrios existen y son iguales. Sin embargo, en el caso de los juegos GAN más generales, estos equilibrios no necesariamente existen ni concuerdan. ^[14]

Teoremas principales del juego GAN

El artículo original de GAN demostró los dos teoremas siguientes: ^[3]

Teorema (el discriminador óptimo calcula la divergencia de Jensen-Shannon) : para cualquier estrategia de generador fija , sea la respuesta óptima , entonces $\mu _{G}$ $D^{*}=\arg \max _{D}L(\mu _{G},D)$

${\begin{aligned}D^{*}(x)&={\frac {d\mu _{\text{ref}}}{d(\mu _{\text{ref}}+\mu _{G})}}\\[6pt]L(\mu _{G},D^{*})&=2D_{JS}(\mu _{\text{ref}};\mu _{G})-2\ln 2\end{aligned}}$

donde la derivada es la derivada de Radon-Nikodym , y es la divergencia de Jensen-Shannon . $D_{JS}$

Prueba

Por la desigualdad de Jensen,

$\operatorname {E} _{x\sim \mu _{\text{ref}},y\sim \mu _{D}(x)}[\ln y]\leq \operatorname {E} _{x\sim \mu _{\text{ref}}}[\ln \operatorname {E} _{y\sim \mu _{D}(x)}[y]]$ y lo mismo para el otro término. Por lo tanto, la respuesta óptima puede ser determinista, es decir, para alguna función , en cuyo caso $\mu _{D}(x)=\delta _{D(x)}$ $D:\Omega \to [0,1]$

$L(\mu _{G},\mu _{D}):=\operatorname {E} _{x\sim \mu _{\text{ref}}}[\ln D(x)]+\operatorname {E} _{x\sim \mu _{G}}[\ln(1-D(x))].$

Para definir funciones de densidad adecuadas, definimos una medida base , que nos permite tomar las derivadas de Radon-Nikodym $\mu :=\mu _{\text{ref}}+\mu _{G}$

$\rho _{\text{ref}}={\frac {d\mu _{\text{ref}}}{d\mu }}\quad \rho _{G}={\frac {d\mu _{G}}{d\mu }}$ con . $\rho _{\text{ref}}+\rho _{G}=1$

Entonces tenemos

$L(\mu _{G},\mu _{D}):=\int \mu (dx)\left[\rho _{\text{ref}}(x)\ln(D(x))+\rho _{G}(x)\ln(1-D(x))\right].$

El integrando es simplemente la entropía cruzada negativa entre dos variables aleatorias de Bernoulli con parámetros y . Podemos escribir esto como , donde es la función de entropía binaria , por lo que $\rho _{\text{ref}}(x)$ $D(x)$ $-H(\rho _{\text{ref}}(x))-D_{KL}(\rho _{\text{ref}}(x)\parallel D(x))$ $H$

$L(\mu _{G},\mu _{D})=-\int \mu (dx)(H(\rho _{\text{ref}}(x))+D_{KL}(\rho _{\text{ref}}(x)\parallel D(x))).$

Esto significa que la estrategia óptima para el discriminador es , con $D(x)=\rho _{\text{ref}}(x)$ $L(\mu _{G},\mu _{D}^{*})=-\int \mu (dx)H(\rho _{\text{ref}}(x))=D_{JS}(\mu _{\text{ref}}\parallel \mu _{G})-2\ln 2$

después del cálculo de rutina.

Interpretación : Para cualquier estrategia de generador fija , el discriminador óptimo realiza un seguimiento de la razón de verosimilitud entre la distribución de referencia y la distribución del generador: donde es la función logística . En particular, si la probabilidad previa de que una imagen provenga de la distribución de referencia es igual a , entonces es solo la probabilidad posterior de que provenga de la distribución de referencia: $\mu _{G}$ ${\frac {D(x)}{1-D(x)}}={\frac {d\mu _{\text{ref}}}{d\mu _{G}}}(x)={\frac {\mu _{\text{ref}}(dx)}{\mu _{G}(dx)}};\quad D(x)=\sigma (\ln \mu _{\text{ref}}(dx)-\ln \mu _{G}(dx))$ $\sigma$ $x$ ${\frac {1}{2}}$ $D(x)$ $x$ $D(x)=\Pr(x{\text{ came from reference distribution}}\mid x).$

Teorema (el punto de equilibrio único) : para cualquier juego GAN, existe un par que es a la vez un equilibrio secuencial y un equilibrio de Nash: $({\hat {\mu }}_{D},{\hat {\mu }}_{G})$

${\begin{aligned}&L({\hat {\mu }}_{G},{\hat {\mu }}_{D})=\min _{\mu _{G}}\max _{\mu _{D}}L(\mu _{G},\mu _{D})=&\max _{\mu _{D}}\min _{\mu _{G}}L(\mu _{G},\mu _{D})=-2\ln 2\\[6pt]&{\hat {\mu }}_{D}\in \arg \max _{\mu _{D}}\min _{\mu _{G}}L(\mu _{G},\mu _{D}),&\quad {\hat {\mu }}_{G}\in \arg \min _{\mu _{G}}\max _{\mu _{D}}L(\mu _{G},\mu _{D})\\[6pt]&{\hat {\mu }}_{D}\in \arg \max _{\mu _{D}}L({\hat {\mu }}_{G},\mu _{D}),&\quad {\hat {\mu }}_{G}\in \arg \min _{\mu _{G}}L(\mu _{G},{\hat {\mu }}_{D})\\[6pt]&\forall x\in \Omega ,{\hat {\mu }}_{D}(x)=\delta _{\frac {1}{2}},&\quad {\hat {\mu }}_{G}=\mu _{\text{ref}}\end{aligned}}$

Es decir, el generador imita perfectamente la referencia y el discriminador genera una salida determinista en todas las entradas. ${\frac {1}{2}}$

Prueba

De la proposición anterior,

$\arg \min _{\mu _{G}}\max _{\mu _{D}}L(\mu _{G},\mu _{D})=\mu _{\text{ref}};\quad \min _{\mu _{G}}\max _{\mu _{D}}L(\mu _{G},\mu _{D})=-2\ln 2.$

Para cualquier estrategia discriminadora fija , cualquier estrategia concentrada en el conjunto $\mu _{D}$ $\mu _{G}$

$\{x\mid \operatorname {E} _{y\sim \mu _{D}(x)}[\ln(1-y)]=\inf _{x}\operatorname {E} _{y\sim \mu _{D}(x)}[\ln(1-y)]\}$ es una estrategia óptima para el generador. Por lo tanto,

$\arg \max _{\mu _{D}}\min _{\mu _{G}}L(\mu _{G},\mu _{D})=\arg \max _{\mu _{D}}\operatorname {E} _{x\sim \mu _{\text{ref}},y\sim \mu _{D}(x)}[\ln y]+\inf _{x}\operatorname {E} _{y\sim \mu _{D}(x)}[\ln(1-y)].$

Por la desigualdad de Jensen, el discriminador sólo puede mejorar si adopta la estrategia determinista de jugar siempre . Por lo tanto, $D(x)=\operatorname {E} _{y\sim \mu _{D}(x)}[y]$

$\arg \max _{\mu _{D}}\min _{\mu _{G}}L(\mu _{G},\mu _{D})=\arg \max _{D}\operatorname {E} _{x\sim \mu _{\text{ref}}}[\ln D(x)]+\inf _{x}\ln(1-D(x))$

Por la desigualdad de Jensen,

${\begin{aligned}&\ln \operatorname {E} _{x\sim \mu _{\text{ref}}}[D(x)]+\inf _{x}\ln(1-D(x))\\[6pt]={}&\ln \operatorname {E} _{x\sim \mu _{\text{ref}}}[D(x)]+\ln(1-\sup _{x}D(x))\\[6pt]={}&\ln[\operatorname {E} _{x\sim \mu _{\text{ref}}}[D(x)](1-\sup _{x}D(x))]\leq \ln[\sup _{x}D(x))(1-\sup _{x}D(x))]\leq \ln {\frac {1}{4}},\end{aligned}}$

con igualdad si , entonces $D(x)={\frac {1}{2}}$

$\forall x\in \Omega ,{\hat {\mu }}_{D}(x)=\delta _{\frac {1}{2}};\quad \max _{\mu _{D}}\min _{\mu _{G}}L(\mu _{G},\mu _{D})=-2\ln 2.$

Finalmente, para comprobar que se trata de un equilibrio de Nash, observe que cuando , tenemos $\mu _{G}=\mu _{\text{ref}}$

$L(\mu _{G},\mu _{D}):=\operatorname {E} _{x\sim \mu _{\text{ref}},y\sim \mu _{D}(x)}[\ln(y(1-y))]$ que siempre se maximiza por . $y={\frac {1}{2}}$

Cuando cualquier estrategia es óptima para el generador. $\forall x\in \Omega ,\mu _{D}(x)=\delta _{\frac {1}{2}}$

Entrenamiento y evaluación de GAN

Capacitación

Convergencia inestable

Si bien el juego GAN tiene un punto de equilibrio global único cuando tanto el generador como el discriminador tienen acceso a todos sus conjuntos de estrategias, el equilibrio ya no está garantizado cuando tienen un conjunto de estrategias restringido. ^[14]

En la práctica, el generador tiene acceso únicamente a medidas de la forma , donde es una función calculada por una red neuronal con parámetros , y es una distribución de fácil muestreo, como la distribución uniforme o normal. De manera similar, el discriminador tiene acceso únicamente a funciones de la forma , una función calculada por una red neuronal con parámetros . Estos conjuntos de estrategias restringidas ocupan una proporción extremadamente pequeña de todos sus conjuntos de estrategias. ^[15] $\mu _{Z}\circ G_{\theta }^{-1}$ $G_{\theta }$ $\theta$ $\mu _{Z}$ $D_{\zeta }$ $\zeta$

Además, incluso si todavía existe un equilibrio, solo se puede encontrar buscando en el espacio de alta dimensión de todas las funciones de red neuronal posibles. La estrategia estándar de usar el descenso de gradiente para encontrar el equilibrio a menudo no funciona para GAN, y a menudo el juego "colapsa" en uno de varios modos de falla. Para mejorar la estabilidad de convergencia, algunas estrategias de entrenamiento comienzan con una tarea más fácil, como generar imágenes de baja resolución ^[16] o imágenes simples (un objeto con fondo uniforme), ^[17] y aumentan gradualmente la dificultad de la tarea durante el entrenamiento. Esto se traduce esencialmente en la aplicación de un esquema de aprendizaje curricular. ^[18]

Colapso de modo

Las GAN a menudo sufren un colapso de modo , en el que no logran generalizar correctamente y pierden modos completos de los datos de entrada. Por ejemplo, una GAN entrenada en el conjunto de datos MNIST que contiene muchas muestras de cada dígito podría generar solo imágenes del dígito 0. Esto se denominó "el escenario Helvética". ^[3]

Una forma en que esto puede suceder es si el generador aprende demasiado rápido en comparación con el discriminador. Si el discriminador se mantiene constante, entonces el generador óptimo solo generaría elementos de . ^[19] Entonces, por ejemplo, si durante el entrenamiento de GAN para generar el conjunto de datos MNIST, durante algunas épocas, el discriminador de alguna manera prefiere el dígito 0 ligeramente más que otros dígitos, el generador puede aprovechar la oportunidad para generar solo el dígito 0, y luego no poder escapar del mínimo local después de que el discriminador mejore. $D$ $\arg \max _{x}D(x)$

Algunos investigadores consideran que el problema de fondo es una red discriminativa débil que no logra detectar el patrón de omisión, mientras que otros atribuyen la culpa a una mala elección de la función objetivo . Se han propuesto muchas soluciones, pero sigue siendo un problema abierto. ^[20]^[21]

Ni siquiera la arquitectura de última generación, BigGAN (2019), pudo evitar el colapso de los modos. Los autores recurrieron a “permitir que el colapso se produzca en las últimas etapas del entrenamiento, momento en el que un modelo está lo suficientemente entrenado como para lograr buenos resultados”. ^[22]

Regla de actualización de dos escalas de tiempo

Se propone la regla de actualización de dos escalas de tiempo (TTUR) para hacer que la convergencia de GAN sea más estable al hacer que la tasa de aprendizaje del generador sea menor que la del discriminador. Los autores argumentaron que el generador debería moverse más lentamente que el discriminador, de modo que no "empuje al discriminador de manera constante hacia nuevas regiones sin capturar la información recopilada".

Demostraron que una clase general de juegos que incluía el juego GAN, cuando se entrenaba bajo TTUR, "converge bajo suposiciones suaves a un equilibrio de Nash local estacionario". ^[23]

También propusieron utilizar la optimización estocástica de Adam ^[24] para evitar el colapso del modo, así como la distancia de inicio de Fréchet para evaluar el rendimiento de las GAN.

Gradiente que desaparece

Por el contrario, si el discriminador aprende demasiado rápido en comparación con el generador, entonces podría distinguir casi perfectamente . En tal caso, el generador podría quedarse atascado con una pérdida muy alta sin importar en qué dirección cambie su , lo que significa que el gradiente sería cercano a cero. En tal caso, el generador no puede aprender, un caso del problema del gradiente evanescente . ^[15] $\mu _{G_{\theta }},\mu _{\text{ref}}$ $G_{\theta }$ $\theta$ $\nabla _{\theta }L(G_{\theta },D_{\zeta })$

Intuitivamente hablando, el discriminador es demasiado bueno, y dado que el generador no puede dar ningún pequeño paso (en el descenso de gradiente solo se consideran pasos pequeños) para mejorar su resultado, ni siquiera lo intenta.

Un método importante para resolver este problema es la GAN de Wasserstein .

Evaluación

Las GAN suelen evaluarse mediante la puntuación de inicio (IS), que mide la variedad de las salidas del generador (según la clasificación de un clasificador de imágenes, normalmente Inception-v3 ), o la distancia de inicio de Fréchet (FID), que mide la similitud de las salidas del generador con un conjunto de referencia (según la clasificación de un caracterizador de imágenes aprendido, como Inception-v3 sin su capa final). Muchos artículos que proponen nuevas arquitecturas de GAN para la generación de imágenes informan de cómo sus arquitecturas rompen el estado del arte en FID o IS.

Otro método de evaluación es la similitud de parches de imagen perceptuales aprendidos (LPIPS), que comienza con un caracterizador de imagen aprendido y lo perfecciona mediante aprendizaje supervisado en un conjunto de , donde es una imagen, es una versión perturbada de ella y es cuánto difieren, según lo informado por sujetos humanos. El modelo se perfecciona para que pueda aproximarse a . Este modelo perfeccionado se utiliza luego para definir . ^[25] $f_{\theta }:{\text{Image}}\to \mathbb {R} ^{n}$ $(x,x',\operatorname {perceptual~difference} (x,x'))$ $x$ $x'$ $\operatorname {perceptual~difference} (x,x')$ $\|f_{\theta }(x)-f_{\theta }(x')\|\approx \operatorname {perceptual~difference} (x,x')$ $\operatorname {LPIPS} (x,x'):=\|f_{\theta }(x)-f_{\theta }(x')\|$

^{En [26]} se analizan otros métodos de evaluación.

Variantes

Existe un verdadero zoológico de variantes de GAN. ^[27] Algunas de las más destacadas son las siguientes:

GAN condicional

Las GAN condicionales son similares a las GAN estándar, excepto que permiten que el modelo genere muestras de manera condicional en función de información adicional. Por ejemplo, si queremos generar la cara de un gato a partir de la imagen de un perro, podríamos usar una GAN condicional.

El generador de un juego GAN genera , una distribución de probabilidad en el espacio de probabilidad . Esto conduce a la idea de una GAN condicional, donde en lugar de generar una distribución de probabilidad en , el generador genera una distribución de probabilidad diferente en , para cada etiqueta de clase dada . $\mu _{G}$ $\Omega$ $\Omega$ $\mu _{G}(c)$ $\Omega$ $c$

Por ejemplo, para generar imágenes que se parezcan a ImageNet , el generador debería poder generar una imagen de un gato cuando se le da la etiqueta de clase "gato".

En el artículo original, ^[3] los autores señalaron que la GAN se puede extender de manera trivial a una GAN condicional proporcionando etiquetas tanto al generador como al discriminador.

Concretamente, el juego GAN condicional es simplemente el juego GAN con etiquetas de clase proporcionadas: donde es una distribución de probabilidad sobre clases, es la distribución de probabilidad de imágenes reales de la clase , y la distribución de probabilidad de imágenes generadas por el generador cuando se da la etiqueta de clase . $L(\mu _{G},D):=\operatorname {E} _{c\sim \mu _{C},x\sim \mu _{\text{ref}}(c)}[\ln D(x,c)]+\operatorname {E} _{c\sim \mu _{C},x\sim \mu _{G}(c)}[\ln(1-D(x,c))]$ $\mu _{C}$ $\mu _{\text{ref}}(c)$ $c$ $\mu _{G}(c)$ $c$

En 2017, una GAN condicional aprendió a generar 1000 clases de imágenes de ImageNet . ^[28]

GAN con arquitecturas alternativas

El juego GAN es un marco general y se puede ejecutar con cualquier parametrización razonable del generador y el discriminador . En el artículo original, los autores lo demostraron utilizando redes de perceptrones multicapa y redes neuronales convolucionales . Se han probado muchas arquitecturas alternativas. $G$ $D$

GAN convolucional profunda (DCGAN): ^[29] Tanto para el generador como para el discriminador, utiliza solo redes profundas que consisten enteramente en capas de convolución-deconvolución, es decir, redes completamente convolucionales. ^[30]

GAN de autoatención (SAGAN): ^{[31] Comienza con el DCGAN, luego agrega}módulos de autoatención estándar conectados residualmente al generador y discriminador.

Autocodificador variacional GAN (VAEGAN): ^[32] Utiliza un autocodificador variacional (VAE) para el generador.

GAN transformador (TransGAN): ^[33] Utiliza la arquitectura de transformador puro tanto para el generador como para el discriminador, completamente desprovista de capas de convolución-deconvolución.

Flow-GAN: ^[34] Utiliza un modelo generativo basado en flujo para el generador, lo que permite un cálculo eficiente de la función de verosimilitud.

GAN con objetivos alternativos

Muchas variantes de GAN se obtienen simplemente cambiando las funciones de pérdida del generador y el discriminador.

GAN original:

Reformulamos el objetivo GAN original en un formato más conveniente para la comparación: ${\begin{cases}\min _{D}L_{D}(D,\mu _{G})=-\operatorname {E} _{x\sim \mu _{G}}[\ln D(x)]-\operatorname {E} _{x\sim \mu _{\text{ref}}}[\ln(1-D(x))]\\\min _{G}L_{G}(D,\mu _{G})=-\operatorname {E} _{x\sim \mu _{G}}[\ln(1-D(x))]\end{cases}}$

GAN original, pérdida sin saturación:

Este objetivo para el generador fue recomendado en el artículo original para una convergencia más rápida. ^[3] El efecto de usar este objetivo se analiza en la Sección 2.2.2 de Arjovsky et al. ^[35]. $L_{G}=\operatorname {E} _{x\sim \mu _{G}}[\ln D(x)]$

GAN original, máxima verosimilitud:

$L_{G}=\operatorname {E} _{x\sim \mu _{G}}[({\exp }\circ \sigma ^{-1}\circ D)(x)]$ donde es la función logística. Cuando el discriminador es óptimo, el gradiente del generador es el mismo que en la estimación de máxima verosimilitud , aunque GAN no puede realizar la estimación de máxima verosimilitud por sí mismo . ^[36]^[37] $\sigma$

Pérdida de bisagra GAN :^[38]Mínimos cuadrados GAN: ^[39] dondeson los parámetros a elegir. Los autores recomendaron. $L_{D}=-\operatorname {E} _{x\sim p_{\text{ref}}}\left[\min \left(0,-1+D(x)\right)\right]-\operatorname {E} _{x\sim \mu _{G}}\left[\min \left(0,-1-D\left(x\right)\right)\right]$ $L_{G}=-\operatorname {E} _{x\sim \mu _{G}}[D(x)]$ $L_{D}=\operatorname {E} _{x\sim \mu _{\text{ref}}}[(D(x)-b)^{2}]+\operatorname {E} _{x\sim \mu _{G}}[(D(x)-a)^{2}]$ $L_{G}=\operatorname {E} _{x\sim \mu _{G}}[(D(x)-c)^{2}]$ $a,b,c$ $a=-1,b=1,c=0$

GAN de piedra de agua (WGAN)

El GAN de Wasserstein modifica el juego GAN en dos puntos:

El conjunto de estrategias del discriminador es el conjunto de funciones mensurables de tipo con norma de Lipschitz acotada : , donde es una constante positiva fija. $D:\Omega \to \mathbb {R}$ $\|D\|_{L}\leq K$ $K$
El objetivo es $L_{WGAN}(\mu _{G},D):=\operatorname {E} _{x\sim \mu _{G}}[D(x)]-\mathbb {E} _{x\sim \mu _{\text{ref}}}[D(x)]$

Uno de sus propósitos es resolver el problema del colapso de modos (ver arriba). ^[15] Los autores afirman "En ningún experimento vimos evidencia de colapso de modos para el algoritmo WGAN".

GAN con más de dos jugadores

Codificador automático adversarial

Un autocodificador adversarial (AAE) ^[40] es más un autocodificador que un GAN. La idea es comenzar con un autocodificador simple , pero entrenar un discriminador para que discrimine los vectores latentes de una distribución de referencia (a menudo la distribución normal).

Información GAN

En la GAN condicional, el generador recibe un vector de ruido y una etiqueta y produce una imagen . El discriminador recibe pares de imagen-etiqueta y calcula . $z$ $c$ $G(z,c)$ $(x,c)$ $D(x,c)$

Cuando el conjunto de datos de entrenamiento no está etiquetado, la GAN condicional no funciona directamente.

La idea de InfoGAN es decretar que cada vector latente en el espacio latente se puede descomponer como : una parte de ruido incompresible y una parte de etiqueta informativa , y alentar al generador a cumplir con el decreto, alentándolo a maximizar la información mutua entre y , sin hacer demandas sobre la información mutua entre . $(z,c)$ $z$ $c$ $I(c,G(z,c))$ $c$ $G(z,c)$ $z$ $G(z,c)$

Desafortunadamente, es intratable en general. La idea clave de InfoGAN es la Maximización de Información Mutua Variacional: ^[41] maximizarla indirectamente maximizando un límite inferior donde los rangos abarcan todos los núcleos de Markov de tipo . $I(c,G(z,c))$ ${\hat {I}}(G,Q)=\mathbb {E} _{z\sim \mu _{Z},c\sim \mu _{C}}[\ln Q(c\mid G(z,c))];\quad I(c,G(z,c))\geq \sup _{Q}{\hat {I}}(G,Q)$ $Q$ $Q:\Omega _{Y}\to {\mathcal {P}}(\Omega _{C})$

El juego InfoGAN se define de la siguiente manera: ^[42]

Tres espacios de probabilidad definen un juego InfoGAN:
$(\Omega _{X},\mu _{\text{ref}})$ , el espacio de imágenes de referencia.
$(\Omega _{Z},\mu _{Z})$ , el generador de ruido aleatorio fijo.
$(\Omega _{C},\mu _{C})$ , el generador de información aleatoria fija.
Hay 3 jugadores en 2 equipos: generador, Q y discriminador. El generador y Q están en un equipo y el discriminador en el otro.
La función objetivo es donde está el objetivo del juego GAN original y $L(G,Q,D)=L_{GAN}(G,D)-\lambda {\hat {I}}(G,Q)$ $L_{GAN}(G,D)=\operatorname {E} _{x\sim \mu _{\text{ref}},}[\ln D(x)]+\operatorname {E} _{z\sim \mu _{Z}}[\ln(1-D(G(z,c)))]$ ${\hat {I}}(G,Q)=\mathbb {E} _{z\sim \mu _{Z},c\sim \mu _{C}}[\ln Q(c\mid G(z,c))]$
El equipo Generator-Q tiene como objetivo minimizar el objetivo, y el discriminador tiene como objetivo maximizarlo: $\min _{G,Q}\max _{D}L(G,Q,D)$

GAN bidireccional (BiGAN)

El generador GAN estándar es una función de tipo , es decir, es un mapeo de un espacio latente al espacio de imagen . Esto puede entenderse como un proceso de "decodificación", por el cual cada vector latente es un código para una imagen , y el generador realiza la decodificación. Esto conduce naturalmente a la idea de entrenar otra red que realice la "codificación", creando un autocodificador a partir del par codificador-generador. $G:\Omega _{Z}\to \Omega _{X}$ $\Omega _{Z}$ $\Omega _{X}$ $z\in \Omega _{Z}$ $x\in \Omega _{X}$

Ya en el artículo original ^[3] los autores señalaron que "la inferencia aproximada aprendida se puede realizar entrenando una red auxiliar para predecir lo que se ha dado ". La arquitectura GAN bidireccional realiza exactamente esto. ^[43] $z$ $x$

La BiGAN se define de la siguiente manera:

Dos espacios de probabilidad definen un juego BiGAN:
$(\Omega _{X},\mu _{X})$ , el espacio de imágenes de referencia.
$(\Omega _{Z},\mu _{Z})$ , el espacio latente.
Hay 3 jugadores en 2 equipos: generador, codificador y discriminador. El generador y el codificador están en un equipo y el discriminador en el otro.
Las estrategias del generador son funciones , y las estrategias del codificador son funciones . Las estrategias del discriminador son funciones . $G:\Omega _{Z}\to \Omega _{X}$ $E:\Omega _{X}\to \Omega _{Z}$ $D:\Omega _{X}\to [0,1]$
La función objetivo es $L(G,E,D)=\mathbb {E} _{x\sim \mu _{X}}[\ln D(x,E(x))]+\mathbb {E} _{z\sim \mu _{Z}}[\ln(1-D(G(z),z))]$
El equipo generador-codificador tiene como objetivo minimizar el objetivo, y el discriminador tiene como objetivo maximizarlo: $\min _{G,E}\max _{D}L(G,E,D)$

En el artículo, dieron una definición más abstracta del objetivo como: donde es la distribución de probabilidad en obtenida al avanzar a través de , y es la distribución de probabilidad en obtenida al avanzar a través de . $L(G,E,D)=\mathbb {E} _{(x,z)\sim \mu _{E,X}}[\ln D(x,z)]+\mathbb {E} _{(x,z)\sim \mu _{G,Z}}[\ln(1-D(x,z))]$ $\mu _{E,X}(dx,dz)=\mu _{X}(dx)\cdot \delta _{E(x)}(dz)$ $\Omega _{X}\times \Omega _{Z}$ $\mu _{X}$ $x\mapsto (x,E(x))$ $\mu _{G,Z}(dx,dz)=\delta _{G(z)}(dx)\cdot \mu _{Z}(dz)$ $\Omega _{X}\times \Omega _{Z}$ $\mu _{Z}$ $z\mapsto (G(x),z)$

Las aplicaciones de los modelos bidireccionales incluyen el aprendizaje semisupervisado , ^[44] el aprendizaje automático interpretable , ^[45] y la traducción automática neuronal . ^[46]

CicloGAN

CycleGAN es una arquitectura para realizar traducciones entre dos dominios, como por ejemplo entre fotos de caballos y fotos de cebras, o entre fotos de ciudades nocturnas y fotos de ciudades diurnas.

El juego CycleGAN se define de la siguiente manera: ^[47]

Hay dos espacios de probabilidad , correspondientes a los dos dominios necesarios para las traducciones de ida y vuelta. $(\Omega _{X},\mu _{X}),(\Omega _{Y},\mu _{Y})$
Hay 4 jugadores en 2 equipos: generadores y discriminadores . $G_{X}:\Omega _{X}\to \Omega _{Y},G_{Y}:\Omega _{Y}\to \Omega _{X}$ $D_{X}:\Omega _{X}\to [0,1],D_{Y}:\Omega _{Y}\to [0,1]$
La función objetivo es $L(G_{X},G_{Y},D_{X},D_{Y})=L_{GAN}(G_{X},D_{X})+L_{GAN}(G_{Y},D_{Y})+\lambda L_{cycle}(G_{X},G_{Y})$
donde es un parámetro ajustable positivo, es el objetivo del juego GAN y es la pérdida de consistencia del ciclo : Los generadores apuntan a minimizar el objetivo y los discriminadores apuntan a maximizarlo: $\lambda$ $L_{GAN}$ $L_{cycle}$ $L_{cycle}(G_{X},G_{Y})=E_{x\sim \mu _{X}}\|G_{X}(G_{Y}(x))-x\|+E_{y\sim \mu _{Y}}\|G_{Y}(G_{X}(y))-y\|$ $\min _{G_{X},G_{Y}}\max _{D_{X},D_{Y}}L(G_{X},G_{Y},D_{X},D_{Y})$

A diferencia de trabajos anteriores como pix2pix, ^[48] que requieren datos de entrenamiento pareados, cycleGAN no requiere datos pareados. Por ejemplo, para entrenar un modelo pix2pix para convertir una foto de un paisaje de verano en una foto de un paisaje de invierno y viceversa, el conjunto de datos debe contener pares del mismo lugar en verano e invierno, tomados desde el mismo ángulo; cycleGAN solo necesitaría un conjunto de fotos de paisajes de verano y un conjunto no relacionado de fotos de paisajes de invierno.

GAN con escalas particularmente grandes o pequeñas

Gran GAN

BigGAN es esencialmente una GAN de autoatención entrenada a gran escala (hasta 80 millones de parámetros) para generar imágenes grandes de ImageNet (hasta una resolución de 512 x 512), con numerosos trucos de ingeniería para hacerla converger. ^[22]^[49]

Aumento de datos invertible

Cuando no hay suficientes datos de entrenamiento, la distribución de referencia no se puede aproximar bien a partir de la distribución empírica proporcionada por el conjunto de datos de entrenamiento. En tales casos, se puede aplicar la ampliación de datos para permitir el entrenamiento de GAN en conjuntos de datos más pequeños. Sin embargo, la ampliación de datos ingenua trae sus problemas. $\mu _{\text{ref}}$

Consideremos el juego GAN original, ligeramente reformulado de la siguiente manera: Ahora usamos aumento de datos muestreando aleatoriamente transformaciones que preservan la semántica y aplicándolas al conjunto de datos, para obtener el juego GAN reformulado: Esto es equivalente a un juego GAN con una distribución diferente , muestreado por , con . Por ejemplo, si es la distribución de imágenes en ImageNet, y muestras la transformada de identidad con probabilidad 0,5 y la reflexión horizontal con probabilidad 0,5, entonces es la distribución de imágenes en ImageNet y la ImageNet reflejada horizontalmente, combinadas. ${\begin{cases}\min _{D}L_{D}(D,\mu _{G})=-\operatorname {E} _{x\sim \mu _{\text{ref}}}[\ln D(x)]-\operatorname {E} _{x\sim \mu _{G}}[\ln(1-D(x))]\\\min _{G}L_{G}(D,\mu _{G})=-\operatorname {E} _{x\sim \mu _{G}}[\ln(1-D(x))]\end{cases}}$ $T:\Omega \to \Omega$ ${\begin{cases}\min _{D}L_{D}(D,\mu _{G})=-\operatorname {E} _{x\sim \mu _{\text{ref}},T\sim \mu _{\text{trans}}}[\ln D(T(x))]-\operatorname {E} _{x\sim \mu _{G}}[\ln(1-D(x))]\\\min _{G}L_{G}(D,\mu _{G})=-\operatorname {E} _{x\sim \mu _{G}}[\ln(1-D(x))]\end{cases}}$ $\mu _{\text{ref}}'$ $T(x)$ $x\sim \mu _{\text{ref}},T\sim \mu _{\text{trans}}$ $\mu _{\text{ref}}$ $\mu _{\text{trans}}$ $\mu _{\text{ref}}'$

El resultado de dicho entrenamiento sería un generador que imitara . Por ejemplo, generaría imágenes que parecieran recortadas aleatoriamente, si la ampliación de datos utiliza un recorte aleatorio. $\mu _{\text{ref}}'$

La solución es aplicar el aumento de datos tanto a imágenes generadas como reales: los autores demostraron una generación de alta calidad utilizando conjuntos de datos de tan solo 100 imágenes. ^[50] ${\begin{cases}\min _{D}L_{D}(D,\mu _{G})=-\operatorname {E} _{x\sim \mu _{\text{ref}},T\sim \mu _{\text{trans}}}[\ln D(T(x))]-\operatorname {E} _{x\sim \mu _{G},T\sim \mu _{\text{trans}}}[\ln(1-D(T(x)))]\\\min _{G}L_{G}(D,\mu _{G})=-\operatorname {E} _{x\sim \mu _{G},T\sim \mu _{\text{trans}}}[\ln(1-D(T(x)))]\end{cases}}$

El artículo StyleGAN-2-ADA señala un punto adicional sobre el aumento de datos: debe ser invertible . ^[51] Continúe con el ejemplo de generación de imágenes ImageNet. Si el aumento de datos es "rotar aleatoriamente la imagen en 0, 90, 180, 270 grados con la misma probabilidad", entonces no hay forma de que el generador sepa cuál es la orientación verdadera: considere dos generadores , tales que para cualquier latente , la imagen generada es una rotación de 90 grados de . Tendrían exactamente la misma pérdida esperada y, por lo tanto, ninguno es preferido sobre el otro. $G,G'$ $z$ $G(z)$ $G'(z)$

La solución es utilizar únicamente aumento de datos invertible: en lugar de "rotar aleatoriamente la imagen 0, 90, 180, 270 grados con la misma probabilidad", utilizar "rotar aleatoriamente la imagen 90, 180, 270 grados con una probabilidad de 0,1 y mantener la imagen como está con una probabilidad de 0,7". De esta manera, el generador sigue recibiendo recompensas por mantener las imágenes orientadas de la misma manera que las imágenes de ImageNet sin aumentar.

De manera abstracta, el efecto de muestrear aleatoriamente las transformaciones de la distribución es definir un núcleo de Markov . Luego, el juego GAN aumentado con datos empuja al generador a encontrar algún , tal que donde es la convolución del núcleo de Markov . Un método de aumento de datos se define como invertible si su núcleo de Markov satisface Inmediatamente por definición, vemos que componer múltiples métodos de aumento de datos invertibles da como resultado otro método invertible. También por definición, si el método de aumento de datos es invertible, entonces usarlo en un juego GAN no cambia la estrategia óptima para el generador, que sigue siendo . $T:\Omega \to \Omega$ $\mu _{\text{trans}}$ $K_{\text{trans}}:\Omega \to {\mathcal {P}}(\Omega )$ ${\hat {\mu }}_{G}\in {\mathcal {P}}(\Omega )$ $K_{\text{trans}}*\mu _{\text{ref}}=K_{\text{trans}}*{\hat {\mu }}_{G}$ $*$ $K_{\text{trans}}$ $K_{\text{trans}}*\mu =K_{\text{trans}}*\mu '\implies \mu =\mu '\quad \forall \mu ,\mu '\in {\mathcal {P}}(\Omega )$ ${\hat {\mu }}_{G}$ $\mu _{\text{ref}}$

Hay dos ejemplos prototípicos de núcleos de Markov invertibles:

Caso discreto : Matrices estocásticas invertibles , cuando es finito. $\Omega$

Por ejemplo, si es el conjunto de cuatro imágenes de una flecha, que apunta en 4 direcciones, y el aumento de datos es "rotar aleatoriamente la imagen 90, 180, 270 grados con probabilidad , y mantener la imagen como está con probabilidad ", entonces el núcleo de Markov se puede representar como una matriz estocástica: y es un núcleo invertible si y solo si es una matriz invertible, es decir, . $\Omega =\{\uparrow ,\downarrow ,\leftarrow ,\rightarrow \}$ $p$ $(1-3p)$ $K_{\text{trans}}$ $[K_{\text{trans}}]={\begin{bmatrix}(1-3p)&p&p&p\\p&(1-3p)&p&p\\p&p&(1-3p)&p\\p&p&p&(1-3p)\end{bmatrix}}$ $K_{\text{trans}}$ $[K_{\text{trans}}]$ $p\neq 1/4$

Caso continuo : El núcleo gaussiano, cuando para algún . $\Omega =\mathbb {R} ^{n}$ $n\geq 1$

Por ejemplo, si es el espacio de 256x256 imágenes, y el método de aumento de datos es "generar un ruido gaussiano , luego agregar a la imagen", entonces es solo una convolución por la función de densidad de . Esto es invertible, porque la convolución por una gaussiana es solo una convolución por el núcleo de calor , por lo que dado cualquier , la distribución convolucionada se puede obtener calentando con precisión de acuerdo con , luego esperar el tiempo . Con eso, podemos recuperarnos ejecutando la ecuación de calor hacia atrás en el tiempo para . $\Omega =\mathbb {R} ^{256^{2}}$ $z\sim {\mathcal {N}}(0,I_{256^{2}})$ $\epsilon z$ $K_{\text{trans}}$ ${\mathcal {N}}(0,\epsilon ^{2}I_{256^{2}})$ $\mu \in {\mathcal {P}}(\mathbb {R} ^{n})$ $K_{\text{trans}}*\mu$ $\mathbb {R} ^{n}$ $\mu$ $\epsilon ^{2}/4$ $\mu$ $\epsilon ^{2}/4$

En el artículo se encuentran más ejemplos de ampliaciones de datos invertibles. ^[51]

SinGAN

SinGAN lleva la mejora de los datos al límite, ya que utiliza una única imagen como dato de entrenamiento y realiza la mejora de los datos a partir de ella. La arquitectura GAN se adapta a este método de entrenamiento mediante el uso de una secuencia de comandos multiescala.

El generador se descompone en una pirámide de generadores , donde el más bajo genera la imagen con la resolución más baja, luego la imagen generada se escala a , y se alimenta al siguiente nivel para generar una imagen con una resolución más alta, y así sucesivamente. El discriminador también se descompone en una pirámide. ^[52] $G$ $G=G_{1}\circ G_{2}\circ \cdots \circ G_{N}$ $G_{N}(z_{N})$ $r(G_{N}(z_{N}))$ $G_{N-1}(z_{N-1}+r(G_{N}(z_{N})))$

Serie StyleGAN

La familia StyleGAN es una serie de arquitecturas publicadas por la división de investigación de Nvidia .

GAN progresivo

Progressive GAN ^[16] es un método para entrenar GAN para la generación de imágenes a gran escala de manera estable, mediante el crecimiento de un generador GAN de pequeña a gran escala de manera piramidal. Al igual que SinGAN, descompone el generador como , y el discriminador como . $G=G_{1}\circ G_{2}\circ \cdots \circ G_{N}$ $D=D_{1}\circ D_{2}\circ \cdots \circ D_{N}$

Durante el entrenamiento, al principio solo se utilizan en un juego GAN para generar imágenes de 4x4. Luego se van añadiendo hasta llegar a la segunda etapa del juego GAN, para generar imágenes de 8x8, y así sucesivamente, hasta llegar a un juego GAN para generar imágenes de 1024x1024. $G_{N},D_{N}$ $G_{N-1},D_{N-1}$

Para evitar choques entre las etapas del juego GAN, cada nueva capa se “mezcla” (Figura 2 del artículo ^[16] ). Por ejemplo, así es como comienza el juego GAN de la segunda etapa:

Justo antes, el juego GAN consiste en que la pareja genere y discrimine imágenes 4x4. $G_{N},D_{N}$
A continuación, el juego GAN consiste en generar y discriminar imágenes de 8x8 en pares. Aquí, las funciones son funciones de muestreo ascendente y descendente de imágenes y es un factor de combinación (muy parecido a un alfa en la composición de imágenes) que se desliza suavemente de 0 a 1. $((1-\alpha )+\alpha \cdot G_{N-1})\circ u\circ G_{N},D_{N}\circ d\circ ((1-\alpha )+\alpha \cdot D_{N-1})$ $u,d$ $\alpha$

EstiloGAN-1

StyleGAN-1 está diseñado como una combinación de GAN progresivo con transferencia de estilo neuronal . ^[53]

La elección arquitectónica clave de StyleGAN-1 es un mecanismo de crecimiento progresivo, similar a Progressive GAN. Cada imagen generada comienza como una matriz constante y pasa repetidamente por bloques de estilo. Cada bloque de estilo aplica un "vector latente de estilo" a través de una transformación afín ("normalización de instancia adaptativa"), similar a cómo la transferencia de estilo neuronal utiliza la matriz Gramian . Luego agrega ruido y normaliza (resta la media y luego divide por la varianza). $4\times 4\times 512$

En el momento del entrenamiento, generalmente solo se utiliza un vector latente de estilo por imagen generada, pero a veces se utilizan dos ("regularización de mezcla") para alentar a cada bloque de estilo a realizar su estilización de forma independiente sin esperar ayuda de otros bloques de estilo (ya que podrían recibir un vector latente de estilo completamente diferente).

Después del entrenamiento, se pueden introducir varios vectores latentes de estilo en cada bloque de estilo. Los que se introducen en las capas inferiores controlan los estilos a gran escala y los que se introducen en las capas superiores controlan los estilos de detalle fino.

También se puede realizar una mezcla de estilos entre dos imágenes . Primero, se ejecuta un descenso de gradiente para encontrar tal que . Esto se llama "proyectar una imagen de vuelta al espacio latente de estilo". Luego, se puede alimentar a los bloques de estilo inferiores y a los bloques de estilo superiores para generar una imagen compuesta que tenga el estilo a gran escala de , y el estilo de detalle fino de . También se pueden componer varias imágenes de esta manera. $x,x'$ $z,z'$ $G(z)\approx x,G(z')\approx x'$ $z$ $z'$ $x$ $x'$

EstiloGAN-2

StyleGAN-2 mejora a StyleGAN-1, al utilizar el vector latente de estilo para transformar los pesos de la capa de convolución, resolviendo así el problema del "blob". ^[54]

Esto fue actualizado por StyleGAN-2-ADA ("ADA" significa "adaptativo"), ^[51] que utiliza el aumento de datos invertible como se describió anteriormente. También ajusta la cantidad de aumento de datos aplicado comenzando en cero y aumentándolo gradualmente hasta que una "heurística de sobreajuste" alcanza un nivel objetivo, de ahí el nombre "adaptativo".

EstiloGAN-3

StyleGAN-3 ^[55] mejora a StyleGAN-2 al resolver el problema de "pegado de textura", que se puede ver en los videos oficiales. ^[56] Analizaron el problema mediante el teorema de muestreo de Nyquist-Shannon y argumentaron que las capas en el generador aprendieron a explotar la señal de alta frecuencia en los píxeles sobre los que operan.

Para solucionar esto, propusieron imponer filtros paso bajo estrictos entre las capas de cada generador, de modo que el generador se vea obligado a operar sobre los píxeles de una manera fiel a las señales continuas que representan, en lugar de operar sobre ellos como señales meramente discretas. Además, impusieron invariancia rotacional y traslacional mediante el uso de más filtros de señal . El StyleGAN-3 resultante es capaz de resolver el problema de adherencia de texturas, además de generar imágenes que giran y se trasladan suavemente.

Otros usos

Además de para el modelado generativo y discriminativo de datos, las GAN se han utilizado para otras cosas.

Las GAN se han utilizado para el aprendizaje por transferencia con el fin de reforzar la alineación del espacio de características latentes, como en el aprendizaje por refuerzo profundo . ^[57] Esto funciona al introducir las incrustaciones de la tarea de origen y destino en el discriminador, que intenta adivinar el contexto. La pérdida resultante se retropropaga (inversamente) a través del codificador.

Aplicaciones

Ciencia

Reconstruir iterativamente imágenes astronómicas ^[58]
Simular el efecto de lente gravitacional para la investigación de la materia oscura. ^[59]^[60]^[61]
Modelar la distribución de materia oscura en una dirección particular en el espacio y predecir el efecto de lente gravitacional que ocurrirá. ^[62]^[63]
Modelar la formación de chorros de alta energía ^[64] y las lluvias de polvo a través de calorímetros de experimentos de física de alta energía . ^[65]^[66]^[67]^[68]
Cuellos de botella aproximados en simulaciones computacionalmente costosas de experimentos de física de partículas. Las aplicaciones en el contexto de los experimentos actuales y propuestos del CERN han demostrado el potencial de estos métodos para acelerar la simulación y/o mejorar la fidelidad de la simulación. ^[69]^[70]
Reconstruir campos de velocidad y escalares en flujos turbulentos. ^[71]^[72]^[73]

Las moléculas generadas por GAN se validaron experimentalmente en ratones. ^[74]^[75]

Médico

Una de las principales preocupaciones en el campo de las imágenes médicas es preservar la privacidad del paciente. Por estos motivos, los investigadores suelen tener dificultades para obtener imágenes médicas para sus fines de investigación. La GAN se ha utilizado para generar imágenes médicas sintéticas , como imágenes de resonancia magnética y PET , para abordar este desafío. ^[76]

La GAN se puede utilizar para detectar imágenes glaucomatosas ayudando al diagnóstico precoz, lo cual es esencial para evitar la pérdida parcial o total de la visión. ^[77]

Las GAN se han utilizado para crear reconstrucciones faciales forenses de personajes históricos fallecidos. ^[78]

Malicioso

Se han planteado inquietudes sobre el posible uso de la síntesis de imágenes humanas basada en GAN para fines siniestros, por ejemplo, para producir fotografías y vídeos falsos, posiblemente incriminatorios. ^[79] Las GAN se pueden utilizar para generar fotos de perfil únicas y realistas de personas que no existen, con el fin de automatizar la creación de perfiles falsos en las redes sociales. ^[80]

En 2019, el estado de California consideró ^[81] y aprobó el 3 de octubre de 2019 el proyecto de ley AB-602, que prohíbe el uso de tecnologías de síntesis de imágenes humanas para realizar pornografía falsa sin el consentimiento de las personas retratadas, y el proyecto de ley AB-730, que prohíbe la distribución de videos manipulados de un candidato político dentro de los 60 días posteriores a una elección. Ambos proyectos de ley fueron redactados por el miembro de la Asamblea Marc Berman y firmados por el gobernador Gavin Newsom . Las leyes entraron en vigor en 2020. ^[82]

El programa de investigación forense de medios de DARPA estudia formas de contrarrestar los medios falsos, incluidos los medios falsos producidos mediante GAN. ^[83]

Moda, arte y publicidad

Las GAN se pueden utilizar para generar arte; The Verge escribió en marzo de 2019 que "las imágenes creadas por GAN se han convertido en el aspecto definitorio del arte de IA contemporáneo". ^[84] Las GAN también se pueden utilizar para

Fotografías pintadas ^[85]
generar modelos de moda, ^[86] sombras, ^[87] representaciones fotorrealistas de diseño de interiores , diseño industrial , zapatos, etc. ^{[88] Se informó que}Facebook utilizaba dichas redes . ^[89]

Algunos han trabajado con el uso de GAN para la creatividad artística, como "red creativa antagónica". ^[90]^[91] Una GAN, entrenada en un conjunto de 15.000 retratos de WikiArt del siglo XIV al XIX, creó la pintura de 2018 Edmond de Belamy , que se vendió por 432.500 dólares estadounidenses. ^[92]

La comunidad de modificación de videojuegos utilizó las GAN para mejorar la escala de texturas 2D de baja resolución en videojuegos antiguos al recrearlas en resoluciones de 4k o superiores mediante entrenamiento de imágenes y luego reducir su resolución para que se ajusten a la resolución nativa del juego (similar al anti-aliasing de supermuestreo ). ^[93]

En 2020, Artbreeder se utilizó para crear al antagonista principal de la secuela de la serie de terror psicológico web Ben Drowned . El autor luego elogiaría las aplicaciones GAN por su capacidad para ayudar a generar activos para artistas independientes que tienen poco presupuesto y mano de obra. ^[94]^[95]

En mayo de 2020, los investigadores de Nvidia enseñaron a un sistema de IA (denominado "GameGAN") a recrear el juego de Pac-Man simplemente viéndolo jugar. ^[96]^[97]

En agosto de 2019, se creó un gran conjunto de datos que consta de 12 197 canciones MIDI, cada una con letras emparejadas y alineación de melodía, para la generación de melodías neuronales a partir de letras utilizando GAN-LSTM condicional (consulte las fuentes en GitHub AI Melody Generation from Lyrics). ^[98]

Misceláneas

Las GAN se han utilizado para

Muestra cómo la apariencia de un individuo puede cambiar con la edad. ^[99]
reconstruir modelos 3D de objetos a partir de imágenes , ^[100]
generar nuevos objetos como nubes de puntos 3D, ^[101]
modelar patrones de movimiento en vídeo. ^[102]
pintar características faltantes en los mapas, transferir estilos de mapas en cartografía ^[103] o aumentar imágenes de Street View. ^[104]
Utilizar la retroalimentación para generar imágenes y reemplazar los sistemas de búsqueda de imágenes. ^[105]
visualizar el efecto que tendrá el cambio climático en casas específicas. ^[106]
reconstruir una imagen del rostro de una persona después de escuchar su voz. ^[107]
produce vídeos de una persona hablando, a partir de una única foto de esa persona. ^[108]
Generación de secuencias recurrentes. ^[109]

Historia

En 1991, Juergen Schmidhuber publicó "Artificial Curiosity", redes neuronales en un juego de suma cero . ^[110] La primera red es un modelo generativo que modela una distribución de probabilidad sobre patrones de salida. La segunda red aprende por descenso de gradiente a predecir las reacciones del entorno a estos patrones. Las GAN pueden considerarse como un caso en el que la reacción del entorno es 1 o 0 dependiendo de si la salida de la primera red está en un conjunto dado. ^[111]

Otras personas tenían ideas similares, pero no las desarrollaron de manera similar. En 2010, Olli Niemitalo publicó una idea que involucraba redes adversarias en un blog. ^[112] Esta idea nunca se implementó y no involucraba estocasticidad en el generador, por lo que no era un modelo generativo. Ahora se conoce como GAN condicional o cGAN. ^[113] En 2013, Li, Gauci y Gross utilizaron una idea similar a las GAN para modelar el comportamiento animal. ^[114]

Otra inspiración para las GAN fue la estimación contrastiva de ruido, ^[115] que utiliza la misma función de pérdida que las GAN y que Goodfellow estudió durante su doctorado en 2010-2014.

El aprendizaje automático adversarial tiene otros usos además del modelado generativo y se puede aplicar a otros modelos además de las redes neuronales. En la teoría de control, el aprendizaje adversarial basado en redes neuronales se utilizó en 2006 para entrenar controladores robustos en un sentido de teoría de juegos, alternando las iteraciones entre una política minimizadora, el controlador, y una política maximizadora, la perturbación. ^[116]^[117]

En 2017, se utilizó una GAN para la mejora de imágenes centrándose en texturas realistas en lugar de en la precisión de píxeles, lo que produjo una mayor calidad de imagen con un gran aumento. ^[118] En 2017, se generaron los primeros rostros. ^[119] Estos se exhibieron en febrero de 2018 en el Grand Palais. ^[120]^[121] Los rostros generados por StyleGAN ^[122] en 2019 generaron comparaciones con Deepfakes . ^[123]^[124]^[125]

Véase también

Arte con inteligencia artificial : aplicación por parte de máquinas del conocimiento de las expresiones estéticas humanas
Deepfake : contenido multimedia realista generado artificialmente
Aprendizaje profundo : una rama del aprendizaje automático
Modelo de difusión – Algoritmo de aprendizaje profundo
Inteligencia artificial generativa : sistema de IA capaz de generar contenido en respuesta a indicaciones.
Medios sintéticos : producción, manipulación y modificación artificial de datos y medios por medios automatizados.

Referencias

^ "IA generativa y futuro". 15 de noviembre de 2022.
^ "CSDL | Sociedad de Computación IEEE".
^ abcdefghij Goodfellow, Ian; Pouget-Abadie, Jean; Mirza, Mehdi; Xu, Bing; Warde-Farley, David; Ozair, Sherjil; Courville, Aaron; Bengio, Yoshua (2014). Redes generativas adversarias (PDF) . Actas de la Conferencia internacional sobre sistemas de procesamiento de información neuronal (NIPS 2014). págs. 2672–2680.
^ Salimans, Tim; Goodfellow, Ian; Zaremba, Wojciech; Cheung, Vicki; Radford, Alec; Chen, Xi (2016). "Técnicas mejoradas para el entrenamiento de GAN". arXiv : 1606.03498 [cs.LG].
^ Isola, Phillip; Zhu, Jun-Yan; Zhou, Tinghui; Efros, Alexei (2017). "Traducción de imagen a imagen con redes adversarias condicionales". Visión por computadora y reconocimiento de patrones .
^ Ho, Jonathon; Ermon, Stefano (2016). "Aprendizaje generativo por imitación adversarial". Avances en sistemas de procesamiento de información neuronal . 29 : 4565–4573. arXiv : 1606.03476 .
^ "Vanilla GAN (GANs in computer vision: Introduction to generative learning)". theaisummer.com . AI Summer. 10 de abril de 2020. Archivado desde el original el 3 de junio de 2020 . Consultado el 20 de septiembre de 2020 .
^ Luc, Pauline; Couprie , Camille; Chintala, Soumith; Verbeek, Jakob (25 de noviembre de 2016). "Segmentación semántica mediante redes adversarias". Taller NIPS sobre entrenamiento adversarial, diciembre, Barcelona, España . 2016. arXiv : 1611.08408 .
^ Andrej Karpathy ; Pieter Abbeel ; Greg Brockman; Peter Chen; Vicki Cheung; Rocky Duan; Ian Goodfellow; Durk Kingma; Jonathan Ho; Rein Houthooft; Tim Salimans; John Schulman; Ilya Sutskever; Wojciech Zaremba, Generative Models, OpenAI , consultado el 7 de abril de 2016
^ Mohamed, Shakir; Lakshminarayanan, Balaji (2016). "Aprendizaje en modelos generativos implícitos". arXiv : 1610.03483 [stat.ML].
^ ab Goodfellow, Ian (3 de abril de 2017). "Tutorial NIPS 2016: Redes generativas antagónicas". arXiv : 1701.00160 [cs.LG].
^ Kingma, Diederik P.; Welling, Max (1 de mayo de 2014). "Autocodificación Bayesiana Variacional". arXiv : 1312.6114 [stat.ML].
^ Rezende, Danilo Jiménez; Mohamed, Shakir; Wierstra, Daan (2014). "Retropropagación estocástica e inferencia aproximada en modelos generativos profundos". Revista de investigación en aprendizaje automático . 32 (2): 1278–1286. arXiv : 1401.4082 .
^ ab Farnia, Farzan; Ozdaglar, Asuman (21 de noviembre de 2020). "¿Las GAN siempre tienen equilibrios de Nash?". Actas de la 37.ª Conferencia Internacional sobre Aprendizaje Automático . Vol. 119. PMLR. págs. 3029–3039.
^ abc Weng, Lilian (18 de abril de 2019). "De GAN a WGAN". arXiv : 1904.08994 [cs.LG].
^ abc Karras, Tero; Aila, Timo; Laine, Samuli; Lehtinen, Jaakko (1 de octubre de 2017). "Crecimiento progresivo de GAN para mejorar la calidad, la estabilidad y la variación". arXiv : 1710.10196 [cs.NE].
^ Soviany, Petru; Ardei, Claudiu; Ionescu, Radu Tudor; Leordeanu, Marius (22 de octubre de 2019). "Plan de estudios de dificultad de imagen para redes generativas adversarias (CuGAN)". arXiv : 1910.08967 [cs.LG].
^ Hacohen, Guy; Weinshall, Daphna (24 de mayo de 2019). "Sobre el poder del aprendizaje curricular en el entrenamiento de redes profundas". Conferencia internacional sobre aprendizaje automático . PMLR: 2535–2544. arXiv : 1904.03626 .
^ "r/MachineLearning - Comentario de u/ian_goodfellow sobre "[R] [1701.07875] Wasserstein GAN". reddit . 30 de enero de 2017 . Consultado el 15 de julio de 2022 .
^ Lin, Zinan; et al. (diciembre de 2018). PacGAN: el poder de dos muestras en redes generativas antagónicas. 32.ª Conferencia internacional sobre sistemas de procesamiento de información neuronal. págs. 1505–1514. arXiv : 1712.04086 .
^ Mescheder, Lars; Geiger, Andreas; Nowozin, Sebastian (31 de julio de 2018). "¿Qué métodos de entrenamiento para GAN convergen realmente?". arXiv : 1801.04406 [cs.LG].
^ ab Brock, Andrew; Donahue, Jeff; Simonyan, Karen (1 de septiembre de 2018). Entrenamiento GAN a gran escala para síntesis de imágenes naturales de alta fidelidad. Conferencia internacional sobre representaciones de aprendizaje 2019. arXiv : 1809.11096 .
^ Heusel, Martin; Ramsauer, Hubert; Unterthiner, Thomas; Nessler, Bernhard; Hochreiter, Sepp (2017). "GANs entrenados por una regla de actualización de dos escalas de tiempo convergen a un equilibrio de Nash local". Avances en sistemas de procesamiento de información neuronal . 30 . Curran Associates, Inc. arXiv : 1706.08500 .
^ Kingma, Diederik P.; Ba, Jimmy (29 de enero de 2017). "Adam: un método para la optimización estocástica". arXiv : 1412.6980 [cs.LG].
^ Zhang, Richard; Isola, Phillip; Efros, Alexei A.; Shechtman, Eli; Wang, Oliver (2018). "La efectividad irrazonable de las características profundas como métrica perceptual". págs. 586–595. arXiv : 1801.03924 [cs.CV].
^ Borji, Ali (1 de febrero de 2019). "Pros y contras de las medidas de evaluación de GAN". Visión por computadora y comprensión de imágenes . 179 : 41–65. arXiv : 1802.03446 . doi :10.1016/j.cviu.2018.10.009. ISSN 1077-3142. S2CID 3627712.
^ Hindupur, Avinash (15 de julio de 2022), The GAN Zoo , consultado el 15 de julio de 2022
^ Odena, Augustus; Olah, Christopher; Shlens, Jonathon (17 de julio de 2017). "Síntesis de imágenes condicionales con GAN de clasificadores auxiliares". Conferencia internacional sobre aprendizaje automático . PMLR: 2642–2651. arXiv : 1610.09585 .
^ Radford, Alec; Metz, Luke; Chintala, Soumith (2016). "Aprendizaje de representación no supervisado con redes generativas antagónicas convolucionales profundas". ICLR . S2CID 11758569.
^ Long, Jonathan; Shelhamer, Evan; Darrell, Trevor (2015). "Redes totalmente convolucionales para segmentación semántica". CVF : 3431–3440.
^ Zhang, Han; Goodfellow, Ian; Metaxas, Dimitris; Odena, Augustus (24 de mayo de 2019). "Redes adversarias generativas de autoatención". Conferencia internacional sobre aprendizaje automático . PMLR: 7354–7363.
^ Larsen, Anders Boesen Lindbo; Sønderby, Søren Kaae; Larochelle, Hugo; Winther, Ole (11 de junio de 2016). "Codificación automática más allá de los píxeles utilizando una métrica de similitud aprendida". Congreso Internacional sobre Aprendizaje Automático . PMLR: 1558-1566. arXiv : 1512.09300 .
^ Jiang, Yifan; Chang, Shiyu; Wang, Zhangyang (8 de diciembre de 2021). "TransGAN: dos transformadores puros pueden formar una GAN fuerte y escalable". arXiv : 2102.07074 [cs.CV].
^ Grover, Aditya; Dhar, Manik; Ermon, Stefano (1 de mayo de 2017). "Flow-GAN: Combinando máxima verosimilitud y aprendizaje adversarial en modelos generativos". arXiv : 1705.08868 [cs.LG].
^ Arjovsky, Martin; Bottou, Léon (1 de enero de 2017). "Hacia métodos basados en principios para el entrenamiento de redes generativas adversarias". arXiv : 1701.04862 [stat.ML].
^ Goodfellow, Ian J. (1 de diciembre de 2014). "Sobre los criterios de distinción para estimar modelos generativos". arXiv : 1412.6515 [stat.ML].
^ Goodfellow, Ian (31 de agosto de 2016). "Redes generativas adversarias (GAN), presentación en el Laboratorio de Inteligencia Artificial de Berkeley" (PDF) . Archivado (PDF) del original el 8 de mayo de 2022.
^ Lim, Jae Hyun; Ye, Jong Chul (8 de mayo de 2017). "GAN geométrica". arXiv : 1705.02894 [estad.ML].
^ Mao, Xudong; Li, Qing; Xie, Haoran; Lau, Raymond YK; Wang, Zhen; Paul Smolley, Stephen (2017). "Redes generativas adversarias de mínimos cuadrados". Conferencia internacional IEEE sobre visión artificial (ICCV) de 2017. págs. 2794–2802. arXiv : 1611.04076 . doi :10.1109/ICCV.2017.304. ISBN 978-1-5386-1032-9.
^ Makhzani, Alireza; Shlens, Jonathon; Jaitly, Navdeep; Goodfellow, Ian ; Frey, Brendan (2016). "Autocodificadores adversarios". arXiv : 1511.05644 [cs.LG].
^ Barber, David; Agakov, Felix (9 de diciembre de 2003). "El algoritmo IM: un enfoque variacional para la maximización de la información". Actas de la 16.ª Conferencia internacional sobre sistemas de procesamiento de información neuronal . NIPS'03. Cambridge, MA, EE. UU.: MIT Press: 201–208.
^ Chen, Xi; Duan, Yan; Houthooft, Rein; Schulman, John; Sutskever, Ilya; Abbeel, Pieter (2016). "InfoGAN: aprendizaje de representación interpretable mediante redes generativas adversarias que maximizan la información". Avances en sistemas de procesamiento de información neuronal . 29 . Curran Associates, Inc. arXiv : 1606.03657 .
^ Donahue, Jeff; Krähenbühl, Philipp; Darrell, Trevor (2016). "Aprendizaje de funciones adversas". arXiv : 1605.09782 [cs.LG].
^ Dumoulin, Vincent; Belghazi, Ishmael; Poole, Ben; Mastropietro, Olivier; Arjovsky, Alex; Courville, Aaron (2016). "Inferencia aprendida adversariamente". arXiv : 1606.00704 [stat.ML].
^ Xi Chen; Yan Duan; Rein Houthooft; John Schulman; Ilya Sutskever ; Pieter Abeel (2016). "InfoGAN: aprendizaje de representación interpretable mediante redes generativas adversarias que maximizan la información". arXiv : 1606.03657 [cs.LG].
^ Zhirui Zhang; Shujie Liu; Mu Li; Ming Zhou; Enhong Chen (octubre de 2018). "Redes generativas antagónicas bidireccionales para la traducción automática neuronal" (PDF) . págs. 190–199.
^ Zhu, Jun-Yan; Park, Taesung; Isola, Phillip; Efros, Alexei A. (2017). "Traducción de imagen a imagen no pareada mediante redes adversarias consistentes en ciclos". págs. 2223–2232. arXiv : 1703.10593 [cs.CV].
^ Isola, Phillip; Zhu, Jun-Yan; Zhou, Tinghui; Efros, Alexei A. (2017). "Traducción de imagen a imagen con redes adversarias condicionales". págs. 1125–1134. arXiv : 1611.07004 [cs.CV].
^ Brownlee, Jason (22 de agosto de 2019). "Una introducción sencilla a BigGAN, la gran red generativa adversarial". Maestría en aprendizaje automático . Consultado el 15 de julio de 2022 .
^ Shengyu, Zhao; Zhijian, Liu; Ji, Lin; Jun-Yan, Zhu; Song, Han (2020). "Aumento diferenciable para entrenamiento GAN eficiente en datos". Avances en sistemas de procesamiento de información neuronal . 33 . arXiv : 2006.10738 .
^ abc Tero, Karras; Miika, Aittala; Janne, Hellsten; Samuli, Laine; Jaakko, Lehtinen; Timo, Aila (2020). "Capacitación de redes generativas adversarias con datos limitados". Avances en los sistemas de procesamiento de información neuronal . 33 .
^ Shaham, Tamar Rott; Dekel, Tali; Michaeli, Tomer (octubre de 2019). "SinGAN: aprendizaje de un modelo generativo a partir de una única imagen natural". Conferencia internacional sobre visión artificial (ICCV) IEEE/CVF de 2019. IEEE. págs. 4569–4579. arXiv : 1905.01164 . doi :10.1109/iccv.2019.00467. ISBN . 978-1-7281-4803-8. Número de identificación del sujeto 145052179.
^ Karras, Tero; Laine, Samuli; Aila, Timo (junio de 2019). "Una arquitectura de generador basada en estilos para redes generativas adversarias". Conferencia IEEE/CVF de 2019 sobre visión artificial y reconocimiento de patrones (CVPR) . IEEE. págs. 4396–4405. arXiv : 1812.04948 . doi :10.1109/cvpr.2019.00453. ISBN . 978-1-7281-3293-8.S2CID54482423 .
^ Karras, Tero; Laine, Samuli; Aittala, Miika; Hellsten, Janne; Lehtinen, Jaakko; Aila, Timo (junio de 2020). "Análisis y mejora de la calidad de imagen de StyleGAN". Conferencia IEEE/CVF 2020 sobre visión por computadora y reconocimiento de patrones (CVPR) . IEEE. págs. 8107–8116. arXiv : 1912.04958 . doi :10.1109/cvpr42600.2020.00813. ISBN 978-1-7281-7168-5.S2CID209202273 .
^ Timo, Karras, Tero Aittala, Miika Laine, Samuli Härkönen, Erik Hellsten, Janne Lehtinen, Jaakko Aila (23 de junio de 2021). Redes adversarias generativas sin alias. OCLC 1269560084.{{cite book}}: CS1 maint: multiple names: authors list (link)
^ Karras, Tero; Aittala, Miika; Laine, Samuli; Härkönen, Erik; Hellsten, Janne; Lehtinen, Jaakko; Aila, Timo. "Redes adversarias generativas sin alias (StyleGAN3)". nvlabs.github.io . Consultado el 16 de julio de 2022 .
^ Li, Bonnie; François-Lavet, Vicente; Doan, Thang; Pineau, Joelle (14 de febrero de 2021). "Aprendizaje por refuerzo de dominio adversario". arXiv : 2102.07097 [cs.LG].
^ Schawinski, Kevin; Zhang, Ce; Zhang, Hantian; Fowler, Lucas; Santhanam, Gokula Krishnan (1 de febrero de 2017). "Redes generativas adversarias recuperan características en imágenes astrofísicas de galaxias más allá del límite de deconvolución". Monthly Notices of the Royal Astronomical Society: Letters . 467 (1): L110–L114. arXiv : 1702.00403 . Bibcode :2017MNRAS.467L.110S. doi : 10.1093/mnrasl/slx008 . S2CID 7213940.
^ Kincade, Kathy. "Investigadores entrenan una red neuronal para estudiar la materia oscura". Revista R&D.
^ Kincade, Kathy (16 de mayo de 2019). "CosmoGAN: Entrenamiento de una red neuronal para estudiar la materia oscura". Phys.org .
^ "Entrenamiento de una red neuronal para estudiar la materia oscura". Science Daily . 16 de mayo de 2019.
^ a las 06:13, Katyanna Quach 20 de mayo de 2019. "Los cosmoboffins usan redes neuronales para construir mapas de materia oscura de manera sencilla". www.theregister.co.uk . Consultado el 20 de mayo de 2019 .{{cite web}}: CS1 maint: numeric names: authors list (link)
^ Mustafa, Mustafa; Bard, Deborah; Bhimji, Wahid; Lukić, Zarija; Al-Rfou, Rami; Kratochvil, Jan M. (6 de mayo de 2019). "CosmoGAN: creación de mapas de convergencia de lentes débiles de alta fidelidad utilizando redes generativas adversarias". Astrofísica computacional y cosmología . 6 (1): 1. arXiv : 1706.02390 . Bibcode :2019ComAC...6....1M. doi : 10.1186/s40668-019-0029-9 . ISSN 2197-7909. S2CID 126034204.
^ Paganini, Michela; de Oliveira, Luke; Nachman, Benjamin (2017). "Aprendizaje de física de partículas mediante ejemplos: redes generativas adversarias con reconocimiento de ubicación para síntesis de física". Computing and Software for Big Science . 1 : 4. arXiv : 1701.05927 . Bibcode :2017arXiv170105927D. doi :10.1007/s41781-017-0004-6. S2CID 88514467.
^ Paganini, Michela; de Oliveira, Luke; Nachman, Benjamin (2018). "Aceleración de la ciencia con redes generativas antagónicas: una aplicación a las lluvias de partículas 3D en calorímetros multicapa". Physical Review Letters . 120 (4): 042003. arXiv : 1705.02355 . Código Bibliográfico :2018PhRvL.120d2003P. doi :10.1103/PhysRevLett.120.042003. PMID 29437460. S2CID 3330974.
^ Paganini, Michela; de Oliveira, Luke; Nachman, Benjamin (2018). "CaloGAN: Simulación de lluvias de partículas de alta energía en 3D en calorímetros electromagnéticos multicapa con redes generativas adversarias". Phys. Rev. D . 97 (1): 014021. arXiv : 1712.10321 . Código Bibliográfico :2018PhRvD..97a4021P. doi :10.1103/PhysRevD.97.014021. S2CID 41265836.
^ Erdmann, Martin; Glombitza, Jonas; Quast, Thorben (2019). "Simulación precisa de lluvias de calorímetros electromagnéticos utilizando una red generativa antagónica de Wasserstein". Computing and Software for Big Science . 3 (1): 4. arXiv : 1807.01954 . Bibcode :2019CSBS....3....4E. doi :10.1007/s41781-018-0019-7. S2CID 54216502.
^ Musella, Pasquale; Pandolfi, Francesco (2018). "Simulación rápida y precisa de detectores de partículas utilizando redes generativas adversarias". Computing and Software for Big Science . 2 : 8. arXiv : 1805.00850 . Bibcode :2018arXiv180500850M. doi :10.1007/s41781-018-0015-y. S2CID 119474793.
^ "Modelos generativos profundos para simulación rápida de lluvias en ATLAS". 2018.
^ SHiP, Collaboration (2019). "Simulación rápida de muones producidos en el experimento SHiP usando redes generativas antagónicas". Journal of Instrumentation . 14 (11): 11028. arXiv : 1909.04451 . Bibcode :2019JInst..14P1028A. doi :10.1088/1748-0221/14/11/P11028. S2CID 202542604.
^ Nista, Ludovico; Pitsch, Heinz; Schumann, Christoph DK; Bode, Mathis; Grenga, Temistocle; MacArt, Jonathan F.; Attili, Antonio (4 de junio de 2024). "Influencia del entrenamiento adversarial en la reconstrucción de turbulencia de súper resolución". Physical Review Fluids . 9 (6): 064601. arXiv : 2308.16015 . Código Bibliográfico :2024PhRvF...9f4601N. doi :10.1103/PhysRevFluids.9.064601.
^ Nista, L.; Schumann, CDK; Grenga, T.; Attili, A.; Pitsch, H. (1 de enero de 2023). "Investigación de la capacidad de generalización de una red generativa adversaria para la simulación de grandes remolinos de flujos reactivos premezclados turbulentos". Actas del Instituto de Combustión . 39 (4): 5279–5288. Bibcode :2023PComI..39.5279N. doi :10.1016/j.proci.2022.07.244. ISSN 1540-7489.
^ Fukami, Kai; Fukagata, Koji; Taira, Kunihiko (1 de agosto de 2020). "Evaluación de métodos de aprendizaje automático supervisado para flujos de fluidos". Dinámica de fluidos teórica y computacional . 34 (4): 497–519. arXiv : 2001.09618 . Código Bibliográfico :2020ThCFD..34..497F. doi :10.1007/s00162-020-00518-y. ISSN 1432-2250.
^ Zhavoronkov, Alex (2019). "El aprendizaje profundo permite la identificación rápida de potentes inhibidores de la quinasa DDR1". Nature Biotechnology . 37 (9): 1038–1040. doi :10.1038/s41587-019-0224-x. PMID 31477924. S2CID 201716327.
^ Barber, Gregory. "Una molécula diseñada por IA exhibe cualidades 'similares a las de un fármaco'". Wired .
^ Moradi, M; Demirel, H (2024). "Clasificación de la enfermedad de Alzheimer mediante selección de datos basada en GAN y LDA progresiva condicional 3D". Procesamiento de señales, imágenes y vídeo . 18 (2): 1847–1861. doi :10.1007/s11760-023-02878-4.
^ Bisneto, Tomaz Ribeiro Viana; de Carvalho Filho, Antonio Oseas; Magalhães, Deborah Maria Vieira (febrero de 2020). "Características de textura y red adversaria generativa aplicadas a la detección automática de glaucoma". Computación blanda aplicada . 90 : 106165. doi : 10.1016/j.asoc.2020.106165. S2CID 214571484.
^ Reconstrucción de los emperadores romanos: entrevista con Daniel Voshart, 16 de noviembre de 2020 , consultado el 3 de junio de 2022
^ msmash (14 de febrero de 2019). "El sitio web 'Esta persona no existe' utiliza inteligencia artificial para crear rostros realistas pero horrorosos". Slashdot . Consultado el 16 de febrero de 2019 .
^ Doyle, Michael (16 de mayo de 2019). "John Beasley vive en Saddlehorse Drive en Evansville. ¿O no?". Courier and Press.
^ Targett, Ed (16 de mayo de 2019). "California se acerca a la ilegalización de la pornografía deepfake". Computer Business Review.
^ Mihalcik, Carrie (4 de octubre de 2019). "Las leyes de California buscan acabar con los deepfakes en la política y la pornografía". cnet.com . CNET . Consultado el 13 de octubre de 2019 .
^ Knight, Will (7 de agosto de 2018). "El Departamento de Defensa ha creado las primeras herramientas para detectar deepfakes". MIT Technology Review .
^ Vincent, James (5 de marzo de 2019). "Un flujo interminable de arte de IA sale a subasta". The Verge . Consultado el 13 de junio de 2020 .
^ Yu, Jiahui, et al. "Inserción generativa de imágenes con atención contextual". Actas de la conferencia IEEE sobre visión artificial y reconocimiento de patrones. 2018.
^ Wong, Ceecee (27 de mayo de 2019). "El auge de las supermodelos de inteligencia artificial". Tendencias de CDO .
^ Taif, K.; Ugail, H.; Mehmood, I. (2020). "Generación de sombras proyectadas mediante redes generativas adversarias". Computational Science – ICCS 2020 . Apuntes de clase en informática. Vol. 12141. págs. 481–495. doi :10.1007/978-3-030-50426-7_36. ISBN 978-3-030-50425-0. Número de pieza 7302543 .
^ Wei, Jerry (3 de julio de 2019). "Generación de diseños de calzado con aprendizaje automático". Medium . Consultado el 6 de noviembre de 2019 .
^ Greenemeier, Larry (20 de junio de 2016). «¿Cuándo tendrán sentido común las computadoras? Pregúntele a Facebook». Scientific American . Consultado el 31 de julio de 2016 .
^ Elgammal, Ahmed; Liu, Bingchen; Elhoseiny, Mohamed; Mazzone, Marian (2017). "CAN: Redes creativas antagónicas, generación de "arte" aprendiendo sobre estilos y desviándose de las normas de estilo". arXiv : 1706.07068 [cs.AI].
^ Mazzone, Marian; Ahmed Elgammal (21 de febrero de 2019). "Arte, creatividad y el potencial de la inteligencia artificial". Arts . 8 : 26. doi : 10.3390/arts8010026 .
^ Cohn, Gabe (25 de octubre de 2018). "Arte de IA en Christie's se vende por 432.500 dólares". The New York Times .
^ Tang, Xiaoou; Qiao, Yu; Loy, Chen Cambio; Dong, Chao; Liu, Yihao; Gu, Jinjin; Wu, Shixiang; Yu, Ke; Wang, Xintao (1 de septiembre de 2018). "ESRGAN: redes adversas generativas de superresolución mejoradas". arXiv : 1809.00219 [cs.CV].
^ Allen, Eric Van (8 de julio de 2020). «Una infame saga de creepypastas de Zelda está usando inteligencia artificial para crear su final». USgamer . Archivado desde el original el 7 de noviembre de 2022. Consultado el 7 de noviembre de 2022 .
^ arcadeattack (28 de septiembre de 2020). «Arcade Attack Podcast – Septiembre (4 de 4) 2020 - Alex Hall (Ben Drowned) - Entrevista». Arcade Attack . Consultado el 7 de noviembre de 2022 .
^ "La IA de Nvidia recrea Pac-Man desde cero con solo ver cómo se juega". The Verge . 22 de mayo de 2020.
^ Seung Wook Kim; Zhou, Yuhao; Philion, Jonah; Torralba, Antonio; Fidler, Sanja (2020). "Aprendiendo a simular entornos dinámicos con GameGAN". arXiv : 2005.12126 [cs.CV].
^ Yu, Yi; Canales, Simon (2021). "LSTM-GAN condicional para la generación de melodías a partir de letras". ACM Transactions on Multimedia Computing, Communications, and Applications . 17 : 1–20. arXiv : 1908.05551 . doi :10.1145/3424116. ISSN 1551-6857. S2CID 199668828.
^ Antipov, Grigory; Baccouche, Moez; Dugelay, Jean-Luc (2017). "Envejecimiento facial con redes generativas adversarias condicionales". arXiv : 1702.01983 [cs.CV].
^ "Red generativa antagónica 3D". 3dgan.csail.mit.edu .
^ Achlioptas, Panos; Diamanti, Olga; Mitliagkas, Ioannis; Guibas, Leonidas (2018). "Representaciones de aprendizaje y modelos generativos para nubes de puntos 3D". arXiv : 1707.02392 [cs.CV].
^ Vondrick, Carl; Pirsiavash, Hamed; Torralba, Antonio (2016). "Generación de vídeos con dinámica de escena". carlvondrick.com . arXiv : 1609.02612 . Código Bibliográfico :2016arXiv160902612V.
^ Kang, Yuhao; Gao, Song; Roth, Rob (2019). "Transferencia de estilos de mapas multiescala mediante redes generativas antagónicas". Revista internacional de cartografía . 5 (2–3): 115–141. arXiv : 1905.02200 . Código Bibliográfico :2019IJCar...5..115K. doi :10.1080/23729333.2019.1615729. S2CID 146808465.
^ Wijnands, Jasper; Nice, Kerry; Thompson, Jason; Zhao, Haifeng; Stevenson, Mark (2019). "Aumento del paisaje urbano mediante redes generativas adversarias: perspectivas relacionadas con la salud y el bienestar". Ciudades y sociedad sostenibles . 49 : 101602. arXiv : 1905.06464 . Código Bibliográfico :2019SusCS..4901602W. doi :10.1016/j.scs.2019.101602. S2CID 155100183.
^ Ukkonen, Antti; Joona, Pyry; Ruotsalo, Tuukka (2020). "Generar imágenes en lugar de recuperarlas". Actas de la 43.ª Conferencia internacional ACM SIGIR sobre investigación y desarrollo en recuperación de información . págs. 1329–1338. doi :10.1145/3397271.3401129. hdl : 10138/328471 . ISBN . 9781450380164. Número de identificación del sujeto 220730163.
^ "La IA puede mostrarnos los estragos del cambio climático". MIT Technology Review . 16 de mayo de 2019.
^ Christian, Jon (28 de mayo de 2019). "UNA INCREÍBLE IA ADIVINA CÓMO TE VES BASÁNDOSE EN TU VOZ". Futurismo.
^ Kulp, Patrick (23 de mayo de 2019). "El laboratorio de inteligencia artificial de Samsung puede crear secuencias de video falsas a partir de una sola foto de rostro". AdWeek .
^ Mohammad Navid Fekri; Ananda Mohon Ghosh; Katarina Grolinger (2020). "Generación de datos de energía para aprendizaje automático con redes generativas adversarias recurrentes". Energías . 13 (1): 130. doi : 10.3390/en13010130 .
^ Schmidhuber, Jürgen (1991). "Una posibilidad para implementar la curiosidad y el aburrimiento en controladores neuronales de construcción de modelos". Proc. SAB'1991 . MIT Press/Bradford Books. págs. 222–227.
^ Schmidhuber, Jürgen (2020). "Las redes generativas adversarias son casos especiales de curiosidad artificial (1990) y también están estrechamente relacionadas con la minimización de la previsibilidad (1991)". Redes neuronales . 127 : 58–66. arXiv : 1906.04493 . doi :10.1016/j.neunet.2020.04.008. PMID 32334341. S2CID 216056336.
^ Niemitalo, Olli (24 de febrero de 2010). «Un método para entrenar redes neuronales artificiales para generar datos faltantes dentro de un contexto variable». Internet Archive (Wayback Machine) . Archivado desde el original el 12 de marzo de 2012. Consultado el 22 de febrero de 2019 .
^ "¿Las GAN se inventaron en 2010?". reddit r/MachineLearning . 2019 . Consultado el 28 de mayo de 2019 .
^ Li, Wei; Gauci, Melvin; Gross, Roderich (6 de julio de 2013). "Actas de la decimoquinta conferencia anual sobre computación genética y evolutiva - GECCO '13". Actas de la 15.ª Conferencia Anual sobre Computación Genética y Evolutiva (GECCO 2013) . Ámsterdam, Países Bajos: ACM. págs. 223–230. doi :10.1145/2463372.2465801. ISBN 9781450319638.
^ Gutmann, Michael; Hyvärinen, Aapo. "Estimación contrastiva de ruido" (PDF) . Conferencia internacional sobre IA y estadística .
^ Abu-Khalaf, Murad; Lewis, Frank L.; Huang, Jie (1 de julio de 2008). "Programación neurodinámica y juegos de suma cero para sistemas de control restringido". IEEE Transactions on Neural Networks . 19 (7): 1243–1252. doi :10.1109/TNN.2008.2000204. S2CID 15680448.
^ Abu-Khalaf, Murad; Lewis, Frank L.; Huang, Jie (1 de diciembre de 2006). "Iteraciones de políticas sobre la ecuación de Hamilton-Jacobi-Isaacs para el control de retroalimentación de estado H _∞ con saturación de entrada". IEEE Transactions on Automatic Control . doi :10.1109/TAC.2006.884959. S2CID 1338976.
^ Sajjadi, Mehdi SM; Schölkopf, Bernhard; Hirsch, Michael (23 de diciembre de 2016). "EnhanceNet: Superresolución de una sola imagen mediante síntesis de texturas automatizada". arXiv : 1612.07919 [cs.CV].
^ "Esta persona no existe: con la IA, tampoco existirá nada". 20 de marzo de 2019.
^ "La Inteligencia Artificial entra en la Historia del Arte". 28 de diciembre de 2018.
^ Tom Février (17 de febrero de 2019). "El escándalo de la inteligencia ARTificielle".
^ "StyleGAN: Implementación oficial de TensorFlow". 2 de marzo de 2019 – vía GitHub.
^ Paez, Danny (13 de febrero de 2019). «Esta persona no existe es el mejor sitio web único de 2019» . Consultado el 16 de febrero de 2019 .
^ Beschizza, Rob (15 de febrero de 2019). «Esta persona no existe». Boing-Boing . Consultado el 16 de febrero de 2019 .
^ Horev, Rani (26 de diciembre de 2018). «GAN basadas en estilos: generación y ajuste de rostros artificiales realistas». Lyrn.AI. Archivado desde el original el 5 de noviembre de 2020. Consultado el 16 de febrero de 2019 .

Enlaces externos

Knight, Will. "5 grandes predicciones para la inteligencia artificial en 2017". MIT Technology Review . Consultado el 5 de enero de 2017 .
Karras, Tero; Laine, Samuli; Aila, Timo (2018). "Una arquitectura de generador basada en estilos para redes generativas antagónicas". arXiv : 1812.04948 [cs.NE].
Esta persona no existe: imágenes fotorrealistas de personas que no existen, generadas por StyleGAN
Este gato no existe Archivado el 5 de marzo de 2019 en Wayback Machine : imágenes fotorrealistas de gatos que no existen, generadas por StyleGAN
Wang, Zhengwei; She, Qi; Ward, Tomas E. (2019). "Redes generativas antagónicas en visión artificial: un estudio y una taxonomía". arXiv : 1906.01529 [cs.LG].