Modelo de difusión

En el aprendizaje automático , los modelos de difusión , también conocidos como modelos probabilísticos de difusión o modelos generativos basados en puntajes , son una clase de modelos generativos de variable latente . Un modelo de difusión consta de tres componentes principales: el proceso directo, el proceso inverso y el procedimiento de muestreo. ^[1] El objetivo de los modelos de difusión es aprender un proceso de difusión para un conjunto de datos dado, de modo que el proceso pueda generar nuevos elementos que se distribuyan de manera similar al conjunto de datos original. Un modelo de difusión modela los datos generados por un proceso de difusión, mediante el cual un nuevo dato realiza un recorrido aleatorio con deriva a través del espacio de todos los datos posibles. ^[2] Un modelo de difusión entrenado se puede muestrear de muchas formas, con diferente eficiencia y calidad.

Existen varios formalismos equivalentes, entre ellos las cadenas de Markov , los modelos probabilísticos de difusión con eliminación de ruido, las redes de puntuación condicionadas por ruido y las ecuaciones diferenciales estocásticas. ^[3] Normalmente se entrenan utilizando inferencia variacional . ^[4] El modelo responsable de la eliminación de ruido se suele denominar su "columna vertebral". La columna vertebral puede ser de cualquier tipo, pero normalmente son redes U o transformadores .

A partir de 2024 ^[update], los modelos de difusión se utilizan principalmente para tareas de visión artificial , incluida la eliminación de ruido de imágenes , la restauración de imágenes , la superresolución , la generación de imágenes y la generación de videos. Por lo general, esto implica entrenar una red neuronal para eliminar el ruido de manera secuencial de las imágenes borrosas con ruido gaussiano . ^[2]^[5] El modelo se entrena para revertir el proceso de agregar ruido a una imagen. Después del entrenamiento hasta la convergencia, se puede usar para la generación de imágenes comenzando con una imagen compuesta de ruido aleatorio y aplicando la red de manera iterativa para eliminar el ruido de la imagen.

Los generadores de imágenes basados en difusión han despertado un gran interés comercial, como Stable Diffusion y DALL-E . Estos modelos suelen combinar modelos de difusión con otros modelos, como codificadores de texto y módulos de atención cruzada, para permitir la generación condicionada por el texto. ^[6]

Además de la visión por computadora, los modelos de difusión también han encontrado aplicaciones en el procesamiento del lenguaje natural ^[7], como la generación de texto ^[8]^[9] y el resumen , ^[10] la generación de sonido ^[11] y el aprendizaje de refuerzo. ^[12]^[13]

Modelo de difusión de eliminación de ruido

Termodinámica del no equilibrio

Los modelos de difusión se introdujeron en 2015 como un método para aprender un modelo que pueda tomar muestras de una distribución de probabilidad altamente compleja. Utilizaron técnicas de la termodinámica del no equilibrio , especialmente la difusión . ^[14]

Consideremos, por ejemplo, cómo se podría modelar la distribución de todas las fotos que se forman de forma natural. Cada imagen es un punto en el espacio de todas las imágenes, y la distribución de las fotos que se forman de forma natural es una "nube" en el espacio que, al añadir ruido repetidamente a las imágenes, se difunde hacia el resto del espacio de la imagen, hasta que la nube se vuelve casi indistinguible de una distribución gaussiana . Un modelo que pueda deshacer aproximadamente la difusión se puede utilizar entonces para tomar muestras de la distribución original. Esto se estudia en la termodinámica del "no equilibrio", ya que la distribución inicial no está en equilibrio, a diferencia de la distribución final. $N(0,I)$

La distribución de equilibrio es la distribución gaussiana , con pdf . Esta es simplemente la distribución de Maxwell-Boltzmann de partículas en un pozo de potencial a temperatura 1. La distribución inicial, al estar muy fuera de equilibrio, se difundiría hacia la distribución de equilibrio, dando pasos aleatorios sesgados que son una suma de aleatoriedad pura (como un caminante browniano ) y descenso de gradiente por el pozo de potencial. La aleatoriedad es necesaria: si las partículas experimentaran solo un descenso de gradiente, entonces todas caerían al origen, colapsando la distribución. $N(0,I)$ $\rho (x)\propto e^{-{\frac {1}{2}}\|x\|^{2}}$ $V(x)={\frac {1}{2}}\|x\|^{2}$

Modelo probabilístico de difusión de eliminación de ruido (DDPM)

El artículo de 2020 propuso el modelo probabilístico de difusión de eliminación de ruido (DDPM), que mejora el método anterior mediante inferencia variacional . ^[4]^[15]

Difusión hacia adelante

Para presentar el modelo, necesitamos alguna notación.

$\beta _{1},...,\beta _{T}\in (0,1)$ son constantes fijas.
$\alpha _{t}:=1-\beta _{t}$
${\bar {\alpha }}_{t}:=\alpha _{1}\cdots \alpha _{t}$
$\sigma _{t}:={\sqrt {1-{\bar {\alpha }}_{t}}}$
${\tilde {\sigma }}_{t}:={\frac {\sigma _{t-1}}{\sigma _{t}}}{\sqrt {\beta _{t}}}$
${\tilde {\mu }}_{t}(x_{t},x_{0}):={\frac {{\sqrt {\alpha _{t}}}(1-{\bar {\alpha }}_{t-1})x_{t}+{\sqrt {{\bar {\alpha }}_{t-1}}}(1-\alpha _{t})x_{0}}{\sigma _{t}^{2}}}$
$N(\mu ,\Sigma )$ es la distribución normal con media y varianza , y es la densidad de probabilidad en . $\mu$ $\Sigma$ $N(x|\mu ,\Sigma )$ $x$
Una barra vertical denota condicionamiento .

Un proceso de difusión hacia adelante comienza en un punto de partida , donde es la distribución de probabilidad que se debe aprender, y luego le agrega ruido repetidamente por donde son las muestras de IID de . Esto está diseñado de modo que para cualquier distribución de partida de , tengamos convergencia a . $x_{0}\sim q$ $q$ $x_{t}={\sqrt {1-\beta _{t}}}x_{t-1}+{\sqrt {\beta _{t}}}z_{t}$ $z_{1},...,z_{T}$ $N(0,I)$ $x_{0}$ $\lim _{t}x_{t}|x_{0}$ $N(0,I)$

Todo el proceso de difusión satisface entonces o donde es una constante de normalización y a menudo se omite. En particular, notamos que es un proceso gaussiano , que nos brinda una libertad considerable en la reparametrización. Por ejemplo, mediante la manipulación estándar con el proceso gaussiano, En particular, notemos que para , la variable converge a . Es decir, después de un proceso de difusión lo suficientemente largo, terminamos con algo que es muy cercano a , con todos los rastros del original desaparecidos. $q(x_{0:T})=q(x_{0})q(x_{1}|x_{0})\cdots q(x_{T}|x_{T-1})=q(x_{0})N(x_{1}|{\sqrt {\alpha _{1}}}x_{0},\beta _{1}I)\cdots N(x_{T}|{\sqrt {\alpha _{T}}}x_{T-1},\beta _{T}I)$ $\ln q(x_{0:T})=\ln q(x_{0})-\sum _{t=1}^{T}{\frac {1}{2\beta _{t}}}\|x_{t}-{\sqrt {1-\beta _{t}}}x_{t-1}\|^{2}+C$ $C$ $x_{1:T}|x_{0}$ $x_{t}|x_{0}\sim N\left({\sqrt {{\bar {\alpha }}_{t}}}x_{0},\sigma _{t}^{2}I\right)$ $x_{t-1}|x_{t},x_{0}\sim N({\tilde {\mu }}_{t}(x_{t},x_{0}),{\tilde {\sigma }}_{t}^{2}I)$ $t$ $x_{t}|x_{0}\sim N\left({\sqrt {{\bar {\alpha }}_{t}}}x_{0},\sigma _{t}^{2}I\right)$ $N(0,I)$ $x_{T}$ $N(0,I)$ $x_{0}\sim q$

Por ejemplo, porque podemos muestrear directamente "en un solo paso", en lugar de pasar por todos los pasos intermedios . $x_{t}|x_{0}\sim N\left({\sqrt {{\bar {\alpha }}_{t}}}x_{0},\sigma _{t}^{2}I\right)$ $x_{t}|x_{0}$ $x_{1},x_{2},...,x_{t-1}$

Derivación por reparametrización

Sabemos que es una gaussiana y es otra gaussiana. También sabemos que son independientes. Por lo tanto, podemos realizar una reparametrización: donde son gaussianas IID. ${\textstyle x_{t-1}|x_{0}}$ ${\textstyle x_{t}|x_{t-1}}$ $x_{t-1}={\sqrt {{\bar {\alpha }}_{t-1}}}x_{0}+{\sqrt {1-{\bar {\alpha }}_{t-1}}}z$ $x_{t}={\sqrt {\alpha _{t}}}x_{t-1}+{\sqrt {1-\alpha _{t}}}z'$ ${\textstyle z,z'}$

Hay 5 variables y dos ecuaciones lineales. Las dos fuentes de aleatoriedad son , que se pueden repararmetrizar mediante rotación, ya que la distribución gaussiana IID es rotacionalmente simétrica. ${\textstyle x_{0},x_{t-1},x_{t},z,z'}$ ${\textstyle z,z'}$

Al introducir las ecuaciones, podemos resolver la primera reparametrización: donde es una gaussiana con media cero y varianza uno. $x_{t}={\sqrt {{\bar {\alpha }}_{t}}}x_{0}+\underbrace {{\sqrt {\alpha _{t}-{\bar {\alpha }}_{t}}}z+{\sqrt {1-\alpha _{t}}}z'} _{=\sigma _{t}z''}$ ${\textstyle z''}$

Para encontrar el segundo, completamos la matriz rotacional: ${\begin{bmatrix}z''\\z'''\end{bmatrix}}={\begin{bmatrix}{\frac {\sqrt {\alpha _{t}-{\bar {\alpha }}_{t}}}{\sigma _{t}}}&{\frac {\sqrt {\beta _{t}}}{\sigma _{t}}}\\?&?\end{bmatrix}}{\begin{bmatrix}z\\z'\end{bmatrix}}$

Como las matrices rotacionales son todas de la forma , sabemos que la matriz debe ser y como la inversa de la matriz rotacional es su transpuesta, ${\textstyle {\begin{bmatrix}\cos \theta &\sin \theta \\-\sin \theta &\cos \theta \end{bmatrix}}}$ ${\begin{bmatrix}z''\\z'''\end{bmatrix}}={\begin{bmatrix}{\frac {\sqrt {\alpha _{t}-{\bar {\alpha }}_{t}}}{\sigma _{t}}}&{\frac {\sqrt {\beta _{t}}}{\sigma _{t}}}\\-{\frac {\sqrt {\beta _{t}}}{\sigma _{t}}}&{\frac {\sqrt {\alpha _{t}-{\bar {\alpha }}_{t}}}{\sigma _{t}}}\end{bmatrix}}{\begin{bmatrix}z\\z'\end{bmatrix}}$
${\begin{bmatrix}z\\z'\end{bmatrix}}={\begin{bmatrix}{\frac {\sqrt {\alpha _{t}-{\bar {\alpha }}_{t}}}{\sigma _{t}}}&-{\frac {\sqrt {\beta _{t}}}{\sigma _{t}}}\\{\frac {\sqrt {\beta _{t}}}{\sigma _{t}}}&{\frac {\sqrt {\alpha _{t}-{\bar {\alpha }}_{t}}}{\sigma _{t}}}\end{bmatrix}}{\begin{bmatrix}z''\\z'''\end{bmatrix}}$

Retrocediendo y simplificando, tenemos $x_{t}={\sqrt {{\bar {\alpha }}_{t}}}x_{0}+\sigma _{t}z''$ $x_{t-1}={\tilde {\mu }}_{t}(x_{t},x_{0})-{\tilde {\sigma }}_{t}z'''$

Difusión hacia atrás

La idea clave de DDPM es utilizar una red neuronal parametrizada por . La red toma dos argumentos y genera un vector y una matriz , de modo que cada paso en el proceso de difusión hacia adelante se puede deshacer aproximadamente mediante . Esto nos da un proceso de difusión hacia atrás definido por El objetivo ahora es aprender los parámetros de modo que sea lo más cercano posible a . Para ello, utilizamos la estimación de máxima verosimilitud con inferencia variacional. $\theta$ $x_{t},t$ $\mu _{\theta }(x_{t},t)$ $\Sigma _{\theta }(x_{t},t)$ $x_{t-1}\sim N(\mu _{\theta }(x_{t},t),\Sigma _{\theta }(x_{t},t))$ $p_{\theta }$ $p_{\theta }(x_{T})=N(x_{T}|0,I)$ $p_{\theta }(x_{t-1}|x_{t})=N(x_{t-1}|\mu _{\theta }(x_{t},t),\Sigma _{\theta }(x_{t},t))$ $p_{\theta }(x_{0})$ $q(x_{0})$

Inferencia variacional

La desigualdad ELBO establece que y tomando una expectativa más, obtenemos Vemos que maximizar la cantidad de la derecha nos daría un límite inferior en la probabilidad de los datos observados. Esto nos permite realizar inferencia variacional. $\ln p_{\theta }(x_{0})\geq E_{x_{1:T}\sim q(\cdot |x_{0})}[\ln p_{\theta }(x_{0:T})-\ln q(x_{1:T}|x_{0})]$ $E_{x_{0}\sim q}[\ln p_{\theta }(x_{0})]\geq E_{x_{0:T}\sim q}[\ln p_{\theta }(x_{0:T})-\ln q(x_{1:T}|x_{0})]$

Defina la función de pérdida y ahora el objetivo es minimizar la pérdida mediante un descenso de gradiente estocástico. La expresión se puede simplificar a ^[16] donde no depende del parámetro y, por lo tanto, se puede ignorar. Dado que tampoco depende del parámetro, el término también se puede ignorar. Esto deja solo con para minimizar. $L(\theta ):=-E_{x_{0:T}\sim q}[\ln p_{\theta }(x_{0:T})-\ln q(x_{1:T}|x_{0})]$ $L(\theta )=\sum _{t=1}^{T}E_{x_{t-1},x_{t}\sim q}[-\ln p_{\theta }(x_{t-1}|x_{t})]+E_{x_{0}\sim q}[D_{KL}(q(x_{T}|x_{0})\|p_{\theta }(x_{T}))]+C$ $C$ $p_{\theta }(x_{T})=N(x_{T}|0,I)$ $E_{x_{0}\sim q}[D_{KL}(q(x_{T}|x_{0})\|p_{\theta }(x_{T}))]$ $L(\theta )=\sum _{t=1}^{T}L_{t}$ $L_{t}=E_{x_{t-1},x_{t}\sim q}[-\ln p_{\theta }(x_{t-1}|x_{t})]$

Red de predicción de ruido

Dado que , esto sugiere que deberíamos usar ; sin embargo, la red no tiene acceso a , por lo que debe estimarlo en su lugar. Ahora, dado que , podemos escribir , donde es un ruido gaussiano desconocido. Ahora vemos que estimar es equivalente a estimar . $x_{t-1}|x_{t},x_{0}\sim N({\tilde {\mu }}_{t}(x_{t},x_{0}),{\tilde {\sigma }}_{t}^{2}I)$ $\mu _{\theta }(x_{t},t)={\tilde {\mu }}_{t}(x_{t},x_{0})$ $x_{0}$ $x_{t}|x_{0}\sim N\left({\sqrt {{\bar {\alpha }}_{t}}}x_{0},\sigma _{t}^{2}I\right)$ $x_{t}={\sqrt {{\bar {\alpha }}_{t}}}x_{0}+\sigma _{t}z$ $z$ $x_{0}$ $z$

Por lo tanto, deje que la red genere un vector de ruido y que prediga . Queda por diseñar . El documento de DDPM sugirió no aprenderlo (ya que daba como resultado "un entrenamiento inestable y una calidad de muestra más pobre"), sino fijarlo en algún valor , donde cualquiera de los dos arrojara un rendimiento similar. $\epsilon _{\theta }(x_{t},t)$ $\mu _{\theta }(x_{t},t)={\tilde {\mu }}_{t}\left(x_{t},{\frac {x_{t}-\sigma _{t}\epsilon _{\theta }(x_{t},t)}{\sqrt {{\bar {\alpha }}_{t}}}}\right)={\frac {x_{t}-\epsilon _{\theta }(x_{t},t)\beta _{t}/\sigma _{t}}{\sqrt {\alpha _{t}}}}$ $\Sigma _{\theta }(x_{t},t)$ $\Sigma _{\theta }(x_{t},t)=\zeta _{t}^{2}I$ $\zeta _{t}^{2}=\beta _{t}{\text{ or }}{\tilde {\sigma }}_{t}^{2}$

Con esto, la pérdida se simplifica a lo que puede minimizarse mediante el descenso del gradiente estocástico. El artículo observó empíricamente que una función de pérdida aún más simple dio como resultado mejores modelos. $L_{t}={\frac {\beta _{t}^{2}}{2\alpha _{t}\sigma _{t}^{2}\zeta _{t}^{2}}}E_{x_{0}\sim q;z\sim N(0,I)}\left[\left\|\epsilon _{\theta }(x_{t},t)-z\right\|^{2}\right]+C$ $L_{simple,t}=E_{x_{0}\sim q;z\sim N(0,I)}\left[\left\|\epsilon _{\theta }(x_{t},t)-z\right\|^{2}\right]$

Proceso de difusión hacia atrás

Una vez entrenada una red de predicción de ruido, se puede utilizar para generar puntos de datos en la distribución original en un bucle de la siguiente manera:

Calcular la estimación del ruido $\epsilon \leftarrow \epsilon _{\theta }(x_{t},t)$
Calcular la estimación de los datos originales ${\tilde {x}}_{0}\leftarrow (x_{t}-\sigma _{t}\epsilon )/{\sqrt {{\bar {\alpha }}_{t}}}$
Muestrear los datos anteriores $x_{t-1}\sim N({\tilde {\mu }}_{t}(x_{t},{\tilde {x}}_{0}),{\tilde {\sigma }}_{t}^{2}I)$
Cambiar hora $t\leftarrow t-1$

Modelo generativo basado en puntuaciones

El modelo generativo basado en puntuaciones es otra formulación del modelado de difusión. También se denomina red de puntuación condicional al ruido (NCSN) o coincidencia de puntuaciones con dinámica de Langevin (SMLD). ^[17]^[18]^[19]^[20]

Coincidencia de puntuaciones

La idea de las funciones de puntuación

Consideremos el problema de la generación de imágenes. Sea una imagen y sea la distribución de probabilidad sobre todas las imágenes posibles. Si tenemos la distribución de probabilidad , entonces podemos decir con certeza qué tan probable es una determinada imagen. Sin embargo, esto es intratable en general. $x$ $q(x)$ $q(x)$

En la mayoría de los casos, no nos interesa conocer la probabilidad absoluta de una determinada imagen. En cambio, normalmente solo nos interesa saber qué probabilidad hay de que aparezca una determinada imagen en comparación con sus vecinas inmediatas (por ejemplo, ¿cuánta más probabilidad hay de que aparezca la imagen de un gato en comparación con algunas pequeñas variantes de la misma? ¿Es más probable que la imagen contenga dos bigotes, tres o algo de ruido gaussiano añadido?).

Por lo tanto, en realidad no nos interesa en sí mismo, sino más bien ... Esto tiene dos efectos principales: $q(x)$ $\nabla _{x}\ln q(x)$

Uno, ya no necesitamos normalizar , sino que podemos usar cualquier , donde es cualquier constante desconocida que no nos interesa. $q(x)$ ${\tilde {q}}(x)=Cq(x)$ $C=\int {\tilde {q}}(x)dx>0$
Dos, estamos comparando vecinos , por $q(x)$ $q(x+dx)$ ${\frac {q(x)}{q(x+dx)}}=e^{-\langle \nabla _{x}\ln q,dx\rangle }$

Sea la función de puntuación ; luego consideremos lo que podemos hacer con . $s(x):=\nabla _{x}\ln q(x)$ $s(x)$

Resulta que nos permite tomar muestras de la termodinámica. En concreto, si tenemos una función de energía potencial y muchas partículas en el pozo de potencial, entonces la distribución en equilibrio termodinámico es la distribución de Boltzmann . A temperatura , la distribución de Boltzmann es exactamente . $s(x)$ $q(x)$ $U(x)=-\ln q(x)$ $q_{U}(x)\propto e^{-U(x)/k_{B}T}=q(x)^{1/k_{B}T}$ $k_{B}T=1$ $q(x)$

Por lo tanto, para modelar , podemos empezar con una partícula muestreada en cualquier distribución conveniente (como la distribución gaussiana estándar), luego simular el movimiento de la partícula hacia adelante de acuerdo con la ecuación de Langevin y la distribución de Boltzmann es, por la ecuación de Fokker-Planck, el único equilibrio termodinámico . Entonces, no importa qué distribución tenga, la distribución de converge en la distribución a como . $q(x)$ $dx_{t}=-\nabla _{x_{t}}U(x_{t})dt+dW_{t}$ $x_{0}$ $x_{t}$ $q$ $t\to \infty$

Aprendiendo la función de puntuación

Dada una densidad , deseamos aprender una aproximación de la función de puntuación . Esto es la coincidencia de puntuación . ^[21] Normalmente, la coincidencia de puntuación se formaliza como minimización de la función de divergencia de Fisher . Al expandir la integral y realizar una integración por partes, obtenemos una función de pérdida, también conocida como la regla de puntuación de Hyvärinen , que se puede minimizar mediante el descenso de gradiente estocástico. $q$ $f_{\theta }\approx \nabla \ln q$ $E_{q}[\|f_{\theta }(x)-\nabla \ln q(x)\|^{2}]$ $E_{q}[\|f_{\theta }(x)-\nabla \ln q(x)\|^{2}]=E_{q}[\|f_{\theta }\|^{2}+2\nabla ^{2}\cdot f_{\theta }]+C$

Recocido de la función de puntuación

Supongamos que necesitamos modelar la distribución de imágenes y queremos , una imagen de ruido blanco. Ahora bien, la mayoría de las imágenes de ruido blanco no parecen imágenes reales, por lo que para grandes franjas de . Esto presenta un problema para aprender la función de puntuación, porque si no hay muestras alrededor de un punto determinado, entonces no podemos aprender la función de puntuación en ese punto. Si no conocemos la función de puntuación en ese punto, entonces no podemos imponer la ecuación de evolución temporal en una partícula: Para abordar este problema, realizamos el recocido . Si es demasiado diferente de una distribución de ruido blanco, entonces añadimos ruido progresivamente hasta que sea indistinguible de una. Es decir, realizamos una difusión hacia delante, luego aprendemos la función de puntuación, luego usamos la función de puntuación para realizar una difusión hacia atrás. $x_{0}\sim N(0,I)$ $q(x_{0})\approx 0$ $x_{0}\sim N(0,I)$ $\nabla _{x_{t}}\ln q(x_{t})$ $dx_{t}=\nabla _{x_{t}}\ln q(x_{t})dt+dW_{t}$ $q$

Procesos de difusión continua

Proceso de difusión hacia adelante

Consideremos nuevamente el proceso de difusión hacia adelante, pero esta vez en tiempo continuo: Tomando el límite, obtenemos un proceso de difusión continuo, en forma de una ecuación diferencial estocástica : donde es un proceso de Wiener (movimiento browniano multidimensional). $x_{t}={\sqrt {1-\beta _{t}}}x_{t-1}+{\sqrt {\beta _{t}}}z_{t}$ $\beta _{t}\to \beta (t)dt,{\sqrt {dt}}z_{t}\to dW_{t}$ $dx_{t}=-{\frac {1}{2}}\beta (t)x_{t}dt+{\sqrt {\beta (t)}}dW_{t}$ $W_{t}$

Ahora bien, la ecuación es exactamente un caso especial de la ecuación de Langevin sobreamortiguada , donde es el tensor de difusión, es la temperatura y es el campo de energía potencial. Si sustituimos en , recuperamos la ecuación anterior. Esto explica por qué a veces se utiliza la frase "dinámica de Langevin" en los modelos de difusión. $dx_{t}=-{\frac {D}{k_{B}T}}(\nabla _{x}U)dt+{\sqrt {2D}}dW_{t}$ $D$ $T$ $U$ $D={\frac {1}{2}}\beta (t)I,k_{B}T=1,U={\frac {1}{2}}\|x\|^{2}$

Ahora bien, la ecuación anterior es para el movimiento estocástico de una sola partícula. Supongamos que tenemos una nube de partículas distribuidas de acuerdo con en el tiempo , luego, después de un largo tiempo, la nube de partículas se asentaría en la distribución estable de . Sea la densidad de la nube de partículas en el tiempo , entonces tenemos y el objetivo es revertir de alguna manera el proceso, de modo que podamos comenzar en el final y difundir de nuevo al principio. $q$ $t=0$ $N(0,I)$ $\rho _{t}$ $t$ $\rho _{0}=q;\quad \rho _{T}\approx N(0,I)$

Por la ecuación de Fokker-Planck , la densidad de la nube evoluciona en función de donde es la dimensión del espacio, y es el operador de Laplace . $\partial _{t}\ln \rho _{t}={\frac {1}{2}}\beta (t)\left(n+(x+\nabla \ln \rho _{t})\cdot \nabla \ln \rho _{t}+\Delta \ln \rho _{t}\right)$ $n$ $\Delta$

Proceso de difusión hacia atrás

Si hemos resuelto el tiempo , entonces podemos invertir exactamente la evolución de la nube. Supongamos que empezamos con otra nube de partículas con densidad , y dejamos que las partículas en la nube evolucionen de acuerdo con , entonces, introduciendo en la ecuación de Fokker-Planck, encontramos que . Por lo tanto, esta nube de puntos es la nube original, que evoluciona hacia atrás. ^[22] $\rho _{t}$ $t\in [0,T]$ $\nu _{0}=\rho _{T}$ $dy_{t}={\frac {1}{2}}\beta (T-t)y_{t}dt+\beta (T-t)\underbrace {\nabla _{y_{t}}\ln \rho _{T-t}\left(y_{t}\right)} _{\text{score function }}dt+{\sqrt {\beta (T-t)}}dW_{t}$ $\partial _{t}\rho _{T-t}=\partial _{t}\nu _{t}$

Red de puntuación condicional de ruido (NCSN)

En el límite continuo, y así En particular, vemos que podemos muestrear directamente desde cualquier punto en el proceso de difusión continua sin pasar por los pasos intermedios, primero muestreando , luego obteniendo . Es decir, podemos muestrear rápidamente para cualquier . ${\bar {\alpha }}_{t}=(1-\beta _{1})\cdots (1-\beta _{t})=e^{\sum _{i}\ln(1-\beta _{i})}\to e^{-\int _{0}^{t}\beta (t)dt}$ $x_{t}|x_{0}\sim N\left(e^{-{\frac {1}{2}}\int _{0}^{t}\beta (t)dt}x_{0},\left(1-e^{-\int _{0}^{t}\beta (t)dt}\right)I\right)$ $x_{0}\sim q,z\sim N(0,I)$ $x_{t}=e^{-{\frac {1}{2}}\int _{0}^{t}\beta (t)dt}x_{0}+\left(1-e^{-\int _{0}^{t}\beta (t)dt}\right)z$ $x_{t}\sim \rho _{t}$ $t\geq 0$

Ahora, defina una cierta distribución de probabilidad sobre , luego la función de pérdida de coincidencia de puntaje se define como la divergencia de Fisher esperada: Después del entrenamiento, , por lo que podemos realizar el proceso de difusión hacia atrás muestreando primero , luego integrando la SDE de a : Esto se puede hacer mediante cualquier método de integración SDE, como el método de Euler-Maruyama . $\gamma$ $[0,\infty )$ $L(\theta )=E_{t\sim \gamma ,x_{t}\sim \rho _{t}}[\|f_{\theta }(x_{t},t)\|^{2}+2\nabla \cdot f_{\theta }(x_{t},t)]$ $f_{\theta }(x_{t},t)\approx \nabla \ln \rho _{t}$ $x_{T}\sim N(0,I)$ $t=T$ $t=0$ $x_{t-dt}=x_{t}+{\frac {1}{2}}\beta (t)x_{t}dt+\beta (t)f_{\theta }(x_{t},t)dt+{\sqrt {\beta (t)}}dW_{t}$

El nombre "red de puntuación condicional de ruido" se explica así:

"red", porque se implementa como una red neuronal. $f_{\theta }$
"puntuación", porque la salida de la red se interpreta como una aproximación de la función de puntuación . $\nabla \ln \rho _{t}$
"ruido condicional", porque es igual a borroso por un ruido gaussiano agregado que aumenta con el tiempo, y por lo tanto la función de puntuación depende de la cantidad de ruido agregado. $\rho _{t}$ $\rho _{0}$

Su equivalencia

Los modelos generativos basados en puntajes y DDPM son equivalentes. ^[23] Esto significa que una red entrenada con DDPM se puede utilizar como NCSN, y viceversa.

Sabemos que , por lo que por la fórmula de Tweedie , tenemos Como se describió anteriormente, la función de pérdida de DDPM es con donde . Por un cambio de variables, y el término dentro se convierte en una regresión de mínimos cuadrados, por lo que si la red realmente alcanza el mínimo global de pérdida, entonces tenemos $x_{t}|x_{0}\sim N\left({\sqrt {{\bar {\alpha }}_{t}}}x_{0},\sigma _{t}^{2}I\right)$ $\nabla _{x_{t}}\ln q(x_{t})={\frac {1}{\sigma _{t}^{2}}}(-x_{t}+{\sqrt {{\bar {\alpha }}_{t}}}E_{q}[x_{0}|x_{t}])$ $\sum _{t}L_{simple,t}$ $L_{simple,t}=E_{x_{0}\sim q;z\sim N(0,I)}\left[\left\|\epsilon _{\theta }(x_{t},t)-z\right\|^{2}\right]$ $x_{t}={\sqrt {{\bar {\alpha }}_{t}}}x_{0}+\sigma _{t}z$ $L_{simple,t}=E_{x_{0},x_{t}\sim q}\left[\left\|\epsilon _{\theta }(x_{t},t)-{\frac {x_{t}-{\sqrt {{\bar {\alpha }}_{t}}}x_{0}}{\sigma _{t}}}\right\|^{2}\right]=E_{x_{t}\sim q,x_{0}\sim q(\cdot |x_{t})}\left[\left\|\epsilon _{\theta }(x_{t},t)-{\frac {x_{t}-{\sqrt {{\bar {\alpha }}_{t}}}x_{0}}{\sigma _{t}}}\right\|^{2}\right]$ $\epsilon _{\theta }(x_{t},t)={\frac {x_{t}-{\sqrt {{\bar {\alpha }}_{t}}}E_{q}[x_{0}|x_{t}]}{\sigma _{t}}}=-\sigma _{t}\nabla _{x_{t}}\ln q(x_{t})$

De este modo, se puede utilizar una red basada en puntuaciones para eliminar el ruido de la difusión.

Por el contrario, el límite continuo de la ecuación hacia atrás nos da exactamente la misma ecuación que la difusión basada en puntajes: por lo tanto, se puede utilizar una red de eliminación de ruido como para la difusión basada en puntajes. $x_{t-1}=x_{t-dt},\beta _{t}=\beta (t)dt,z_{t}{\sqrt {dt}}=dW_{t}$ $x_{t-1}={\frac {x_{t}}{\sqrt {\alpha _{t}}}}-{\frac {\beta _{t}}{\sigma _{t}{\sqrt {\alpha _{t}}}}}\epsilon _{\theta }(x_{t},t)+{\sqrt {\beta _{t}}}z_{t};\quad z_{t}\sim N(0,I)$ $x_{t-dt}=x_{t}(1+\beta (t)dt/2)+\beta (t)\nabla _{x_{t}}\ln q(x_{t})dt+{\sqrt {\beta (t)}}dW_{t}$

Variantes principales

Horario de ruido

En DDPM, la secuencia de números se denomina programa de ruido (tiempo discreto) . En general, considere una función monótona estrictamente creciente de tipo , como la función sigmoidea . En ese caso, un programa de ruido es una secuencia de números reales . Luego define una secuencia de ruidos , que luego deriva las otras cantidades . $0=\sigma _{0}<\sigma _{1}<\cdots <\sigma _{T}<1$ $\sigma$ $\mathbb {R} \to (0,1)$ $\lambda _{1}<\lambda _{2}<\cdots <\lambda _{T}$ $\sigma _{t}:=\sigma (\lambda _{t})$ $\beta _{t}=1-{\frac {1-\sigma _{t}^{2}}{1-\sigma _{t-1}^{2}}}$

Para utilizar programaciones de ruido arbitrarias, en lugar de entrenar un modelo de predicción de ruido , se entrena . $\epsilon _{\theta }(x_{t},t)$ $\epsilon _{\theta }(x_{t},\sigma _{t})$

De manera similar, para la red de puntuación condicional de ruido, en lugar de entrenar , se entrena . $f_{\theta }(x_{t},t)$ $f_{\theta }(x_{t},\sigma _{t})$

Modelo implícito de difusión de eliminación de ruido (DDIM)

El método DDPM original para generar imágenes es lento, ya que el proceso de difusión hacia adelante generalmente demora en hacer que la distribución de parezca cercana a la gaussiana. Sin embargo, esto significa que el proceso de difusión hacia atrás también requiere 1000 pasos. A diferencia del proceso de difusión hacia adelante, que puede omitir pasos ya que es gaussiano para todos los , el proceso de difusión hacia atrás no permite omitir pasos. Por ejemplo, para muestrear se requiere que el modelo primero muestree . Intentar muestrear directamente requeriría que marginalicemos , lo que generalmente es intratable. $T\sim 1000$ $x_{T}$ $x_{t}|x_{0}$ $t\geq 1$ $x_{t-2}|x_{t-1}\sim N(\mu _{\theta }(x_{t-1},t-1),\Sigma _{\theta }(x_{t-1},t-1))$ $x_{t-1}$ $x_{t-2}|x_{t}$ $x_{t-1}$

DDIM ^[24] es un método para tomar cualquier modelo entrenado con pérdida de DDPM y usarlo para muestrear con algunos pasos omitidos, sacrificando una cantidad ajustable de calidad. Si generamos el caso de cadena markoviana en DDPM al caso no markoviano, DDIM corresponde al caso en que el proceso inverso tiene una varianza igual a 0. En otras palabras, el proceso inverso (y también el proceso directo) es determinista. Cuando se utilizan menos pasos de muestreo, DDIM supera a DDPM.

En detalle, el método de muestreo DDIM es el siguiente. Comienza con el proceso de difusión hacia adelante . Luego, durante el proceso de eliminación de ruido hacia atrás, dado , los datos originales se estiman como entonces el proceso de difusión hacia atrás puede saltar a cualquier paso , y la siguiente muestra eliminada de ruido es donde es un número real arbitrario dentro del rango , y es un ruido gaussiano recién muestreado. ^[16] Si todos , entonces el proceso hacia atrás se vuelve determinista, y este caso especial de DDIM también se llama "DDIM". El documento original señaló que cuando el proceso es determinista, las muestras generadas con solo 20 pasos ya son muy similares a las generadas con 1000 pasos en el nivel alto. $x_{t}={\sqrt {{\bar {\alpha }}_{t}}}x_{0}+\sigma _{t}\epsilon$ $x_{t},\epsilon _{\theta }(x_{t},t)$ $x_{0}'={\frac {x_{t}-\sigma _{t}\epsilon _{\theta }(x_{t},t)}{\sqrt {{\bar {\alpha }}_{t}}}}$ $0\leq s<t$ $x_{s}={\sqrt {{\bar {\alpha }}_{s}}}x_{0}'+{\sqrt {\sigma _{s}^{2}-(\sigma '_{s})^{2}}}\epsilon _{\theta }(x_{t},t)+\sigma _{s}'\epsilon$ $\sigma _{s}'$ $[0,\sigma _{s}]$ $\epsilon \sim N(0,I)$ $\sigma _{s}'=0$

El artículo original recomendaba definir un único "valor eta" , de modo que . Cuando , este es el DDPM original. Cuando , este es el DDIM completamente determinista. Para valores intermedios, el proceso interpola entre ellos. $\eta \in [0,1]$ $\sigma _{s}'=\eta {\tilde {\sigma }}_{s}$ $\eta =1$ $\eta =0$

Por equivalencia, el algoritmo DDIM también se aplica a los modelos de difusión basados en puntuaciones.

Modelo de difusión latente (LDM)

Dado que el modelo de difusión es un método general para modelar distribuciones de probabilidad, si se desea modelar una distribución sobre imágenes, primero se pueden codificar las imágenes en un espacio de menor dimensión mediante un codificador y luego utilizar un modelo de difusión para modelar la distribución sobre imágenes codificadas. Luego, para generar una imagen, se puede tomar una muestra del modelo de difusión y luego utilizar un decodificador para decodificarla en una imagen. ^[25]

El par codificador-decodificador suele ser un autocodificador variacional (VAE).

Mejoras arquitectónicas

^[26] propusieron varias mejoras arquitectónicas. Por ejemplo, propusieron una interpolación logarítmica durante el muestreo hacia atrás. En lugar de muestrear desde , recomendaron muestrear desde para un parámetro aprendido . $x_{t-1}\sim N({\tilde {\mu }}_{t}(x_{t},{\tilde {x}}_{0}),{\tilde {\sigma }}_{t}^{2}I)$ $N({\tilde {\mu }}_{t}(x_{t},{\tilde {x}}_{0}),(\sigma _{t}^{v}{\tilde {\sigma }}_{t}^{1-v})^{2}I)$ $v$

Guía de clasificadores

Supongamos que no queremos tomar muestras de toda la distribución de imágenes, sino que queremos tomar muestras de la descripción de la imagen. No queremos tomar muestras de una imagen genérica, sino de una imagen que se ajuste a la descripción "gato negro con ojos rojos". En general, queremos tomar muestras de la distribución , donde se incluyen imágenes y clases de imágenes (una descripción "gato negro con ojos rojos" es solo una clase muy detallada, y una clase "gato" es solo una descripción muy vaga). $p(x|y)$ $x$ $y$

Tomando la perspectiva del modelo de canal ruidoso , podemos entender el proceso de la siguiente manera: Para generar una imagen condicional a la descripción , imaginamos que el solicitante realmente tenía en mente una imagen , pero la imagen pasa a través de un canal ruidoso y sale confusa, como . La generación de imágenes no es entonces más que inferir lo que el solicitante tenía en mente. $x$ $y$ $x$ $y$ $x$

En otras palabras, la generación condicional de imágenes es simplemente "traducir de un lenguaje textual a un lenguaje pictórico". Luego, como en el modelo de canal ruidoso, usamos el teorema de Bayes para obtener, en otras palabras, si tenemos un buen modelo del espacio de todas las imágenes y un buen traductor de imagen a clase, obtenemos un traductor de clase a imagen "gratis". En la ecuación para la difusión hacia atrás, la puntuación se puede reemplazar por donde es la función de puntuación, entrenada como se describió anteriormente, y se encuentra utilizando un clasificador de imágenes diferenciable. $p(x|y)\propto p(y|x)p(x)$ $\nabla \ln p(x)$ $\nabla _{x}\ln p(x|y)=\underbrace {\nabla _{x}\ln p(x)} _{\text{score}}+\underbrace {\nabla _{x}\ln p(y|x)} _{\text{classifier guidance}}$ $\nabla _{x}\ln p(x)$ $\nabla _{x}\ln p(y|x)$

Durante el proceso de difusión, necesitamos condicionar el tiempo, dando Aunque, normalmente el modelo clasificador no depende del tiempo, en cuyo caso . $\nabla _{x_{t}}\ln p(x_{t}|y,t)=\nabla _{x_{t}}\ln p(y|x_{t},t)+\nabla _{x_{t}}\ln p(x_{t}|t)$ $p(y|x_{t},t)=p(y|x_{t})$

La guía del clasificador se define para el gradiente de la función de puntuación, por lo tanto, para la red de difusión basada en puntuación, pero como se señaló anteriormente, los modelos de difusión basados en puntuación son equivalentes a los modelos de eliminación de ruido por , y de manera similar, . Por lo tanto, la guía del clasificador también funciona para la difusión de eliminación de ruido, utilizando la predicción de ruido modificada: ^[27] $\epsilon _{\theta }(x_{t},t)=-\sigma _{t}\nabla _{x_{t}}\ln p(x_{t}|t)$ $\epsilon _{\theta }(x_{t},y,t)=-\sigma _{t}\nabla _{x_{t}}\ln p(x_{t}|y,t)$ $\epsilon _{\theta }(x_{t},y,t)=\epsilon _{\theta }(x_{t},t)-\underbrace {\sigma _{t}\nabla _{x_{t}}\ln p(y|x_{t},t)} _{\text{classifier guidance}}$

Con temperatura

El modelo de difusión guiado por clasificador toma muestras de , que se concentra alrededor de la estimación máxima a posteriori . Si queremos forzar al modelo a moverse hacia la estimación de máxima verosimilitud , podemos usar donde es interpretable como temperatura inversa . En el contexto de los modelos de difusión, generalmente se denomina escala de guía . Un valor alto obligaría al modelo a tomar muestras de una distribución concentrada alrededor de . Esto a veces mejora la calidad de las imágenes generadas. ^[28] $p(x|y)$ $\arg \max _{x}p(x|y)$ $\arg \max _{x}p(y|x)$ $p_{\gamma }(x|y)\propto p(y|x)^{\gamma }p(x)$ $\gamma >0$ $\gamma$ $\arg \max _{x}p(y|x)$

Esto da una modificación a la ecuación anterior: para los modelos de eliminación de ruido, corresponde a ^[27] $\nabla _{x}\ln p_{\beta }(x|y)=\nabla _{x}\ln p(x)+\gamma \nabla _{x}\ln p(y|x)$ $\epsilon _{\theta }(x_{t},y,t)=\epsilon _{\theta }(x_{t},t)-\gamma \sigma _{t}\nabla _{x_{t}}\ln p(y|x_{t},t)$

Guía sin clasificador (CFG)

Si no tenemos un clasificador , aún podríamos extraer uno del propio modelo de imagen: ^[27] Un modelo de este tipo se suele entrenar presentándole tanto y , lo que le permite modelar tanto y . $p(y|x)$ $\nabla _{x}\ln p_{\gamma }(x|y)=(1-\gamma )\nabla _{x}\ln p(x)+\gamma \nabla _{x}\ln p(x|y)$ $(x,y)$ $(x,{\rm {None}})$ $\nabla _{x}\ln p(x|y)$ $\nabla _{x}\ln p(x)$

Tenga en cuenta que, para CFG, el modelo de difusión no puede ser simplemente un modelo generativo de toda la distribución de datos . Debe ser un modelo generativo condicional . Por ejemplo, en la difusión estable, la estructura principal de la difusión toma como entrada un modelo ruidoso , un tiempo y un vector de condicionamiento (como un vector que codifica un mensaje de texto) y produce una predicción de ruido . $\nabla _{x}\ln p(x)$ $\nabla _{x}\ln p(x|y)$ $x_{t}$ $t$ $y$ $\epsilon _{\theta }(x_{t},y,t)$

Para los modelos de eliminación de ruido, corresponde a Como se muestrea mediante DDIM, el algoritmo se puede escribir como ^[29] Una técnica similar se aplica al muestreo de modelos de lenguaje. Además, si la generación incondicional se reemplaza por , entonces da como resultado una indicación negativa, que aleja la generación de la condición. ^[30]^[31] $\epsilon _{\theta }(x_{t},y,t,\gamma )=\epsilon _{\theta }(x_{t},t)+\gamma (\epsilon _{\theta }(x_{t},y,t)-\epsilon _{\theta }(x_{t},t))$ ${\begin{aligned}\epsilon _{\text{uncond}}&\leftarrow \epsilon _{\theta }(x_{t},t)\\\epsilon _{\text{cond}}&\leftarrow \epsilon _{\theta }(x_{t},t,c)\\\epsilon _{\text{CFG}}&\leftarrow \epsilon _{\text{uncond}}+\gamma (\epsilon _{\text{cond}}-\epsilon _{\text{uncond}})\\x_{0}&\leftarrow (x_{t}-\sigma _{t}\epsilon _{\text{CFG}})/{\sqrt {1-\sigma _{t}^{2}}}\\x_{s}&\leftarrow {\sqrt {1-\sigma _{s}^{2}}}x_{0}+{\sqrt {\sigma _{s}^{2}-(\sigma _{s}')^{2}}}\epsilon _{\text{uncond}}+\sigma _{s}'\epsilon \\\end{aligned}}$ $\epsilon _{\text{uncond}}\leftarrow \epsilon _{\theta }(x_{t},t)$ $\epsilon _{\text{neg cond}}\leftarrow \epsilon _{\theta }(x_{t},t,c')$ $c'$

Muestreadores

Dado un modelo de difusión, se lo puede considerar como un proceso continuo y tomar muestras de él mediante la integración de una SDE, o se lo puede considerar como un proceso discreto y tomar muestras de él mediante la iteración de los pasos discretos. La elección del " programa de ruido " también puede afectar la calidad de las muestras. Un programa de ruido es una función que envía un número natural a un nivel de ruido: Un programa de ruido se especifica más a menudo mediante un mapa . Las dos definiciones son equivalentes, ya que . $\beta _{t}$ $t\mapsto \beta _{t},\quad t\in \{1,2,\dots \},\beta \in (0,1)$ $t\mapsto \sigma _{t}$ $\beta _{t}=1-{\frac {1-\sigma _{t}^{2}}{1-\sigma _{t-1}^{2}}}$

En la perspectiva de DDPM, se puede utilizar el propio DDPM (con ruido) o DDIM (con una cantidad ajustable de ruido). El caso en el que se añade ruido a veces se denomina muestreo ancestral. ^[32] Se puede interpolar entre ruido y ausencia de ruido. La cantidad de ruido se denota ("valor eta") en el artículo de DDIM, con denotación de ausencia de ruido (como en DDIM determinista ) y denotación de ruido total (como en DDPM). $\eta$ $\eta =0$ $\eta =1$

En la perspectiva de SDE, se puede utilizar cualquiera de los métodos de integración numérica , como el método de Euler-Maruyama , el método de Heun , los métodos lineales de múltiples pasos , etc. Al igual que en el caso discreto, se puede agregar una cantidad ajustable de ruido durante la integración.

Se presenta un estudio y comparación de muestreadores en el contexto de la generación de imágenes. ^[33]

Otros ejemplos

Las variantes notables incluyen ^[34] modelo generativo de flujo de Poisson, ^[35] modelo de consistencia, ^[36] difusión de Langevin críticamente amortiguada, ^[37] GenPhys, ^[38] difusión fría, ^[39] etc.

Modelo de difusión basado en flujo

En términos abstractos, la idea del modelo de difusión es tomar una distribución de probabilidad desconocida (la distribución de imágenes de aspecto natural) y luego convertirla progresivamente en una distribución de probabilidad conocida (distribución gaussiana estándar), mediante la construcción de una ruta de probabilidad absolutamente continua que las conecte. La ruta de probabilidad está, de hecho, definida implícitamente por la función de puntuación . $\nabla \ln p_{t}$

En los modelos de difusión de eliminación de ruido, el proceso directo agrega ruido y el proceso inverso lo elimina. Tanto el proceso directo como el inverso son ecuaciones diferenciales simples (EDS) , aunque el proceso directo es integrable en forma cerrada, por lo que se puede realizar sin costo computacional. El proceso inverso no es integrable en forma cerrada, por lo que debe integrarse paso a paso mediante solucionadores de EDS estándar, lo que puede ser muy costoso. La ruta de probabilidad en el modelo de difusión se define a través de un proceso de Itô y se puede recuperar el proceso determinista utilizando la formulación de flujo de EDO de probabilidad. ^[2]

En los modelos de difusión basados en flujo, el proceso hacia adelante es un flujo determinista a lo largo de un campo vectorial dependiente del tiempo, y el proceso hacia atrás también es un flujo determinista a lo largo del mismo campo vectorial, pero en sentido inverso. Ambos procesos son soluciones de las EDO . Si el campo vectorial se comporta bien, la EDO también se comportará bien.

Dadas dos distribuciones y , un modelo basado en flujo es un campo de velocidad dependiente del tiempo en , de modo que si empezamos muestreando un punto y dejamos que se mueva de acuerdo con el campo de velocidad: terminamos con un punto . La solución de la EDO anterior define una ruta de probabilidad mediante el operador de medida de empuje hacia adelante . En particular, . $\pi _{0}$ $\pi _{1}$ $v_{t}(x)$ $[0,1]\times \mathbb {R} ^{d}$ $x\sim \pi _{0}$ ${\frac {d}{dt}}\phi _{t}(x)=v_{t}(\phi _{t}(x))\quad t\in [0,1],\quad {\text{starting from }}\phi _{0}(x)=x$ $x_{1}\sim \pi _{1}$ $\phi _{t}$ $p_{t}=[\phi _{t}]_{\#}\pi _{0}$ $[\phi _{1}]_{\#}\pi _{0}=\pi _{1}$

La trayectoria de probabilidad y el campo de velocidad también satisfacen la ecuación de continuidad , en el sentido de distribución de probabilidad: Para construir una trayectoria de probabilidad, comenzamos por construir una trayectoria de probabilidad condicional y el campo de velocidad condicional correspondiente en alguna distribución condicional . Una opción natural es la trayectoria de probabilidad condicional gaussiana: El campo de velocidad condicional que corresponde a la trayectoria geodésica entre la trayectoria gaussiana condicional es La trayectoria de probabilidad y el campo de velocidad se calculan luego marginalizando $\partial _{t}p_{t}+\nabla \cdot (v_{t}p_{t})=0$ $p_{t}(x\vert z)$ $v_{t}(x\vert z)$ $q(z)$ $p_{t}(x\vert z)={\mathcal {N}}\left(m_{t}(z),\zeta _{t}^{2}I\right)$ $v_{t}(x\vert z)={\frac {\zeta _{t}'}{\zeta _{t}}}(x-m_{t}(z))+m_{t}'(z)$

$p_{t}(x)=\int p_{t}(x\vert z)q(z)dz\qquad {\text{ and }}\qquad v_{t}(x)=\mathbb {E} _{q(z)}\left[{\frac {v_{t}(x\vert z)p_{t}(x\vert z)}{p_{t}(x)}}\right]$

Flujo de transporte óptimo

La idea del flujo de transporte óptimo ^[40] es construir una ruta de probabilidad que minimice la métrica de Wasserstein . La distribución sobre la que condicionamos es el plan de transporte óptimo entre y : y , donde es el plan de transporte óptimo, que puede aproximarse mediante el transporte óptimo en minilotes. $\pi _{0}$ $\pi _{1}$ $z=(x_{0},x_{1})$ $q(z)=\Gamma (\pi _{0},\pi _{1})$ $\Gamma$

Flujo rectificado

La idea del flujo rectificado ^[41]^[42] es aprender un modelo de flujo tal que la velocidad sea casi constante a lo largo de cada trayectoria de flujo. Esto es beneficioso, porque podemos integrar a lo largo de dicho campo vectorial con muy pocos pasos. Por ejemplo, si una EDO sigue trayectorias perfectamente rectas, se simplifica a , lo que permite soluciones exactas en un solo paso. En la práctica, no podemos alcanzar tal perfección, pero cuando el campo de flujo es casi así, podemos dar unos pocos pasos grandes en lugar de muchos pasos pequeños. ${\dot {\phi _{t}}}(x)=v_{t}(\phi _{t}(x))$ $\phi _{t}(x)=x_{0}+t\cdot v_{0}(x_{0})$

La idea general es empezar con dos distribuciones y , luego construir un campo de flujo a partir de ellas y luego aplicar repetidamente una operación de "reflujo" para obtener campos de flujo sucesivos , cada uno más recto que el anterior. Cuando el campo de flujo es lo suficientemente recto para la aplicación, nos detenemos. $\pi _{0}$ $\pi _{1}$ $\phi ^{0}=\{\phi _{t}:t\in [0,1]\}$ $\phi ^{1},\phi ^{2},\dots$

En general, para cualquier proceso diferenciable en el tiempo , se puede estimar resolviendo: $\phi _{t}$ $v_{t}$ $\min _{\theta }\int _{0}^{1}\mathbb {E} _{x\sim p_{t}}\left[\lVert {v_{t}(x,\theta )-v_{t}(x)}\rVert ^{2}\right]\,\mathrm {d} t.$

En el flujo rectificado, al inyectar fuertes probabilidades previas de que las trayectorias intermedias son rectas, se puede lograr relevancia teórica para el transporte óptimo y eficiencia computacional, ya que las EDO con trayectorias rectas se pueden simular con precisión sin discretización temporal.

En concreto, el flujo rectificado busca hacer coincidir una EDO con las distribuciones marginales de la interpolación lineal entre puntos de las distribuciones y . Dadas las observaciones y , la interpolación lineal canónica produce un caso trivial , que no se puede simular causalmente sin . Para abordar esto, se "proyecta" en un espacio de EDO simulables causalmente, minimizando la pérdida de mínimos cuadrados con respecto a la dirección : $\pi _{0}$ $\pi _{1}$ $x_{0}\sim \pi _{0}$ $x_{1}\sim \pi _{1}$ $x_{t}=tx_{1}+(1-t)x_{0},t\in [0,1]$ ${\dot {x}}_{t}=x_{1}-x_{0}$ $x_{1}$ $x_{t}$ $x_{1}-x_{0}$ $\min _{\theta }\int _{0}^{1}\mathbb {E} _{\pi _{0},\pi _{1},p_{t}}\left[\lVert {(x_{1}-x_{0})-v_{t}(x_{t})}\rVert ^{2}\right]\,\mathrm {d} t.$

El par de datos puede ser cualquier acoplamiento de y , normalmente independientes (es decir, ) obtenidos mediante la combinación aleatoria de observaciones de y . Este proceso garantiza que las trayectorias reflejen fielmente el mapa de densidad de trayectorias, pero se redirigen en las intersecciones para garantizar la causalidad. Este proceso de rectificación también se conoce como coincidencia de flujo, ^[43] interpolación estocástica, ^[44] y combinación alfa. ^[^{cita requerida}^] $(x_{0},x_{1})$ $\pi _{0}$ $\pi _{1}$ $(x_{0},x_{1})\sim \pi _{0}\times \pi _{1}$ $\pi _{0}$ $\pi _{1}$ $x_{t}$

Un aspecto distintivo del flujo rectificado es su capacidad de " reflujo ", que endereza la trayectoria de las trayectorias de las EDO. Denotemos el flujo rectificado inducido desde como . La aplicación recursiva de este operador genera una serie de flujos rectificados . Este proceso de "reflujo" no solo reduce los costos de transporte, sino que también endereza las trayectorias de los flujos rectificados, haciendo que las trayectorias sean más rectas a medida que aumenta . $\phi ^{0}=\{\phi _{t}:t\in [0,1]\}$ $(x_{0},x_{1})$ $\phi ^{0}={\mathsf {Rectflow}}((x_{0},x_{1}))$ ${\mathsf {Rectflow}}(\cdot )$ $\phi ^{k+1}={\mathsf {Rectflow}}((\phi _{0}^{k}(x_{0}),\phi _{1}^{k}(x_{1})))$ $\phi ^{k}$ $k$

El flujo rectificado incluye una extensión no lineal donde la interpolación lineal se reemplaza con cualquier curva diferenciable en el tiempo que conecta y , dada por . Este marco abarca DDIM y EDO de flujo de probabilidad como casos especiales, con opciones particulares de y . Sin embargo, en el caso donde la ruta de no es recta, el proceso de reflujo ya no garantiza una reducción en los costos de transporte convexo, y tampoco endereza las rutas de . ^[41] $x_{t}$ $x_{0}$ $x_{1}$ $x_{t}=\alpha _{t}x_{1}+\beta _{t}x_{0}$ $\alpha _{t}$ $\beta _{t}$ $x_{t}$ $\phi _{t}$

Consulte ^[45] para obtener un tutorial sobre correspondencia de flujo, con animaciones.

Elección de la arquitectura

Modelo de difusión

Para generar imágenes mediante DDPM, necesitamos una red neuronal que tome un tiempo y una imagen ruidosa y prediga un ruido a partir de ella. Dado que predecir el ruido es lo mismo que predecir la imagen sin ruido y luego restarlo de , las arquitecturas de eliminación de ruido tienden a funcionar bien. Por ejemplo, la U-Net , que resultó ser buena para eliminar el ruido de las imágenes, se utiliza a menudo para eliminar el ruido de los modelos de difusión que generan imágenes. ^[46] $t$ $x_{t}$ $\epsilon _{\theta }(x_{t},t)$ $x_{t}$

Para DDPM, la arquitectura subyacente ("columna vertebral") no tiene que ser una U-Net. Solo tiene que predecir el ruido de alguna manera. Por ejemplo, el transformador de difusión (DiT) utiliza un Transformador para predecir la covarianza media y diagonal del ruido, dado el condicionamiento textual y la imagen parcialmente denoizada. Es lo mismo que el modelo de difusión denoizado basado en U-Net estándar, con un Transformador reemplazando a la U-Net. ^{[47] También se puede aplicar} una mezcla de expertos -Transformador. ^[48]

El DDPM se puede utilizar para modelar distribuciones de datos generales, no solo imágenes de aspecto natural. Por ejemplo, Human Motion Diffusion ^[49] modela la trayectoria del movimiento humano mediante DDPM. Cada trayectoria del movimiento humano es una secuencia de poses, representadas por rotaciones o posiciones de las articulaciones. Utiliza una red de transformadores para generar una trayectoria menos ruidosa a partir de una ruidosa.

Acondicionamiento

El modelo de difusión base solo puede generar incondicionalmente a partir de toda la distribución. Por ejemplo, un modelo de difusión aprendido en ImageNet generaría imágenes que se parecen a una imagen aleatoria de ImageNet. Para generar imágenes de una sola categoría, sería necesario imponer la condición. Cualquiera que sea la condición que se quiera imponer, primero hay que convertir el condicionamiento en un vector de números de punto flotante y luego introducirlo en la red neuronal del modelo de difusión subyacente. Sin embargo, uno tiene libertad para elegir cómo convertir el condicionamiento en un vector.

Por ejemplo, la difusión estable impone un condicionamiento en forma de mecanismo de atención cruzada , donde la consulta es una representación intermedia de la imagen en la U-Net, y tanto la clave como el valor son los vectores de condicionamiento. El condicionamiento se puede aplicar de forma selectiva solo a partes de una imagen, y se pueden ajustar nuevos tipos de condicionamientos sobre el modelo base, como se utiliza en ControlNet. ^[50]

Como ejemplo particularmente simple, considere la restauración de una imagen . Las condiciones son , la imagen de referencia, y , la máscara de restauración . El condicionamiento se impone en cada paso del proceso de difusión hacia atrás, primero muestreando , una versión ruidosa de , luego reemplazando con , donde significa multiplicación elemento por elemento . ^[51] Otra aplicación del mecanismo de atención cruzada es la edición de imágenes de aviso a aviso. ^[52] ${\tilde {x}}$ $m$ ${\tilde {x}}_{t}\sim N\left({\sqrt {{\bar {\alpha }}_{t}}}{\tilde {x}},\sigma _{t}^{2}I\right)$ ${\tilde {x}}$ $x_{t}$ $(1-m)\odot x_{t}+m\odot {\tilde {x}}_{t}$ $\odot$

El condicionamiento no se limita a generar imágenes de una categoría específica o de acuerdo con un título específico (como en la conversión de texto a imagen). Por ejemplo, ^[49] demostró la generación de movimiento humano, condicionado a un clip de audio de una persona caminando (lo que permite sincronizar el movimiento con una banda sonora), o un video de una persona corriendo, o una descripción textual del movimiento humano, etc.

Ampliación de escala

Como generar una imagen lleva mucho tiempo, se puede intentar generar una imagen pequeña mediante un modelo de difusión base y luego ampliarla mediante otros modelos. La ampliación se puede realizar mediante GAN , ^[53] Transformador , ^[54] o métodos de procesamiento de señales como el remuestreo de Lanczos .

Los modelos de difusión se pueden utilizar para realizar el escalado. El modelo de difusión en cascada apila varios modelos de difusión uno tras otro, al estilo de Progressive GAN . El nivel más bajo es un modelo de difusión estándar que genera una imagen de 32x32, luego la imagen se escalaría mediante un modelo de difusión entrenado específicamente para el escalado, y el proceso se repite. ^[46]

En más detalle, el escalador de difusión se entrena de la siguiente manera: ^[46]

Muestra , donde es la imagen de alta resolución, es la misma imagen pero reducida a una resolución baja, y es el condicionamiento, que puede ser el título de la imagen, la clase de la imagen, etc. $(x_{0},z_{0},c)$ $x_{0}$ $z_{0}$ $c$
Muestrear dos ruidos blancos , dos pasos de tiempo . Calcular las versiones ruidosas de las imágenes de alta y baja resolución: . $\epsilon _{x},\epsilon _{z}$ $t_{x},t_{z}$ ${\begin{cases}x_{t_{x}}&={\sqrt {{\bar {\alpha }}_{t_{x}}}}x_{0}+\sigma _{t_{x}}\epsilon _{x}\\z_{t_{z}}&={\sqrt {{\bar {\alpha }}_{t_{z}}}}z_{0}+\sigma _{t_{z}}\epsilon _{z}\end{cases}}$
Entrene la red de eliminación de ruido para predecir una pérdida L2 dada . Es decir, aplique el descenso de gradiente . $\epsilon _{x}$ $x_{t_{x}},z_{t_{z}},t_{x},t_{z},c$ $\theta$ $\|\epsilon _{\theta }(x_{t_{x}},z_{t_{z}},t_{x},t_{z},c)-\epsilon _{x}\|_{2}^{2}$

Ejemplos

Esta sección recopila algunos modelos de difusión notables y describe brevemente su arquitectura.

IA abierta

La serie DALL-E de OpenAI son modelos de difusión de imágenes condicionales de texto.

La primera versión de DALL-E (2021) no es en realidad un modelo de difusión, sino que utiliza una arquitectura de transformador que genera una secuencia de tokens, que luego el decodificador de un VAE discreto convierte en una imagen. Junto con DALL-E se lanzó el clasificador CLIP, que DALL-E utilizó para clasificar las imágenes generadas según el grado de ajuste de la imagen al texto.

GLIDE (2022-03) ^[55] es un modelo de difusión de 3.500 millones de caracteres, y se publicó una versión pequeña. ^[6] Poco después, se lanzó DALL-E 2 (2022-04). ^[56] DALL-E 2 es un modelo de difusión en cascada de 3.500 millones de caracteres que genera imágenes a partir de texto "invirtiendo el codificador de imágenes CLIP", la técnica que denominaron "unCLIP".

Sora (2024-02) es un modelo de Transformador de difusión (DiT).

Estabilidad IA

Stable Diffusion , lanzado por Stability AI, consta de un modelo de difusión latente de eliminación de ruido (860 millones de parámetros), un VAE y un codificador de texto. La red de eliminación de ruido es una U-Net, con bloques de atención cruzada para permitir la generación de imágenes condicionales. ^[57]^[25]

Stable Diffusion 3 ^[58] cambió el modelo de difusión latente de UNet a un modelo de Transformador, por lo que es un DiT. Utiliza flujo rectificado.

Stable Video 4D ^[59] es un modelo de difusión latente para vídeos de objetos 3D.

Google

Imagen ^[60]^[61] utiliza un modelo de lenguaje T5 para codificar el texto de entrada en un vector de incrustación. Es un modelo de difusión en cascada con tres pasos. El primer paso elimina el ruido blanco de una imagen de 64×64, condicionada al vector de incrustación del texto. El segundo paso aumenta la escala de la imagen en 64×64→256×256, condicionada a la incrustación. El tercer paso es similar, aumenta la escala en 256×256→1024×1024. Las tres redes de eliminación de ruido son todas U-Nets.

Imagen 2 también se basa en la difusión. Puede generar imágenes a partir de un mensaje que combina imágenes y texto. No hay más información disponible. ^[62]

Veo genera vídeos mediante difusión latente. La difusión está condicionada a un vector que codifica tanto un texto como una imagen. ^[63]

Véase también

Lectura adicional

Artículos de revisión
- Yang, Ling (6 de septiembre de 2024), YangLing0818/Diffusion-Models-Papers-Survey-Taxonomy , consultado el 6 de septiembre de 2024
- Yang, Ling; Zhang, Zhilong; Song, Yang; Hong, Shenda; Xu, Runsheng; Zhao, Yue; Zhang, Wentao; Cui, Bin; Yang, Ming-Hsuan (9 de noviembre de 2023). "Modelos de difusión: un estudio exhaustivo de métodos y aplicaciones". ACM Comput. Surv . 56 (4): 105:1–105:39. arXiv : 2209.00796 . doi :10.1145/3626235. ISSN 0360-0300.
- Croitoru, Florinel-Alin; Hondru, Vlad; Ionescu, Radu Tudor; Shah, Mubarak (1 de septiembre de 2023). "Modelos de difusión en visión: una encuesta". Transacciones IEEE sobre análisis de patrones e inteligencia artificial . 45 (9): 10850–10869. arXiv : 2209.04747 . doi :10.1109/TPAMI.2023.3261988. ISSN 0162-8828.
Detalles matemáticos omitidos en el artículo.
- "Modelos de poder de difusión". AstraBlog . 2022-09-25 . Consultado el 2023-09-25 .
- Weng, Lilian (11 de julio de 2021). "¿Qué son los modelos de difusión?". lilianweng.github.io . Consultado el 25 de septiembre de 2023 .

Guía: un código de trucos para los modelos de difusión. Descripción general de la guía con clasificador y la guía sin clasificador, con pocos detalles matemáticos.

Referencias

^ Chang, Ziyi; Koulieris, George Alex; Shum, Hubert PH (2023). "Sobre los fundamentos de diseño de los modelos de difusión: un estudio". arXiv : 2306.04542 [cs.LG].
^ abc Song, Yang; Sohl-Dickstein, Jascha; Kingma, Diederik P.; Kumar, Abhishek; Ermon, Stefano; Poole, Ben (10 de febrero de 2021). "Modelado generativo basado en puntuaciones a través de ecuaciones diferenciales estocásticas". arXiv : 2011.13456 [cs.LG].
^ Croitoru, Florinel-Alin; Hondru, Vlad; Ionescu, Radu Tudor; Shah, Mubarak (2023). "Modelos de difusión en visión: una encuesta". Transacciones IEEE sobre análisis de patrones e inteligencia artificial . 45 (9): 10850–10869. arXiv : 2209.04747 . doi :10.1109/TPAMI.2023.3261988. PMID 37030794. S2CID 252199918.
^ ab Ho, Jonathan; Jain, Ajay; Abbeel, Pieter (2020). "Modelos probabilísticos de difusión para la eliminación de ruido". Avances en sistemas de procesamiento de información neuronal . 33 . Curran Associates, Inc.: 6840–6851.
^ Gu, Shuyang; Chen, Dong; Bao, Jianmin; Wen, colmillo; Zhang, Bo; Chen, Dongdong; Yuan, Lu; Guo, Baining (2021). "Modelo de difusión cuantificada vectorial para síntesis de texto a imagen". arXiv : 2111.14822 [cs.CV].
^ de GLIDE, OpenAI, 22 de septiembre de 2023 , consultado el 24 de septiembre de 2023
^ Li, Yifan; Zhou, Kun; Zhao, Wayne Xin; Wen, Ji-Rong (agosto de 2023). "Modelos de difusión para la generación de texto no autorregresivo: una encuesta". Actas de la 32.ª Conferencia Conjunta Internacional sobre Inteligencia Artificial . California: Organización de Conferencias Conjuntas Internacionales sobre Inteligencia Artificial. págs. 6692–6701. arXiv : 2303.06574 . doi :10.24963/ijcai.2023/750. ISBN 978-1-956792-03-4.
^ Han, Xiaochuang; Kumar, Sachin; Tsvetkov, Yulia (2023). "SSD-LM: modelo de lenguaje de difusión basado en símplex semiautorregresivo para generación de texto y control modular". Actas de la 61.ª reunión anual de la Asociación de Lingüística Computacional (volumen 1: artículos extensos) . Stroudsburg, PA, EE. UU.: Asociación de Lingüística Computacional: 11575–11596. arXiv : 2210.17432 . doi :10.18653/v1/2023.acl-long.647.
^ Xu, Weijie; Hu, Wenxiang; Wu, Fanyou; Sengamedu, Srinivasan (2023). "DeTiME: modelado de temas mejorado por difusión utilizando LLM basado en codificador-decodificador". Hallazgos de la Asociación de Lingüística Computacional: EMNLP 2023. Stroudsburg, PA, EE. UU.: Asociación de Lingüística Computacional: 9040–9057. arXiv : 2310.15296 . doi :10.18653/v1/2023.findings-emnlp.606.
^ Zhang, Haopeng; Liu, Xiao; Zhang, Jiawei (2023). "DiffuSum: Generación de resumen extractivo mejorado con difusión". Hallazgos de la Asociación de Lingüística Computacional: ACL 2023. Stroudsburg, PA, EE. UU.: Asociación de Lingüística Computacional: 13089–13100. arXiv : 2305.01735 . doi :10.18653/v1/2023.findings-acl.828.
^ Yang, Dongchao; Yu, Jianwei; Wang, Helin; Wang, Wen; Weng, Chao; Zou, Yuexian; Yu, Dong (2023). "Diffsound: modelo de difusión discreto para la generación de texto a sonido". Transacciones IEEE/ACM sobre procesamiento de audio, habla y lenguaje . 31 : 1720–1733. arXiv : 2207.09983 . doi :10.1109/taslp.2023.3268730. ISSN 2329-9290.
^ Janner, Michael; Du, Yilun; Tenenbaum, Joshua B.; Levine, Sergey (2022-12-20), Planificación con difusión para la síntesis de comportamiento flexible, doi :10.48550/arXiv.2205.09991 , consultado el 21 de agosto de 2024
^ Chi, Cheng; Xu, Zhenjia; Feng, Siyuan; Cousineau, Eric; Du, Yilun; Burchfiel, Benjamín; Tedrake, Russ; Song, Shuran (14 de marzo de 2024), Política de difusión: aprendizaje de políticas visomotoras mediante difusión de acción, doi :10.48550/arXiv.2303.04137 , consultado el 21 de agosto de 2024
^ Sohl-Dickstein, Jascha; Weiss, Eric; Maheswaranathan, Niru; Ganguli, Surya (1 de junio de 2015). "Aprendizaje profundo no supervisado mediante termodinámica de no equilibrio" (PDF) . Actas de la 32.ª Conferencia internacional sobre aprendizaje automático . 37 . PMLR: 2256–2265.
^ Ho, Jonathan (20 de junio de 2020), hojonathanho/diffusion , consultado el 7 de septiembre de 2024
^ ab Weng, Lilian (11 de julio de 2021). "¿Qué son los modelos de difusión?". lilianweng.github.io . Consultado el 24 de septiembre de 2023 .
^ "Modelado generativo mediante la estimación de gradientes de la distribución de datos | Yang Song". yang-song.net . Consultado el 24 de septiembre de 2023 .
^ Song, Yang; Ermon, Stefano (2019). "Modelado generativo mediante la estimación de gradientes de la distribución de datos". Avances en sistemas de procesamiento de información neuronal . 32 . Curran Associates, Inc.
^ Canción, Yang; Sohl-Dickstein, Jascha; Kingma, Diederik P.; Kumar, Abhishek; Ermón, Stefano; Poole, Ben (10 de febrero de 2021). "Modelado generativo basado en puntuaciones mediante ecuaciones diferenciales estocásticas". arXiv : 2011.13456 [cs.LG].
^ ermongroup/ncsn, ermongroup, 2019 , consultado el 7 de septiembre de 2024
^ "Coincidencia de puntajes por sectores: un enfoque escalable para la estimación de la densidad y el puntaje | Yang Song". yang-song.net . Consultado el 24 de septiembre de 2023 .
^ Anderson, Brian DO (mayo de 1982). "Modelos de ecuaciones de difusión en tiempo inverso". Procesos estocásticos y sus aplicaciones . 12 (3): 313–326. doi :10.1016/0304-4149(82)90051-5. ISSN 0304-4149.
^ Luo, Calvin (2022). "Comprensión de los modelos de difusión: una perspectiva unificada". arXiv : 2208.11970v1 [cs.LG].
^ Song, Jiaming; Meng, Chenlin; Ermon, Stefano (3 de octubre de 2023). "Modelos implícitos de difusión para eliminar el ruido". arXiv : 2010.02502 [cs.LG].
^ ab Rombach, Robin; Blattmann, Andreas; Lorenz, Dominik; Esser, Patricio; Ommer, Björn (13 de abril de 2022). "Síntesis de imágenes de alta resolución con modelos de difusión latente". arXiv : 2112.10752 [cs.CV].
^ Nichol, Alexander Quinn; Dhariwal, Prafulla (1 de julio de 2021). "Modelos probabilísticos de difusión con eliminación de ruido mejorados". Actas de la 38.ª Conferencia internacional sobre aprendizaje automático . PMLR: 8162–8171.
^ abc Ho, Jonathan; Salimans, Tim (25 de julio de 2022). "Guía de difusión sin clasificadores". arXiv : 2207.12598 [cs.LG].
^ Dhariwal, Prafulla; Nichol, Alex (1 de junio de 2021). "Los modelos de difusión superan a las GAN en la síntesis de imágenes". arXiv : 2105.05233 [cs.LG].
^ Chung, Hyungjin; Kim, Jeongsol; Park, Geon Yeong; Nam, Hyelin; Ye, Jong Chul (12 de junio de 2024), CFG++: Guía libre de clasificadores con restricciones de variedad para modelos de difusión, doi :10.48550/arXiv.2406.08070 , consultado el 10 de septiembre de 2024
^ Sanchez, Guillaume; Fan, Honglu; Spangher, Alexander; Levi, Elad; Ammanamanchi, Pawan Sasanka; Biderman, Stella (2023-06-30), Manténgase en el tema con la guía sin clasificadores, doi :10.48550/arXiv.2306.17806 , consultado el 2024-09-17
^ Armandpour, Mohammadreza; Sadeghian, Ali; Zheng, Huangjie; Sadeghian, Amir; Zhou, Mingyuan (26 de abril de 2023), Re-imagine el algoritmo de aviso negativo: transforme la difusión 2D en 3D, alivie el problema de Janus y más allá, doi :10.48550/arXiv.2304.04968 , consultado el 17 de septiembre de 2024
^ Yang, Ling; Zhang, Zhilong; Canción, Yang; Hong, Shenda; Xu, Runsheng; Zhao, Yue; Zhang, Wentao; Cui, Bin; Yang, Ming-Hsuan (2022). "Modelos de difusión: un estudio completo de métodos y aplicaciones". arXiv : 2206.00364 [cs.CV].
^ Karras, Tero; Aittala, Miika; Aila, Timo; Laine, Samuli (2022). "Elucidación del espacio de diseño de modelos generativos basados en difusión". arXiv : 2206.00364v2 [cs.CV].
^ Cao, Hanqun; Tan, Cheng; Gao, Zhangyang; Xu, Yilun; Chen, Guangyong; Heng, Pheng-Ann; Li, Stan Z. (julio de 2024). "Una encuesta sobre modelos de difusión generativa". Transacciones IEEE sobre conocimiento e ingeniería de datos . 36 (7): 2814–2830. doi :10.1109/TKDE.2024.3361474. ISSN 1041-4347.
^ Xu, Yilun; Liu, Ziming; Tian, Yonglong; Tong, Shangyuan; Tegmark, Max; Jaakkola, Tommi (3 de julio de 2023). "PFGM++: Liberando el potencial de los modelos generativos inspirados en la física". Actas de la 40.ª Conferencia internacional sobre aprendizaje automático . PMLR: 38566–38591.
^ Song, Yang; Dhariwal, Prafulla; Chen, Mark; Sutskever, Ilya (3 de julio de 2023). "Modelos de consistencia". Actas de la 40.ª Conferencia internacional sobre aprendizaje automático . PMLR: 32211–32252.
^ Dockhorn, Tim; Vahdat, Arash; Kreis, Karsten (6 de octubre de 2021). "Modelado generativo basado en puntuaciones con difusión de Langevin críticamente amortiguada". {{cite journal}}: Requiere citar revista |journal=( ayuda )
^ Liu, Ziming; Luo, Di; Xu, Yilun; Jaakkola, Tommi; Tegmark, Max (5 de abril de 2023), GenPhys: de procesos físicos a modelos generativos, doi :10.48550/arXiv.2304.02637 , consultado el 20 de agosto de 2024
^ Bansal, Arpit; Borgnia, Eitan; Chu, Hong-Min; Li, Jie; Kazemi, Hamid; Huang, Furong; Goldblum, Micah; Geiping, Jonas; Goldstein, Tom (15 de diciembre de 2023). "Difusión en frío: inversión de transformadas de imágenes arbitrarias sin ruido". Avances en sistemas de procesamiento de información neuronal . 36 : 41259–41282.
^ Tong, Alexander; Fatras, Kilian; Malkin, Nikolay; Huguet, Guillaume; Zhang, Yanlei; Rector-Brooks, Jarrid; Wolf, Guy; Bengio, Yoshua (8 de noviembre de 2023). "Mejora y generalización de modelos generativos basados en flujo con transporte óptimo en minibatch". Transactions on Machine Learning Research . ISSN 2835-8856.
^ abcd Liu, Xingchao; Gong, Chengyue; Liu, Qiang (7 de septiembre de 2022). "Flujo recto y rápido: aprender a generar y transferir datos con flujo rectificado". arXiv : 2209.03003 [cs.LG].
^ Liu, Qiang (29 de septiembre de 2022). "Flujo rectificado: un enfoque de preservación marginal para el transporte óptimo". arXiv : 2209.14577 [stat.ML].
^ Lipman, Yaron; Chen, Ricky TQ; Ben-Hamu, Heli; Nickel, Maximilian; Le, Matt (8 de febrero de 2023), Coincidencia de flujo para modelado generativo , arXiv : 2210.02747
^ Albergo, Michael S.; Vanden-Eijnden, Eric (9 de marzo de 2023), Creación de flujos normalizadores con interpoladores estocásticos , arXiv : 2209.15571
^ "Introducción a Flow Matching · Blog de Cambridge MLG". mlg.eng.cam.ac.uk . Consultado el 20 de agosto de 2024 .
^ abc Ho, Jonathan; Saharia, Chitwan; Chan, William; Fleet, David J.; Norouzi, Mohammad; Salimans, Tim (1 de enero de 2022). "Modelos de difusión en cascada para la generación de imágenes de alta fidelidad". Revista de investigación en aprendizaje automático . 23 (1): 47:2249–47:2281. arXiv : 2106.15282 . ISSN 1532-4435.
^ Peebles, William; Xie, Saining (marzo de 2023). "Modelos de difusión escalables con transformadores". arXiv : 2212.09748v2 [cs.CV].
^ Fei, Zhengcong; Fan, Mingyuan; Yu, Changqian; Li, Debang; Huang, Junshi (16 de julio de 2024), Escalado de transformadores de difusión a 16 mil millones de parámetros, doi :10.48550/arXiv.2407.11633 , consultado el 25 de julio de 2024
^ ab Tevet, Guy; Raab, Sigal; Gordon, Brian; Shafir, Yonatan; Cohen-Or, Daniel; Bermano, Amit H. (2022). "Modelo de difusión del movimiento humano". arXiv : 2209.14916 [cs.CV].
^ Zhang, Lvmin; Rao, Anyi; Agrawala, Maneesh (2023). "Adición de control condicional a los modelos de difusión de texto a imagen". arXiv : 2302.05543 [cs.CV].
^ Lugmayr, Andreas; Danelljan, Martin; Romero, Andres; Yu, Fisher; Timofte, Radu; Van Gool, Luc (2022). "RePaint: Repintado mediante modelos probabilísticos de difusión con eliminación de ruido". arXiv : 2201.09865v4 [cs.CV].
^ Hertz, Amir; Mokady, Ron; Tenenbaum, Jay; Aberman, Kfir; Pritch, Yael; Cohen-Or, Daniel (2022-08-02), Edición de imágenes de aviso a aviso con control de atención cruzada, doi :10.48550/arXiv.2208.01626 , consultado el 2024-08-31
^ Wang, Xintao; Xie, Liangbin; Dong, Chao; Shan, Ying (2021). "Real-ESRGAN: Entrenamiento de superresolución ciega en el mundo real con datos sintéticos puros" (PDF) . Actas de los talleres de la Conferencia internacional sobre visión artificial (ICCV) IEEE/CVF, 2021 . Conferencia internacional sobre visión artificial. págs. 1905–1914. arXiv : 2107.10833 .
^ Liang, Jingyun; Cao, Jiezhang; Sun, Guolei; Zhang, Kai; Van Gool, Luc; Timofte, Radu (2021). "SwinIR: restauración de imágenes mediante el transformador Swin" (PDF) . Actas de los talleres de la Conferencia internacional sobre visión artificial (ICCV) IEEE/CVF . Conferencia internacional sobre visión artificial, 2021. págs. 1833–1844. arXiv : 2108.10257v1 .
^ Nichol, Alex; Dhariwal, Prafulla; Ramesh, Aditya; Shyam, Pranav; Mishkin, Pamela; McGrew, Bob; Sutskever, Ilya; Chen, Mark (8 de marzo de 2022). "GLIDE: Hacia la generación y edición de imágenes fotorrealistas con modelos de difusión guiados por texto". arXiv : 2112.10741 [cs.CV].
^ Ramesh, Aditya; Dhariwal, Prafulla; Nichol, Alex; Chu, Casey; Chen, Mark (12 de abril de 2022). "Generación jerárquica de imágenes condicionales de texto con latentes CLIP". arXiv : 2204.06125 [cs.CV].
^ Alammar, Jay. "La difusión estable ilustrada". jalammar.github.io . Consultado el 31 de octubre de 2022 .
^ Esser, Patrick; Kulal, Sumith; Blattmann, Andreas; Entezari, Rahim; Müller, Jonas; Saini, Harry; Levi, Yam; Lorenz, Dominik; Sauer, Axel (5 de marzo de 2024), Escalado de transformadores de flujo rectificados para síntesis de imágenes de alta resolución , arXiv : 2403.03206
^ Xie, Yiming; Yao, Chun-Han; Voleti, Vikram; Jiang, Huaizu; Jampani, Varun (24 de julio de 2024), SV4D: Generación dinámica de contenido 3D con consistencia de múltiples cuadros y múltiples vistas, doi :10.48550/arXiv.2407.17470 , consultado el 25 de julio de 2024
^ "Imagen: modelos de difusión de texto a imagen". imagen.research.google . Consultado el 4 de abril de 2024 .
^ Saharia, Chitwan; Chan, William; Saxena, Saurabh; Li, Lala; Whang, Jay; Denton, Emily L.; Ghasemipour, Kamyar; Gontijo Lopes, Raphael; Karagol Ayan, Burcu; Salimans, Tim; Ho, Jonathan; Fleet, David J.; Norouzi, Mohammad (6 de diciembre de 2022). "Modelos de difusión de texto a imagen fotorrealistas con comprensión profunda del lenguaje". Avances en sistemas de procesamiento de información neuronal . 35 : 36479–36494. arXiv : 2205.11487 .
^ "Imagen 2: nuestra tecnología de conversión de texto a imagen más avanzada". Google DeepMind . Consultado el 4 de abril de 2024 .
^ "Veo". Google DeepMind . 2024-05-14 . Consultado el 2024-05-17 .