Distancia de inicio de Fréchet

La distancia de inicio de Fréchet (FID) es una métrica utilizada para evaluar la calidad de las imágenes creadas por un modelo generativo , como una red generativa antagónica (GAN) ^[1] o un modelo de difusión ^[2]^[3] .

El FID compara la distribución de imágenes generadas con la distribución de un conjunto de imágenes reales (un conjunto de "verdad fundamental"). En lugar de comparar imágenes individuales, las estadísticas de media y covarianza de muchas imágenes generadas por el modelo se comparan con las mismas estadísticas generadas a partir de imágenes en el conjunto de verdad fundamental o de referencia. Se utiliza una red neuronal convolucional , como una arquitectura de inicio , para producir características de nivel superior que describan las imágenes, lo que da lugar al nombre de distancia de inicio de Fréchet .

El FID está inspirado en la métrica de puntuación de inicio (IS) anterior, que evalúa solo la distribución de imágenes generadas. ^[1] La métrica FID no reemplaza a la métrica IS; los clasificadores que logran la mejor puntuación FID (la más baja) tienden a tener una mayor variedad de muestras, mientras que los clasificadores que logran la mejor puntuación IS (la más alta) tienden a tener una mejor calidad dentro de las imágenes individuales. ^[2]

La métrica FID se introdujo en 2017 ^[1] y es la métrica estándar actual para evaluar la calidad de los modelos que generan imágenes sintéticas a partir de 2024. Se ha utilizado para medir la calidad de muchos modelos recientes, incluidas las redes de alta resolución StyleGAN1 ^[4] y StyleGAN2 ^[5] y los modelos de difusión. ^[2]^[3]

El FID intenta comparar imágenes visualmente a través de capas profundas de una red de inicio. Trabajos más recientes llevan esto más allá al comparar las incrustaciones CLIP de las imágenes. ^[6]^[7]

Descripción general

El objetivo de la puntuación FID es medir la diversidad de imágenes creadas por un modelo generativo con imágenes en un conjunto de datos de referencia. El conjunto de datos de referencia podría ser ImageNet o COCO-2014 ^[3]^[8] . Es importante utilizar un conjunto de datos grande como referencia, ya que el conjunto de imágenes de referencia debe representar la diversidad completa de imágenes que el modelo intenta crear.

Los modelos generativos, como los modelos de difusión, producen imágenes nuevas que tienen características del conjunto de referencia, pero que son en sí mismas bastante diferentes de cualquier imagen del conjunto de entrenamiento. Por lo tanto, la calidad de estos modelos no se puede evaluar simplemente comparando cada imagen con una imagen del conjunto de entrenamiento píxel por píxel, como se hace, por ejemplo, con la norma L2 .

En cambio, el FID modela los dos conjuntos de imágenes como si se hubieran extraído de dos distribuciones gaussianas multidimensionales y . La distancia entre las dos distribuciones se calcula como la distancia de la excavadora o la distancia de Wasserstein entre las dos distribuciones gaussianas. ${\mathcal {N}}(\mu,\Sigma)$ ${\mathcal {N}}(\mu ',\Sigma ')$

En lugar de comparar directamente las imágenes píxel por píxel (por ejemplo, como lo hace la norma L2 ), el FID compara la media y la desviación estándar de la capa más profunda en Inception v3 (el vector de activación de 2048 dimensiones de su última capa de agrupamiento ). Estas capas están más cerca de los nodos de salida que corresponden a objetos del mundo real, como una raza específica de perro o un avión, y más lejos de las capas superficiales cerca de la imagen de entrada. Por lo tanto, el FID compara la frecuencia con la que se encuentran las mismas características de alto nivel dentro de los dos conjuntos de imágenes. Después de que cada imagen se haya procesado a través de la arquitectura de Inception, las medias y covarianzas de la activación de la última capa en los dos conjuntos de datos se comparan con la distancia . Las distancias más altas indican un modelo generativo más pobre. Una puntuación de 0 indica un modelo perfecto. $d_{F}({\mathcal {N}}(\mu ,\Sigma ),{\mathcal {N}}(\mu ',\Sigma '))^{2}=\lVert \mu -\mu '\rVert _{2}^{2}+\operatorname {tr} \left(\Sigma +\Sigma '-2\left(\Sigma \Sigma '\right)^{\frac {1}{2}}\right)$

Definición formal

Para dos distribuciones de probabilidad cualesquiera que tengan media y varianzas finitas, su distancia de movimiento de tierras o distancia de Fréchet es ^[9] donde es el conjunto de todas las medidas en con marginales y en el primer y segundo factor respectivamente. (El conjunto también se denomina el conjunto de todos los acoplamientos de y .). $\mu ,\nu$ $\mathbb {R} ^{n}$ $d_{F}(\mu ,\nu ):=\left(\inf _{\gamma \in \Gamma (\mu ,\nu )}\int _{\mathbb {R} ^{n} \times \mathbb {R} ^{n}}\|xy\|^{2}\,\mathrm {d} \gamma (x,y)\right)^{1/2},$ $\Gamma (\mu,\nu)$ $\mathbb {R} ^{n}\times \mathbb {R} ^{n}$ ${\estilo de visualización \mu}$ ${\estilo de visualización \nu}$ $\Gamma (\mu,\nu)$ ${\estilo de visualización \mu}$ ${\estilo de visualización \nu}$

Para dos distribuciones gaussianas multidimensionales y , se expresa en forma cerrada como ^[10] Esto nos permite definir el FID en forma de pseudocódigo : ${\mathcal {N}}(\mu,\Sigma)$ ${\mathcal {N}}(\mu ',\Sigma ')$ $d_{F}({\mathcal {N}}(\mu ,\Sigma ),{\mathcal {N}}(\mu ',\Sigma '))^{2}=\lVert \mu -\mu '\rVert _{2}^{2}+\operatorname {tr} \left(\Sigma +\Sigma '-2\left(\Sigma \Sigma '\right)^{\frac {1}{2}}\right)$

ENTRADA de una función . $f:\Omega _{X}\to \mathbb {R} ^{n}$
ENTRADA dos conjuntos de datos . $S,S'\subconjunto \Omega _{X}$
Calcular . $f(S),f(S')\subset \mathbb {R} ^{n}$
Ajuste dos distribuciones gaussianas , respectivamente para . ${\mathcal {N}}(\mu ,\Sigma ),{\mathcal {N}}(\mu ',\Sigma ')$ $f(S),f(S')$
DEVOLVER . $d_{F}({\mathcal {N}}(\mu ,\Sigma ),{\mathcal {N}}(\mu ',\Sigma '))^{2}$

En la mayoría de los usos prácticos del FID, es el espacio de imágenes, y es un modelo Inception v3 entrenado en la ImageNet , pero sin su capa de clasificación final. Técnicamente, es el vector de activación de 2048 dimensiones de su última capa de agrupamiento . De los dos conjuntos de datos , uno de ellos es un conjunto de datos de referencia, que podría ser la propia ImageNet, y el otro es un conjunto de imágenes generadas por un modelo generativo , como GAN , o modelo de difusión . ^[1] $\Omega _{X}$ $f$ $S,S'$

Variantes

Se han sugerido variantes especializadas de FID como métrica de evaluación para algoritmos de mejora musical como Fréchet Audio Distance (FAD) , ^[11] para modelos generativos de video como Fréchet Video Distance (FVD) , ^[12] y para moléculas generadas por IA como Fréchet ChemNet Distance (FCD) . ^[13]

Limitaciones

Chong y Forsyth ^[14] demostraron que el FID está estadísticamente sesgado, en el sentido de que su valor esperado sobre un conjunto finito de datos no es su valor verdadero. Además, debido a que el FID mide la distancia de Wasserstein hacia la distribución de la verdad fundamental, es inadecuado para evaluar la calidad de los generadores en configuraciones de adaptación de dominio o en la generación de disparos cero. Finalmente, si bien el FID es más consistente con el juicio humano que el puntaje de inicio utilizado anteriormente, hay casos en los que el FID es inconsistente con el juicio humano (por ejemplo, Figura 3,5 en Liu et al.). ^[15]

Véase también

Distancia de Fréchet

Referencias

^ abcd Heusel, Martin; Ramsauer, Hubert; Unterthiner, Thomas; Nessler, Bernhard; Hochreiter, Sepp (2017). "GANs entrenados por una regla de actualización de dos escalas de tiempo convergen a un equilibrio de Nash local". Avances en sistemas de procesamiento de información neuronal . 30 . arXiv : 1706.08500 .
^ abc Ho, Jonathan; Salimans, Tim (2022). "Guía de difusión sin clasificadores". arXiv : 2207.12598 [cs.LG].
^ abc Esser, Patrick; Kulal, Sumith; Blattmann, Andreas; Entezari, Rahim; Müller, Jonas; Saini, Harry; Levi, Yam; Lorenz, Dominik; Sauer, Axel (5 de marzo de 2024), Transformadores de flujo rectificados de escalado para síntesis de imágenes de alta resolución, doi :10.48550/arXiv.2403.03206 , consultado el 19 de octubre de 2024
^ Karras, Tero; Laine, Samuli; Aila, Timo (2020). "Una arquitectura de generador basada en estilos para redes generativas adversarias". Transacciones IEEE sobre análisis de patrones e inteligencia artificial . PP (12): 4217–4228. arXiv : 1812.04948 . doi :10.1109/TPAMI.2020.2970919. PMID 32012000. S2CID 211022860.
^ Karras, Tero; Laine, Samuli; Aittala, Miika; Hellsten, Janne; Lehtinen, Jaakko; Aila, Timo (23 de marzo de 2020). "Análisis y mejora de la calidad de imagen de StyleGAN". arXiv : 1912.04958 [cs.CV].
^ Jayasumana, Sadeep; Ramalingam, Srikumar; Veit, Andreas; Glasner, Daniel; Chakrabarti, Ayan; Kumar, Sanjiv (2024). "Repensar la FID: hacia una mejor métrica de evaluación para la generación de imágenes": 9307–9315. {{cite journal}}: Requiere citar revista |journal=( ayuda )
^ Hessel, Jack; Holtzman, Ari; Forbes, Maxwell; Ronan Le Bras; Choi, Yejin (2021). "CLIPScore: una métrica de evaluación sin referencias para subtítulos de imágenes". arXiv : 2104.08718 [cs.CV].
^ Lin, Tsung-Yi; Maire, Michael; Belongie, Serge; Bourdev, Lubomir; Girshick, Ross; Hays, James; Perona, Pietro; Ramanan, Deva; Zitnick, C. Lawrence (20 de febrero de 2015), Microsoft COCO: objetos comunes en contexto, doi :10.48550/arXiv.1405.0312 , consultado el 19 de octubre de 2024
^ Fréchet., M (1957). "Sur la distance de deux lois de probabilité. ("Sobre la distancia entre dos leyes de probabilidad")". CR Acad. Sci. París . 244 : 689–692. resumen traducido: El autor indica una expresión explícita de la distancia de dos leyes de probabilidad, según la primera definición de Paul Lévy. También indica una modificación conveniente de esta definición.
^ Dowson, D. C; Landau, B. V (1 de septiembre de 1982). "La distancia de Fréchet entre distribuciones normales multivariadas". Journal of Multivariate Analysis . 12 (3): 450–455. doi : 10.1016/0047-259X(82)90077-X . ISSN 0047-259X.
^ Kilgour, Kevin; Zuluaga, Mauricio; Roblek, Dominik; Sharifi, Mateo (15 de septiembre de 2019). "Distancia de audio Fréchet: una métrica sin referencias para evaluar algoritmos de mejora de la música". Entre discursos 2019 : 2350–2354. doi : 10.21437/Interspeech.2019-2219. S2CID 202725406.
^ Unterthiner, Thomas; Steenkiste, Sjoerd van; Kurach, Karol; Marinier, Rafael; Michalski, Marcin; Gelly, Sylvain (27 de marzo de 2019). "FVD: una nueva métrica para la generación de vídeos". Abrir revisión .
^ Preuer, Kristina; Renz, Philipp; Unterthiner, Thomas; Hochreiter, Sepp; Klambauer, Günter (24 de septiembre de 2018). "Distancia Fréchet ChemNet: una métrica para modelos generativos de moléculas en el descubrimiento de fármacos". Revista de información y modelado químico . 58 (9): 1736-1741. arXiv : 1803.09518 . doi : 10.1021/acs.jcim.8b00234. PMID 30118593. S2CID 51892387.
^ Chong, Min Jin; Forsyth, David (15 de junio de 2020). "FID y puntuación de inicio efectivamente imparciales y dónde encontrarlos". arXiv : 1911.07023 [cs.CV].
^ Liu, Shaohui; Wei, Yi; Lu, Jiwen; Zhou, Jie (19 de julio de 2018). "Un marco de evaluación mejorado para redes generativas adversas". arXiv : 1803.07474 [cs.CV].