La distancia de inicio de Fréchet (FID) es una métrica utilizada para evaluar la calidad de las imágenes creadas por un modelo generativo , como una red generativa antagónica (GAN) [1] o un modelo de difusión [2] [3] .
El FID compara la distribución de imágenes generadas con la distribución de un conjunto de imágenes reales (un conjunto de "verdad fundamental"). En lugar de comparar imágenes individuales, las estadísticas de media y covarianza de muchas imágenes generadas por el modelo se comparan con las mismas estadísticas generadas a partir de imágenes en el conjunto de verdad fundamental o de referencia. Se utiliza una red neuronal convolucional , como una arquitectura de inicio , para producir características de nivel superior que describan las imágenes, lo que da lugar al nombre de distancia de inicio de Fréchet .
El FID está inspirado en la métrica de puntuación de inicio (IS) anterior, que evalúa solo la distribución de imágenes generadas. [1] La métrica FID no reemplaza a la métrica IS; los clasificadores que logran la mejor puntuación FID (la más baja) tienden a tener una mayor variedad de muestras, mientras que los clasificadores que logran la mejor puntuación IS (la más alta) tienden a tener una mejor calidad dentro de las imágenes individuales. [2]
La métrica FID se introdujo en 2017 [1] y es la métrica estándar actual para evaluar la calidad de los modelos que generan imágenes sintéticas a partir de 2024. Se ha utilizado para medir la calidad de muchos modelos recientes, incluidas las redes de alta resolución StyleGAN1 [4] y StyleGAN2 [5] y los modelos de difusión. [2] [3]
El FID intenta comparar imágenes visualmente a través de capas profundas de una red de inicio. Trabajos más recientes llevan esto más allá al comparar las incrustaciones CLIP de las imágenes. [6] [7]
El objetivo de la puntuación FID es medir la diversidad de imágenes creadas por un modelo generativo con imágenes en un conjunto de datos de referencia. El conjunto de datos de referencia podría ser ImageNet o COCO-2014 [3] [8] . Es importante utilizar un conjunto de datos grande como referencia, ya que el conjunto de imágenes de referencia debe representar la diversidad completa de imágenes que el modelo intenta crear.
Los modelos generativos, como los modelos de difusión, producen imágenes nuevas que tienen características del conjunto de referencia, pero que son en sí mismas bastante diferentes de cualquier imagen del conjunto de entrenamiento. Por lo tanto, la calidad de estos modelos no se puede evaluar simplemente comparando cada imagen con una imagen del conjunto de entrenamiento píxel por píxel, como se hace, por ejemplo, con la norma L2 .
En cambio, el FID modela los dos conjuntos de imágenes como si se hubieran extraído de dos distribuciones gaussianas multidimensionales y . La distancia entre las dos distribuciones se calcula como la distancia de la excavadora o la distancia de Wasserstein entre las dos distribuciones gaussianas.
En lugar de comparar directamente las imágenes píxel por píxel (por ejemplo, como lo hace la norma L2 ), el FID compara la media y la desviación estándar de la capa más profunda en Inception v3 (el vector de activación de 2048 dimensiones de su última capa de agrupamiento ). Estas capas están más cerca de los nodos de salida que corresponden a objetos del mundo real, como una raza específica de perro o un avión, y más lejos de las capas superficiales cerca de la imagen de entrada. Por lo tanto, el FID compara la frecuencia con la que se encuentran las mismas características de alto nivel dentro de los dos conjuntos de imágenes. Después de que cada imagen se haya procesado a través de la arquitectura de Inception, las medias y covarianzas de la activación de la última capa en los dos conjuntos de datos se comparan con la distancia . Las distancias más altas indican un modelo generativo más pobre. Una puntuación de 0 indica un modelo perfecto.
Para dos distribuciones de probabilidad cualesquiera que tengan media y varianzas finitas, su distancia de movimiento de tierras o distancia de Fréchet es [9] donde es el conjunto de todas las medidas en con marginales y en el primer y segundo factor respectivamente. (El conjunto también se denomina el conjunto de todos los acoplamientos de y .).
Para dos distribuciones gaussianas multidimensionales y , se expresa en forma cerrada como [10] Esto nos permite definir el FID en forma de pseudocódigo :
ENTRADA de una función .
ENTRADA dos conjuntos de datos .
Calcular .
Ajuste dos distribuciones gaussianas , respectivamente para .
DEVOLVER .
En la mayoría de los usos prácticos del FID, es el espacio de imágenes, y es un modelo Inception v3 entrenado en la ImageNet , pero sin su capa de clasificación final. Técnicamente, es el vector de activación de 2048 dimensiones de su última capa de agrupamiento . De los dos conjuntos de datos , uno de ellos es un conjunto de datos de referencia, que podría ser la propia ImageNet, y el otro es un conjunto de imágenes generadas por un modelo generativo , como GAN , o modelo de difusión . [1]
Se han sugerido variantes especializadas de FID como métrica de evaluación para algoritmos de mejora musical como Fréchet Audio Distance (FAD) , [11] para modelos generativos de video como Fréchet Video Distance (FVD) , [12] y para moléculas generadas por IA como Fréchet ChemNet Distance (FCD) . [13]
Chong y Forsyth [14] demostraron que el FID está estadísticamente sesgado, en el sentido de que su valor esperado sobre un conjunto finito de datos no es su valor verdadero. Además, debido a que el FID mide la distancia de Wasserstein hacia la distribución de la verdad fundamental, es inadecuado para evaluar la calidad de los generadores en configuraciones de adaptación de dominio o en la generación de disparos cero. Finalmente, si bien el FID es más consistente con el juicio humano que el puntaje de inicio utilizado anteriormente, hay casos en los que el FID es inconsistente con el juicio humano (por ejemplo, Figura 3,5 en Liu et al.). [15]
{{cite journal}}
: Requiere citar revista |journal=
( ayuda )resumen traducido: El autor indica una expresión explícita de la distancia de dos leyes de probabilidad, según la primera definición de Paul Lévy. También indica una modificación conveniente de esta definición.