El Inception Score (IS) es un algoritmo que se utiliza para evaluar la calidad de las imágenes creadas por un modelo de imagen generativo , como una red generativa antagónica (GAN). [1] El puntaje se calcula en función del resultado de un modelo de clasificación de imágenes Inception v3 previamente entrenado y separado aplicado a una muestra de imágenes (normalmente alrededor de 30 000) generadas por el modelo generativo. El Inception Score se maximiza cuando se cumplen las siguientes condiciones:
- La entropía de la distribución de etiquetas predicha por el modelo Inceptionv3 para las imágenes generadas se minimiza. En otras palabras, el modelo de clasificación predice con seguridad una sola etiqueta para cada imagen. Intuitivamente, esto corresponde al desideratum de que las imágenes generadas sean "nítidas" o "distintas".
- Las predicciones del modelo de clasificación se distribuyen uniformemente entre todas las etiquetas posibles, lo que corresponde al desideratum de que el resultado del modelo generativo sea "diverso". [2]
Ha sido reemplazado en cierta medida por la distancia de inicio de Fréchet relacionada . [3] Mientras que la puntuación de inicio solo evalúa la distribución de imágenes generadas, la FID compara la distribución de imágenes generadas con la distribución de un conjunto de imágenes reales ("verdad fundamental").
Definición
Sean dos espacios, el espacio de las imágenes y el espacio de las etiquetas . El espacio de las etiquetas es finito.
Sea una distribución de probabilidad sobre la que deseamos juzgar.
Sea un discriminador una función de tipo donde es el conjunto de todas las distribuciones de probabilidad en . Para cualquier imagen y cualquier etiqueta , sea la probabilidad de que la imagen tenga etiqueta , según el discriminador. Generalmente se implementa como una red Inception-v3 entrenada en ImageNet.
La puntuación de inicio de relativa a es equivalente. Las reescrituras incluyen no negativas por la desigualdad de Jensen .
Pseudocódigo:
Discriminador de ENTRADA .
Generador de ENTRADA .
Imágenes de muestra del generador.
Calcule la distribución de probabilidad sobre etiquetas condicionales a la imagen .
Resuma los resultados para obtener una estimación empírica de .
Tome más imágenes del generador y, para cada una, calcule .
Promedia los resultados y toma su exponencial.
DEVUELVE el resultado.
Interpretación
Una puntuación de inicio más alta se interpreta como "mejor", ya que significa que se trata de una colección de imágenes "nítidas y distintas".
, donde es el número total de etiquetas posibles.
iff para casi todos Eso significa que es completamente "indistinto". Es decir, para cualquier imagen muestreada de , el discriminador devuelve exactamente las mismas predicciones de etiqueta .
La puntuación de inicio más alta se logra si y solo si las dos condiciones son verdaderas:
- Para casi todos los , la distribución se concentra en una etiqueta, es decir, . Es decir, cada imagen muestreada de es clasificada exactamente por el discriminador.
- Para cada etiqueta , la proporción de imágenes generadas etiquetadas como es exactamente . Es decir, las imágenes generadas se distribuyen de manera uniforme en todas las etiquetas.
Referencias
- ^ Salimans, Tim; Goodfellow, Ian; Zaremba, Wojciech; Cheung, Vicki; Radford, Alec; Chen, Xi; Chen, Xi (2016). "Técnicas mejoradas para el entrenamiento de GAN". Avances en sistemas de procesamiento de información neuronal . 29 . Curran Associates, Inc. arXiv : 1606.03498 .
- ^ Frolov, Stanislav; Hinz, Tobias; Raue, Federico; Hees, Jörn; Dengel, Andreas (diciembre de 2021). "Síntesis adversarial de texto a imagen: una revisión". Redes neuronales . 144 : 187–209. arXiv : 2101.09983 . doi : 10.1016/j.neunet.2021.07.019 . PMID 34500257. S2CID 231698782.
- ^ Borji, Ali (2022). "Pros y contras de las medidas de evaluación de GAN: nuevos desarrollos". Visión por computadora y comprensión de imágenes . 215 : 103329. arXiv : 2103.09396 . doi :10.1016/j.cviu.2021.103329. S2CID: 232257836.