stringtranslate.com

Métrica de probabilidad integral

En teoría de la probabilidad , las métricas de probabilidad integral son tipos de funciones de distancia entre distribuciones de probabilidad , definidas por qué tan bien una clase de funciones puede distinguir las dos distribuciones. Muchas distancias estadísticas importantes son métricas de probabilidad integral, incluida la distancia de Wasserstein-1 y la distancia de variación total . Además de su importancia teórica, las métricas de probabilidad integral se utilizan ampliamente en áreas de estadística y aprendizaje automático .

El nombre "métrica de probabilidad integral" lo dio el estadístico alemán Alfred Müller; [1] las distancias también se habían llamado anteriormente "métricas con una estructura ζ ". [2]

Definición

Las métricas de probabilidad integral (IPM) son distancias en el espacio de distribuciones sobre un conjunto , definidas por una clase de funciones de valor real como

P ffP

Las funciones f que se optimizan a veces se denominan funciones "críticas"; [3] si un particular alcanza el supremo, a menudo se le denomina "función testigo" [4] (es "testigo" de la diferencia en las distribuciones). Estas funciones intentan tener valores grandes para muestras de P y valores pequeños (probablemente negativos) para muestras de Q ; Esto puede considerarse como una versión más débil de los clasificadores y, de hecho, los IPM pueden interpretarse como el riesgo óptimo de un clasificador en particular. [5] : seg. 4 

La elección de determina la distancia particular; más de uno puede generar la misma distancia. [1]

Para cualquier elección de , satisface todas las definiciones de una métrica excepto la que podemos tener para algún PQ ; esto se denomina " pseudométrico " o "semimétrico" según la comunidad. Por ejemplo, usar la clase que solo contiene la función cero es idénticamente cero. es una métrica si y sólo si separa puntos en el espacio de distribuciones de probabilidad, es decir, para cualquier PQ existe algo tal que ; [1] la mayoría de los casos particulares comunes, pero no todos, satisfacen esta propiedad.

Ejemplos

Todos estos ejemplos son métricas, excepto cuando se indique lo contrario.

Relación con f -divergencias

Las f -divergencias son probablemente la forma más conocida de medir la disimilitud de las distribuciones de probabilidad. Se ha demostrado [5] : sec. 2  que las únicas funciones que son a la vez IPM y f -divergencias son de la forma , donde y es la distancia de variación total entre distribuciones.

Una diferencia importante entre las f -divergencias y la mayoría de los IPM es que cuando P y Q tienen soporte disjunto, todas las f -divergencias toman un valor constante; [17] por el contrario, los IPM donde las funciones son "suaves" pueden dar "crédito parcial". Por ejemplo, considere la secuencia de medidas de Dirac en 1/ n ; esta secuencia converge en distribución a , y muchos IPM satisfacen , pero ninguna divergencia f distinta de cero puede satisfacer esto. Es decir, muchos IPM son continuos en topologías más débiles que f -divergencias. Esta propiedad es a veces de gran importancia, [18] aunque también existen otras opciones, como considerar f -divergencias entre distribuciones convolucionadas con ruido continuo. [18] [19]

Estimación a partir de muestras.

Debido a que los valores de IPM entre distribuciones discretas suelen ser sensatos, a menudo es razonable estimar utilizando un estimador simple "complementario": donde y son medidas empíricas de conjuntos de muestras. Estas distancias empíricas se pueden calcular exactamente para algunas clases ; [5] la calidad de la estimación varía dependiendo de la distancia, pero puede ser minimax-óptima en ciertas configuraciones. [14] [20] [21]

Cuando la maximización exacta no está disponible o es demasiado costosa, otro esquema comúnmente utilizado es dividir las muestras en conjuntos de "entrenamiento" (con medidas empíricas y ) y conjuntos de "prueba" ( y ), encontrar la maximización aproximada y luego utilizarla como estimación. [22] [12] [23] [24] Este estimador posiblemente puede ser consistente , pero tiene un sesgo negativo [22] : thm. 2  . De hecho, no puede existir ningún estimador insesgado para ningún MIP [22] : thm. 3  , aunque existe, por ejemplo, un estimador insesgado de la discrepancia media máxima al cuadrado . [4]

Referencias

  1. ^ abc Müller, Alfred (junio de 1997). "Métricas de probabilidad integral y sus clases de funciones generadoras". Avances en probabilidad aplicada . 29 (2): 429–443. doi :10.2307/1428011. JSTOR  1428011. S2CID  124648603.
  2. ^ Zolotarev, VM (enero de 1984). "Métricas de probabilidad". Teoría de la probabilidad y sus aplicaciones . 28 (2): 278–302. doi :10.1137/1128025.
  3. ^ Arjovsky, Martín; Chintala, Soumith; Bottou, León (17 de julio de 2017). "Redes antagónicas generativas de Wasserstein". Congreso Internacional sobre Aprendizaje Automático . PMLR: 214–223.
  4. ^ ab Gretton, Arthur; Borgwardt, Karsten M.; Rasche, Malte J.; Schölkopf, Bernhard; Smola, Alejandro (2012). "Una prueba de dos muestras del kernel" (PDF) . Revista de investigación sobre aprendizaje automático . 13 : 723–773.
  5. ^ abc Sriperumbudur, Bharath K.; Fukumizu, Kenji; Gretton, Arturo; Schölkopf, Bernhard ; Lanckriet, Gert RG (2009). "Sobre métricas de probabilidad integral, φ-divergencias y clasificación binaria". arXiv : 0901.2698 [cs.IT].
  6. ^ Fukumizu, Kenji; Gretton, Arturo; Sol, Xiaohui; Schölkopf, Bernhard (2007). "Medidas fundamentales de dependencia condicional". Avances en los sistemas de procesamiento de información neuronal .
  7. ^ Sejdinovic, Dino; Sriperumbudur, Bharat; Gretton, Arturo; Fukumizu, Kenji (2013). "Equivalencia de estadísticas basadas en distancia y RKHS en pruebas de hipótesis". Los anales de la estadística . 41 (5): 2263–2291. arXiv : 1207.6076 . doi :10.1214/13-aos1140. S2CID  8308769.
  8. ^ Mroueh, Youssef; Li, Chun-Liang; Sercu, Tom; Raj, Anant; Cheng, Yu (2018). "Sobolev GAN". Conferencia Internacional sobre Representaciones del Aprendizaje . arXiv : 1711.04894 .
  9. ^ Uppal, Ananya; Singh, Shashank; Póczos, Barnabás (2019). "Estimación de densidad no paramétrica y tasas de convergencia para GAN bajo pérdidas de IPM de Besov". Avances en los sistemas de procesamiento de información neuronal . arXiv : 1902.03511 .
  10. ^ Uppal, Ananya; Singh, Shashank; Póczos, Barnabás (2020). "Estimación robusta de la densidad según las pérdidas de IPM de Besov". Avances en los sistemas de procesamiento de información neuronal . arXiv : 2004.08597 .
  11. ^ Kim, Ilmun; Ramdas, Aaditya; Singh, Aarti; Wasserman, Larry (febrero de 2021). "Precisión de clasificación como indicador para pruebas de dos muestras". Los anales de la estadística . 49 (1). arXiv : 1703.00573 . doi :10.1214/20-AOS1962. S2CID  17668083.
  12. ^ ab López-Paz, David; Oquab, Maxime (2017). "Revisión de las pruebas de dos muestras del clasificador". Conferencia Internacional sobre Representaciones del Aprendizaje . arXiv : 1610.06545 .
  13. ^ ab Arora, Sanjeev ; Ge, Rong; Liang, Yingyu; Mamá, Tengyu; Zhang, Yi (2017). "Generalización y equilibrio en redes generativas adversarias (GAN)". Congreso Internacional sobre Aprendizaje Automático . arXiv : 1703.00573 .
  14. ^ ab Ji, Kaiyi; Liang, Yingbin (2018). "Estimación minimax de la distancia neta neuronal". Avances en los sistemas de procesamiento de información neuronal . arXiv : 1811.01054 .
  15. ^ Stanczuk, enero; Etmann, cristiano; Lisa María Kreusser; Schönlieb, Carola-Bibiane (2021). "Las GAN de Wasserstein funcionan porque fallan (para aproximar la distancia de Wasserstein)". arXiv : 2103.01678 [estad.ML].
  16. ^ Mallasto, Antón; Montúfar, Guido; Gerolín, Augusto (2019). "¿Qué tan bien estiman las WGAN la métrica de Wasserstein?". arXiv : 1910.03875 [cs.LG].
  17. ^ Sutherland, Danica J. "Cálculo de la divergencia de Jensen-Shannon entre distribución discreta y continua". Red de intercambio de pila . Consultado el 18 de julio de 2023 .
  18. ^ ab Arjovsky, Martín; Bettou, León (2017). "Hacia métodos basados ​​en principios para la formación de redes generativas adversas". Conferencia Internacional sobre Representaciones del Aprendizaje . arXiv : 1701.04862 .
  19. ^ Sonderby, Casper Kaae; Caballero, José; Teis, Lucas; Shi, Wenzhe; Huszár, Ferenc (2017). "Inferencia MAP amortizada para superresolución de imágenes". Conferencia Internacional sobre Representaciones del Aprendizaje . Apéndice C. arXiv : 1610.04490 .
  20. ^ Tolstikhin, Ilya O.; Sriperumbudur, Bharath K.; Schölkopf, Bernhard (2016). "Estimación Minimax de la discrepancia media máxima con núcleos radiales". Avances en los sistemas de procesamiento de información neuronal .
  21. ^ Singh, Shashank; Póczos, Barnabás (2018). "Estimación de distribución minimax en distancia de Wasserstein". arXiv : 1802.08855 [matemáticas.ST].
  22. ^ abc Bińkowski, Mikołaj; Sutherland, Danica J.; Arbel, Michael; Gretton, Arturo (2018). "Desmitificando las GAN MMD". Conferencia Internacional sobre Representaciones del Aprendizaje . arXiv : 1801.01401 .
  23. ^ Liu, Feng; Xu, Wenkai; Lu, Jie; Zhang, Guangquan; Gretton, Arturo; Sutherland, Danica J. (2020). "Aprendizaje de núcleos profundos para pruebas no paramétricas de dos muestras". Congreso Internacional sobre Aprendizaje Automático . arXiv : 2002.09116 .
  24. ^ Kübler, Jonas M.; Jitkrittum, Wittawat; Schölkopf, Bernhard ; Muandent, Krikamol (2021). "Una prueba de dos muestras de testigos". Congreso Internacional sobre Inteligencia Artificial y Estadística . arXiv : 2102.05573 .