Métrica de probabilidad integral

En teoría de la probabilidad , las métricas de probabilidad integral son tipos de funciones de distancia entre distribuciones de probabilidad , definidas por qué tan bien una clase de funciones puede distinguir las dos distribuciones. Muchas distancias estadísticas importantes son métricas de probabilidad integral, incluida la distancia de Wasserstein-1 y la distancia de variación total . Además de su importancia teórica, las métricas de probabilidad integral se utilizan ampliamente en áreas de estadística y aprendizaje automático .

El nombre "métrica de probabilidad integral" lo dio el estadístico alemán Alfred Müller; ^[1] las distancias también se habían llamado anteriormente "métricas con una estructura $ζ$ ". ^[2]

Definición

Las métricas de probabilidad integral (IPM) son distancias en el espacio de distribuciones sobre un conjunto , definidas por una clase de funciones de valor real como ${\mathcal {X}}$ ${\mathcal {F}}$ ${\mathcal {X}}$

D_{\mathcal {F}}(P,Q)=\sup _ {f\in {\mathcal {F}}}{\big |}\mathbb {E} _ {X\sim P}f (X)-\mathbb {E} _{Y\sim Q}f(Y){\big |}=\sup _{f\in {\mathcal {F}}}{\big |}Pf-Qf{ \grande |};

P

f

f

P

f\in {\mathcal {F}}

-f

{\mathcal {F}}

Las funciones $f$ que se optimizan a veces se denominan funciones "críticas"; ^[3] si un particular alcanza el supremo, a menudo se le denomina "función testigo" ^[4] (es "testigo" de la diferencia en las distribuciones). Estas funciones intentan tener valores grandes para muestras de $P$ y valores pequeños (probablemente negativos) para muestras de $Q$ ; Esto puede considerarse como una versión más débil de los clasificadores y, de hecho, los IPM pueden interpretarse como el riesgo óptimo de un clasificador en particular. ^[5]^{: seg. 4} $f^{*}\in {\mathcal {F}}$

La elección de determina la distancia particular; más de uno puede generar la misma distancia. ^[1] ${\mathcal {F}}$ ${\mathcal {F}}$

Para cualquier elección de , satisface todas las definiciones de una métrica excepto la que podemos tener para algún $P$ $\neq$ $Q$ ; esto se denomina " pseudométrico " o "semimétrico" según la comunidad. Por ejemplo, usar la clase que solo contiene la función cero es idénticamente cero. es una métrica si y sólo si separa puntos en el espacio de distribuciones de probabilidad, es decir, para cualquier $P$ $\neq$ $Q$ existe algo tal que ; ^[1] la mayoría de los casos particulares comunes, pero no todos, satisfacen esta propiedad. ${\mathcal {F}}$ $D_{\mathcal {F}}$ $D_{\mathcal {F}}(P,Q)=0$ ${\mathcal {F}}=\{x\mapsto 0\}$ $D_{\mathcal {F}}(P,Q)$ $D_{\mathcal {F}}$ ${\mathcal {F}}$ $f\in {\mathcal {F}}$ $Pf\neq Qf$

Ejemplos

Todos estos ejemplos son métricas, excepto cuando se indique lo contrario.

La distancia de Wasserstein-1 (también llamada distancia del motor de tierra ), a través de su representación dual , tiene el conjunto de funciones 1- Lipschitz . ${\mathcal {F}}$
La métrica de Dudley relacionada se genera mediante el conjunto de funciones acotadas de 1-Lipschitz.
La distancia de variación total puede ser generada por , por lo que es un conjunto de funciones indicadoras para cualquier evento, o por la clase más grande . ${\mathcal {F}}=\{f:{\mathcal {X}}\to \{0,1\}\}$ ${\mathcal {F}}$ ${\mathcal {F}}=\{f:{\mathcal {X}}\to [0,1]\}$
La métrica de radón, estrechamente relacionada, se genera mediante funciones continuas limitadas en $[-1, 1]$ .
La métrica de Kolmogorov utilizada en la prueba de Kolmogorov-Smirnov tiene una clase de función de funciones indicadoras . ${\mathcal {F}}=\{1_{(-\infty ,t]}:t\in \mathbb {R} \}$
La discrepancia media máxima del kernel (MMD) tiene la bola unitaria en un espacio de Hilbert del kernel reproductivo . Esta distancia es particularmente fácil de estimar a partir de muestras y no requiere optimización; es una métrica adecuada exactamente cuando el núcleo subyacente es característico. ^[6] ${\mathcal {F}}$
La distancia de energía , como un caso especial de la discrepancia media máxima, ^[7] es generada por la bola unitaria en un espacio de Hilbert de núcleo de reproducción particular .
Definir por funciones con una norma de Sobolev acotada proporciona una distancia útil para el modelado generativo , entre otras aplicaciones. ^[8] ${\mathcal {F}}$
Las funciones con norma de Besov acotada generalizan muchas otras formas de MIP y son susceptibles de análisis teórico. ^[9]^[10]
Muchas variantes de redes generativas adversarias y pruebas de dos muestras basadas en clasificadores ^[11]^[12] utilizan una "distancia neta neuronal" ^[13]^[14] donde es una clase de redes neuronales ; Estas no son métricas para redes típicas de tamaño fijo, pero podrían serlo para otros clasificadores. Para las GAN de Wasserstein en particular, se ha argumentado que el análisis en términos de esta distancia y no del Wasserstein al que se aproximan es muy importante para el comportamiento de estos modelos. ^[13]^[15]^[16] ${\mathcal {F}}$

Relación con f -divergencias

Las $f$ -divergencias son probablemente la forma más conocida de medir la disimilitud de las distribuciones de probabilidad. Se ha demostrado ^[5]^{: sec. 2} que las únicas funciones que son a la vez IPM y $f$ -divergencias son de la forma , donde y es la distancia de variación total entre distribuciones. $c\,\operatorname {TV} (P,Q)$ $c\en [0,\infty]$ $\operatorname {TV}$

Una diferencia importante entre $las f$ -divergencias y la mayoría de los IPM es que cuando $P$ y $Q$ tienen soporte disjunto, todas $las f$ -divergencias toman un valor constante; ^[17] por el contrario, los IPM donde las funciones son "suaves" pueden dar "crédito parcial". Por ejemplo, considere la secuencia de medidas de Dirac en $1/$ $n$ ; esta secuencia converge en distribución a , y muchos IPM satisfacen , pero ninguna divergencia $f$ distinta de cero puede satisfacer esto. Es decir, muchos IPM son continuos en topologías más débiles que $f$ -divergencias. Esta propiedad es a veces de gran importancia, ^[18] aunque también existen otras opciones, como considerar $f$ -divergencias entre distribuciones convolucionadas con ruido continuo. ^[18]^[19] ${\mathcal {F}}$ $\delta _{1/n}$ $\delta _{0}$ $D_{\mathcal {F}}(\delta _ {1/n},\delta _ {0})\to 0$

Estimación a partir de muestras.

Debido a que los valores de IPM entre distribuciones discretas suelen ser sensatos, a menudo es razonable estimar utilizando un estimador simple "complementario": donde y son medidas empíricas de conjuntos de muestras. Estas distancias empíricas se pueden calcular exactamente para algunas clases ; ^[5] la calidad de la estimación varía dependiendo de la distancia, pero puede ser minimax-óptima en ciertas configuraciones. ^[14]^[20]^[21] $D_{\mathcal {F}}(P,Q)$ $D_{\mathcal {F}}({\sombrero {P}},{\sombrero {Q}})$ ${\sombrero {P}}$ ${\sombrero {Q}}$ ${\mathcal {F}}$

Cuando la maximización exacta no está disponible o es demasiado costosa, otro esquema comúnmente utilizado es dividir las muestras en conjuntos de "entrenamiento" (con medidas empíricas y ) y conjuntos de "prueba" ( y ), encontrar la maximización aproximada y luego utilizarla como estimación. ^[22]^[12]^[23]^[24] Este estimador posiblemente puede ser consistente , pero tiene un sesgo negativo ^[22]^{: thm. 2} . De hecho, no puede existir ningún estimador insesgado para ningún MIP ^[22]^{: thm. 3} , aunque existe, por ejemplo, un estimador insesgado de la discrepancia media máxima al cuadrado . ^[4] ${\hat {P}}_{\mathit {train}}$ ${\hat {Q}}_{\mathit {train}}$ ${\hat {P}}_{\mathit {test}}$ ${\hat {Q}}_{\mathit {test}}$ ${\hat {f}}$ ${\big |}{\hat {P}}_{\mathit {train}}f-{\hat {Q}}_{\mathit {train}}f{\big |}$ ${\big |}{\hat {P}}_{\mathit {test}}{\hat {f}}-{\hat {Q}}_{\mathit {test}}{\hat {f}}{\big |}$

Referencias

^ abc Müller, Alfred (junio de 1997). "Métricas de probabilidad integral y sus clases de funciones generadoras". Avances en probabilidad aplicada . 29 (2): 429–443. doi :10.2307/1428011. JSTOR 1428011. S2CID 124648603.
^ Zolotarev, VM (enero de 1984). "Métricas de probabilidad". Teoría de la probabilidad y sus aplicaciones . 28 (2): 278–302. doi :10.1137/1128025.
^ Arjovsky, Martín; Chintala, Soumith; Bottou, León (17 de julio de 2017). "Redes antagónicas generativas de Wasserstein". Congreso Internacional sobre Aprendizaje Automático . PMLR: 214–223.
^ ab Gretton, Arthur; Borgwardt, Karsten M.; Rasche, Malte J.; Schölkopf, Bernhard; Smola, Alejandro (2012). "Una prueba de dos muestras del kernel" (PDF) . Revista de investigación sobre aprendizaje automático . 13 : 723–773.
^ abc Sriperumbudur, Bharath K.; Fukumizu, Kenji; Gretton, Arturo; Schölkopf, Bernhard ; Lanckriet, Gert RG (2009). "Sobre métricas de probabilidad integral, φ-divergencias y clasificación binaria". arXiv : 0901.2698 [cs.IT].
^ Fukumizu, Kenji; Gretton, Arturo; Sol, Xiaohui; Schölkopf, Bernhard (2007). "Medidas fundamentales de dependencia condicional". Avances en los sistemas de procesamiento de información neuronal .
^ Sejdinovic, Dino; Sriperumbudur, Bharat; Gretton, Arturo; Fukumizu, Kenji (2013). "Equivalencia de estadísticas basadas en distancia y RKHS en pruebas de hipótesis". Los anales de la estadística . 41 (5): 2263–2291. arXiv : 1207.6076 . doi :10.1214/13-aos1140. S2CID 8308769.
^ Mroueh, Youssef; Li, Chun-Liang; Sercu, Tom; Raj, Anant; Cheng, Yu (2018). "Sobolev GAN". Conferencia Internacional sobre Representaciones del Aprendizaje . arXiv : 1711.04894 .
^ Uppal, Ananya; Singh, Shashank; Póczos, Barnabás (2019). "Estimación de densidad no paramétrica y tasas de convergencia para GAN bajo pérdidas de IPM de Besov". Avances en los sistemas de procesamiento de información neuronal . arXiv : 1902.03511 .
^ Uppal, Ananya; Singh, Shashank; Póczos, Barnabás (2020). "Estimación robusta de la densidad según las pérdidas de IPM de Besov". Avances en los sistemas de procesamiento de información neuronal . arXiv : 2004.08597 .
^ Kim, Ilmun; Ramdas, Aaditya; Singh, Aarti; Wasserman, Larry (febrero de 2021). "Precisión de clasificación como indicador para pruebas de dos muestras". Los anales de la estadística . 49 (1). arXiv : 1703.00573 . doi :10.1214/20-AOS1962. S2CID 17668083.
^ ab López-Paz, David; Oquab, Maxime (2017). "Revisión de las pruebas de dos muestras del clasificador". Conferencia Internacional sobre Representaciones del Aprendizaje . arXiv : 1610.06545 .
^ ab Arora, Sanjeev ; Ge, Rong; Liang, Yingyu; Mamá, Tengyu; Zhang, Yi (2017). "Generalización y equilibrio en redes generativas adversarias (GAN)". Congreso Internacional sobre Aprendizaje Automático . arXiv : 1703.00573 .
^ ab Ji, Kaiyi; Liang, Yingbin (2018). "Estimación minimax de la distancia neta neuronal". Avances en los sistemas de procesamiento de información neuronal . arXiv : 1811.01054 .
^ Stanczuk, enero; Etmann, cristiano; Lisa María Kreusser; Schönlieb, Carola-Bibiane (2021). "Las GAN de Wasserstein funcionan porque fallan (para aproximar la distancia de Wasserstein)". arXiv : 2103.01678 [estad.ML].
^ Mallasto, Antón; Montúfar, Guido; Gerolín, Augusto (2019). "¿Qué tan bien estiman las WGAN la métrica de Wasserstein?". arXiv : 1910.03875 [cs.LG].
^ Sutherland, Danica J. "Cálculo de la divergencia de Jensen-Shannon entre distribución discreta y continua". Red de intercambio de pila . Consultado el 18 de julio de 2023 .
^ ab Arjovsky, Martín; Bettou, León (2017). "Hacia métodos basados en principios para la formación de redes generativas adversas". Conferencia Internacional sobre Representaciones del Aprendizaje . arXiv : 1701.04862 .
^ Sonderby, Casper Kaae; Caballero, José; Teis, Lucas; Shi, Wenzhe; Huszár, Ferenc (2017). "Inferencia MAP amortizada para superresolución de imágenes". Conferencia Internacional sobre Representaciones del Aprendizaje . Apéndice C. arXiv : 1610.04490 .
^ Tolstikhin, Ilya O.; Sriperumbudur, Bharath K.; Schölkopf, Bernhard (2016). "Estimación Minimax de la discrepancia media máxima con núcleos radiales". Avances en los sistemas de procesamiento de información neuronal .
^ Singh, Shashank; Póczos, Barnabás (2018). "Estimación de distribución minimax en distancia de Wasserstein". arXiv : 1802.08855 [matemáticas.ST].
^ abc Bińkowski, Mikołaj; Sutherland, Danica J.; Arbel, Michael; Gretton, Arturo (2018). "Desmitificando las GAN MMD". Conferencia Internacional sobre Representaciones del Aprendizaje . arXiv : 1801.01401 .
^ Liu, Feng; Xu, Wenkai; Lu, Jie; Zhang, Guangquan; Gretton, Arturo; Sutherland, Danica J. (2020). "Aprendizaje de núcleos profundos para pruebas no paramétricas de dos muestras". Congreso Internacional sobre Aprendizaje Automático . arXiv : 2002.09116 .
^ Kübler, Jonas M.; Jitkrittum, Wittawat; Schölkopf, Bernhard ; Muandent, Krikamol (2021). "Una prueba de dos muestras de testigos". Congreso Internacional sobre Inteligencia Artificial y Estadística . arXiv : 2102.05573 .