stringtranslate.com

Métrica de Wasserstein

En matemáticas , la distancia de Wasserstein o métrica de Kantorovich - Rubinstein es una función de distancia definida entre distribuciones de probabilidad en un espacio métrico determinado . Lleva el nombre de Leonid Vaseršteĭn .

Intuitivamente, si cada distribución se ve como una unidad de cantidad de tierra (suelo) apilada , la métrica es el "coste" mínimo de convertir un montón en otro, que se supone que es la cantidad de tierra que se debe mover veces. la distancia media que debe moverse. Este problema fue formalizado por primera vez por Gaspard Monge en 1781. Debido a esta analogía, la métrica se conoce en informática como distancia del motor de la tierra .

El nombre "distancia de Wasserstein" fue acuñado por RL Dobrushin en 1970, después de conocerlo en el trabajo de Leonid Vaseršteĭn sobre los procesos de Markov que describen grandes sistemas de autómatas [1] (Russian, 1969). Sin embargo, la métrica fue definida por primera vez por Leonid Kantorovich en El método matemático de planificación y organización de la producción [2] (original ruso de 1939) en el contexto de la planificación óptima del transporte de bienes y materiales. Por tanto, algunos estudiosos fomentan el uso de los términos "métrica de Kantorovich" y "distancia de Kantorovich". La mayoría de las publicaciones en inglés utilizan la ortografía alemana "Wasserstein" (atribuida al nombre "Vaseršteĭn" (ruso: Васерштейн ) de origen yiddish ).

Definición

Sea un espacio métrico que es un espacio polaco . Para , la distancia de Wasserstein entre dos medidas de probabilidad y con momentos finitos es

los acoplamientosnorma supremade probabilidad conjuntamarginales

Intuición y conexión con un transporte óptimo

Dos distribuciones unidimensionales y , trazadas en los ejes x e y, y una posible distribución conjunta que define un plan de transporte entre ellas. El plan conjunto de distribución y transporte no es único

Una forma de entender la definición anterior es considerar el problema de transporte óptimo . Es decir, para una distribución de masa en un espacio , deseamos transportar la masa de tal manera que se transforme en la distribución en el mismo espacio; transformando el 'montón de tierra' en el montón . Este problema sólo tiene sentido si el pilote a crear tiene la misma masa que el pilote a mover; por lo tanto, sin pérdida de generalidad, supongamos que y son distribuciones de probabilidad que contienen una masa total de 1. Supongamos también que existe alguna función de costos

que da el costo de transportar una unidad de masa de un punto a otro . Un plan de transporte al que moverse se puede describir mediante una función que proporciona la cantidad de masa a mover . Puedes imaginar la tarea como la necesidad de mover un montón de tierra con forma al agujero en el suelo de tal manera que al final, tanto el montón de tierra como el agujero en el suelo desaparezcan por completo. Para que este plan sea significativo, debe satisfacer las siguientes propiedades:

  1. la cantidad de tierra movida fuera del punto debe ser igual a la cantidad que había allí al principio; eso es,
    y
  2. la cantidad de tierra movida hasta el punto debe ser igual a la profundidad del agujero que había al principio; eso es,

Es decir, que la masa total que se mueve fuera de una región infinitesimal alrededor debe ser igual a y la masa total que se mueve hacia una región alrededor debe ser . Esto equivale al requisito de que sea una distribución de probabilidad conjunta con marginales y . Por lo tanto, la masa infinitesimal transportada desde a es y el costo del traslado es , siguiendo la definición de la función de costo. Por tanto, el coste total de un plan de transporte es

El plan no es único; El plan de transporte óptimo es el plan con el costo mínimo de todos los planes de transporte posibles. Como se mencionó, el requisito para que un plan sea válido es que sea una distribución conjunta con marginales y ; dejando denotar el conjunto de todas las medidas como en la primera sección, el costo del plan óptimo es

Ejemplos

Masas puntuales

Distribuciones deterministas

Sean y dos distribuciones degeneradas (es decir, distribuciones delta de Dirac ) ubicadas en puntos y en . Sólo existe un acoplamiento posible de estas dos medidas, a saber, la masa puntual ubicada en . Por lo tanto, utilizando la función de valor absoluto habitual como función de distancia en , para cualquier , la distancia de -Wasserstein entre y es

norma euclidiana

Distribuciones empíricas

Una dimensión

Si es una medida empírica con muestras y es una medida empírica con muestras , la distancia es una función simple del estadístico de orden :

Dimensiones más altas

Si y son distribuciones empíricas, cada una basada en observaciones, entonces

donde el mínimo está sobre todas las permutaciones de elementos. Éste es un problema de asignación lineal y puede resolverse mediante el algoritmo húngaro en tiempo cúbico .

Distribuciones normales

Sean y dos medidas gaussianas no degeneradas (es decir, distribuciones normales ) en , con respectivos valores esperados y matrices de covarianza semidefinidas positivas simétricas y . Entonces, [3] con respecto a la norma euclidiana habitual en , la distancia de 2-Wasserstein entre y es

raíz cuadrada principalmétrica de Buresde traza

Distribuciones unidimensionales

Sean medidas de probabilidad en , y denotemos sus funciones de distribución acumuladas por y . Entonces el problema de transporte tiene una solución analítica: el transporte óptimo preserva el orden de los elementos de masa de probabilidad, por lo que la masa en el cuantil de se mueve al cuantil de . Por tanto, la distancia de -Wasserstein entre y es

funciones cuantiles

Aplicaciones

La métrica de Wasserstein es una forma natural de comparar las distribuciones de probabilidad de dos variables X e Y , donde una variable se deriva de la otra mediante perturbaciones pequeñas y no uniformes (aleatorias o deterministas).

En informática, por ejemplo, la métrica W 1 se utiliza ampliamente para comparar distribuciones discretas, por ejemplo, los histogramas de color de dos imágenes digitales ; consulte la distancia del motor de tierra para obtener más detalles.

En su artículo ' Wasserstein GAN ', Arjovsky et al. [4] utilizan la métrica Wasserstein-1 como una forma de mejorar el marco original de Generative Adversarial Networks (GAN), para aliviar los problemas de desaparición del gradiente y colapso del modo. El caso especial de distribuciones normales se utiliza en una Distancia de inicio de Frechet .

La métrica de Wasserstein tiene un vínculo formal con el análisis de Procrustes , con aplicación a medidas de quiralidad, [5] y al análisis de formas. [6]

En biología computacional, la métrica de Wasserstein se puede utilizar para comparar diagramas de persistencia de conjuntos de datos de citometría. [7]

La métrica de Wasserstein también se ha utilizado en problemas inversos en geofísica. [8]

La métrica de Wasserstein se utiliza en la teoría de la información integrada para calcular la diferencia entre conceptos y estructuras conceptuales. [9]

La métrica de Wasserstein y formulaciones relacionadas también se han utilizado para proporcionar una teoría unificada para el análisis de formas observables en conjuntos de datos de física de colisionadores y alta energía. [10] [11]

Propiedades

Estructura métrica

Se puede demostrar que W p satisface todos los axiomas de una métrica en el espacio de Wasserstein P p ( M ) que consta de todas las medidas de probabilidad de Borel en M que tienen un momento p finito . Además, la convergencia con respecto a W p es equivalente a la habitual convergencia débil de medidas más la convergencia de los primeros p- ésimos momentos. [12]

Representación dual de W 1

La siguiente representación dual de W 1 es un caso especial del teorema de dualidad de Kantorovich y Rubinstein (1958): cuando μ y ν tienen soporte acotado ,

donde Lip( f ) denota la constante mínima de Lipschitz para f . Esta forma muestra que W 1 es una métrica de probabilidad integral .

Compare esto con la definición de la métrica del radón :

Si la métrica d del espacio métrico (M,d) está limitada por alguna constante C , entonces

y así la convergencia en la métrica del Radón (idéntica a la convergencia de la variación total cuando M es un espacio polaco ) implica convergencia en la métrica de Wasserstein, pero no al revés.

Prueba

La siguiente es una prueba intuitiva que omite puntos técnicos. Una prueba totalmente rigurosa se encuentra en. [13]

Caso discreto : cuando es discreto, resolver la distancia de 1-Wasserstein es un problema de programación lineal:

Al escribir cuidadosamente las ecuaciones anteriores como ecuaciones matriciales, obtenemos su problema dual : [14]

teorema de dualidad de la programación linealuna fuerte dualidad

Para el caso general, el problema dual se encuentra convirtiendo sumas a integrales:

fuerte dualidadteorema de la dualidad de KantorovichCédric VillaniLuis Caffarelli[15]

Supongamos que desea enviar algo de carbón desde las minas, distribuido como , a las fábricas, distribuido como . La función de costos del transporte es . Ahora viene un transportista y se ofrece a hacer el transporte por usted. Le pagaría por carbón por cargar el carbón en y le pagaría por carbón por descargar el carbón en .

Para que usted acepte el trato, la lista de precios debe satisfacer . La dualidad de Kantorovich establece que el transportista puede elaborar un programa de precios que le haga pagar casi tanto como lo haría usted mismo.

Este resultado se puede presionar más para obtener:

Teorema  (dualidad de Kantorovich-Rubenstein)  :  cuando el espacio de probabilidad es un espacio métrico, entonces, para cualquier fijo ,

¿ Dónde está la norma de Lipschitz ?
Prueba

Basta probar el caso de . Empezar con

Luego, para cualquier elección de , se puede aumentar el término estableciendo , convirtiéndolo en una convolución mínima de con un cono. Esto implica para cualquier , es decir ,.

De este modo,

A continuación, para cualquier elección , se puede optimizar configurando . Desde entonces , esto implica .
Convolución íntima de un cono con curva. Observe cómo la envolvente inferior tiene pendiente y cómo la envolvente inferior es igual a la curva en las partes donde la curva misma tiene pendiente .

Los dos pasos mínimos de convolución son visualmente claros cuando el espacio de probabilidad es .

Por conveniencia de notación, denotemos la operación de convolución mínima.

Para el primer paso, donde usamos , trace la curva de , luego en cada punto, dibuje un cono de pendiente 1 y tome la envolvente inferior de los conos como se muestra en el diagrama, luego no puede aumentar con una pendiente mayor que 1. Por tanto, todas sus secantes tienen pendiente .

Para el segundo paso, imagine la convolución mínima , luego, si todas las secantes de tienen pendiente como máximo 1, entonces la envolvente inferior de son solo los ápices de los conos, por lo tanto .

Ejemplo 1D . Cuando ambas son distribuciones , entonces la integración por partes da

Interpretación de la mecánica de fluidos de W 2.

Benamou y Brenier encontraron una representación dual de la mecánica de fluidos , que permite una solución eficiente mediante optimización convexa . [16] [17]

Dadas dos densidades de probabilidad en ,

ecuación de continuidad

Equivalencia de W 2 y una norma de Sobolev de orden negativo

Bajo supuestos adecuados, la distancia de Wasserstein de orden dos es equivalente de Lipschitz a una norma de Sobolev homogénea de orden negativo . Más precisamente, si tomamos como una variedad de Riemann conexa equipada con una medida positiva , entonces podemos definir para la seminorma

medida firmada
[18]
medida de volumen estándarcurvatura de Ricci[19] [20]

Separabilidad e integridad

Para cualquier p ≥ 1, el espacio métrico ( P p ( M ), W p ) es separable y está completo si ( M , d ) es separable y completo. [21]

Distancia de Wasserstein para p =∞

También es posible considerar la métrica de Wasserstein para . En este caso, la fórmula definitoria pasa a ser:

supremo esencialP MW MdP [22]

Ver también

Referencias

  1. ^ Vaserstein LN (1969). "Markov procesa innumerables productos de espacios, describiendo grandes sistemas de autómatas" (PDF) . Problema Peredači Informacii . 5 (3): 64–72.
  2. ^ Kantorovich LV (1939). "Métodos matemáticos de organización y planificación de la producción". Ciencias de la gestión . 6 (4): 366–422. doi :10.1287/mnsc.6.4.366. JSTOR  2627082.
  3. ^ Olkin I, Pukelsheim F (octubre de 1982). "La distancia entre dos vectores aleatorios con matrices de dispersión dadas". Álgebra lineal y sus aplicaciones . 48 : 257–263. doi : 10.1016/0024-3795(82)90112-4 . ISSN  0024-3795.
  4. ^ Arjovsky M, Chintala S, Bottou L (julio de 2017). "Redes antagónicas generativas de Wasserstein". Conferencia internacional sobre aprendizaje automático 214-223 : 214–223.
  5. ^ Petitjean M (2002). «Mezclas quirales» (PDF) . Revista de Física Matemática . 43 (8): 4147–4157. Código Bib : 2002JMP....43.4147P. doi : 10.1063/1.1484559. S2CID  85454709.
  6. ^ Petitjean M (2004). "De la similitud de formas a la complementariedad de formas: hacia una teoría del acoplamiento". Revista de Química Matemática . 35 (3): 147-158. doi :10.1023/B:JOMC.0000033252.59423.6b. S2CID  121320315.
  7. ^ Mukherjee S, Wethington D, Dey TK, Das J (marzo de 2022). "Determinación de características clínicamente relevantes en datos de citometría mediante homología persistente". PLOS Biología Computacional . 18 (3): e1009931. arXiv : 2203.06263 . Código Bib : 2022PLSCB..18E9931M. doi : 10.1371/journal.pcbi.1009931 . PMC 9009779 . PMID  35312683. 
  8. ^ Federico, Cristina; Yang, Yunan (6 de mayo de 2022). "Ver a través de la roca con la ayuda de un transporte óptimo". Instantáneas de las matemáticas modernas de Oberwolfach . doi :10.14760/SNAP-2022-004-ES.
  9. ^ Oizumi, Masafumi; Albantakis, Larisa; Tononi, Giulio (8 de mayo de 2014). "De la fenomenología a los mecanismos de la conciencia: teoría integrada de la información 3.0". PLOS Biología Computacional . 10 (5): e1003588. Código Bib : 2014PLSCB..10E3588O. doi : 10.1371/journal.pcbi.1003588 . PMC 4014402 . PMID  24811198. 
  10. ^ Ba, Demba; Dogra, Akshunna S.; Gambhir, Rikab; Tasissa, Abiy; Thaler, Jesse (29 de junio de 2023). "SHAPER: ¿puedes oír la forma de un jet?". Revista de Física de Altas Energías . 2023 (6): 195. arXiv : 2302.12266 . Código Bib : 2023JHEP...06..195B. doi :10.1007/JHEP06(2023)195. ISSN  1029-8479. S2CID  257205971.
  11. ^ "Premios, becas y la forma de la física: noticias de la universidad | Imperial News | Imperial College London". Noticias imperiales . 2023-03-29 . Consultado el 31 de octubre de 2023 .
  12. ^ Clemente P, Desch W (2008). "Una prueba elemental de la desigualdad triangular para la métrica de Wasserstein". Actas de la Sociedad Matemática Estadounidense . 136 (1): 333–339. doi : 10.1090/S0002-9939-07-09020-X .
  13. ^ Villani, Cédric (2003). "Capítulo 1: La dualidad de Kantorovich". Temas en transporte óptimo. Providence, RI: Sociedad Estadounidense de Matemáticas. ISBN 0-8218-3312-X. OCLC  51477002.
  14. ^ Matoušek, Jiří; Gärtner, Bernd (2007), "Dualidad de la programación lineal", Comprensión y uso de la programación lineal, Universitext, Berlín, Heidelberg: Springer Berlin Heidelberg, págs. 81–104, doi :10.1007 / 978-3-540-30717-4_6, ISBN 978-3-540-30697-9, recuperado el 15 de julio de 2022
  15. ^ Villani, Cédric (2003). "1.1.3. El problema del transportista". Temas en transporte óptimo. Providence, RI: Sociedad Estadounidense de Matemáticas. ISBN 0-8218-3312-X. OCLC  51477002.
  16. ^ Benamou, Jean-David; Brenier, Yann (1 de enero de 2000). "Una solución de mecánica de fluidos computacional al problema de transferencia de masa de Monge-Kantorovich". Matemática numérica . 84 (3): 375–393. doi :10.1007/s002110050002. ISSN  0945-3245. S2CID  1100384.
  17. ^ Finlay, Chris; Jacobsen, Joern-Henrik; Nurbekyan, Levon; Oberman, Adam (21 de noviembre de 2020). "Cómo entrenar su ODA neuronal: el mundo de la regularización cinética y jacobiana". Congreso Internacional sobre Aprendizaje Automático . PMLR: 3154–3164. arXiv : 2002.02798 .
  18. ^ Peyre R (octubre de 2018). "Comparación entre la distancia W2 y la norma Ḣ-1, y localización de la distancia de Wasserstein". ESAIM: Control, Optimización y Cálculo de Variaciones . 24 (4): 1489-1501. doi : 10.1051/cocv/2017050 . ISSN  1292-8119.(Ver Teorema 2.1.)
  19. ^ Loeper G (julio de 2006). "Singularidad de la solución del sistema Vlasov-Poisson con densidad acotada". Revista de Mathématiques Pures et Appliquées . 86 (1): 68–79. arXiv : matemáticas/0504140 . doi : 10.1016/j.matpur.2006.01.005 . ISSN  1292-8119.(Ver Teorema 2.9.)
  20. ^ Peyre R (octubre de 2018). "Comparación entre la distancia W2 y la norma Ḣ-1, y localización de la distancia de Wasserstein". ESAIM: Control, Optimización y Cálculo de Variaciones . 24 (4): 1489-1501. doi : 10.1051/cocv/2017050 .(Ver Teorema 2.5.)
  21. ^ Bogachev VI, Kolesnikov AV (octubre de 2012). "El problema Monge-Kantorovich: logros, conexiones y perspectivas". Encuestas matemáticas rusas . 67 (5): 785–890. Código Bib : 2012RuMaS..67..785B. doi :10.1070/RM2012v067n05ABEH004808. S2CID  121411457.
  22. ^ Dados, Clark R; Shortt, Rae Michael (1984). "Una clase de métricas de Wasserstein para distribuciones de probabilidad". Revista de matemáticas de Michigan . 31 (2): 231–240. doi : 10.1307/mmj/1029003026 .

Otras lecturas

enlaces externos