Intuitivamente, si cada distribución se ve como una unidad de cantidad de tierra (suelo) apilada , la métrica es el "coste" mínimo de convertir un montón en otro, que se supone que es la cantidad de tierra que se debe mover veces. la distancia media que debe moverse. Este problema fue formalizado por primera vez por Gaspard Monge en 1781. Debido a esta analogía, la métrica se conoce en informática como distancia del motor de la tierra .
El nombre "distancia de Wasserstein" fue acuñado por RL Dobrushin en 1970, después de conocerlo en el trabajo de Leonid Vaseršteĭn sobre los procesos de Markov que describen grandes sistemas de autómatas [1] (Russian, 1969). Sin embargo, la métrica fue definida por primera vez por Leonid Kantorovich en El método matemático de planificación y organización de la producción [2] (original ruso de 1939) en el contexto de la planificación óptima del transporte de bienes y materiales. Por tanto, algunos estudiosos fomentan el uso de los términos "métrica de Kantorovich" y "distancia de Kantorovich". La mayoría de las publicaciones en inglés utilizan la ortografía alemana "Wasserstein" (atribuida al nombre "Vaseršteĭn" (ruso: Васерштейн ) de origen yiddish ).
Dos distribuciones unidimensionales y , trazadas en los ejes x e y, y una posible distribución conjunta que define un plan de transporte entre ellas. El plan conjunto de distribución y transporte no es único
Una forma de entender la definición anterior es considerar el problema de transporte óptimo . Es decir, para una distribución de masa en un espacio , deseamos transportar la masa de tal manera que se transforme en la distribución en el mismo espacio; transformando el 'montón de tierra' en el montón . Este problema sólo tiene sentido si el pilote a crear tiene la misma masa que el pilote a mover; por lo tanto, sin pérdida de generalidad, supongamos que y son distribuciones de probabilidad que contienen una masa total de 1. Supongamos también que existe alguna función de costos
que da el costo de transportar una unidad de masa de un punto a otro . Un plan de transporte al que moverse se puede describir mediante una función que proporciona la cantidad de masa a mover . Puedes imaginar la tarea como la necesidad de mover un montón de tierra con forma al agujero en el suelo de tal manera que al final, tanto el montón de tierra como el agujero en el suelo desaparezcan por completo. Para que este plan sea significativo, debe satisfacer las siguientes propiedades:
la cantidad de tierra movida fuera del punto debe ser igual a la cantidad que había allí al principio; eso es,
y
la cantidad de tierra movida hasta el punto debe ser igual a la profundidad del agujero que había al principio; eso es,
Es decir, que la masa total que se mueve fuera de una región infinitesimal alrededor debe ser igual a y la masa total que se mueve hacia una región alrededor debe ser . Esto equivale al requisito de que sea una distribución de probabilidad conjunta con marginales y . Por lo tanto, la masa infinitesimal transportada desde a es y el costo del traslado es , siguiendo la definición de la función de costo. Por tanto, el coste total de un plan de transporte es
El plan no es único; El plan de transporte óptimo es el plan con el costo mínimo de todos los planes de transporte posibles. Como se mencionó, el requisito para que un plan sea válido es que sea una distribución conjunta con marginales y ; dejando denotar el conjunto de todas las medidas como en la primera sección, el costo del plan óptimo es
Ejemplos
Masas puntuales
Distribuciones deterministas
Sean y dos distribuciones degeneradas (es decir, distribuciones delta de Dirac ) ubicadas en puntos y en . Sólo existe un acoplamiento posible de estas dos medidas, a saber, la masa puntual ubicada en . Por lo tanto, utilizando la función de valor absoluto habitual como función de distancia en , para cualquier , la distancia de -Wasserstein entre y es
Sean medidas de probabilidad en , y denotemos sus funciones de distribución acumuladas por y . Entonces el problema de transporte tiene una solución analítica: el transporte óptimo preserva el orden de los elementos de masa de probabilidad, por lo que la masa en el cuantil de se mueve al cuantil de . Por tanto, la distancia de -Wasserstein entre y es
La métrica de Wasserstein es una forma natural de comparar las distribuciones de probabilidad de dos variables X e Y , donde una variable se deriva de la otra mediante perturbaciones pequeñas y no uniformes (aleatorias o deterministas).
La métrica de Wasserstein tiene un vínculo formal con el análisis de Procrustes , con aplicación a medidas de quiralidad, [5] y al análisis de formas. [6]
En biología computacional, la métrica de Wasserstein se puede utilizar para comparar diagramas de persistencia de conjuntos de datos de citometría. [7]
La métrica de Wasserstein también se ha utilizado en problemas inversos en geofísica. [8]
La métrica de Wasserstein se utiliza en la teoría de la información integrada para calcular la diferencia entre conceptos y estructuras conceptuales. [9]
La métrica de Wasserstein y formulaciones relacionadas también se han utilizado para proporcionar una teoría unificada para el análisis de formas observables en conjuntos de datos de física de colisionadores y alta energía. [10] [11]
Propiedades
Estructura métrica
Se puede demostrar que W p satisface todos los axiomas de una métrica en el espacio de Wasserstein P p ( M ) que consta de todas las medidas de probabilidad de Borel en M que tienen un momento p finito . Además, la convergencia con respecto a W p es equivalente a la habitual convergencia débil de medidas más la convergencia de los primeros p- ésimos momentos. [12]
Representación dual de W 1
La siguiente representación dual de W 1 es un caso especial del teorema de dualidad de Kantorovich y Rubinstein (1958): cuando μ y ν tienen soporte acotado ,
Si la métrica d del espacio métrico (M,d) está limitada por alguna constante C , entonces
y así la convergencia en la métrica del Radón (idéntica a la convergencia de la variación total cuando M es un espacio polaco ) implica convergencia en la métrica de Wasserstein, pero no al revés.
Prueba
La siguiente es una prueba intuitiva que omite puntos técnicos. Una prueba totalmente rigurosa se encuentra en. [13]
Caso discreto : cuando es discreto, resolver la distancia de 1-Wasserstein es un problema de programación lineal:
Al escribir cuidadosamente las ecuaciones anteriores como ecuaciones matriciales, obtenemos su problema dual : [14]
Supongamos que desea enviar algo de carbón desde las minas, distribuido como , a las fábricas, distribuido como . La función de costos del transporte es . Ahora viene un transportista y se ofrece a hacer el transporte por usted. Le pagaría por carbón por cargar el carbón en y le pagaría por carbón por descargar el carbón en .
Para que usted acepte el trato, la lista de precios debe satisfacer . La dualidad de Kantorovich establece que el transportista puede elaborar un programa de precios que le haga pagar casi tanto como lo haría usted mismo.
Este resultado se puede presionar más para obtener:
Teorema (dualidad de Kantorovich-Rubenstein) : cuando el espacio de probabilidad es un espacio métrico, entonces, para cualquier fijo ,
Luego, para cualquier elección de , se puede aumentar el término estableciendo , convirtiéndolo en una convolución mínima de con un cono. Esto implica para cualquier , es decir ,.
De este modo,
A continuación, para cualquier elección , se puede optimizar configurando . Desde entonces , esto implica .
Convolución íntima de un cono con curva. Observe cómo la envolvente inferior tiene pendiente y cómo la envolvente inferior es igual a la curva en las partes donde la curva misma tiene pendiente .
Los dos pasos mínimos de convolución son visualmente claros cuando el espacio de probabilidad es .
Por conveniencia de notación, denotemos la operación de convolución mínima.
Para el primer paso, donde usamos , trace la curva de , luego en cada punto, dibuje un cono de pendiente 1 y tome la envolvente inferior de los conos como se muestra en el diagrama, luego no puede aumentar con una pendiente mayor que 1. Por tanto, todas sus secantes tienen pendiente .
Para el segundo paso, imagine la convolución mínima , luego, si todas las secantes de tienen pendiente como máximo 1, entonces la envolvente inferior de son solo los ápices de los conos, por lo tanto .
Ejemplo 1D . Cuando ambas son distribuciones , entonces la integración por partes da
Interpretación de la mecánica de fluidos de W 2.
Benamou y Brenier encontraron una representación dual de la mecánica de fluidos , que permite una solución eficiente mediante optimización convexa . [16] [17]
Equivalencia de W 2 y una norma de Sobolev de orden negativo
Bajo supuestos adecuados, la distancia de Wasserstein de orden dos es equivalente de Lipschitz a una norma de Sobolev homogénea de orden negativo . Más precisamente, si tomamos como una variedad de Riemann conexa equipada con una medida positiva , entonces podemos definir para la seminorma
^ Vaserstein LN (1969). "Markov procesa innumerables productos de espacios, describiendo grandes sistemas de autómatas" (PDF) . Problema Peredači Informacii . 5 (3): 64–72.
^ Kantorovich LV (1939). "Métodos matemáticos de organización y planificación de la producción". Ciencias de la gestión . 6 (4): 366–422. doi :10.1287/mnsc.6.4.366. JSTOR 2627082.
^ Olkin I, Pukelsheim F (octubre de 1982). "La distancia entre dos vectores aleatorios con matrices de dispersión dadas". Álgebra lineal y sus aplicaciones . 48 : 257–263. doi : 10.1016/0024-3795(82)90112-4 . ISSN 0024-3795.
^ Arjovsky M, Chintala S, Bottou L (julio de 2017). "Redes antagónicas generativas de Wasserstein". Conferencia internacional sobre aprendizaje automático 214-223 : 214–223.
^ Petitjean M (2002). «Mezclas quirales» (PDF) . Revista de Física Matemática . 43 (8): 4147–4157. Código Bib : 2002JMP....43.4147P. doi : 10.1063/1.1484559. S2CID 85454709.
^ Petitjean M (2004). "De la similitud de formas a la complementariedad de formas: hacia una teoría del acoplamiento". Revista de Química Matemática . 35 (3): 147-158. doi :10.1023/B:JOMC.0000033252.59423.6b. S2CID 121320315.
^ Mukherjee S, Wethington D, Dey TK, Das J (marzo de 2022). "Determinación de características clínicamente relevantes en datos de citometría mediante homología persistente". PLOS Biología Computacional . 18 (3): e1009931. arXiv : 2203.06263 . Código Bib : 2022PLSCB..18E9931M. doi : 10.1371/journal.pcbi.1009931 . PMC 9009779 . PMID 35312683.
^ Federico, Cristina; Yang, Yunan (6 de mayo de 2022). "Ver a través de la roca con la ayuda de un transporte óptimo". Instantáneas de las matemáticas modernas de Oberwolfach . doi :10.14760/SNAP-2022-004-ES.
^ Oizumi, Masafumi; Albantakis, Larisa; Tononi, Giulio (8 de mayo de 2014). "De la fenomenología a los mecanismos de la conciencia: teoría integrada de la información 3.0". PLOS Biología Computacional . 10 (5): e1003588. Código Bib : 2014PLSCB..10E3588O. doi : 10.1371/journal.pcbi.1003588 . PMC 4014402 . PMID 24811198.
^ Ba, Demba; Dogra, Akshunna S.; Gambhir, Rikab; Tasissa, Abiy; Thaler, Jesse (29 de junio de 2023). "SHAPER: ¿puedes oír la forma de un jet?". Revista de Física de Altas Energías . 2023 (6): 195. arXiv : 2302.12266 . Código Bib : 2023JHEP...06..195B. doi :10.1007/JHEP06(2023)195. ISSN 1029-8479. S2CID 257205971.
^ "Premios, becas y la forma de la física: noticias de la universidad | Imperial News | Imperial College London". Noticias imperiales . 2023-03-29 . Consultado el 31 de octubre de 2023 .
^ Clemente P, Desch W (2008). "Una prueba elemental de la desigualdad triangular para la métrica de Wasserstein". Actas de la Sociedad Matemática Estadounidense . 136 (1): 333–339. doi : 10.1090/S0002-9939-07-09020-X .
^ Villani, Cédric (2003). "Capítulo 1: La dualidad de Kantorovich". Temas en transporte óptimo. Providence, RI: Sociedad Estadounidense de Matemáticas. ISBN0-8218-3312-X. OCLC 51477002.
^ Matoušek, Jiří; Gärtner, Bernd (2007), "Dualidad de la programación lineal", Comprensión y uso de la programación lineal, Universitext, Berlín, Heidelberg: Springer Berlin Heidelberg, págs. 81–104, doi :10.1007 / 978-3-540-30717-4_6, ISBN978-3-540-30697-9, recuperado el 15 de julio de 2022
^ Villani, Cédric (2003). "1.1.3. El problema del transportista". Temas en transporte óptimo. Providence, RI: Sociedad Estadounidense de Matemáticas. ISBN0-8218-3312-X. OCLC 51477002.
^ Benamou, Jean-David; Brenier, Yann (1 de enero de 2000). "Una solución de mecánica de fluidos computacional al problema de transferencia de masa de Monge-Kantorovich". Matemática numérica . 84 (3): 375–393. doi :10.1007/s002110050002. ISSN 0945-3245. S2CID 1100384.
^ Finlay, Chris; Jacobsen, Joern-Henrik; Nurbekyan, Levon; Oberman, Adam (21 de noviembre de 2020). "Cómo entrenar su ODA neuronal: el mundo de la regularización cinética y jacobiana". Congreso Internacional sobre Aprendizaje Automático . PMLR: 3154–3164. arXiv : 2002.02798 .
^ Peyre R (octubre de 2018). "Comparación entre la distancia W2 y la norma Ḣ-1, y localización de la distancia de Wasserstein". ESAIM: Control, Optimización y Cálculo de Variaciones . 24 (4): 1489-1501. doi : 10.1051/cocv/2017050 . ISSN 1292-8119.(Ver Teorema 2.1.)
^ Loeper G (julio de 2006). "Singularidad de la solución del sistema Vlasov-Poisson con densidad acotada". Revista de Mathématiques Pures et Appliquées . 86 (1): 68–79. arXiv : matemáticas/0504140 . doi : 10.1016/j.matpur.2006.01.005 . ISSN 1292-8119.(Ver Teorema 2.9.)
^ Peyre R (octubre de 2018). "Comparación entre la distancia W2 y la norma Ḣ-1, y localización de la distancia de Wasserstein". ESAIM: Control, Optimización y Cálculo de Variaciones . 24 (4): 1489-1501. doi : 10.1051/cocv/2017050 .(Ver Teorema 2.5.)
^ Bogachev VI, Kolesnikov AV (octubre de 2012). "El problema Monge-Kantorovich: logros, conexiones y perspectivas". Encuestas matemáticas rusas . 67 (5): 785–890. Código Bib : 2012RuMaS..67..785B. doi :10.1070/RM2012v067n05ABEH004808. S2CID 121411457.
^ Dados, Clark R; Shortt, Rae Michael (1984). "Una clase de métricas de Wasserstein para distribuciones de probabilidad". Revista de matemáticas de Michigan . 31 (2): 231–240. doi : 10.1307/mmj/1029003026 .
Otras lecturas
Ambrosio L, Gigli N, Savaré G (2005). Flujos de gradiente en espacios métricos y en el espacio de medidas de probabilidad . Basilea: ETH Zürich, Birkhäuser Verlag. ISBN 978-3-7643-2428-5.
Jordan R, Kinderlehrer D, Otto F (enero de 1998). "La formulación variacional de la ecuación de Fokker-Planck". Revista SIAM de Análisis Matemático . 29 (1): 1–17 (electrónico). CiteSeerX 10.1.1.6.8815 . doi :10.1137/S0036141096303359. ISSN 0036-1410. SEÑOR 1617171. S2CID 13890235.
Villani C (2008). Transporte Óptimo, Antiguo y Nuevo . Saltador. ISBN 978-3-540-71050-9.
enlaces externos
"¿Cuáles son las ventajas de la métrica de Wasserstein en comparación con la divergencia de Kullback-Leibler?". Intercambio de pila . 1 de agosto de 2017.