stringtranslate.com

Distancia energética

La distancia de energía es una distancia estadística entre distribuciones de probabilidad . Si X e Y son vectores aleatorios independientes en R d con funciones de distribución acumulativa (cdf) F y G respectivamente, entonces la distancia de energía entre las distribuciones F y G se define como la raíz cuadrada de

donde (X, X', Y, Y') son independientes, la cdf de X y X' es F, la cdf de Y e Y' es G, es el valor esperado y || . || denota la longitud de un vector. La distancia de energía satisface todos los axiomas de una métrica, por lo tanto, la distancia de energía caracteriza la igualdad de distribuciones: D(F,G) = 0 si y solo si F = G. La distancia de energía para aplicaciones estadísticas fue introducida en 1985 por Gábor J. Székely , quien demostró que para variables aleatorias de valor real es exactamente el doble de la distancia de Harald Cramér : [1]

Para una prueba sencilla de esta equivalencia, véase Székely (2002). [2]

Sin embargo, en dimensiones superiores, las dos distancias son diferentes porque la distancia de energía es invariante a la rotación, mientras que la distancia de Cramér no lo es. (Obsérvese que la distancia de Cramér no es la misma que el criterio de distribución libre de Cramér-von Mises ).

Generalización a espacios métricos

Se puede generalizar la noción de distancia de energía a distribuciones de probabilidad en espacios métricos. Sea un espacio métrico con su álgebra sigma de Borel . Sea la colección de todas las medidas de probabilidad en el espacio medible . Si μ y ν son medidas de probabilidad en , entonces la distancia de energía de μ y ν se puede definir como la raíz cuadrada de

Sin embargo, esto no es necesariamente no negativo. Si es un núcleo definido fuertemente negativo, entonces es una métrica , y viceversa. [3] Esta condición se expresa diciendo que tiene tipo negativo. El tipo negativo no es suficiente para que sea una métrica; la última condición se expresa diciendo que tiene un tipo negativo fuerte. En esta situación, la distancia de energía es cero si y solo si X e Y están distribuidas de manera idéntica. Un ejemplo de una métrica de tipo negativo pero no de tipo negativo fuerte es el plano con la métrica del taxi . Todos los espacios euclidianos e incluso los espacios de Hilbert separables tienen un tipo negativo fuerte. [4]

En la literatura sobre métodos kernel para el aprendizaje automático , estas nociones generalizadas de distancia energética se estudian bajo el nombre de discrepancia máxima de medias. Varios autores abordan la equivalencia de los métodos basados ​​en la distancia y los métodos kernel para la prueba de hipótesis. [5] [6]

Estadísticas energéticas

Un concepto estadístico relacionado, la noción de E-estadística o estadística de energía [7] fue introducido por Gábor J. Székely en la década de 1980 cuando estaba dando conferencias en coloquios en Budapest, Hungría y en el MIT, Yale y Columbia. Este concepto se basa en la noción de energía potencial de Newton . [8] La idea es considerar las observaciones estadísticas como cuerpos celestes gobernados por una energía potencial estadística que es cero solo cuando una hipótesis nula estadística subyacente es verdadera. Las estadísticas de energía son funciones de distancias entre observaciones estadísticas.

La distancia de energía y la estadística E se consideraron como N -distancias y N-estadísticas en Zinger AA, Kakosyan AV, Klebanov LB Caracterización de distribuciones por medio de valores medios de algunas estadísticas en conexión con algunas métricas de probabilidad, Problemas de estabilidad para modelos estocásticos. Moscú, VNIISI, 1989,47-55. (en ruso), traducción al inglés: Una caracterización de distribuciones por valores medios de estadísticas y ciertas métricas probabilísticas AA Zinger, AV Kakosyan, LB Klebanov en Journal of Soviet Mathematics (1992). En el mismo artículo se dio una definición de núcleo definido fuertemente negativo y se proporcionó una generalización sobre espacios métricos, discutidos anteriormente. El libro [3] da estos resultados y sus aplicaciones a las pruebas estadísticas también. El libro también contiene algunas aplicaciones para recuperar la medida de su potencial.

Prueba de distribuciones iguales

Considere la hipótesis nula de que dos variables aleatorias, X e Y , tienen la misma distribución de probabilidad: . Para muestras estadísticas de X e Y :

y ,

Se calculan los siguientes promedios aritméticos de distancias entre las muestras X e Y:

.

La estadística E de la hipótesis nula subyacente se define de la siguiente manera:

Se puede demostrar [8] [9] que y que el valor de población correspondiente es cero si y solo si X e Y tienen la misma distribución ( ). Bajo esta hipótesis nula, el estadístico de prueba

converge en distribución a una forma cuadrática de variables aleatorias normales estándar independientes . Bajo la hipótesis alternativa T tiende a infinito. Esto hace posible construir una prueba estadística consistente , la prueba de energía para distribuciones iguales. [10]

También se puede introducir el coeficiente E de inhomogeneidad, que siempre está entre 0 y 1 y se define como

donde denota el valor esperado . H  = 0 exactamente cuando X e Y tienen la misma distribución.

Bondad de ajuste

Se define una medida de bondad de ajuste multivariable para distribuciones de dimensión arbitraria (no restringida por el tamaño de la muestra). La estadística de bondad de ajuste de energía es

donde X y X' son independientes e idénticamente distribuidos de acuerdo con la distribución hipotética, y . La única condición requerida es que X tenga momento finito bajo la hipótesis nula. Bajo la hipótesis nula , y la distribución asintótica de Q n es una forma cuadrática de variables aleatorias gaussianas centradas. Bajo una hipótesis alternativa, Q n tiende a infinito estocásticamente, y por lo tanto determina una prueba estadísticamente consistente. Para la mayoría de las aplicaciones se puede aplicar el exponente 1 (distancia euclidiana). El caso especial importante de probar la normalidad multivariante [9] se implementa en el paquete de energía para R. También se desarrollan pruebas para distribuciones de cola pesada como Pareto ( ley de potencia ), o distribuciones estables mediante la aplicación de exponentes en (0,1).

Aplicaciones

Las aplicaciones incluyen:

Gneiting y Raftery [19] aplican la distancia energética para desarrollar un nuevo y muy general tipo de regla de puntuación adecuada para predicciones probabilísticas: la puntuación energética.

Las aplicaciones de estadísticas energéticas se implementan en el paquete de energía de código abierto [26 ] para R.

Referencias

  1. ^ Cramér, H. (1928) Sobre la composición de errores elementales, Skandinavisk Aktuarietidskrift, 11, 141–180.
  2. ^ E-Statistics: La energía de las muestras estadísticas (2002) PDF Archivado el 20 de abril de 2016 en Wayback Machine.
  3. ^ ab Klebanov, LB (2005) N-distancias y sus aplicaciones, Karolinum Press , Universidad Charles, Praga.
  4. ^ Lyons, R. (2013). "Covarianza de distancias en espacios métricos". Anales de probabilidad . 41 (5): 3284–3305. arXiv : 1106.5758 . doi :10.1214/12-aop803. S2CID  73677891.
  5. ^ Sejdinovic, D.; Sriperumbudur, B.; Gretton, A. y Fukumizu, K. (2013). "Equivalencia de estadísticas basadas en distancia y RKHS en pruebas de hipótesis". Los anales de la estadística . 41 (5): 2263–2291. arXiv : 1207.6076 . doi :10.1214/13-aos1140. S2CID  8308769.
  6. ^ Shen, Cencheng; Vogelstein, Joshua T. (2021). "La equivalencia exacta de los métodos de distancia y kernel en las pruebas de hipótesis". AStA Advances in Statistical Analysis . 105 (3): 385–403. arXiv : 1806.05514 . doi :10.1007/s10182-020-00378-1. S2CID  49210956.
  7. ^ GJ Szekely y ML Rizzo (2013). Estadísticas energéticas: estadísticas basadas en distancias. Journal of Statistical Planning and Inference, volumen 143, número 8, agosto de 2013, págs. 1249-1272. [1]
  8. ^ ab Székely, GJ (2002) E-estadística: La energía de las muestras estadísticas, Informe técnico BGSU No 02-16.
  9. ^ abc Székely, GJ; Rizzo, ML (2005). "Una nueva prueba para la normalidad multivariante". Journal of Multivariate Analysis . 93 (1): 58–80. doi : 10.1016/j.jmva.2003.12.002 .Reimpresión archivada el 5 de agosto de 2011 en Wayback Machine.
  10. ^ GJ Szekely y ML Rizzo (2004). Pruebas de distribuciones iguales en alta dimensión, InterStat , noviembre (5). Reimpresión archivada el 5 de agosto de 2011 en Wayback Machine .
  11. ^ Székely, GJ y Rizzo, ML (2005) Agrupamiento jerárquico mediante distancias conjuntas entre variables: extensión del método de varianza mínima de Ward, Journal of Classification, 22(2) 151–183
  12. ^ Varin, T., Bureau, R., Mueller, C. y Willett, P. (2009). "Archivos de agrupamiento de estructuras químicas utilizando la generalización de Szekely-Rizzo del método de Ward" (PDF) . Revista de gráficos y modelado molecular . 28 (2): 187–195. doi :10.1016/j.jmgm.2009.06.006. PMID  19640752.{{cite journal}}: CS1 maint: multiple names: authors list (link)"impresión electrónica".
  13. ^ ML Rizzo y GJ Székely (2010). Análisis DISCO: una extensión no paramétrica del análisis de varianza, Annals of Applied Statistics, vol. 4, n.º 2, 1034-1055. arXiv :1011.2288
  14. ^ Szekely, GJ y Rizzo, ML (2004) Pruebas de distribuciones iguales en alta dimensión, InterStat, noviembre (5). Reimpresión archivada el 5 de agosto de 2011 en Wayback Machine .
  15. ^ Ledlie, Jonathan y Pietzuch, Peter y Seltzer, Margo (2006). "Coordenadas de red estables y precisas". 26.ª Conferencia internacional IEEE sobre sistemas informáticos distribuidos (ICDCS'06) . ICDCS '06. Washington, DC, EE. UU.: IEEE Computer Society. pp. 74–83. CiteSeerX 10.1.1.68.4006 . doi :10.1109/ICDCS.2006.79. ISBN .  978-0-7695-2540-2. Número de identificación personal  1154085. Número de identificación personal  6770731. {{cite book}}: |journal=ignorado ( ayuda ) PDF Archivado el 8 de julio de 2011 en Wayback Machine.CS1 maint: multiple names: authors list (link)
  16. ^ Albert Y. Kim; Caren Marzban; Donald B. Percival; Werner Stuetzle (2009). "Uso de datos etiquetados para evaluar detectores de cambios en un entorno de transmisión multivariante". Procesamiento de señales . 89 (12): 2529–2536. Bibcode :2009SigPr..89.2529K. CiteSeerX 10.1.1.143.6576 . doi :10.1016/j.sigpro.2009.04.011. ISSN  0165-1684. [2] Preimpresión:TR534.
  17. ^ Székely, GJ, Rizzo ML y Bakirov, NK (2007). "Medición y prueba de la independencia mediante correlación de distancias", The Annals of Statistics , 35, 2769–2794. arXiv :0803.4101
  18. ^ Székely, GJ y Rizzo, ML (2009). "Covarianza de la distancia browniana", The Annals of Applied Statistics , 4 de marzo, 1233-1308. arXiv :1010.0297
  19. ^ T. Gneiting; AE Raftery (2007). "Reglas de puntuación estrictamente adecuadas, predicción y estimación". Revista de la Asociación Estadounidense de Estadística . 102 (477): 359–378. doi :10.1198/016214506000001437. S2CID  1878582. Reimpresión
  20. ^ Klebanov LB Una clase de métricas de probabilidad y sus aplicaciones estadísticas, Estadística en la industria y la tecnología: análisis estadístico de datos, Yadolah Dodge, Ed. Birkhauser, Basilea, Boston, Berlín, 2002, 241-252.
  21. ^ F. Ziel (2021). "La distancia energética para la reducción de conjuntos y escenarios". Philosophical Transactions of the Royal Society A . 379 (2202): 20190431. arXiv : 2005.14670 . Bibcode :2021RSPTA.37990431Z. doi :10.1098/rsta.2019.0431. ISSN  1364-503X. PMID  34092100. S2CID  219124032.
  22. ^ Estadísticas y análisis de datos, 2006, 50, 12, 3619-3628Rui Hu, Xing Qiu, Galina Glazko, Lev Klebanov, Andrei Yakovlev Detección de cambios en la correlación intergénica en el análisis de microarrays: un nuevo enfoque para la selección de genes, BMCBioinformatics, vol. 10, 20 (2009), 1-15.
  23. ^ Yuanhui Xiao, Robert Frisina, Alexander Gordon, Lev Klebanov, Andrei Yakovlev Búsqueda multivariada de combinaciones de genes expresados ​​diferencialmente BMC Bioinformatics, 2004, 5:164; Antoni Almudevar, Lev Klebanov, Xing Qiu, Andrei Yakovlev Utilidad de las medidas de correlación en el análisis de la expresión génica, en: NeuroRX, 2006, 3, 3, 384-395; Klebanov Lev, Gordon Alexander, Land Hartmut, Yakovlev Andrei Una prueba de permutación motivada por análisis de datos de microarrays
  24. ^ Viktor Benes, Radka Lechnerova, Lev Klebanov, Margarita Slamova, Peter Slama Comparación estadística de la geometría de partículas de segunda fase, Caracterización de materiales, vol. 60 (2009), 1076 - 1081.
  25. ^ E. Vaiciukynas, A. Verikas, A. Gelzinis, M. Bacauskiene y I. Olenina (2015) Explotación de pruebas estadísticas de energía para la comparación de múltiples grupos en datos morfométricos y quimiométricos, Quimiometría y sistemas inteligentes de laboratorio, 146, 10-23.
  26. ^ "Energía: versión del paquete R 1.6.2" . Consultado el 30 de enero de 2015 .