stringtranslate.com

Distancia de Mahalanobis

La distancia de Mahalanobis es una medida de la distancia entre un punto y una distribución , introducida por P. C. Mahalanobis en 1936. [1] La definición de Mahalanobis fue motivada por el problema de identificar las similitudes de los cráneos basándose en mediciones de 1927. [2]

Es una generalización multivariada del cuadrado de la puntuación estándar : a cuántas desviaciones estándar se aleja de la media de . Esta distancia es cero en la media de y crece a medida que se aleja de la media a lo largo de cada eje componente principal . Si cada uno de estos ejes se vuelve a escalar para tener una varianza unitaria, entonces la distancia de Mahalanobis corresponde a la distancia euclidiana estándar en el espacio transformado. Por lo tanto, la distancia de Mahalanobis no tiene unidades , es invariante en escala y tiene en cuenta las correlaciones del conjunto de datos .

Definición

Dada una distribución de probabilidad en , con media y matriz de covarianza definida positiva , la distancia de Mahalanobis de un punto es [ 3]

Dado que es positivo-definido , también lo es , por lo que las raíces cuadradas siempre están definidas.

Podemos encontrar descomposiciones útiles de la distancia de Mahalanobis al cuadrado que ayudan a explicar algunas razones del carácter atípico de las observaciones multivariadas y también proporcionan una herramienta gráfica para identificar valores atípicos. [4]

Por el teorema espectral , se puede descomponer como para alguna matriz real, lo que nos da la definición equivalente

transformación de blanqueamiento

La existencia de está garantizada por el teorema espectral, pero no es única. Diferentes opciones tienen diferentes ventajas teóricas y prácticas. [5]

En la práctica, la distribución suele ser la distribución de la muestra de un conjunto de muestras IID de una distribución desconocida subyacente, al igual que la media de la muestra y la matriz de covarianza de las muestras.

Cuando el intervalo afín de las muestras no es el entero , la matriz de covarianza no sería definida positiva, lo que significa que la definición anterior no funcionaría. Sin embargo, en general, la distancia de Mahalanobis se conserva bajo cualquier transformación afín de rango completo del intervalo afín de las muestras. Entonces, en caso de que el intervalo afín no sea completo , las muestras se pueden proyectar primero ortogonalmente a , donde es la dimensión del intervalo afín de las muestras, luego la distancia de Mahalanobis se puede calcular como de costumbre.

Explicación intuitiva

Considere el problema de estimar la probabilidad de que un punto de prueba en el espacio euclidiano N -dimensional pertenezca a un conjunto, donde se nos dan puntos de muestra que definitivamente pertenecen a ese conjunto. Nuestro primer paso sería encontrar el centroide o centro de masa de los puntos de muestra. Intuitivamente, cuanto más cerca esté el punto en cuestión de este centro de masa, más probabilidades habrá de que pertenezca al conjunto.

Sin embargo, también necesitamos saber si el conjunto se extiende en un rango grande o pequeño, para poder decidir si una distancia determinada desde el centro es digna de mención o no. El enfoque simplista consiste en estimar la desviación estándar de las distancias de los puntos de muestra desde el centro de masa. Si la distancia entre el punto de prueba y el centro de masa es menor que una desviación estándar, entonces podríamos concluir que es muy probable que el punto de prueba pertenezca al conjunto. Cuanto más lejos esté, más probable es que el punto de prueba no deba clasificarse como perteneciente al conjunto.

Este enfoque intuitivo se puede hacer cuantitativo definiendo la distancia normalizada entre el punto de prueba y el conjunto , que dice: . Al conectar esto a la distribución normal, podemos derivar la probabilidad de que el punto de prueba pertenezca al conjunto.

El inconveniente del enfoque anterior fue que asumimos que los puntos de muestra están distribuidos alrededor del centro de masa de forma esférica. Si la distribución fuera decididamente no esférica, por ejemplo elipsoidal, entonces esperaríamos que la probabilidad de que el punto de prueba perteneciera al conjunto dependiera no sólo de la distancia al centro de masa, sino también de la dirección. En aquellas direcciones donde el elipsoide tiene un eje corto el punto de prueba debe estar más cerca, mientras que en aquellas donde el eje es largo el punto de prueba puede estar más alejado del centro.

Poniendo esto sobre una base matemática, el elipsoide que mejor representa la distribución de probabilidad del conjunto se puede estimar construyendo la matriz de covarianza de las muestras. La distancia de Mahalanobis es la distancia del punto de prueba desde el centro de masa dividida por el ancho del elipsoide en la dirección del punto de prueba.

Distribuciones normales

Para una distribución normal en cualquier número de dimensiones, la densidad de probabilidad de una observación está determinada únicamente por la distancia de Mahalanobis :

En concreto, sigue la distribución chi-cuadrado con grados de libertad, donde es el número de dimensiones de la distribución normal. Si el número de dimensiones es 2, por ejemplo, la probabilidad de que un cálculo particular sea menor que algún umbral es . Para determinar un umbral para lograr una probabilidad particular, utilice , para 2 dimensiones. Para un número de dimensiones distinto de 2, se debe consultar la distribución acumulativa de chi-cuadrado.

En una distribución normal, la región donde la distancia de Mahalanobis es menor que uno (es decir, la región dentro del elipsoide a una distancia uno) es exactamente la región donde la distribución de probabilidad es cóncava .

La distancia de Mahalanobis es proporcional, para una distribución normal, a la raíz cuadrada de la probabilidad logarítmica negativa (después de agregar una constante para que el mínimo sea cero).

Otras formas de ubicación y dispersión multivariada

Ejemplo bidimensional hipotético de distancia de Mahalanobis con tres métodos diferentes para definir la ubicación multivariada y la dispersión de los datos.

La media muestral y la matriz de covarianza pueden ser bastante sensibles a los valores atípicos, por lo que también se utilizan comúnmente otros enfoques para calcular la ubicación multivariada y la dispersión de los datos al calcular la distancia de Mahalanobis. El enfoque del Determinante de covarianza mínima estima la ubicación multivariante y la dispersión a partir de un subconjunto de puntos de datos de numeración que tiene el determinante de matriz de varianza-covarianza más pequeño. [6] El enfoque del elipsoide de volumen mínimo es similar al enfoque del determinante de covarianza mínima en el sentido de que funciona con un subconjunto de puntos de datos de tamaño, pero el elipsoide de volumen mínimo estima la ubicación multivariada y la dispersión a partir del elipsoide de volumen mínimo que encapsula los puntos de datos. [7] Cada método varía en su definición de la distribución de los datos y, por lo tanto, produce diferentes distancias de Mahalanobis. Los enfoques del Determinante de covarianza mínima y del Elipsoide de volumen mínimo son más sólidos para muestras que contienen valores atípicos, mientras que la media muestral y la matriz de covarianza tienden a ser más confiables con conjuntos de datos pequeños y sesgados. [8]

Relación con variables aleatorias normales

En general, dada una variable aleatoria normal ( gaussiana ) con varianza y media , cualquier otra variable aleatoria normal (con media y varianza ) se puede definir en términos de mediante la ecuación. A la inversa, para recuperar una variable aleatoria normalizada a partir de cualquier variable aleatoria normal, normalmente uno puede resolver . Si elevamos al cuadrado ambos lados y sacamos la raíz cuadrada, obtendremos una ecuación para una métrica que se parece mucho a la distancia de Mahalanobis:

La magnitud resultante siempre es no negativa y varía con la distancia de los datos a la media, atributos que son convenientes al intentar definir un modelo para los datos.

Relación con el apalancamiento

La distancia de Mahalanobis está estrechamente relacionada con la estadística de apalancamiento , pero tiene una escala diferente:

Aplicaciones

La distancia de Mahalanobis se utiliza ampliamente en técnicas de clasificación y análisis de conglomerados . Está estrechamente relacionado con la distribución T cuadrada de Hotelling utilizada para pruebas estadísticas multivariadas y el análisis discriminante lineal de Fisher que se utiliza para la clasificación supervisada . [9]

Para utilizar la distancia de Mahalanobis para clasificar un punto de prueba como perteneciente a una de N clases, primero se estima la matriz de covarianza de cada clase, generalmente basada en muestras que se sabe que pertenecen a cada clase. Luego, dada una muestra de prueba, se calcula la distancia de Mahalanobis a cada clase y se clasifica el punto de prueba como perteneciente a esa clase para la cual la distancia de Mahalanobis es mínima.

La distancia y el apalancamiento de Mahalanobis se utilizan a menudo para detectar valores atípicos , especialmente en el desarrollo de modelos de regresión lineal . Se dice que un punto que tiene una mayor distancia de Mahalanobis del resto de la población de puntos de la muestra tiene un mayor apalancamiento ya que tiene una mayor influencia en la pendiente o los coeficientes de la ecuación de regresión. La distancia de Mahalanobis también se utiliza para determinar valores atípicos multivariados. Se pueden utilizar técnicas de regresión para determinar si un caso específico dentro de una población de muestra es un valor atípico mediante la combinación de dos o más puntuaciones variables. Incluso para distribuciones normales, un punto puede ser un valor atípico multivariado incluso si no es un valor atípico univariado para ninguna variable (considere una densidad de probabilidad concentrada a lo largo de la línea , por ejemplo), lo que hace que la distancia de Mahalanobis sea una medida más sensible que verificar las dimensiones individualmente.

La distancia de Mahalanobis también se ha utilizado en el modelado de nichos ecológicos , [10] [11] ya que la forma elíptica convexa de las distancias se relaciona bien con el concepto de nicho fundamental .

Otro ejemplo de uso es el de las finanzas, donde la distancia de Mahalanobis se ha utilizado para calcular un indicador llamado "índice de turbulencia", [12] que es una medida estadística del comportamiento anormal de los mercados financieros. Una implementación como API web de este indicador está disponible en línea. [13]

Implementaciones de software

Muchos lenguajes de programación y paquetes estadísticos, como R , Python , etc., incluyen implementaciones de la distancia de Mahalanobis.

Ver también

Referencias

  1. ^ Mahalanobis, Prasanta Chandra (1936). «Sobre la distancia generalizada en la estadística» (PDF) . Actas del Instituto Nacional de Ciencias de la India . 2 (1): 49–55 . Consultado el 27 de septiembre de 2016 .
  2. ^ Mahalanobis, Prasanta Chandra (1927); Análisis de la mezcla de razas en Bengala , Revista y actas de la Sociedad Asiática de Bengala, 23:301–333.
  3. ^ De Maesschalck, R.; Jouan-Rimbaud, D.; Massart, DL (2000). "La distancia de Mahalanobis". Quimiometría y Sistemas Inteligentes de Laboratorio . 50 (1): 1–18. doi :10.1016/s0169-7439(99)00047-7.
  4. ^ Kim, MG (2000). "Valores atípicos multivariados y descomposiciones de la distancia de Mahalanobis". Comunicaciones en estadística: teoría y métodos . 29 (7): 1511-1526. doi :10.1080/03610920008832559. S2CID  218567835.
  5. ^ Kessy, Agnan; Lewin, Alex; Strimmer, Korbiniano (2 de octubre de 2018). "Blanqueamiento y decorrelación óptimos". El estadístico estadounidense . 72 (4): 309–314. arXiv : 1512.00809 . doi :10.1080/00031305.2016.1277159. ISSN  0003-1305. S2CID  55075085.
  6. ^ Hubert, Mía; Debruyne, Michiel (2010). "Determinante de covarianza mínima". Estadísticas computacionales de WIRE . 2 (1): 36–43. doi :10.1002/wics.61. ISSN  1939-5108. S2CID  123086172.
  7. ^ Van Aelst, Stefan; Rousseeuw, Peter (2009). "Elipsoide de volumen mínimo". Revisiones interdisciplinarias de Wiley: estadística computacional . 1 (1): 71–82. doi :10.1002/wics.19. ISSN  1939-5108. S2CID  122106661.
  8. ^ Etherington, Thomas R. (11 de mayo de 2021). "Distancias de Mahalanobis para el modelado de nichos ecológicos y la detección de valores atípicos: implicaciones del tamaño de la muestra, el error y el sesgo para seleccionar y parametrizar una ubicación multivariada y un método de dispersión". PeerJ . 9 : e11436. doi : 10.7717/peerj.11436 . ISSN  2167-8359. PMC 8121071 . PMID  34026369. 
  9. ^ McLachlan, Geoffrey (4 de agosto de 2004). Análisis discriminante y reconocimiento de patrones estadísticos. John Wiley e hijos. págs.13–. ISBN 978-0-471-69115-0.
  10. ^ Etherington, Thomas R. (2 de abril de 2019). "Distancias de Mahalanobis y modelado de nichos ecológicos: corrección de un error de probabilidad de chi-cuadrado". PeerJ . 7 : e6678. doi : 10.7717/peerj.6678 . ISSN  2167-8359. PMC 6450376 . PMID  30972255. 
  11. ^ Farber, Oren; Kadmon, Ronen (2003). "Evaluación de enfoques alternativos para la modelización bioclimática con especial énfasis en la distancia de Mahalanobis". Modelización Ecológica . 160 (1–2): 115–130. doi :10.1016/S0304-3800(02)00327-7.
  12. ^ Kritzman, M.; Li, Y. (2 de abril de 2019). "Cráneos, turbulencias financieras y gestión de riesgos" . Revista de analistas financieros . 66 (5): 30–41. doi :10.2469/faj.v66.n5.3. S2CID  53478656.
  13. ^ "Optimizador de cartera". portfoliooptimizer.io/ . Consultado el 23 de abril de 2022 .

enlaces externos