Distancia de Mahalanobis

La distancia de Mahalanobis es una medida de la distancia entre un punto y una distribución , introducida por P. C. Mahalanobis en 1933. ^[1] Los detalles matemáticos de la distancia de Mahalanobis aparecieron por primera vez en el Journal of The Asiatic Society of Bengal en 1933. ^[2] La definición de Mahalanobis fue motivada por el problema de identificar las similitudes de los cráneos basándose en mediciones (el primer trabajo relacionado con las similitudes de los cráneos es de 1922 y otro trabajo posterior es de 1927). ^[3]^[4]RC Bose obtuvo más tarde la distribución de muestreo de la distancia de Mahalanobis, bajo el supuesto de dispersión igual. ^[5] ${\estilo de visualización P}$ ${\estilo de visualización D}$

Es una generalización multivariada del cuadrado de la puntuación estándar : cuántas desviaciones estándar se encuentran de la media de . Esta distancia es cero para la media de y crece a medida que se aleja de la media a lo largo de cada eje de componentes principales . Si cada uno de estos ejes se vuelve a escalar para que tenga varianza unitaria, entonces la distancia de Mahalanobis corresponde a la distancia euclidiana estándar en el espacio transformado. La distancia de Mahalanobis, por lo tanto, no tiene unidades , es invariante en la escala y tiene en cuenta las correlaciones del conjunto de datos . $z=(x-\mu )/\sigma$ ${\estilo de visualización P}$ ${\estilo de visualización D}$ ${\estilo de visualización P}$ ${\estilo de visualización D}$ ${\estilo de visualización P}$

Definición

Dada una distribución de probabilidad en , con media y matriz de covarianza semidefinida positiva , la distancia de Mahalanobis de un punto desde es ^[6] Dados dos puntos y en , la distancia de Mahalanobis entre ellos con respecto a es lo que significa que . ${\estilo de visualización Q}$ $\mathbb {R} ^{N}$ ${\vec {\mu }}=(\mu _{1},\mu _{2},\mu _{3},\dots ,\mu _{N})^{\mathsf {T }}$ ${\estilo de visualización S}$ ${\vec {x}}=(x_{1},x_{2},x_{3},\puntos ,x_{N})^{\mathsf {T}}$ ${\estilo de visualización Q}$ $d_{M}({\vec {x}},Q)={\sqrt {({\vec {x}}-{\vec {\mu }})^{\mathsf {T}}S ^{-1}({\vec {x}}-{\vec {\mu }})}}.$ ${\vec {x}}$ ${\vec {y}}$ $\mathbb {R} ^{N}$ ${\estilo de visualización Q}$ $d_{M}({\vec {x}},{\vec {y}};Q)={\sqrt {({\vec {x}}-{\vec {y}})^{ \mathsf {T}}S^{-1}({\vec {x}}-{\vec {y}})}}.$ $d_{M}({\vec {x}},Q)=d_{M}({\vec {x}},{\vec {\mu }};Q)$

Como es semidefinido positivo , también lo es , por lo tanto las raíces cuadradas siempre están definidas. ${\estilo de visualización S}$ $Estilo de visualización S-1$

Podemos encontrar descomposiciones útiles de la distancia de Mahalanobis al cuadrado que ayudan a explicar algunas razones de la atípicaidad de las observaciones multivariadas y también proporcionan una herramienta gráfica para identificar valores atípicos. ^[7]

Por el teorema espectral , se puede descomponer como para alguna matriz real, lo que nos da la definición equivalente donde es la norma euclidiana. Es decir, la distancia de Mahalanobis es la distancia euclidiana después de una transformación de blanqueamiento . $Estilo de visualización S-1$ $S^{-1}=W^{T}W$ $N\veces N$ $d_{M}({\vec {x}},{\vec {y}};Q)=\|W({\vec {x}}-{\vec {y}})\|$ ${\estilo de visualización \|\cdot \|}$

La existencia de está garantizada por el teorema espectral, pero no es única. Diferentes opciones tienen diferentes ventajas teóricas y prácticas. ^[8] ${\estilo de visualización W}$

En la práctica, la distribución suele ser la distribución de muestra de un conjunto de muestras IID de una distribución desconocida subyacente, al igual que la media de la muestra y la matriz de covarianza de las muestras. ${\estilo de visualización Q}$ ${\estilo de visualización \mu}$ ${\estilo de visualización S}$

Cuando el lapso afín de las muestras no es el , la matriz de covarianza no sería definida positiva, lo que significa que la definición anterior no funcionaría. Sin embargo, en general, la distancia de Mahalanobis se conserva bajo cualquier transformación afín de rango completo del lapso afín de las muestras. Entonces, en caso de que el lapso afín no sea el , las muestras se pueden proyectar ortogonalmente primero a , donde es la dimensión del lapso afín de las muestras, luego la distancia de Mahalanobis se puede calcular como de costumbre. $\mathbb {R} ^{N}$ $\mathbb {R} ^{N}$ $\mathbb {R} ^{n}$ ${\estilo de visualización n}$

Explicación intuitiva

Consideremos el problema de estimar la probabilidad de que un punto de prueba en un espacio euclidiano de N dimensiones pertenezca a un conjunto, donde se nos dan puntos de muestra que definitivamente pertenecen a ese conjunto. Nuestro primer paso sería encontrar el centroide o centro de masa de los puntos de muestra. Intuitivamente, cuanto más cerca esté el punto en cuestión de este centro de masa, más probable es que pertenezca al conjunto.

Sin embargo, también necesitamos saber si el conjunto está distribuido en un rango grande o pequeño, de modo que podamos decidir si una distancia dada desde el centro es notable o no. El enfoque simplista es estimar la desviación estándar de las distancias de los puntos de muestra desde el centro de masa. Si la distancia entre el punto de prueba y el centro de masa es menor que una desviación estándar, entonces podríamos concluir que es muy probable que el punto de prueba pertenezca al conjunto. Cuanto más lejos esté, más probable es que el punto de prueba no deba clasificarse como perteneciente al conjunto.

Este enfoque intuitivo se puede hacer cuantitativo definiendo la distancia normalizada entre el punto de prueba y el conjunto como , que se lee: . Al introducir esto en la distribución normal, podemos derivar la probabilidad de que el punto de prueba pertenezca al conjunto. ${\frac {\lVert x-\mu \rVert _{2}}{\sigma }}$ ${\frac {{\text{testpoint}}-{\text{sample mean}}}{\text{standard deviation}}}$

El inconveniente del enfoque anterior fue que asumimos que los puntos de muestra se distribuyen alrededor del centro de masa de manera esférica. Si la distribución fuera decididamente no esférica, por ejemplo elipsoidal, entonces esperaríamos que la probabilidad de que el punto de prueba perteneciera al conjunto dependiera no solo de la distancia desde el centro de masa, sino también de la dirección. En aquellas direcciones donde el elipsoide tiene un eje corto, el punto de prueba debe estar más cerca, mientras que en aquellas donde el eje es largo, el punto de prueba puede estar más lejos del centro.

Si lo planteamos desde una perspectiva matemática, el elipsoide que mejor representa la distribución de probabilidad del conjunto se puede estimar construyendo la matriz de covarianza de las muestras. La distancia de Mahalanobis es la distancia del punto de prueba desde el centro de masas dividida por el ancho del elipsoide en la dirección del punto de prueba.

Distribuciones normales

Para una distribución normal en cualquier número de dimensiones, la densidad de probabilidad de una observación está determinada únicamente por la distancia de Mahalanobis : ${\vec {x}}$ $d$

{\begin{aligned}\Pr[{\vec {x}}]\,d{\vec {x}}&={\frac {1}{\sqrt {\det(2\pi \mathbf {S} )}}}\exp \left(-{\frac {({\vec {x}}-{\vec {\mu }})^{\mathsf {T}}\mathbf {S} ^{-1}({\vec {x}}-{\vec {\mu }})}{2}}\right)\,d{\vec {x}}\\[6pt]&={\frac {1}{\sqrt {\det(2\pi \mathbf {S} )}}}\exp \left(-{\frac {d^{2}}{2}}\right)\,d{\vec {x}}.\end{aligned}}

En concreto, sigue la distribución de chi-cuadrado con grados de libertad, donde es el número de dimensiones de la distribución normal. Si el número de dimensiones es 2, por ejemplo, la probabilidad de que un determinado calculado sea menor que un umbral es . Para determinar un umbral para alcanzar una determinada probabilidad, , utilice , para 2 dimensiones. Para un número de dimensiones distinto de 2, debe consultarse la distribución de chi-cuadrado acumulada. $d^{2}$ $n$ $n$ $d$ $t$ $1-e^{-t^{2}/2}$ $p$ $t={\sqrt {-2\ln(1-p)}}$

En una distribución normal, la región donde la distancia de Mahalanobis es menor que uno (es decir, la región dentro del elipsoide a la distancia uno) es exactamente la región donde la distribución de probabilidad es cóncava .

La distancia de Mahalanobis es proporcional, para una distribución normal, a la raíz cuadrada de la log-verosimilitud negativa (después de agregar una constante para que el mínimo sea cero).

Otras formas de localización y dispersión multivariadas

Ejemplo bidimensional hipotético de la distancia de Mahalanobis con tres métodos diferentes para definir la ubicación multivariada y la dispersión de los datos.

La media de la muestra y la matriz de covarianza pueden ser bastante sensibles a los valores atípicos, por lo tanto, otros enfoques para calcular la ubicación multivariada y la dispersión de los datos también se utilizan comúnmente cuando se calcula la distancia de Mahalanobis. El enfoque del determinante de covarianza mínima estima la ubicación multivariada y la dispersión a partir de un subconjunto de puntos de datos de numeración que tiene el determinante de la matriz de varianza-covarianza más pequeño. ^[9] El enfoque del elipsoide de volumen mínimo es similar al enfoque del determinante de covarianza mínima en que funciona con un subconjunto de puntos de datos de tamaño, pero el elipsoide de volumen mínimo estima la ubicación multivariada y la dispersión a partir del elipsoide de volumen mínimo que encapsula los puntos de datos. ^[10] Cada método varía en su definición de la distribución de los datos y, por lo tanto, produce diferentes distancias de Mahalanobis. Los enfoques del determinante de covarianza mínima y el elipsoide de volumen mínimo son más robustos para las muestras que contienen valores atípicos, mientras que la media de la muestra y la matriz de covarianza tienden a ser más confiables con conjuntos de datos pequeños y sesgados. ^[11] $h$ $h$ $h$

Relación con variables aleatorias normales

En general, dada una variable aleatoria normal ( gaussiana ) con varianza y media , cualquier otra variable aleatoria normal (con media y varianza ) se puede definir en términos de mediante la ecuación. A la inversa, para recuperar una variable aleatoria normalizada a partir de cualquier variable aleatoria normal, normalmente se puede resolver para . Si elevamos al cuadrado ambos lados y sacamos la raíz cuadrada, obtendremos una ecuación para una métrica que se parece mucho a la distancia de Mahalanobis: $X$ $S=1$ $\mu =0$ $R$ $\mu _{1}$ $S_{1}$ $X$ $R=\mu _{1}+{\sqrt {S_{1}}}X.$ $X=(R-\mu _{1})/{\sqrt {S_{1}}}$

$D={\sqrt {X^{2}}}={\sqrt {(R-\mu _{1})^{2}/S_{1}}}={\sqrt {(R-\mu _{1})S_{1}^{-1}(R-\mu _{1})}}.$

La magnitud resultante siempre es no negativa y varía con la distancia de los datos respecto de la media, atributos que son convenientes cuando se intenta definir un modelo para los datos.

Relación con el apalancamiento

La distancia de Mahalanobis está estrechamente relacionada con la estadística de apalancamiento , , pero tiene una escala diferente: $h$

$D^{2}=(N-1)\left(h-{\tfrac {1}{N}}\right).$

Aplicaciones

La distancia de Mahalanobis se utiliza ampliamente en el análisis de conglomerados y en las técnicas de clasificación . Está estrechamente relacionada con la distribución T-cuadrada de Hotelling, que se utiliza para pruebas estadísticas multivariadas, y con el análisis discriminante lineal de Fisher , que se utiliza para la clasificación supervisada . ^[12]

Para utilizar la distancia de Mahalanobis para clasificar un punto de prueba como perteneciente a una de N clases, primero se estima la matriz de covarianza de cada clase, generalmente en base a muestras que se sabe que pertenecen a cada clase. Luego, dada una muestra de prueba, se calcula la distancia de Mahalanobis a cada clase y se clasifica el punto de prueba como perteneciente a esa clase para la cual la distancia de Mahalanobis es mínima.

La distancia de Mahalanobis y el apalancamiento se utilizan a menudo para detectar valores atípicos , especialmente en el desarrollo de modelos de regresión lineal . Se dice que un punto que tiene una mayor distancia de Mahalanobis del resto de la población de puntos de la muestra tiene un mayor apalancamiento, ya que tiene una mayor influencia en la pendiente o los coeficientes de la ecuación de regresión. La distancia de Mahalanobis también se utiliza para determinar valores atípicos multivariados. Las técnicas de regresión se pueden utilizar para determinar si un caso específico dentro de una población de muestra es un valor atípico a través de la combinación de dos o más puntuaciones de variables. Incluso para distribuciones normales, un punto puede ser un valor atípico multivariado incluso si no es un valor atípico univariante para ninguna variable (considere una densidad de probabilidad concentrada a lo largo de la línea , por ejemplo), lo que hace que la distancia de Mahalanobis sea una medida más sensible que verificar las dimensiones individualmente. $x_{1}=x_{2}$

La distancia de Mahalanobis también se ha utilizado en el modelado de nichos ecológicos , ^[13]^[14] ya que la forma elíptica convexa de las distancias se relaciona bien con el concepto de nicho fundamental .

Otro ejemplo de uso es el de las finanzas, donde la distancia de Mahalanobis se ha utilizado para calcular un indicador llamado "índice de turbulencia", ^[15] que es una medida estadística del comportamiento anormal de los mercados financieros. Una implementación como API web de este indicador está disponible en línea. ^[16]

Implementaciones de software

Muchos lenguajes de programación y paquetes estadísticos, como R , Python , etc., incluyen implementaciones de la distancia de Mahalanobis.

Véase también

Divergencia de Bregman (la distancia de Mahalanobis es un ejemplo de divergencia de Bregman)
Distancia relacionada con Bhattacharyya, para medir la similitud entre conjuntos de datos (y no entre un punto y un conjunto de datos)
La distancia de Hamming identifica la diferencia bit a bit de dos cadenas
Distancia de Hellinger , también una medida de distancia entre conjuntos de datos
Aprendizaje por similitud , para otros enfoques para aprender una métrica de distancia a partir de ejemplos.

Referencias

^ "Reimpresión de: Mahalanobis, PC (1936) "Sobre la distancia generalizada en estadística". Sankhya A . 80 (1): 1–7. 2018-12-01. doi :10.1007/s13171-019-00164-5. ISSN 0976-8378.
^ Revista y actas de la Sociedad Asiática de Bengala, vol. XXVI. Sociedad Asiática de Bengala, Calcuta, 1933.
^ Mahalanobis, Prasanta Chandra (1922). Observaciones antropológicas sobre los angloindios de Culcuta: análisis de la estatura masculina.
^ Mahalanobis, Prasanta Chandra (1927). "Análisis de la mezcla racial en Bengala". Revista y actas de la Sociedad Asiática de Bengala . 23 : 301–333.
^ Ciencia y cultura (1935-36) Vol. 1. Asociación de Noticias Científicas de la India. 1935. págs. 205-206.
^ De Maesschalck, R.; Jouan-Rimbaud, D.; Massart, DL (2000). "La distancia de Mahalanobis". Quimiometría y Sistemas Inteligentes de Laboratorio . 50 (1): 1–18. doi :10.1016/s0169-7439(99)00047-7.
^ Kim, M. G. (2000). "Valores atípicos multivariados y descomposiciones de la distancia de Mahalanobis". Comunicaciones en Estadística – Teoría y Métodos . 29 (7): 1511–1526. doi :10.1080/03610920008832559. S2CID 218567835.
^ Kessy, Agnan; Lewin, Alex; Strimmer, Korbinian (2018-10-02). "Blanqueamiento óptimo y decorrelación". The American Statistician . 72 (4): 309–314. arXiv : 1512.00809 . doi :10.1080/00031305.2016.1277159. ISSN 0003-1305. S2CID 55075085.
^ Hubert, Mia; Debruyne, Michiel (2010). "Determinante de covarianza mínima". WIREs Computational Statistics . 2 (1): 36–43. doi :10.1002/wics.61. ISSN 1939-5108. S2CID 123086172.
^ Van Aelst, Stefan; Rousseeuw, Peter (2009). "Elipsoide de volumen mínimo". Wiley Interdisciplinary Reviews: Computational Statistics . 1 (1): 71–82. doi :10.1002/wics.19. ISSN 1939-5108. S2CID 122106661.
^ Etherington, Thomas R. (11 de mayo de 2021). "Distancias de Mahalanobis para el modelado de nichos ecológicos y la detección de valores atípicos: implicaciones del tamaño de la muestra, el error y el sesgo para seleccionar y parametrizar un método multivariado de localización y dispersión". PeerJ . 9 : e11436. doi : 10.7717/peerj.11436 . ISSN 2167-8359. PMC 8121071 . PMID 34026369.
^ McLachlan, Geoffrey (4 de agosto de 2004). Análisis discriminante y reconocimiento estadístico de patrones. John Wiley & Sons. pp. 13–. ISBN 978-0-471-69115-0.
^ Etherington, Thomas R. (2 de abril de 2019). "Distancias de Mahalanobis y modelado de nichos ecológicos: corrección de un error de probabilidad de chi-cuadrado". PeerJ . 7 : e6678. doi : 10.7717/peerj.6678 . ISSN 2167-8359. PMC 6450376 . PMID 30972255.
^ Farber, Oren; Kadmon, Ronen (2003). "Evaluación de enfoques alternativos para el modelado bioclimático con especial énfasis en la distancia de Mahalanobis". Modelado ecológico . 160 (1–2): 115–130. doi :10.1016/S0304-3800(02)00327-7.
^ Kritzman, M.; Li, Y. (2 de abril de 2019). "Calaveras, turbulencia financiera y gestión de riesgos" . Financial Analysts Journal . 66 (5): 30–41. doi :10.2469/faj.v66.n5.3. S2CID 53478656.
^ "Optimizador de cartera". portfoliooptimizer.io/ . Consultado el 23 de abril de 2022 .

Enlaces externos

"Distancia de Mahalanobis", Enciclopedia de Matemáticas , EMS Press , 2001 [1994]
Tutorial de distancia de Mahalanobis: programa interactivo en línea y cálculo en hoja de cálculo
Distancia de Mahalanobis (17 de noviembre de 2006): descripción general de la distancia de Mahalanobis, incluido el código MATLAB
¿Qué es la distancia de Mahalanobis? – Explicación intuitiva e ilustrada de Rick Wicklin en blogs.sas.com