La distancia de Mahalanobis es una medida de la distancia entre un punto y una distribución , introducida por P. C. Mahalanobis en 1933. [1] Los detalles matemáticos de la distancia de Mahalanobis aparecieron por primera vez en el Journal of The Asiatic Society of Bengal en 1933. [2] La definición de Mahalanobis fue motivada por el problema de identificar las similitudes de los cráneos basándose en mediciones (el primer trabajo relacionado con las similitudes de los cráneos es de 1922 y otro trabajo posterior es de 1927). [3] [4] RC Bose obtuvo más tarde la distribución de muestreo de la distancia de Mahalanobis, bajo el supuesto de dispersión igual. [5]
Es una generalización multivariada del cuadrado de la puntuación estándar : cuántas desviaciones estándar se encuentran de la media de . Esta distancia es cero para la media de y crece a medida que se aleja de la media a lo largo de cada eje de componentes principales . Si cada uno de estos ejes se vuelve a escalar para que tenga varianza unitaria, entonces la distancia de Mahalanobis corresponde a la distancia euclidiana estándar en el espacio transformado. La distancia de Mahalanobis, por lo tanto, no tiene unidades , es invariante en la escala y tiene en cuenta las correlaciones del conjunto de datos .
Dada una distribución de probabilidad en , con media y matriz de covarianza semidefinida positiva , la distancia de Mahalanobis de un punto desde es [6] Dados dos puntos y en , la distancia de Mahalanobis entre ellos con respecto a es lo que significa que .
Como es semidefinido positivo , también lo es , por lo tanto las raíces cuadradas siempre están definidas.
Podemos encontrar descomposiciones útiles de la distancia de Mahalanobis al cuadrado que ayudan a explicar algunas razones de la atípicaidad de las observaciones multivariadas y también proporcionan una herramienta gráfica para identificar valores atípicos. [7]
Por el teorema espectral , se puede descomponer como para alguna matriz real, lo que nos da la definición equivalente donde es la norma euclidiana. Es decir, la distancia de Mahalanobis es la distancia euclidiana después de una transformación de blanqueamiento .
La existencia de está garantizada por el teorema espectral, pero no es única. Diferentes opciones tienen diferentes ventajas teóricas y prácticas. [8]
En la práctica, la distribución suele ser la distribución de muestra de un conjunto de muestras IID de una distribución desconocida subyacente, al igual que la media de la muestra y la matriz de covarianza de las muestras.
Cuando el lapso afín de las muestras no es el , la matriz de covarianza no sería definida positiva, lo que significa que la definición anterior no funcionaría. Sin embargo, en general, la distancia de Mahalanobis se conserva bajo cualquier transformación afín de rango completo del lapso afín de las muestras. Entonces, en caso de que el lapso afín no sea el , las muestras se pueden proyectar ortogonalmente primero a , donde es la dimensión del lapso afín de las muestras, luego la distancia de Mahalanobis se puede calcular como de costumbre.
Consideremos el problema de estimar la probabilidad de que un punto de prueba en un espacio euclidiano de N dimensiones pertenezca a un conjunto, donde se nos dan puntos de muestra que definitivamente pertenecen a ese conjunto. Nuestro primer paso sería encontrar el centroide o centro de masa de los puntos de muestra. Intuitivamente, cuanto más cerca esté el punto en cuestión de este centro de masa, más probable es que pertenezca al conjunto.
Sin embargo, también necesitamos saber si el conjunto está distribuido en un rango grande o pequeño, de modo que podamos decidir si una distancia dada desde el centro es notable o no. El enfoque simplista es estimar la desviación estándar de las distancias de los puntos de muestra desde el centro de masa. Si la distancia entre el punto de prueba y el centro de masa es menor que una desviación estándar, entonces podríamos concluir que es muy probable que el punto de prueba pertenezca al conjunto. Cuanto más lejos esté, más probable es que el punto de prueba no deba clasificarse como perteneciente al conjunto.
Este enfoque intuitivo se puede hacer cuantitativo definiendo la distancia normalizada entre el punto de prueba y el conjunto como , que se lee: . Al introducir esto en la distribución normal, podemos derivar la probabilidad de que el punto de prueba pertenezca al conjunto.
El inconveniente del enfoque anterior fue que asumimos que los puntos de muestra se distribuyen alrededor del centro de masa de manera esférica. Si la distribución fuera decididamente no esférica, por ejemplo elipsoidal, entonces esperaríamos que la probabilidad de que el punto de prueba perteneciera al conjunto dependiera no solo de la distancia desde el centro de masa, sino también de la dirección. En aquellas direcciones donde el elipsoide tiene un eje corto, el punto de prueba debe estar más cerca, mientras que en aquellas donde el eje es largo, el punto de prueba puede estar más lejos del centro.
Si lo planteamos desde una perspectiva matemática, el elipsoide que mejor representa la distribución de probabilidad del conjunto se puede estimar construyendo la matriz de covarianza de las muestras. La distancia de Mahalanobis es la distancia del punto de prueba desde el centro de masas dividida por el ancho del elipsoide en la dirección del punto de prueba.
Para una distribución normal en cualquier número de dimensiones, la densidad de probabilidad de una observación está determinada únicamente por la distancia de Mahalanobis :
En concreto, sigue la distribución de chi-cuadrado con grados de libertad, donde es el número de dimensiones de la distribución normal. Si el número de dimensiones es 2, por ejemplo, la probabilidad de que un determinado calculado sea menor que un umbral es . Para determinar un umbral para alcanzar una determinada probabilidad, , utilice , para 2 dimensiones. Para un número de dimensiones distinto de 2, debe consultarse la distribución de chi-cuadrado acumulada.
En una distribución normal, la región donde la distancia de Mahalanobis es menor que uno (es decir, la región dentro del elipsoide a la distancia uno) es exactamente la región donde la distribución de probabilidad es cóncava .
La distancia de Mahalanobis es proporcional, para una distribución normal, a la raíz cuadrada de la log-verosimilitud negativa (después de agregar una constante para que el mínimo sea cero).
La media de la muestra y la matriz de covarianza pueden ser bastante sensibles a los valores atípicos, por lo tanto, otros enfoques para calcular la ubicación multivariada y la dispersión de los datos también se utilizan comúnmente cuando se calcula la distancia de Mahalanobis. El enfoque del determinante de covarianza mínima estima la ubicación multivariada y la dispersión a partir de un subconjunto de puntos de datos de numeración que tiene el determinante de la matriz de varianza-covarianza más pequeño. [9] El enfoque del elipsoide de volumen mínimo es similar al enfoque del determinante de covarianza mínima en que funciona con un subconjunto de puntos de datos de tamaño, pero el elipsoide de volumen mínimo estima la ubicación multivariada y la dispersión a partir del elipsoide de volumen mínimo que encapsula los puntos de datos. [10] Cada método varía en su definición de la distribución de los datos y, por lo tanto, produce diferentes distancias de Mahalanobis. Los enfoques del determinante de covarianza mínima y el elipsoide de volumen mínimo son más robustos para las muestras que contienen valores atípicos, mientras que la media de la muestra y la matriz de covarianza tienden a ser más confiables con conjuntos de datos pequeños y sesgados. [11]
En general, dada una variable aleatoria normal ( gaussiana ) con varianza y media , cualquier otra variable aleatoria normal (con media y varianza ) se puede definir en términos de mediante la ecuación. A la inversa, para recuperar una variable aleatoria normalizada a partir de cualquier variable aleatoria normal, normalmente se puede resolver para . Si elevamos al cuadrado ambos lados y sacamos la raíz cuadrada, obtendremos una ecuación para una métrica que se parece mucho a la distancia de Mahalanobis:
La magnitud resultante siempre es no negativa y varía con la distancia de los datos respecto de la media, atributos que son convenientes cuando se intenta definir un modelo para los datos.
La distancia de Mahalanobis está estrechamente relacionada con la estadística de apalancamiento , , pero tiene una escala diferente:
La distancia de Mahalanobis se utiliza ampliamente en el análisis de conglomerados y en las técnicas de clasificación . Está estrechamente relacionada con la distribución T-cuadrada de Hotelling, que se utiliza para pruebas estadísticas multivariadas, y con el análisis discriminante lineal de Fisher , que se utiliza para la clasificación supervisada . [12]
Para utilizar la distancia de Mahalanobis para clasificar un punto de prueba como perteneciente a una de N clases, primero se estima la matriz de covarianza de cada clase, generalmente en base a muestras que se sabe que pertenecen a cada clase. Luego, dada una muestra de prueba, se calcula la distancia de Mahalanobis a cada clase y se clasifica el punto de prueba como perteneciente a esa clase para la cual la distancia de Mahalanobis es mínima.
La distancia de Mahalanobis y el apalancamiento se utilizan a menudo para detectar valores atípicos , especialmente en el desarrollo de modelos de regresión lineal . Se dice que un punto que tiene una mayor distancia de Mahalanobis del resto de la población de puntos de la muestra tiene un mayor apalancamiento, ya que tiene una mayor influencia en la pendiente o los coeficientes de la ecuación de regresión. La distancia de Mahalanobis también se utiliza para determinar valores atípicos multivariados. Las técnicas de regresión se pueden utilizar para determinar si un caso específico dentro de una población de muestra es un valor atípico a través de la combinación de dos o más puntuaciones de variables. Incluso para distribuciones normales, un punto puede ser un valor atípico multivariado incluso si no es un valor atípico univariante para ninguna variable (considere una densidad de probabilidad concentrada a lo largo de la línea , por ejemplo), lo que hace que la distancia de Mahalanobis sea una medida más sensible que verificar las dimensiones individualmente.
La distancia de Mahalanobis también se ha utilizado en el modelado de nichos ecológicos , [13] [14] ya que la forma elíptica convexa de las distancias se relaciona bien con el concepto de nicho fundamental .
Otro ejemplo de uso es el de las finanzas, donde la distancia de Mahalanobis se ha utilizado para calcular un indicador llamado "índice de turbulencia", [15] que es una medida estadística del comportamiento anormal de los mercados financieros. Una implementación como API web de este indicador está disponible en línea. [16]
Muchos lenguajes de programación y paquetes estadísticos, como R , Python , etc., incluyen implementaciones de la distancia de Mahalanobis.