En estadística , la desviación absoluta mediana ( MAD ) es una medida sólida de la variabilidad de una muestra univariada de datos cuantitativos . También puede referirse al parámetro poblacional que se estima mediante la MAD calculada a partir de una muestra. [1]
Para un conjunto de datos univariados X 1 , X 2 , ..., X n , la MAD se define como la mediana de las desviaciones absolutas de la mediana de los datos :
es decir, partiendo de los residuos (desviaciones) de la mediana de los datos, la DMA es la mediana de sus valores absolutos .
Considere los datos (1, 1, 2, 2 , 4, 6, 9). Tiene un valor mediano de 2. Las desviaciones absolutas alrededor de 2 son (1, 1, 0, 0, 2, 4, 7) que a su vez tienen un valor mediano de 1 (porque las desviaciones absolutas ordenadas son (0, 0, 1, 1 , 2, 4, 7)). Entonces la desviación absoluta mediana de estos datos es 1.
La desviación absoluta mediana es una medida de dispersión estadística . Además, la MAD es una estadística sólida y es más resistente a los valores atípicos en un conjunto de datos que la desviación estándar . En la desviación estándar, las distancias desde la media se elevan al cuadrado, por lo que las desviaciones grandes se ponderan más y, por lo tanto, los valores atípicos pueden influir en gran medida. En la DAM, las desviaciones de un pequeño número de valores atípicos son irrelevantes.
Debido a que la MAD es un estimador de escala más robusto que la varianza muestral o la desviación estándar , funciona mejor con distribuciones sin media ni varianza, como la distribución de Cauchy .
La MAD se puede usar de manera similar a como se usaría la desviación para el promedio. Para utilizar la MAD como estimador consistente para la estimación de la desviación estándar , se toma
donde es un factor de escala constante , que depende de la distribución. [2]
Para datos distribuidos normalmente se toma como
es decir, el recíproco de la función cuantil (también conocida como inversa de la función de distribución acumulativa ) para la distribución normal estándar . [3] [4]
El argumento 3/4 es tal que cubre el 50% (entre 1/4 y 3/4) de la función de distribución acumulativa normal estándar , es decir
Por lo tanto, debemos tener eso
notando que
tenemos eso , de donde obtenemos el factor de escala .
Otra forma de establecer la relación es observar que MAD es igual a la mediana de la distribución normal :
Esta forma se utiliza, por ejemplo, en el error probable .
En el caso de valores complejos ( X +i Y ), la relación de MAD con la desviación estándar no cambia para datos distribuidos normalmente.
De manera análoga a cómo la mediana se generaliza a la mediana geométrica (gm) en datos multivariados, MAD se puede generalizar a MADGM (mediana de distancias a gm) en n dimensiones. Esto se hace reemplazando las diferencias absolutas en una dimensión por distancias euclidianas de los puntos de datos a la mediana geométrica en n dimensiones. [5] Esto da el resultado idéntico que el MAD univariado en 1 dimensión y se generaliza a cualquier número de dimensiones. MADGM necesita encontrar la mediana geométrica, lo cual se realiza mediante un proceso iterativo.
La MAD poblacional se define de manera análoga a la MAD muestral, pero se basa en la distribución completa y no en una muestra. Para una distribución simétrica con media cero, la población MAD es el percentil 75 de la distribución.
A diferencia de la varianza , que puede ser infinita o indefinida, la población MAD es siempre un número finito. Por ejemplo, la distribución estándar de Cauchy tiene una varianza indefinida, pero su MAD es 1.
La primera mención conocida del concepto de MAD se produjo en 1816, en un artículo de Carl Friedrich Gauss sobre la determinación de la precisión de las observaciones numéricas. [6] [7]