En estadística , la desviación absoluta mediana ( DAM ) es una medida robusta de la variabilidad de una muestra univariante de datos cuantitativos . También puede referirse al parámetro poblacional que se estima mediante la DAM calculada a partir de una muestra. [1]
Para un conjunto de datos univariados X 1 , X 2 , ..., X n , la MAD se define como la mediana de las desviaciones absolutas de la mediana de los datos :
es decir, a partir de los residuos (desviaciones) de la mediana de los datos, la MAD es la mediana de sus valores absolutos .
Considere los datos (1, 1, 2, 2 , 4, 6, 9). Su valor medio es 2. Las desviaciones absolutas con respecto a 2 son (1, 1, 0, 0, 2, 4, 7), que a su vez tienen un valor medio de 1 (porque las desviaciones absolutas ordenadas son (0, 0, 1, 1 , 2, 4, 7)). Por lo tanto, la desviación absoluta media de estos datos es 1.
La desviación absoluta mediana es una medida de dispersión estadística . Además, la desviación estándar media es una estadística robusta , más resistente a los valores atípicos en un conjunto de datos que la desviación estándar . En la desviación estándar, las distancias desde la media se elevan al cuadrado, por lo que las desviaciones grandes tienen mayor peso y, por lo tanto, los valores atípicos pueden influir en gran medida en ella. En la desviación estándar media, las desviaciones de un pequeño número de valores atípicos son irrelevantes.
Debido a que la MAD es un estimador de escala más robusto que la varianza de la muestra o la desviación estándar , funciona mejor con distribuciones sin media o varianza, como la distribución de Cauchy .
La MAD se puede utilizar de forma similar a como se utilizaría la desviación para el promedio. Para utilizar la MAD como un estimador consistente para la estimación de la desviación estándar , se toma
donde es un factor de escala constante , que depende de la distribución. [2]
Para los datos distribuidos normalmente se toma como
es decir, el recíproco de la función cuantil (también conocida como la inversa de la función de distribución acumulativa ) para la distribución normal estándar . [3] [4]
El argumento 3/4 es tal que cubre el 50% (entre 1/4 y 3/4) de la función de distribución acumulativa normal estándar , es decir
Por lo tanto, debemos tener eso
Notando que
tenemos que , de donde obtenemos el factor de escala .
Otra forma de establecer la relación es observar que MAD es igual a la mediana de la distribución seminormal :
Esta forma se utiliza, por ejemplo, en el error probable .
En el caso de valores complejos ( X + i Y ), la relación de MAD con la desviación estándar no cambia para datos distribuidos normalmente.
De manera análoga a cómo la mediana se generaliza a la mediana geométrica (GM) en datos multivariados , MAD se puede generalizar a la mediana de distancias a GM (MADGM) en n dimensiones. Esto se hace reemplazando las diferencias absolutas en una dimensión por distancias euclidianas de los puntos de datos a la mediana geométrica en n dimensiones. [5] Esto da el mismo resultado que la MAD univariante en una dimensión y se generaliza a cualquier número de dimensiones. MADGM necesita que se encuentre la mediana geométrica, lo que se hace mediante un proceso iterativo.
La MAD poblacional se define de manera análoga a la MAD muestral, pero se basa en la población completa en lugar de en una muestra. Para una distribución simétrica con media cero, la MAD poblacional es el percentil 75 de la distribución.
A diferencia de la varianza , que puede ser infinita o indefinida, la MAD poblacional siempre es un número finito. Por ejemplo, la distribución de Cauchy estándar tiene una varianza indefinida, pero su MAD es 1.
La primera mención conocida del concepto de MAD ocurrió en 1816, en un artículo de Carl Friedrich Gauss sobre la determinación de la precisión de las observaciones numéricas. [6] [7]