Desviación absoluta media

En estadística , la desviación absoluta mediana ( DAM ) es una medida robusta de la variabilidad de una muestra univariante de datos cuantitativos . También puede referirse al parámetro poblacional que se estima mediante la DAM calculada a partir de una muestra. ^[1]

Para un conjunto de datos univariados X ₁ , X ₂ , ..., X _n , la MAD se define como la mediana de las desviaciones absolutas de la mediana de los datos : ${\tilde {X}}=\operatorname {mediana} (X)$

\operatorname {MAD} =\operatorname {mediana} (|X_{i}-{\tilde {X}}|)

es decir, a partir de los residuos (desviaciones) de la mediana de los datos, la MAD es la mediana de sus valores absolutos .

Ejemplo

Considere los datos (1, 1, 2, 2 , 4, 6, 9). Su valor medio es 2. Las desviaciones absolutas con respecto a 2 son (1, 1, 0, 0, 2, 4, 7), que a su vez tienen un valor medio de 1 (porque las desviaciones absolutas ordenadas son (0, 0, 1, 1 , 2, 4, 7)). Por lo tanto, la desviación absoluta media de estos datos es 1.

Usos

La desviación absoluta mediana es una medida de dispersión estadística . Además, la desviación estándar media es una estadística robusta , más resistente a los valores atípicos en un conjunto de datos que la desviación estándar . En la desviación estándar, las distancias desde la media se elevan al cuadrado, por lo que las desviaciones grandes tienen mayor peso y, por lo tanto, los valores atípicos pueden influir en gran medida en ella. En la desviación estándar media, las desviaciones de un pequeño número de valores atípicos son irrelevantes.

Debido a que la MAD es un estimador de escala más robusto que la varianza de la muestra o la desviación estándar , funciona mejor con distribuciones sin media o varianza, como la distribución de Cauchy .

Relación con la desviación estándar

La MAD se puede utilizar de forma similar a como se utilizaría la desviación para el promedio. Para utilizar la MAD como un estimador consistente para la estimación de la desviación estándar , se toma ${\estilo de visualización \sigma}$

{\hat {\sigma }}=k\cdot \nombre del operador {MAD} ,

donde es un factor de escala constante , que depende de la distribución. ^[2] ${\estilo de visualización k}$

Para los datos distribuidos normalmente se toma como ${\estilo de visualización k}$

k=1/\left(\Phi ^{-1}(3/4)\right)\aproximadamente 1/0,67449\aproximadamente 1,4826,

es decir, el recíproco de la función cuantil (también conocida como la inversa de la función de distribución acumulativa ) para la distribución normal estándar . ^[3]^[4] $\Phi ^{-1}$ $Z=(X-\mu )/\sigma$

Derivación

El argumento 3/4 es tal que cubre el 50% (entre 1/4 y 3/4) de la función de distribución acumulativa normal estándar , es decir $\pm \operatorname {MAD}$

{\frac {1}{2}}=P(|X-\mu |\leq \operatorname {MAD} )=P\left(\left|{\frac {X-\mu }{\sigma }}\right|\leq {\frac {\operatorname {MAD} }{\sigma }}\right)=P\left(|Z|\leq {\frac {\operatorname {MAD} }{\sigma }}\right).

Por lo tanto, debemos tener eso

\Phi \left(\operatorname {MAD} /\sigma \right)-\Phi \left(-\operatorname {MAD} /\sigma \right)=1/2.

Notando que

\Phi \left(-\operatorname {MAD} /\sigma \right)=1-\Phi \left(\operatorname {MAD} /\sigma \right),

tenemos que , de donde obtenemos el factor de escala . $\operatorname {MAD} /\sigma =\Phi ^{-1}(3/4)=0,67449$ $k=1/\Phi ^{-1}(3/4)=1,4826$

Otra forma de establecer la relación es observar que MAD es igual a la mediana de la distribución seminormal :

\operatorname {MAD} =\sigma {\sqrt {2}}\operatorname {erf} ^{-1}(1/2)\approx 0.67449\sigma .

Esta forma se utiliza, por ejemplo, en el error probable .

En el caso de valores complejos ( X + i Y ), la relación de MAD con la desviación estándar no cambia para datos distribuidos normalmente.

Generalización multivariante

De manera análoga a cómo la mediana se generaliza a la mediana geométrica (GM) en datos multivariados , MAD se puede generalizar a la mediana de distancias a GM (MADGM) en n dimensiones. Esto se hace reemplazando las diferencias absolutas en una dimensión por distancias euclidianas de los puntos de datos a la mediana geométrica en n dimensiones. ^[5] Esto da el mismo resultado que la MAD univariante en una dimensión y se generaliza a cualquier número de dimensiones. MADGM necesita que se encuentre la mediana geométrica, lo que se hace mediante un proceso iterativo.

La población MAD

La MAD poblacional se define de manera análoga a la MAD muestral, pero se basa en la población completa en lugar de en una muestra. Para una distribución simétrica con media cero, la MAD poblacional es el percentil 75 de la distribución.

A diferencia de la varianza , que puede ser infinita o indefinida, la MAD poblacional siempre es un número finito. Por ejemplo, la distribución de Cauchy estándar tiene una varianza indefinida, pero su MAD es 1.

La primera mención conocida del concepto de MAD ocurrió en 1816, en un artículo de Carl Friedrich Gauss sobre la determinación de la precisión de las observaciones numéricas. ^[6]^[7]

Véase también

Notas

^ Dodge, Yadolah (2010). La enciclopedia concisa de estadísticas . Nueva York: Springer. ISBN 978-0-387-32833-1.
^ Rousseeuw, PJ ; Croux, C. (1993). "Alternativas a la desviación absoluta mediana". Revista de la Asociación Estadounidense de Estadística . 88 (424): 1273–1283. doi :10.1080/01621459.1993.10476408. hdl : 2027.42/142454 .
^ Ruppert, D. (2010). Estadística y análisis de datos para ingeniería financiera. Springer. pág. 118. ISBN 9781441977878. Recuperado el 27 de agosto de 2015 .
^ Leys, C.; et al. (2013). "Detección de valores atípicos: no utilice la desviación estándar alrededor de la media, utilice la desviación absoluta alrededor de la mediana" (PDF) . Journal of Experimental Social Psychology . 49 (4): 764–766. doi :10.1016/j.jesp.2013.03.013.
^ Spacek, Libor. "Rstats - Implementación de medidas estadísticas, álgebra vectorial, mediana geométrica, análisis de datos y aprendizaje automático en Rust". crates.io . Consultado el 26 de julio de 2022 .
^ Gauss, Carl Friedrich (1816). "Bestimmung der Genauigkeit der Beobachtungen". Zeitschrift für Astronomie und Verwandte Wissenschaften . 1 : 187–197.
^ Walker, Helen (1931). Estudios sobre la historia del método estadístico . Baltimore, MD: Williams & Wilkins Co., págs. 24-25.

Referencias

Hoaglin, David C.; Frederick Mosteller; John W. Tukey (1983). Entendiendo el análisis de datos robusto y exploratorio . John Wiley & Sons. págs. 404–414. ISBN 978-0-471-09777-8.
Russell, Roberta S.; Bernard W. Taylor III (2006). Gestión de operaciones. John Wiley & Sons. pp. 497–498. ISBN 978-0-471-69209-6.
Venables, WN; BD Ripley (1999). Estadística aplicada moderna con S-PLUS . Springer. pág. 128. ISBN. 978-0-387-98825-2.