Desviación absoluta mediana

En estadística , la desviación absoluta mediana ( MAD ) es una medida sólida de la variabilidad de una muestra univariada de datos cuantitativos . También puede referirse al parámetro poblacional que se estima mediante la MAD calculada a partir de una muestra. ^[1]

Para un conjunto de datos univariados X ₁ , X ₂ , ..., X _n , la MAD se define como la mediana de las desviaciones absolutas de la mediana de los datos : ${\tilde {X}}=\operatorname {mediana} (X)$

\operatorname {MAD} =\operatorname {mediana} (|X_{i}-{\tilde {X}}|)

es decir, partiendo de los residuos (desviaciones) de la mediana de los datos, la DMA es la mediana de sus valores absolutos .

Ejemplo

Considere los datos (1, 1, 2, 2 , 4, 6, 9). Tiene un valor mediano de 2. Las desviaciones absolutas alrededor de 2 son (1, 1, 0, 0, 2, 4, 7) que a su vez tienen un valor mediano de 1 (porque las desviaciones absolutas ordenadas son (0, 0, 1, 1 , 2, 4, 7)). Entonces la desviación absoluta mediana de estos datos es 1.

Usos

La desviación absoluta mediana es una medida de dispersión estadística . Además, la MAD es una estadística sólida y es más resistente a los valores atípicos en un conjunto de datos que la desviación estándar . En la desviación estándar, las distancias desde la media se elevan al cuadrado, por lo que las desviaciones grandes se ponderan más y, por lo tanto, los valores atípicos pueden influir en gran medida. En la DAM, las desviaciones de un pequeño número de valores atípicos son irrelevantes.

Debido a que la MAD es un estimador de escala más robusto que la varianza muestral o la desviación estándar , funciona mejor con distribuciones sin media ni varianza, como la distribución de Cauchy .

Relación con la desviación estándar

La MAD se puede usar de manera similar a como se usaría la desviación para el promedio. Para utilizar la MAD como estimador consistente para la estimación de la desviación estándar , se toma $\sigma$

{\hat {\sigma }}=k\cdot \operatorname {MAD},

donde es un factor de escala constante , que depende de la distribución. ^[2] $k$

Para datos distribuidos normalmente se toma como $k$

k=1/\left(\Phi ^{-1}(3/4)\right)\aproximadamente 1/0,67449\aproximadamente 1,4826,

es decir, el recíproco de la función cuantil (también conocida como inversa de la función de distribución acumulativa ) para la distribución normal estándar . ^[3]^[4] $\Fi ^{-1}$ $Z=(X-\mu )/\sigma$

Derivación

El argumento 3/4 es tal que cubre el 50% (entre 1/4 y 3/4) de la función de distribución acumulativa normal estándar , es decir $\pm \operatorname {MAD}$

{\frac {1}{2}}=P(|X-\mu |\leq \operatorname {MAD} )=P\left(\left|{\frac {X-\mu }{\sigma }}\right|\leq {\frac {\operatorname {MAD} }{\sigma }}\right)=P\left(|Z|\leq {\frac {\operatorname {MAD} }{\sigma }} \bien).

Por lo tanto, debemos tener eso

\Phi \left(\operatorname {MAD} /\sigma \right)-\Phi \left(-\operatorname {MAD} /\sigma \right)=1/2.

notando que

\Phi \left(-\operatorname {MAD} /\sigma \right)=1-\Phi \left(\operatorname {MAD} /\sigma \right),

tenemos eso , de donde obtenemos el factor de escala . $\operatorname {MAD} /\sigma =\Phi ^{-1}(3/4)=0.67449$ $k=1/\Phi ^{-1}(3/4)=1,4826$

Otra forma de establecer la relación es observar que MAD es igual a la mediana de la distribución normal :

\operatorname {MAD} =\sigma {\sqrt {2}}\operatorname {erf} ^{-1}(1/2)\aproximadamente 0,67449\sigma .

Esta forma se utiliza, por ejemplo, en el error probable .

En el caso de valores complejos ( X +i Y ), la relación de MAD con la desviación estándar no cambia para datos distribuidos normalmente.

MAD usando mediana geométrica

De manera análoga a cómo la mediana se generaliza a la mediana geométrica (gm) en datos multivariados, MAD se puede generalizar a MADGM (mediana de distancias a gm) en n dimensiones. Esto se hace reemplazando las diferencias absolutas en una dimensión por distancias euclidianas de los puntos de datos a la mediana geométrica en n dimensiones. ^[5] Esto da el resultado idéntico que el MAD univariado en 1 dimensión y se generaliza a cualquier número de dimensiones. MADGM necesita encontrar la mediana geométrica, lo cual se realiza mediante un proceso iterativo.

La población ENOJADA

La MAD poblacional se define de manera análoga a la MAD muestral, pero se basa en la distribución completa y no en una muestra. Para una distribución simétrica con media cero, la población MAD es el percentil 75 de la distribución.

A diferencia de la varianza , que puede ser infinita o indefinida, la población MAD es siempre un número finito. Por ejemplo, la distribución estándar de Cauchy tiene una varianza indefinida, pero su MAD es 1.

La primera mención conocida del concepto de MAD se produjo en 1816, en un artículo de Carl Friedrich Gauss sobre la determinación de la precisión de las observaciones numéricas. ^[6]^[7]

Ver también

Notas

^ Esquivar, Yadolah (2010). La enciclopedia concisa de estadísticas . Nueva York: Springer. ISBN 978-0-387-32833-1.
^ Rousseeuw, PJ ; Croux, C. (1993). "Alternativas a la desviación absoluta mediana". Revista de la Asociación Estadounidense de Estadística . 88 (424): 1273–1283. doi :10.1080/01621459.1993.10476408. hdl : 2027.42/142454 .
^ Ruppert, D. (2010). Estadística y Análisis de Datos para Ingeniería Financiera. Saltador. pag. 118.ISBN 9781441977878. Consultado el 27 de agosto de 2015 .
^ Leys, C.; et al. (2013). "Detección de valores atípicos: no utilice la desviación estándar alrededor de la media, utilice la desviación absoluta alrededor de la mediana" (PDF) . Revista de Psicología Social Experimental . 49 (4): 764–766. doi :10.1016/j.jesp.2013.03.013.
^ Spacek, Libor. "Rstats: implementación de medidas estadísticas en Rust, álgebra vectorial, mediana geométrica, análisis de datos y aprendizaje automático". cajas.io . Consultado el 26 de julio de 2022 .
^ Gauss, Carl Friedrich (1816). "Bestimmung der Genauigkeit der Beobachtungen". Zeitschrift für Astronomie und Verwandte Wissenschaften . 1 : 187–197.
^ Caminante, Helen (1931). Estudios de Historia del Método Estadístico . Baltimore, MD: Williams & Wilkins Co. págs. 24-25.

Referencias

Hoaglin, David C.; Federico Mosteller; John W. Tukey (1983). Comprensión del análisis de datos exploratorio y sólido . John Wiley e hijos. págs. 404–414. ISBN 978-0-471-09777-8.
Russell, Roberta S.; Bernard W. Taylor III (2006). Jefe de operaciones. John Wiley e hijos. págs. 497–498. ISBN 978-0-471-69209-6.
Venables, WN; BD Ripley (1999). Estadística Aplicada Moderna con S-PLUS . Saltador. pag. 128.ISBN 978-0-387-98825-2.