En estadística, las medidas robustas de escala son métodos que cuantifican la dispersión estadística en una muestra de datos numéricos , al tiempo que evitan los valores atípicos . Las estadísticas robustas más comunes son el rango intercuartil (RIC) y la desviación absoluta mediana (DAM). Estas se contrastan con las medidas de escala convencionales o no robustas, como la desviación estándar de la muestra , que se ven muy influenciadas por los valores atípicos.
Estas estadísticas robustas se utilizan particularmente como estimadores de un parámetro de escala y tienen las ventajas de ser robustas y de tener una eficiencia superior en datos contaminados, a costa de una eficiencia inferior en datos limpios de distribuciones como la distribución normal. Para ilustrar la robustez, la desviación estándar puede hacerse arbitrariamente grande incrementando exactamente una observación (tiene un punto de ruptura de 0, ya que puede estar contaminada por un solo punto), un defecto que no comparten las estadísticas robustas.
Una de las medidas de escala robustas más comunes es el rango intercuartil (RIC), la diferencia entre el percentil 75 y el percentil 25 de una muestra; este es el rango recortado al 25 % , un ejemplo de un estimador L. También se pueden utilizar otros rangos recortados, como el rango interdecil (rango recortado al 10 %). Para una distribución gaussiana, el RIC se relaciona con : [1]
Otra medida de escala robusta y conocida es la desviación absoluta media (DMA), la mediana de los valores absolutos de las diferencias entre los valores de los datos y la mediana general del conjunto de datos; para una distribución gaussiana, la DMA se relaciona con :
Consulte Desviación absoluta mediana n.º Relación con la desviación estándar para obtener más detalles.
Las medidas robustas de escala se pueden utilizar como estimadores de propiedades de la población, ya sea para la estimación de parámetros o como estimadores de su propio valor esperado .
Por ejemplo, se utilizan estimadores robustos de escala para estimar la desviación estándar de la población , generalmente multiplicándola por un factor de escala para convertirla en un estimador consistente e imparcial ; véase parámetro de escala: estimación . Por ejemplo, dividir el RIQ por 2 √ 2 erf −1 (1/2) (aproximadamente 1,349) lo convierte en un estimador consistente e imparcial de la desviación estándar de la población si los datos siguen una distribución normal .
En otras situaciones, tiene más sentido pensar en una medida de escala robusta como un estimador de su propio valor esperado , interpretado como una alternativa a la desviación estándar de la población como medida de escala. Por ejemplo, la desviación estándar de la población de una muestra de una distribución de Cauchy estándar es un estimador de la desviación estándar de la población, que en este caso es 1, mientras que la varianza de la población no existe.
Estos estimadores robustos generalmente tienen una eficiencia estadística inferior en comparación con los estimadores convencionales para datos extraídos de una distribución sin valores atípicos (como una distribución normal), pero tienen una eficiencia superior para datos extraídos de una distribución mixta o de una distribución de cola pesada , para la cual no se deben utilizar medidas no robustas como la desviación estándar.
Por ejemplo, para datos extraídos de la distribución normal, la MAD es 37% tan eficiente como la desviación estándar de la muestra, mientras que el estimador de Rousseeuw-Croux Q n es 88% tan eficiente como la desviación estándar de la muestra.
Rousseeuw y Croux [2] proponen alternativas a la MAD, motivadas por dos debilidades de la misma:
Proponen dos estadísticas alternativas basadas en diferencias por pares: S n y Q n , definidas como:
donde es una constante que depende de .
Estos se pueden calcular en tiempo O ( n log n ) y espacio O ( n ).
Ninguno de estos métodos requiere una estimación de la ubicación , ya que se basan únicamente en las diferencias entre los valores. Ambos son más eficientes que el MAD en una distribución gaussiana: S n tiene una eficiencia del 58 %, mientras que Q n tiene una eficiencia del 82 %.
Para una muestra de una distribución normal, S n es aproximadamente imparcial para la desviación estándar de la población incluso en tamaños de muestra muy modestos (<1% de sesgo para n = 10).
Para una muestra grande de una distribución normal, 2,22 Q n es aproximadamente insesgado para la desviación estándar de la población. Para muestras pequeñas o moderadas, el valor esperado de Q n bajo una distribución normal depende marcadamente del tamaño de la muestra, por lo que se utilizan factores de corrección de muestra finita (obtenidos de una tabla o de simulaciones) para calibrar la escala de Q n .
Al igual que S n y Q n , la varianza media biponderada busca ser robusta sin sacrificar demasiada eficiencia. Se define como
donde I es la función indicadora , Q es la mediana muestral de Xi , y
Su raíz cuadrada es un estimador robusto de escala, ya que los puntos de datos se ponderan negativamente a medida que aumenta su distancia de la mediana, y los puntos a más de 9 unidades MAD de la mediana no tienen influencia alguna.
Mizera y Müller (2004) proponen un estimador robusto basado en la profundidad para la ubicación y la escala simultáneamente. Proponen una nueva medida denominada mediana de Student. [3]
Un intervalo de confianza robusto es una modificación robusta de los intervalos de confianza , lo que significa que se modifican los cálculos no robustos del intervalo de confianza para que no se vean gravemente afectados por observaciones atípicas o aberrantes en un conjunto de datos.
En el proceso de pesar 1000 objetos, en condiciones prácticas, es fácil creer que el operador podría cometer un error en el procedimiento y, por lo tanto, informar una masa incorrecta (cometiendo así un tipo de error sistemático ). Supongamos que hubiera 100 objetos y que el operador los pesara todos, uno a la vez, y repitiera todo el proceso diez veces. Entonces, el operador puede calcular una desviación estándar de muestra para cada objeto y buscar valores atípicos . Cualquier objeto con una desviación estándar inusualmente grande probablemente tenga un valor atípico en sus datos. Estos pueden eliminarse mediante varias técnicas no paramétricas. Si el operador repitiera el proceso solo tres veces, simplemente tomando la mediana de las tres mediciones y usando σ obtendría un intervalo de confianza. Los 200 pesajes adicionales solo sirvieron para detectar y corregir el error del operador y no hicieron nada para mejorar el intervalo de confianza. Con más repeticiones, se podría usar una media truncada , descartando los valores más grandes y más pequeños y promediando el resto. Se podría utilizar un cálculo bootstrap para determinar un intervalo de confianza más estrecho que el calculado a partir de σ y así obtener algún beneficio de una gran cantidad de trabajo adicional.
Estos procedimientos son robustos frente a errores de procedimiento que no se modelan con el supuesto de que la balanza tiene una desviación estándar conocida y fija σ. En aplicaciones prácticas en las que puede producirse un error ocasional del operador o la balanza puede funcionar mal, no se pueden dar por sentados los supuestos que sustentan los cálculos estadísticos simples. Antes de confiar en los resultados de 100 objetos pesados solo tres veces cada uno para calcular intervalos de confianza a partir de σ, es necesario comprobar y eliminar una cantidad razonable de valores atípicos (probando el supuesto de que el operador es cuidadoso y corrigiendo el hecho de que no es perfecto) y comprobar el supuesto de que los datos realmente tienen una distribución normal con una desviación estándar σ.
El análisis teórico de un experimento de este tipo es complicado, pero es fácil crear una hoja de cálculo que extraiga números aleatorios de una distribución normal con desviación estándar σ para simular la situación; esto se puede hacer en Microsoft Excel usando =NORMINV(RAND(),0,σ))
, como se analiza en [4] y las mismas técnicas se pueden usar en otros programas de hojas de cálculo como Calc en OpenOffice.org y gnumeric .
Después de eliminar los valores atípicos obvios, se podría restar la mediana de los otros dos valores para cada objeto y examinar la distribución de los 200 números resultantes. Debería ser normal, con una media cercana a cero y una desviación estándar un poco mayor que σ. Un cálculo simple en una hoja de cálculo de Monte Carlo revelaría valores típicos para la desviación estándar (alrededor del 105 al 115 % de σ). O bien, se podría restar la media de cada triplete de los valores y examinar la distribución de 300 valores. La media es idéntica a cero, pero la desviación estándar debería ser algo menor (alrededor del 75 al 85 % de σ).