stringtranslate.com

Medidas robustas de escala

En estadística, las medidas robustas de escala son métodos que cuantifican la dispersión estadística en una muestra de datos numéricos al tiempo que resisten los valores atípicos . Las estadísticas robustas más comunes son el rango intercuartil (IQR) y la desviación absoluta mediana (MAD). Éstas se contrastan con medidas de escala convencionales o no robustas, como la desviación estándar de la muestra , que están muy influenciadas por valores atípicos.

Estas estadísticas sólidas se utilizan particularmente como estimadores de un parámetro de escala y tienen las ventajas de solidez y eficiencia superior en datos contaminados, a costa de una eficiencia inferior en datos limpios de distribuciones como la distribución normal. Para ilustrar la robustez, la desviación estándar puede hacerse arbitrariamente grande aumentando exactamente una observación (tiene un punto de ruptura de 0, ya que puede estar contaminada por un solo punto), un defecto que no comparten las estadísticas sólidas.

IQR y MAD

Una de las medidas robustas de escala más comunes es el rango intercuartil (IQR), la diferencia entre el percentil 75 y el percentil 25 de una muestra; este es el rango recortado del 25% , un ejemplo de estimador L. También se pueden utilizar otros rangos recortados, como el rango interdecil (rango recortado al 10%). Para una distribución gaussiana, el IQR se relaciona como: [1]

Otra medida de escala sólida y familiar es la desviación absoluta mediana (MAD), la mediana de los valores absolutos de las diferencias entre los valores de los datos y la mediana general del conjunto de datos; para una distribución gaussiana, MAD se relaciona como:

Consulte Desviación absoluta de la mediana#Relación con la desviación estándar para obtener más detalles.

Estimacion

Se pueden utilizar medidas robustas de escala como estimadores de propiedades de la población, ya sea para la estimación de parámetros o como estimadores de su propio valor esperado .

Por ejemplo, se utilizan estimadores robustos de escala para estimar la desviación estándar de la población , generalmente multiplicando por un factor de escala para convertirlo en un estimador consistente e insesgado ; ver parámetro de escala: estimación . Por ejemplo, dividir el IQR por 2 2 erf −1 (1/2) (aproximadamente 1,349) lo convierte en un estimador insesgado y consistente de la desviación estándar de la población si los datos siguen una distribución normal .

En otras situaciones, tiene más sentido pensar en una medida robusta de escala como un estimador de su propio valor esperado , interpretado como una alternativa a la desviación estándar de la población como medida de escala. Por ejemplo, la MAD de una muestra de una distribución estándar de Cauchy es un estimador de la MAD poblacional, que en este caso es 1, mientras que la varianza poblacional no existe.

Eficiencia

Estos estimadores robustos suelen tener una eficiencia estadística inferior en comparación con los estimadores convencionales para datos extraídos de una distribución sin valores atípicos (como una distribución normal), pero tienen una eficiencia superior para datos extraídos de una distribución mixta o de una distribución de colas pesadas , para las cuales no -No deben utilizarse medidas robustas como la desviación estándar.

Por ejemplo, para datos extraídos de la distribución normal, la MAD es 37% tan eficiente como la desviación estándar muestral, mientras que el estimador de Rousseeuw-Croux Q n es 88% tan eficiente como la desviación estándar muestral.

Diferencias absolutas por pares

Rousseeuw y Croux [2] proponen alternativas al MAD, motivados por dos debilidades del mismo:

  1. Es ineficiente (37% de eficiencia) en distribuciones gaussianas .
  2. calcula una estadística simétrica sobre una estimación de ubicación, por lo que no aborda la asimetría .

Proponen dos estadísticas alternativas basadas en diferencias por pares: S n y Q n , definidas como:

donde es una constante que depende de .

Estos se pueden calcular en tiempo O ( n log n ) y espacio O ( n ).

Ninguno de estos requiere una estimación de la ubicación , ya que se basan únicamente en diferencias entre valores. Ambos son más eficientes que el MAD bajo una distribución gaussiana: S n tiene una eficiencia del 58%, mientras que Qn tiene una eficiencia del 82% .

Para una muestra de una distribución normal, S n es aproximadamente insesgado para la desviación estándar de la población incluso hasta tamaños de muestra muy modestos (sesgo <1% para n  = 10).

Para una muestra grande de una distribución normal, 2,22 Q n es aproximadamente insesgada para la desviación estándar de la población. Para muestras pequeñas o moderadas, el valor esperado de Q n bajo una distribución normal depende notablemente del tamaño de la muestra, por lo que se utilizan factores de corrección de muestras finitas (obtenidos de una tabla o de simulaciones) para calibrar la escala de Q n .

La varianza media biponderada

Al igual que S n y Q n , la varianza media biponderada pretende ser robusta sin sacrificar demasiada eficiencia. Se define como

donde I es la función indicadora , Q es la mediana muestral de Xi , y

Su raíz cuadrada es un estimador robusto de escala, ya que los puntos de datos se reducen a medida que aumenta su distancia de la mediana, y los puntos a más de 9 unidades MAD de la mediana no tienen ninguna influencia.

Extensiones

Mizera y Müller (2004) proponen un estimador robusto basado en profundidad para ubicación y escala simultáneamente. Proponen una nueva medida denominada mediana de estudiantes. [3]

Intervalos de confianza

Un intervalo de confianza robusto es una modificación robusta de los intervalos de confianza , lo que significa que se modifican los cálculos no robustos del intervalo de confianza para que no se vean gravemente afectados por observaciones anómalas o aberrantes en un conjunto de datos.

Ejemplo

En el proceso de pesar 1000 objetos, en condiciones prácticas, es fácil creer que el operador podría cometer un error en el procedimiento y, por lo tanto, informar una masa incorrecta (cometiendo así un tipo de error sistemático ). Supongamos que hay 100 objetos y el operador los pesa todos, uno a la vez, y repite el proceso completo diez veces. Luego, el operador puede calcular una desviación estándar de muestra para cada objeto y buscar valores atípicos . Cualquier objeto con una desviación estándar inusualmente grande probablemente tenga un valor atípico en sus datos. Estos pueden eliminarse mediante diversas técnicas no paramétricas. Si el operador repitiera el proceso sólo tres veces, simplemente tomando la mediana de las tres mediciones y usando σ se obtendría un intervalo de confianza. Los 200 pesajes adicionales sólo sirvieron para detectar y corregir errores del operador y no hicieron nada para mejorar el intervalo de confianza. Con más repeticiones, se podría utilizar una media truncada , descartando los valores mayor y menor y promediando el resto. Se podría utilizar un cálculo bootstrap para determinar un intervalo de confianza más estrecho que el calculado a partir de σ y así obtener algún beneficio de una gran cantidad de trabajo adicional.

Estos procedimientos son robustos contra errores de procedimiento que no están modelados mediante el supuesto de que la balanza tiene una desviación estándar fija conocida σ. En aplicaciones prácticas donde ocasionalmente puede ocurrir un error del operador, o la balanza puede funcionar mal, las suposiciones detrás de los cálculos estadísticos simples no pueden darse por sentado. Antes de confiar en los resultados de 100 objetos pesados ​​sólo tres veces cada uno para tener intervalos de confianza calculados a partir de σ, es necesario probar y eliminar un número razonable de valores atípicos (probando la suposición de que el operador es cuidadoso y corrigiendo el hecho de que es cuidadoso). no perfecto), y para probar la suposición de que los datos realmente tienen una distribución normal con desviación estándar σ.

Simulación por ordenador

El análisis teórico de un experimento de este tipo es complicado, pero es fácil configurar una hoja de cálculo que extraiga números aleatorios de una distribución normal con desviación estándar σ para simular la situación; Esto se puede hacer en Microsoft Excel usando =NORMINV(RAND(),0,σ)), como se analiza en [4] y las mismas técnicas se pueden usar en otros programas de hojas de cálculo como OpenOffice.org Calc y gnumeric .

Después de eliminar los valores atípicos obvios, se podría restar la mediana de los otros dos valores de cada objeto y examinar la distribución de los 200 números resultantes. Debería ser normal con una media cercana a cero y una desviación estándar un poco mayor que σ. Un simple cálculo en una hoja de cálculo de Monte Carlo revelaría valores típicos de la desviación estándar (alrededor del 105 al 115 % de σ). O bien, se podría restar la media de cada triplete de los valores y examinar la distribución de 300 valores. La media es idénticamente cero, pero la desviación estándar debería ser algo menor (alrededor del 75 al 85% de σ).

Ver también

Referencias

  1. ^ "Rango intercuartil". NIST . Consultado el 30 de marzo de 2022 .
  2. ^ Rousseeuw, Peter J .; Croux, Christophe (diciembre de 1993), "Alternativas a la desviación absoluta mediana", Revista de la Asociación Estadounidense de Estadística , 88 (424), Asociación Estadounidense de Estadística: 1273–1283, doi :10.2307/2291267, JSTOR  2291267
  3. ^ Mizera, yo; Müller, CH (2004), "Profundidad de escala de ubicación", Revista de la Asociación Estadounidense de Estadística , 99 (468): 949–966, doi :10.1198/016214504000001312.
  4. ^ Wittwer, JW, "Simulación de Monte Carlo en Excel: una guía práctica", 1 de junio de 2004