stringtranslate.com

Muestra máxima y mínima

Diagramas de caja del experimento de Michelson-Morley , que muestran máximos y mínimos de muestra

En estadística , el máximo muestral y el mínimo muestral, también llamados observación más grande y observación más pequeña, son los valores de los elementos mayor y menor de una muestra . [1] Son estadísticas de resumen básicas , utilizadas en estadística descriptiva como el resumen de cinco números y el resumen de siete cifras de Bowley y el diagrama de caja asociado .

El valor mínimo y máximo son las estadísticas de primer y último orden (a menudo denominadas X (1) y X ( n ) respectivamente, para un tamaño de muestra de n ).

Si la muestra tiene valores atípicos , necesariamente incluyen el máximo o el mínimo de la muestra, o ambos, dependiendo de si son extremadamente altos o bajos. Sin embargo, el máximo y el mínimo de la muestra no tienen por qué ser valores atípicos, si no están inusualmente alejados de otras observaciones.

Robustez

El máximo y el mínimo de muestra son las estadísticas menos sólidas : son máximamente sensibles a los valores atípicos.

Esto puede ser una ventaja o un inconveniente: si los valores extremos son reales (no errores de medición) y tienen consecuencias reales, como en aplicaciones de la teoría de valores extremos, como la construcción de diques o pérdidas financieras, entonces los valores atípicos (como se reflejan en los extremos de la muestra) son importantes. Por otro lado, si los valores atípicos tienen poco o ningún impacto en los resultados reales, entonces el uso de estadísticas no sólidas, como los extremos de la muestra, simplemente nubla las estadísticas, y se deben utilizar alternativas sólidas, como otros cuantiles : los percentiles 10 y 90 ( primer y último decil ) son alternativas más sólidas.

Estadísticas derivadas

Además de ser un componente de toda estadística que utiliza todos los elementos de la muestra, los extremos de la muestra son partes importantes del rango , una medida de dispersión, y del rango medio , una medida de ubicación. También realizan la desviación absoluta máxima : uno de ellos es el punto más alejado de cualquier punto dado, particularmente una medida del centro como la mediana o la media.

Aplicaciones

Máximo suave

Para un conjunto de muestra, la función máxima no es uniforme y, por tanto, no diferenciable. Para los problemas de optimización que ocurren en estadística, a menudo es necesario aproximarla mediante una función suave que esté cerca del máximo del conjunto.

Un máximo suave , por ejemplo,

g ( x 1 , x 2 ,…, x n ) = log( exp( x 1 ) + exp( x 2 ) +… + exp( x n ))

es una buena aproximación del máximo muestral.

Resumen estadístico

El máximo y el mínimo de muestra son estadísticas de resumen básicas , que muestran las observaciones más extremas y se utilizan en el resumen de cinco números y una versión del resumen de siete números y el diagrama de caja asociado .

Intervalo de predicción

El máximo y el mínimo de muestra proporcionan un intervalo de predicción no paramétrico : en una muestra de una población, o más generalmente en una secuencia intercambiable de variables aleatorias, es igualmente probable que cada observación sea el máximo o el mínimo.

Por lo tanto, si uno tiene una muestra y elige otra observación , entonces esta tiene la probabilidad de ser el valor más grande visto hasta ahora, la probabilidad de ser el valor más pequeño visto hasta ahora y, por lo tanto, la otra del tiempo, cae entre el máximo y el mínimo de la muestra. de Por lo tanto, denotar el máximo y el mínimo de la muestra por M y m, esto produce un intervalo de predicción de [ m , M ].

Por ejemplo, si n  = 19, entonces [ m , M ] da un intervalo de predicción de 18/20 = 90%: el 90% de las veces, la observación número 20 se encuentra entre la observación más pequeña y más grande vista hasta ahora. Asimismo, n  = 39 da un intervalo de predicción del 95% y n  = 199 da un intervalo de predicción del 99%.

Estimacion

Debido a su sensibilidad a los valores atípicos, los extremos de la muestra no pueden usarse de manera confiable como estimadores a menos que los datos estén limpios; las alternativas sólidas incluyen el primer y el último decil .

Sin embargo, con datos limpios o en entornos teóricos, a veces pueden resultar muy buenos estimadores, particularmente para distribuciones platicúrticas , donde para conjuntos de datos pequeños el rango medio es el estimador más eficiente .

Sin embargo , son estimadores ineficientes de ubicación para distribuciones mesocúrticas, como la distribución normal y las distribuciones leptocúrticas.

Distribución uniforme

Para el muestreo sin reemplazo a partir de una distribución uniforme con uno o dos criterios de valoración desconocidos (es decir, con N desconocido, o con M y N desconocidos), el máximo de la muestra, o respectivamente el máximo y el mínimo de la muestra, son estadísticas suficientes y completas para lo desconocido. puntos finales; por tanto, un estimador insesgado derivado de estos será el estimador UMVU .

Si solo se desconoce el criterio de valoración superior, el máximo de la muestra es un estimador sesgado para el máximo de la población, pero el estimador insesgado (donde m es el máximo de la muestra y k es el tamaño de la muestra) es el estimador UMVU; consulte el problema del tanque alemán para obtener más detalles.

Si se desconocen ambos criterios de valoración, entonces el rango de muestra es un estimador sesgado para el rango de población, pero al corregir como para el máximo anterior se obtiene el estimador UMVU.

Si ambos puntos finales son desconocidos, entonces el rango medio es un estimador insesgado (y por lo tanto UMVU) del punto medio del intervalo (en este caso, de manera equivalente, la mediana poblacional, el promedio o el rango medio).

La razón por la que los extremos de la muestra son estadísticas suficientes es que la distribución condicional de las muestras no extremas es solo la distribución para el intervalo uniforme entre el máximo y el mínimo de la muestra: una vez que se fijan los puntos finales, los valores de los puntos interiores no agregan información adicional. .

Pruebas de normalidad

Los extremos de la muestra se pueden utilizar para pruebas de normalidad , ya que los eventos más allá del rango 3σ son muy raros.

Los extremos de la muestra se pueden usar para una prueba de normalidad simple , específicamente de curtosis: se calcula el estadístico t del máximo y mínimo de la muestra (resta la media de la muestra y se divide por la desviación estándar de la muestra ), y si son inusualmente grandes para la muestra tamaño (según la regla tres sigma y la tabla que contiene, o más precisamente la distribución t de Student ), entonces la curtosis de la distribución muestral se desvía significativamente de la de la distribución normal.

Por ejemplo, un proceso diario debería esperar un evento de 3σ una vez por año (de días calendario; una vez cada año y medio de días hábiles), mientras que un evento de 4σ ocurre en promedio cada 40 años de días calendario, 60 años de días hábiles ( una vez en la vida), 5σ ocurren cada 5.000 años (una vez en la historia registrada) y 6σ ocurren cada 1,5 millones de años (prácticamente nunca). Por lo tanto, si los extremos de la muestra están a 6 sigmas de la media, se tiene una falla significativa de normalidad.

Además, esta prueba es muy fácil de comunicar sin estadísticas involucradas.

Estas pruebas de normalidad se pueden aplicar si uno enfrenta riesgo de curtosis , por ejemplo.

Teoría del valor extremo

Los acontecimientos pueden ir más allá del extremo de cualquier observado anteriormente, como en el terremoto de Lisboa de 1755 .

Los extremos muestrales desempeñan dos funciones principales en la teoría de los valores extremos :

Sin embargo, se debe tener precaución al utilizar los extremos de la muestra como guía: en distribuciones de colas pesadas o para procesos no estacionarios , los eventos extremos pueden ser significativamente más extremos que cualquier evento observado previamente. Esto se desarrolla en la teoría del cisne negro .

Ver también

Referencias

  1. ^ "NEDARC: mínimo, máximo y alcance". www.nedarc.org . Consultado el 17 de febrero de 2023 .