stringtranslate.com

Error estándar

Para un valor muestreado con un error distribuido normalmente no sesgado , lo anterior representa la proporción de muestras que caerían entre 0, 1, 2 y 3 desviaciones estándar por encima y por debajo del valor real.

El error estándar ( EE ) [1] de una estadística (normalmente una estimación de un parámetro ) es la desviación estándar de su distribución de muestreo [2] o una estimación de esa desviación estándar. Si la estadística es la media de la muestra, se denomina error estándar de la media ( EEM ). [1] El error estándar es un ingrediente clave para producir intervalos de confianza . [3]

La distribución de muestreo de una media se genera mediante el muestreo repetido de la misma población y el registro de las medias de muestra obtenidas. Esto forma una distribución de diferentes medias, y esta distribución tiene su propia media y varianza . Matemáticamente, la varianza de la distribución de medias de muestreo obtenida es igual a la varianza de la población dividida por el tamaño de la muestra. Esto se debe a que a medida que aumenta el tamaño de la muestra, las medias de la muestra se agrupan más estrechamente alrededor de la media de la población.

Por lo tanto, la relación entre el error estándar de la media y la desviación estándar es tal que, para un tamaño de muestra dado, el error estándar de la media es igual a la desviación estándar dividida por la raíz cuadrada del tamaño de la muestra. [1] En otras palabras, el error estándar de la media es una medida de la dispersión de las medias muestrales alrededor de la media poblacional.

En el análisis de regresión , el término "error estándar" se refiere a la raíz cuadrada de la estadística chi-cuadrado reducida o al error estándar de un coeficiente de regresión particular (como se usa, por ejemplo, en los intervalos de confianza ).

Error estándar de la media de la muestra

Valor exacto

Supongamos que se toma una muestra estadísticamente independiente de observaciones de una población estadística con una desviación estándar de . El valor medio calculado a partir de la muestra, , tendrá un error estándar asociado en la media , , dado por: [1]

En la práctica esto nos dice que cuando tratamos de estimar el valor de una media poblacional, debido al factor , reducir el error en la estimación por un factor de dos requiere adquirir cuatro veces más observaciones en la muestra; reducirlo por un factor de diez requiere cien veces más observaciones.

Estimar

La desviación estándar de la población muestreada rara vez se conoce. Por lo tanto, el error estándar de la media se suele estimar reemplazando por la desviación estándar de la muestra :

Como este es solo un estimador del verdadero "error estándar", es común ver aquí otras notaciones como:

Una fuente común de confusión ocurre cuando no se logra distinguir claramente entre:

Precisión del estimador

Cuando el tamaño de la muestra es pequeño, el uso de la desviación estándar de la muestra en lugar de la desviación estándar real de la población tenderá a subestimar sistemáticamente la desviación estándar de la población y, por lo tanto, también el error estándar. Con n = 2, la subestimación es de alrededor del 25%, pero para n = 6, la subestimación es solo del 5%. Gurland y Tripathi (1971) proporcionan una corrección y una ecuación para este efecto. [4] Sokal y Rohlf (1981) dan una ecuación del factor de corrección para muestras pequeñas de n < 20. [5] Véase la estimación no sesgada de la desviación estándar para una discusión más detallada.

Derivación

El error estándar de la media puede derivarse de la varianza de una suma de variables aleatorias independientes, [6] dada la definición de varianza y algunas propiedades de la misma. Si es una muestra de observaciones independientes de una población con media y desviación estándar , entonces podemos definir el total que debido a la fórmula de Bienaymé , tendrá varianza donde hemos aproximado las desviaciones estándar, es decir, las incertidumbres, de las mediciones mismas con el mejor valor para la desviación estándar de la población. La media de estas mediciones está dada por

La varianza de la media es entonces

El error estándar es, por definición, la desviación estándar cuya raíz cuadrada de la varianza:

Para las variables aleatorias correlacionadas, la varianza de la muestra debe calcularse de acuerdo con el teorema del límite central de la cadena de Markov .

Variables aleatorias independientes e idénticamente distribuidas con tamaño de muestra aleatorio

Existen casos en los que se toma una muestra sin saber de antemano cuántas observaciones serán aceptables según algún criterio. En tales casos, el tamaño de la muestra es una variable aleatoria cuya variación se suma a la variación de tal que, [7] lo cual se desprende de la ley de varianza total .

Si tiene una distribución de Poisson , entonces con estimador . Por lo tanto, el estimador de se convierte en , lo que genera la siguiente fórmula para el error estándar: (ya que la desviación estándar es la raíz cuadrada de la varianza).

Aproximación del estudiante cuandoσEl valor es desconocido

En muchas aplicaciones prácticas, el valor verdadero de σ es desconocido. Como resultado, necesitamos utilizar una distribución que tenga en cuenta esa dispersión de posibles σ' s. Cuando se sabe que la distribución subyacente verdadera es gaussiana, aunque con σ desconocida, entonces la distribución estimada resultante sigue la distribución t de Student. El error estándar es la desviación estándar de la distribución t de Student. Las distribuciones t son ligeramente diferentes de la gaussiana y varían según el tamaño de la muestra. Las muestras pequeñas tienen una probabilidad algo mayor de subestimar la desviación estándar de la población y tienen una media que difiere de la media real de la población, y la distribución t de Student da cuenta de la probabilidad de estos eventos con colas algo más pesadas en comparación con una gaussiana. Para estimar el error estándar de una distribución t de Student es suficiente utilizar la desviación estándar de la muestra "s" en lugar de σ , y podríamos utilizar este valor para calcular intervalos de confianza.

Nota: La distribución de probabilidad de Student se aproxima bien con la distribución gaussiana cuando el tamaño de la muestra es superior a 100. Para tales muestras se puede utilizar la última distribución, que es mucho más simple. Además, aunque se desconoce la distribución "real" de la población, suponer la normalidad de la distribución de muestreo tiene sentido para un tamaño de muestra razonable y bajo ciertas condiciones de muestreo, consulte CLT . Si no se cumplen estas condiciones, utilizar una distribución Bootstrap para estimar el error estándar suele ser una buena solución alternativa, pero puede requerir un gran esfuerzo computacional.

Supuestos y uso

Un ejemplo de cómo se utiliza es para hacer intervalos de confianza de la media de la población desconocida. Si la distribución de muestreo se distribuye normalmente , la media de la muestra, el error estándar y los cuantiles de la distribución normal se pueden utilizar para calcular intervalos de confianza para la media de la población real. Las siguientes expresiones se pueden utilizar para calcular los límites de confianza superior e inferior del 95%, donde es igual a la media de la muestra, es igual al error estándar de la media de la muestra y 1,96 es el valor aproximado del punto percentil 97,5 de la distribución normal :

En particular, el error estándar de una estadística de muestra (como la media de la muestra ) es la desviación estándar real o estimada de la media de la muestra en el proceso por el cual se generó. En otras palabras, es la desviación estándar real o estimada de la distribución de muestreo de la estadística de muestra. La notación para el error estándar puede ser cualquiera de las siguientes: SE, SEM (para error estándar de medición o media ) o S E .

Los errores estándar proporcionan medidas simples de incertidumbre en un valor y se utilizan a menudo porque:

Error estándar de la media frente a la desviación estándar

En la literatura científica y técnica, los datos experimentales suelen resumirse utilizando la media y la desviación estándar de los datos de la muestra o la media con el error estándar. Esto suele generar confusión sobre su intercambiabilidad. Sin embargo, la media y la desviación estándar son estadísticas descriptivas , mientras que el error estándar de la media es descriptivo del proceso de muestreo aleatorio. La desviación estándar de los datos de la muestra es una descripción de la variación en las mediciones, mientras que el error estándar de la media es una declaración probabilística sobre cómo el tamaño de la muestra proporcionará un mejor límite en las estimaciones de la media de la población, a la luz del teorema del límite central. [8]

En pocas palabras, el error estándar de la media de la muestra es una estimación de qué tan lejos es probable que esté la media de la muestra de la media de la población, mientras que la desviación estándar de la muestra es el grado en que los individuos dentro de la muestra difieren de la media de la muestra. [9] Si la desviación estándar de la población es finita, el error estándar de la media de la muestra tenderá a cero con el aumento del tamaño de la muestra, porque la estimación de la media de la población mejorará, mientras que la desviación estándar de la muestra tenderá a aproximarse a la desviación estándar de la población a medida que aumenta el tamaño de la muestra.

Extensiones

Corrección de población finita (FPC)

La fórmula dada anteriormente para el error estándar supone que la población es infinita. No obstante, se utiliza a menudo para poblaciones finitas cuando las personas están interesadas en medir el proceso que creó la población finita existente (esto se llama estudio analítico ). Aunque la fórmula anterior no es exactamente correcta cuando la población es finita, la diferencia entre las versiones de población finita e infinita será pequeña cuando la fracción de muestreo sea pequeña (por ejemplo, se estudia una pequeña proporción de una población finita). En este caso, las personas a menudo no corrigen la población finita, tratándola esencialmente como una población "aproximadamente infinita".

Si uno está interesado en medir una población finita existente que no cambiará con el tiempo, entonces es necesario ajustar el tamaño de la población (llamado estudio enumerativo ). Cuando la fracción de muestreo (a menudo denominada f ) es grande (aproximadamente el 5% o más) en un estudio enumerativo , la estimación del error estándar debe corregirse multiplicándola por una ''corrección de población finita'' (también conocida como: FPC ): [10] [11] que, para N grande : para tener en cuenta la precisión adicional obtenida al muestrear cerca de un porcentaje mayor de la población. El efecto de la FPC es que el error se vuelve cero cuando el tamaño de la muestra n es igual al tamaño de la población N.

Esto sucede en la metodología de encuestas cuando se realiza un muestreo sin reemplazo . Si se realiza un muestreo con reemplazo, entonces el FPC no entra en juego.

Corrección de la correlación en la muestra

Error esperado en la media de A para una muestra de n puntos de datos con coeficiente de sesgo de muestra  ρ . El error estándar no sesgado se representa como la línea diagonal ρ  = 0 con pendiente logarítmica − 12 .

Si los valores de la cantidad medida A no son estadísticamente independientes pero se han obtenido de ubicaciones conocidas en el espacio de parámetros  x , se puede obtener una estimación no sesgada del verdadero error estándar de la media (en realidad una corrección en la parte de desviación estándar) multiplicando el error estándar calculado de la muestra por el factor  f : donde el coeficiente de sesgo de la muestra ρ es la estimación de Prais-Winsten ampliamente utilizada del coeficiente de autocorrelación (una cantidad entre −1 y +1) para todos los pares de puntos de la muestra. Esta fórmula aproximada es para tamaños de muestra moderados a grandes; la referencia proporciona las fórmulas exactas para cualquier tamaño de muestra y se puede aplicar a series de tiempo fuertemente autocorrelacionadas como las cotizaciones de acciones de Wall Street. Además, esta fórmula funciona tanto para ρ positivo como negativo. [12] Véase también estimación no sesgada de la desviación estándar para más información.

Véase también

Referencias

  1. ^ abcd Altman, Douglas G; Bland, J Martin (15 de octubre de 2005). "Desviaciones estándar y errores estándar". BMJ: British Medical Journal . 331 (7521): 903. doi :10.1136/bmj.331.7521.903. ISSN  0959-8138. PMC  1255808 . PMID  16223828.
  2. ^ Everitt, BS (2003). Diccionario de estadística de Cambridge . Cambridge University Press. ISBN 978-0-521-81099-9.
  3. ^ Wooldridge, Jeffrey M. (2023). "¿Qué es un error estándar? (¿Y cómo debemos calcularlo?)". Journal of Econometrics . 237 (2, Parte A). doi :10.1016/j.jeconom.2023.105517. ISSN  0304-4076.
  4. ^ Gurland, J; Tripathi RC (1971). "Una aproximación simple para la estimación no sesgada de la desviación estándar". American Statistician . 25 (4): 30–32. doi :10.2307/2682923. JSTOR  2682923.
  5. ^ Sokal; Rohlf (1981). Biometría: principios y práctica de la estadística en la investigación biológica (2.ª ed.). pág. 53. ISBN 978-0-7167-1254-1.
  6. ^ Hutchinson, TP (1993). Fundamentos de métodos estadísticos, 41 páginas . Adelaida: Rumsby. ISBN 978-0-646-12621-0.
  7. ^ Cornell, JR; Benjamin, CA (1970). Probabilidad, estadística y decisiones para ingenieros civiles . Nueva York: McGraw-Hill. págs. 178-179. ISBN. 0486796094.
  8. ^ Barde, M. (2012). "¿Qué utilizar para expresar la variabilidad de los datos: desviación estándar o error estándar de la media?". Perspect. Clin. Res. 3 (3): 113–116. doi : 10.4103/2229-3485.100662 . PMC 3487226 . PMID  23125963.  
  9. ^ Wassertheil-Smoller, Sylvia (1995). Bioestadística y epidemiología: manual básico para profesionales de la salud (segunda edición). Nueva York: Springer. pp. 40–43. ISBN 0-387-94388-9.
  10. ^ Isserlis, L. (1918). "Sobre el valor de una media calculada a partir de una muestra". Journal of the Royal Statistical Society . 81 (1): 75–81. doi :10.2307/2340569. JSTOR  2340569.(Ecuación 1)
  11. ^ Bondy, Warren; Zlot, William (1976). "El error estándar de la media y la diferencia entre medias para poblaciones finitas". The American Statistician . 30 (2): 96–97. doi :10.1080/00031305.1976.10479149. JSTOR  2683803.(Ecuación 2)
  12. ^ Bence, James R. (1995). "Análisis de series temporales cortas: corrección de la autocorrelación". Ecología . 76 (2): 628–639. doi :10.2307/1941218. JSTOR  1941218.