stringtranslate.com

Error estándar

Para un valor que se muestra con un error insesgado normalmente distribuido , lo anterior muestra la proporción de muestras que estarían entre 0, 1, 2 y 3 desviaciones estándar por encima y por debajo del valor real.

El error estándar ( SE ) [1] de una estadística (normalmente una estimación de un parámetro ) es la desviación estándar de su distribución muestral [2] o una estimación de esa desviación estándar. Si la estadística es la media muestral, se denomina error estándar de la media ( SEM ). [1] El error estándar es un ingrediente clave en la producción de intervalos de confianza . [3]

La distribución muestral de una media se genera mediante muestreo repetido de la misma población y registro de las medias muestrales obtenidas. Esto forma una distribución de diferentes medias, y esta distribución tiene su propia media y varianza . Matemáticamente, la varianza de la distribución media muestral obtenida es igual a la varianza de la población dividida por el tamaño de la muestra. Esto se debe a que a medida que aumenta el tamaño de la muestra, las medias muestrales se agrupan más estrechamente alrededor de la media poblacional.

Por lo tanto, la relación entre el error estándar de la media y la desviación estándar es tal que, para un tamaño de muestra dado, el error estándar de la media es igual a la desviación estándar dividida por la raíz cuadrada del tamaño de la muestra. [1] En otras palabras, el error estándar de la media es una medida de la dispersión de las medias muestrales alrededor de la media poblacional.

En el análisis de regresión , el término "error estándar" se refiere a la raíz cuadrada del estadístico chi-cuadrado reducido o al error estándar de un coeficiente de regresión particular (como se usa, por ejemplo, en los intervalos de confianza ).

Error estándar de la media muestral

Valor exacto

Supongamos que se toma una muestra de observaciones estadísticamente independiente de una población estadística con una desviación estándar de . El valor medio calculado a partir de la muestra, tendrá un error estándar asociado en la media , dado por: [1]

En la práctica, esto nos dice que al intentar estimar el valor de una media poblacional, debido al factor , reducir el error en la estimación por un factor de dos requiere adquirir cuatro veces más observaciones en la muestra; reducirlo por un factor de diez requiere cien veces más observaciones.

Estimar

Rara vez se conoce la desviación estándar de la población objeto de la muestra. Por lo tanto, el error estándar de la media generalmente se estima reemplazando con la desviación estándar muestral :

Como esto es sólo un estimador del verdadero "error estándar", es común ver aquí otras notaciones como:

Una fuente común de confusión ocurre cuando no se distingue claramente entre:

Precisión del estimador

Cuando el tamaño de la muestra es pequeño, utilizar la desviación estándar de la muestra en lugar de la verdadera desviación estándar de la población tenderá a subestimar sistemáticamente la desviación estándar de la población y, por tanto, también el error estándar. Con n = 2, la subestimación es aproximadamente del 25%, pero para n = 6, la subestimación es sólo del 5%. Gurland y Tripathi (1971) proporcionan una corrección y una ecuación para este efecto. [4] Sokal y Rohlf (1981) dan una ecuación del factor de corrección para muestras pequeñas de n < 20. [5] Véase la estimación insesgada de la desviación estándar para una discusión más detallada.

Derivación

El error estándar de la media puede derivarse de la varianza de una suma de variables aleatorias independientes, [6] dada la definición de varianza y algunas propiedades de la misma. Si es una muestra de observaciones independientes de una población con media y desviación estándar , entonces podemos definir el total

fórmula de Bienaymé

La varianza de la media es entonces

El error estándar es, por definición, cuya desviación estándar es la raíz cuadrada de la varianza:

Para variables aleatorias correlacionadas, la varianza muestral debe calcularse de acuerdo con el teorema del límite central de la cadena de Markov .

Variables aleatorias independientes e idénticamente distribuidas con tamaño de muestra aleatorio

Hay casos en los que se toma una muestra sin saber, de antemano, cuántas observaciones serán aceptables según algún criterio. En tales casos, el tamaño de la muestra es una variable aleatoria cuya variación se suma a la variación de tal que,

[7]ley de la varianza total

Si tiene distribución de Poisson , entonces con estimador . De ahí que el estimador de se convierta en , llevando a la siguiente fórmula para el error estándar:

Aproximación de Student cuando se desconoce el valor de σ

En muchas aplicaciones prácticas, se desconoce el verdadero valor de σ . Como resultado, necesitamos usar una distribución que tenga en cuenta la dispersión de posibles σ's . Cuando se sabe que la verdadera distribución subyacente es gaussiana, aunque se desconoce σ, entonces la distribución estimada resultante sigue la distribución t de Student. El error estándar es la desviación estándar de la distribución t de Student. Las distribuciones T son ligeramente diferentes de las gaussianas y varían según el tamaño de la muestra. Es algo más probable que las muestras pequeñas subestimen la desviación estándar de la población y tengan una media que difiere de la media poblacional verdadera, y la distribución t de Student representa la probabilidad de estos eventos con colas algo más pesadas en comparación con una gaussiana. Para estimar el error estándar de una distribución t de Student es suficiente usar la desviación estándar muestral "s" en lugar de σ , y podríamos usar este valor para calcular intervalos de confianza.

Nota: La distribución de probabilidad de Student se aproxima bien mediante la distribución gaussiana cuando el tamaño de la muestra es superior a 100. Para este tipo de muestras se puede utilizar la última distribución, que es mucho más simple. Además, aunque se desconoce la distribución "verdadera" de la población, asumir la normalidad de la distribución muestral tiene sentido para un tamaño de muestra razonable y bajo ciertas condiciones de muestreo, ver CLT . Si no se cumplen estas condiciones, utilizar una distribución Bootstrap para estimar el error estándar suele ser una buena solución, pero puede requerir un gran esfuerzo computacional.

Supuestos y uso

Un ejemplo de cómo se utiliza es hacer que los intervalos de confianza de la población desconocida sean medios. Si la distribución muestral tiene una distribución normal , la media muestral, el error estándar y los cuantiles de la distribución normal se pueden utilizar para calcular los intervalos de confianza para la media poblacional verdadera. Las siguientes expresiones se pueden utilizar para calcular los límites de confianza superior e inferior del 95%, donde es igual a la media muestral, es igual al error estándar de la media muestral y 1,96 es el valor aproximado del punto percentil 97,5 de la normal. distribución :

En particular, el error estándar de una estadística muestral (como la media muestral ) es la desviación estándar real o estimada de la media muestral en el proceso mediante el cual se generó. En otras palabras, es la desviación estándar real o estimada de la distribución muestral de la estadística muestral. La notación para el error estándar puede ser cualquiera de SE, SEM (para error estándar de medición o media ) o S E.

Los errores estándar proporcionan medidas simples de incertidumbre en un valor y a menudo se utilizan porque:

Error estándar de media versus desviación estándar

En la literatura científica y técnica, los datos experimentales a menudo se resumen utilizando la media y la desviación estándar de los datos de la muestra o la media con el error estándar. Esto a menudo genera confusión sobre su intercambiabilidad. Sin embargo, la media y la desviación estándar son estadísticas descriptivas , mientras que el error estándar de la media es descriptivo del proceso de muestreo aleatorio. La desviación estándar de los datos muestrales es una descripción de la variación en las mediciones, mientras que el error estándar de la media es una afirmación probabilística acerca de cómo el tamaño de la muestra proporcionará un mejor límite para las estimaciones de la media poblacional, a la luz del límite central. teorema. [8]

En pocas palabras, el error estándar de la media muestral es una estimación de qué tan lejos es probable que esté la media muestral de la media poblacional, mientras que la desviación estándar de la muestra es el grado en que los individuos dentro de la muestra difieren de la media muestral. [9] Si la desviación estándar de la población es finita, el error estándar de la media de la muestra tenderá a cero al aumentar el tamaño de la muestra, porque la estimación de la media de la población mejorará, mientras que la desviación estándar de la muestra tenderá a aproximarse. la desviación estándar de la población a medida que aumenta el tamaño de la muestra.

Extensiones

Corrección de población finita (FPC)

La fórmula dada anteriormente para el error estándar supone que la población es infinita. No obstante, a menudo se usa para poblaciones finitas cuando las personas están interesadas en medir el proceso que creó la población finita existente (esto se llama estudio analítico ). Aunque la fórmula anterior no es exactamente correcta cuando la población es finita, la diferencia entre las versiones de población finita e infinita será pequeña cuando la fracción de muestreo es pequeña (por ejemplo, se estudia una pequeña proporción de una población finita). En este caso, la gente a menudo no corrige la población finita, tratándola esencialmente como una población "aproximadamente infinita".

Si uno está interesado en medir una población finita existente que no cambiará con el tiempo, entonces es necesario realizar un ajuste según el tamaño de la población (lo que se denomina estudio enumerativo ). Cuando la fracción de muestreo (a menudo denominada f ) es grande (aproximadamente 5% o más) en un estudio enumerativo , la estimación del error estándar debe corregirse multiplicando por una "corrección de población finita" (también conocida como FPC ): [10] [11]

N
nN.

Esto sucede en la metodología de encuesta cuando se realiza un muestreo sin reemplazo . Si se realiza un muestreo con reemplazo, entonces el FPC no entra en juego.

Corrección por correlación en la muestra.

Error esperado en la media de A para una muestra de n puntos de datos con coeficiente de sesgo muestral  ρ . El error estándar insesgado se representa como la línea diagonal ρ  = 0 con pendiente log-log − 12 .

Si los valores de la cantidad medida A no son estadísticamente independientes pero se han obtenido de ubicaciones conocidas en el espacio de parámetros  x , se puede obtener una estimación insesgada del verdadero error estándar de la media (en realidad, una corrección en la parte de la desviación estándar) multiplicando la error estándar calculado de la muestra por el factor  f :

estimación ampliamente utilizada de Prais-Winstende autocorrelación[12]estimación insesgada de la desviación estándar

Ver también

Referencias

  1. ^ abcd Altman, Douglas G; Suave, J. Martín (15 de octubre de 2005). "Desviaciones estándar y errores estándar". BMJ: Revista médica británica . 331 (7521): 903.doi : 10.1136 /bmj.331.7521.903. ISSN  0959-8138. PMC  1255808 . PMID  16223828.
  2. ^ Everitt, BS (2003). El Diccionario de Estadística de Cambridge . Prensa de la Universidad de Cambridge. ISBN 978-0-521-81099-9.
  3. ^ Wooldridge, Jeffrey M. (2023). "¿Qué es un error estándar? (¿Y cómo debemos calcularlo?)". Revista de Econometría . 237 (2, Parte A). doi :10.1016/j.jeconom.2023.105517. ISSN  0304-4076.
  4. ^ Gurland, J; Tripathi RC (1971). "Una aproximación simple para la estimación insesgada de la desviación estándar". Estadístico estadounidense . 25 (4): 30–32. doi :10.2307/2682923. JSTOR  2682923.
  5. ^ Sokal; Rohlf (1981). Biometría: principios y práctica de la estadística en la investigación biológica (2ª ed.). pag. 53.ISBN 978-0-7167-1254-1.
  6. ^ Hutchinson, TP (1993). Fundamentos de métodos estadísticos, en 41 páginas . Adelaida: Rumsby. ISBN 978-0-646-12621-0.
  7. ^ Cornell, JR; Benjamín, CA (1970). Probabilidad, Estadística y Decisiones para Ingenieros Civiles . Nueva York: McGraw-Hill. págs. 178-179. ISBN 0486796094.
  8. ^ Barde, M. (2012). "¿Qué utilizar para expresar la variabilidad de los datos: desviación estándar o error estándar de la media?". Perspectiva. Clínico. Res. 3 (3): 113–116. doi : 10.4103/2229-3485.100662 . PMC 3487226 . PMID  23125963.  
  9. ^ Wassertheil-Smoller, Sylvia (1995). Bioestadística y epidemiología: introducción para profesionales de la salud (Segunda ed.). Nueva York: Springer. págs. 40–43. ISBN 0-387-94388-9.
  10. ^ Isserlis, L. (1918). "Sobre el valor de una media calculado a partir de una muestra". Revista de la Real Sociedad de Estadística . 81 (1): 75–81. doi :10.2307/2340569. JSTOR  2340569.(Ecuación 1)
  11. ^ Bondy, Warren; Zlot, William (1976). "El error estándar de la media y la diferencia entre medias para poblaciones finitas". El estadístico estadounidense . 30 (2): 96–97. doi :10.1080/00031305.1976.10479149. JSTOR  2683803.(Ecuación 2)
  12. ^ Bence, James R. (1995). "Análisis de series temporales cortas: corrección de autocorrelación". Ecología . 76 (2): 628–639. doi :10.2307/1941218. JSTOR  1941218.