stringtranslate.com

Corrección de Bessel

En estadística , la corrección de Bessel es el uso de n  − 1 en lugar de n en la fórmula para la varianza de la muestra y la desviación estándar de la muestra , [1] donde n es el número de observaciones en una muestra . Este método corrige el sesgo en la estimación de la varianza de la población. También corrige parcialmente el sesgo en la estimación de la desviación estándar de la población. Sin embargo, la corrección a menudo aumenta el error cuadrático medio en estas estimaciones. Esta técnica recibe su nombre de Friedrich Bessel .

Formulación

Al estimar la varianza de la población a partir de una muestra cuando se desconoce la media de la población, la varianza de la muestra sin corregir es la media de los cuadrados de las desviaciones de los valores de la muestra con respecto a la media de la muestra (es decir, utilizando un factor multiplicativo 1/ n ). En este caso, la varianza de la muestra es un estimador sesgado de la varianza de la población. Multiplicar la varianza de la muestra sin corregir por el factor

proporciona un estimador imparcial de la varianza de la población. En alguna literatura, [2] [3] el factor anterior se denomina corrección de Bessel .

La corrección de Bessel se puede entender como los grados de libertad en el vector de residuos (residuos, no errores, porque se desconoce la media de la población):

donde es la media de la muestra. Si bien hay n observaciones independientes en la muestra, solo hay n  − 1 residuos independientes, ya que suman 0. Para una explicación más intuitiva de la necesidad de la corrección de Bessel, consulte § Fuente de sesgo.

En general, la corrección de Bessel es un método para reducir el sesgo debido al tamaño finito de la muestra. Esta corrección del sesgo de muestra finita también es necesaria para otras estimaciones como la asimetría y la curtosis , pero en estas las imprecisiones suelen ser significativamente mayores. Para eliminar por completo este sesgo, es necesario realizar una estimación multiparamétrica más compleja. Por ejemplo, una corrección correcta para la desviación estándar depende de la curtosis (cuarto momento central normalizado), pero esto nuevamente tiene un sesgo de muestra finito y depende de la desviación estándar, es decir, ambas estimaciones deben fusionarse.

Advertencias

Hay tres advertencias a tener en cuenta con respecto a la corrección de Bessel:

  1. No produce un estimador imparcial de la desviación estándar .
  2. El estimador corregido a menudo tiene un error cuadrático medio (MSE) mayor que el estimador no corregido. [4] Además, no existe ninguna distribución de población para la cual tenga el MSE mínimo porque siempre se puede elegir un factor de escala diferente para minimizar el MSE.
  3. Solo es necesario cuando se desconoce la media de la población (y se estima como la media de la muestra). En la práctica, esto suele ocurrir.

En primer lugar, mientras que la varianza de la muestra (usando la corrección de Bessel) es un estimador insesgado de la varianza de la población, su raíz cuadrada , la desviación estándar de la muestra, es una estimación sesgada de la desviación estándar de la población; debido a que la raíz cuadrada es una función cóncava , el sesgo es hacia abajo, por la desigualdad de Jensen . No existe una fórmula general para un estimador insesgado de la desviación estándar de la población, aunque hay factores de corrección para distribuciones particulares, como la normal; vea estimación insesgada de la desviación estándar para más detalles. Una aproximación para el factor de corrección exacto para la distribución normal se da usando n  − 1.5 en la fórmula: el sesgo decae cuadráticamente (en lugar de linealmente, como en la forma no corregida y la forma corregida de Bessel).

En segundo lugar, el estimador insesgado no minimiza el error cuadrático medio (MSE) y, en general, tiene un MSE peor que el estimador no corregido (esto varía con el exceso de curtosis ). El MSE se puede minimizar utilizando un factor diferente. El valor óptimo depende del exceso de curtosis, como se analiza en Error cuadrático medio: varianza ; para la distribución normal, esto se optimiza dividiendo por n  + 1 (en lugar de n  − 1 o n ).

En tercer lugar, la corrección de Bessel solo es necesaria cuando se desconoce la media de la población y se estiman tanto la media como la varianza de la población a partir de una muestra dada, utilizando la media de la muestra para estimar la media de la población. En ese caso, hay n grados de libertad en una muestra de n puntos, y la estimación simultánea de la media y la varianza significa que un grado de libertad va a la media de la muestra y los n  − 1 grados de libertad restantes (los residuos ) van a la varianza de la muestra. Sin embargo, si se conoce la media de la población, entonces las desviaciones de las observaciones con respecto a la media de la población tienen n grados de libertad (porque no se está estimando la media: las desviaciones no son residuos sino errores ) y la corrección de Bessel no es aplicable.

Fuente de sesgo

De manera más simple, para entender el sesgo que necesita corregirse, piense en un caso extremo. Supongamos que la población es (0,0,0,1,2,9), que tiene una media poblacional de 2 y una varianza poblacional de . Se extrae una muestra de n = 1, y resulta ser La mejor estimación de la media poblacional es Pero ¿qué pasa si usamos la fórmula para estimar la varianza? La estimación de la varianza sería cero, y la estimación sería cero para cualquier población y cualquier muestra de n = 1. El problema es que al estimar la media de la muestra, el proceso ya ha hecho que nuestra estimación de la media sea cercana al valor que muestreamos, idéntico, para n = 1. En el caso de n = 1, la varianza simplemente no se puede estimar, porque no hay variabilidad en la muestra.

Pero consideremos n = 2. Supongamos que la muestra fuese (0, 2). Entonces y , pero con la corrección de Bessel, , que es una estimación no sesgada (si se toman todas las muestras posibles de n = 2 y se utiliza este método, la estimación media será 12,4, lo mismo que la varianza de la muestra con la corrección de Bessel).

Para ver esto con más detalle, considere el siguiente ejemplo. Supongamos que la media de toda la población es 2050, pero el estadístico no lo sabe y debe estimarla basándose en esta pequeña muestra elegida aleatoriamente de la población:

Se puede calcular el promedio de la muestra:

Esto puede servir como una estimación observable del promedio de población no observable, que es el año 2050. Ahora nos enfrentamos al problema de estimar la varianza de la población, que es el promedio de los cuadrados de las desviaciones con respecto al año 2050. Si supiéramos que el promedio de la población es el año 2050, podríamos proceder de la siguiente manera:

Pero nuestra estimación del promedio de la población es el promedio de la muestra, 2052. El promedio real, 2050, es desconocido. Por lo tanto, se debe utilizar el promedio de la muestra, 2052:

La varianza es ahora menor, y (casi) siempre lo es. La única excepción ocurre cuando el promedio de la muestra y el promedio de la población son iguales. Para entender por qué, considere que la varianza mide la distancia desde un punto y, dentro de una muestra dada, el promedio es precisamente ese punto que minimiza las distancias. Un cálculo de varianza utilizando cualquier otro valor promedio debe producir un resultado mayor.

Para ver esto algebraicamente, usamos una identidad simple :

Representando la desviación de una muestra individual respecto de la media de la muestra y representando la desviación de la media de la muestra respecto de la media de la población. Observe que simplemente hemos descompuesto la desviación real de una muestra individual respecto de la media de la población (desconocida) en dos componentes: la desviación de la muestra individual respecto de la media de la muestra, que podemos calcular, y la desviación adicional de la media de la muestra respecto de la media de la población, que no podemos calcular. Ahora, aplicamos esta identidad a los cuadrados de las desviaciones respecto de la media de la población:

Ahora aplique esto a las cinco observaciones y observe ciertos patrones:

La suma de las entradas en la columna del medio debe ser cero porque el término a se sumará en las 5 filas, lo que a su vez debe ser igual a cero. Esto se debe a que a contiene las 5 muestras individuales (el lado izquierdo entre paréntesis) que, cuando se suman, naturalmente tienen la misma suma que sumar 5 veces la media de la muestra de esos 5 números (2052). Esto significa que una resta de estas dos sumas debe ser igual a cero. El factor 2 y el término b en la columna del medio son iguales para todas las filas, lo que significa que la diferencia relativa en todas las filas de la columna del medio permanece igual y, por lo tanto, se puede ignorar. Las siguientes afirmaciones explican el significado de las columnas restantes:

Por lo tanto:

Por eso, la suma de los cuadrados de las desviaciones respecto de la media de la muestra es demasiado pequeña para proporcionar una estimación imparcial de la varianza de la población cuando se encuentra el promedio de esos cuadrados. Cuanto menor sea el tamaño de la muestra, mayor será la diferencia entre la varianza de la muestra y la varianza de la población.

Terminología

Esta corrección es tan común que los términos "varianza de la muestra" y "desviación estándar de la muestra" se utilizan con frecuencia para referirse a los estimadores corregidos (variación de la muestra no sesgada, desviación estándar de la muestra menos sesgada), utilizando n  − 1. Sin embargo, es necesario tener cuidado: algunas calculadoras y paquetes de software pueden proporcionar ambas fórmulas o solo la más inusual. En este artículo se utilizan los siguientes símbolos y definiciones:

Las desviaciones típicas serán entonces las raíces cuadradas de las respectivas varianzas. Dado que la raíz cuadrada introduce sesgo, se prefiere la terminología "sin corregir" y "corregida" para los estimadores de desviación típica:

Fórmula

La media de la muestra viene dada por

La varianza de muestra sesgada se escribe entonces:

y la varianza muestral no sesgada se escribe:

Prueba

Supongamos entonces que son variables aleatorias independientes e idénticamente distribuidas con expectativa y varianza .

Conociendo los valores de en un resultado del espacio muestral subyacente, nos gustaría obtener una buena estimación de la varianza , que es desconocida. Para ello, construimos una fórmula matemática que contenga la tal que la esperanza de esta fórmula sea precisamente . Esto significa que, en promedio, esta fórmula debería producir la respuesta correcta.

La forma educada, pero ingenua, de adivinar tal fórmula sería

,

donde ; esta sería la varianza si tuviéramos una variable aleatoria discreta en el espacio de probabilidad discreto que tuviera valor en . Pero calculemos el valor esperado de esta expresión:

Aquí tenemos (por independencia, cancelación simétrica y distribuciones idénticas)

y por lo tanto

.

Por el contrario,

.

Por lo tanto, nuestra suposición inicial era errónea por un factor de

,

Y ésta es precisamente la corrección de Bessel.

Véase también

Notas

  1. ^ Radziwill, Nicole M (2017). Estadísticas (el camino más fácil) con R. Lapis Lucera. ISBN 9780996916059.OCLC 1030532622  .
  2. ^ WJ Reichmann, WJ (1961) Uso y abuso de las estadísticas , Methuen. Reimpreso entre 1964 y 1970 por Pelican. Apéndice 8.
  3. ^ Upton, G.; Cook, I. (2008) Oxford Dictionary of Statistics , OUP. ISBN 978-0-19-954145-4 (entrada para «Varianza (datos)») 
  4. ^ Rosenthal, Jeffrey S. (2015). "Los niños están bien: dividir por n al estimar la varianza". Boletín del Instituto de Estadística Matemática . Diciembre de 2015: 9.

Enlaces externos