stringtranslate.com

Sesgo de un estimador

En estadística , el sesgo de un estimador (o función de sesgo ) es la diferencia entre el valor esperado de este estimador y el valor verdadero del parámetro que se está estimando. Un estimador o regla de decisión con sesgo cero se llama insesgado . En estadística, el "sesgo" es una propiedad objetiva de un estimador. El sesgo es un concepto distinto de la consistencia : los estimadores consistentes convergen en probabilidad al valor verdadero del parámetro, pero pueden ser sesgados o insesgados (consulte sesgo versus consistencia para obtener más información).

En igualdad de condiciones, un estimador imparcial es preferible a un estimador sesgado, aunque en la práctica, los estimadores sesgados (con un sesgo generalmente pequeño) se utilizan con frecuencia. Cuando se utiliza un estimador sesgado, se calculan los límites del sesgo. Un estimador sesgado se puede utilizar por varias razones: porque un estimador imparcial no existe sin suposiciones adicionales sobre una población; porque un estimador es difícil de calcular (como en la estimación imparcial de la desviación estándar ); porque un estimador sesgado puede ser imparcial con respecto a diferentes medidas de tendencia central ; porque un estimador sesgado da un valor menor de alguna función de pérdida (en particular el error cuadrático medio ) en comparación con los estimadores imparciales (en particular en los estimadores de contracción ); o porque en algunos casos ser imparcial es una condición demasiado fuerte y los únicos estimadores imparciales no son útiles.

El sesgo también se puede medir con respecto a la mediana , en lugar de la media (valor esperado), en cuyo caso se distingue la propiedad de insesgo de la mediana de la propiedad habitual de insesgo de la media . La insesgabilidad de la media no se conserva bajo transformaciones no lineales , aunque sí la insesgabilidad de la mediana (véase § Efecto de las transformaciones); por ejemplo, la varianza de la muestra es un estimador sesgado de la varianza de la población. Todos estos se ilustran a continuación.

No siempre es necesario que exista un estimador imparcial para un parámetro. Por ejemplo, no existe un estimador imparcial para el recíproco del parámetro de una variable aleatoria binomial. [1]

Definición

Supongamos que tenemos un modelo estadístico , parametrizado por un número real θ , que da lugar a una distribución de probabilidad para los datos observados, , y una estadística que sirve como estimador de θ en función de cualquier dato observado . Es decir, suponemos que nuestros datos siguen una distribución desconocida (donde θ es una constante fija y desconocida que forma parte de esta distribución), y luego construimos un estimador que asigna los datos observados a valores que esperamos que sean cercanos a θ . El sesgo de relativo a se define como [2]

donde denota el valor esperado sobre la distribución (es decir, el promedio de todas las observaciones posibles ). La segunda ecuación se deduce porque θ es medible con respecto a la distribución condicional .

Se dice que un estimador es insesgado si su sesgo es igual a cero para todos los valores del parámetro θ o, equivalentemente, si el valor esperado del estimador coincide con el del parámetro. [3] No se garantiza que la insesgabilidad se mantenga. Por ejemplo, si es un estimador insesgado para el parámetro θ , no se garantiza que g( ) sea un estimador insesgado para g( θ). [4]

En un experimento de simulación sobre las propiedades de un estimador, el sesgo del estimador se puede evaluar utilizando la diferencia media con signo .

Ejemplos

Varianza de la muestra

La varianza muestral de una variable aleatoria demuestra dos aspectos del sesgo del estimador: en primer lugar, el estimador ingenuo está sesgado, lo que se puede corregir mediante un factor de escala; en segundo lugar, el estimador insesgado no es óptimo en términos de error cuadrático medio (MSE), que se puede minimizar utilizando un factor de escala diferente, lo que da como resultado un estimador sesgado con un MSE menor que el estimador insesgado. Concretamente, el estimador ingenuo suma las desviaciones al cuadrado y divide por n, que está sesgado. Dividir en cambio por n  − 1 produce un estimador insesgado. Por el contrario, el MSE se puede minimizar dividiendo por un número diferente (dependiendo de la distribución), pero esto da como resultado un estimador sesgado. Este número siempre es mayor que n  − 1, por lo que esto se conoce como estimador de contracción , ya que "encoge" el estimador insesgado hacia cero; para la distribución normal, el valor óptimo es n  + 1.

Supongamos que X 1 , ..., X n son variables aleatorias independientes e idénticamente distribuidas (iid) con una expectativa μ y una varianza σ 2 . Si la media de la muestra y la varianza de la muestra no corregida se definen como

entonces S 2 es un estimador sesgado de σ 2 , porque

Para continuar, observamos que al restar de ambos lados de , obtenemos

Significado, (por multiplicación cruzada) . Entonces, lo anterior se convierte en:

Esto se puede observar observando la siguiente fórmula, que se desprende de la fórmula de Bienaymé , para el término en la desigualdad para la expectativa de la varianza muestral no corregida anterior: .

En otras palabras, el valor esperado de la varianza de la muestra no corregida no es igual a la varianza de la población σ 2 , a menos que se multiplique por un factor de normalización. La media de la muestra, por otra parte, es un estimador imparcial [5] de la media de la población  μ . [3]

Tenga en cuenta que la definición habitual de varianza muestral es , y éste es un estimador imparcial de la varianza poblacional.

Algebraicamente hablando, es imparcial porque:

donde la transición a la segunda línea utiliza el resultado derivado anteriormente para el estimador sesgado. Por lo tanto , y por lo tanto es un estimador insesgado de la varianza de la población, σ 2 . La relación entre las estimaciones sesgadas (no corregidas) e insesgadas de la varianza se conoce como corrección de Bessel .

La razón por la que una varianza muestral no corregida, S 2 , está sesgada se debe al hecho de que la media muestral es un estimador de mínimos cuadrados ordinarios (MCO) para μ : es el número que hace que la suma sea lo más pequeña posible. Es decir, cuando se introduce cualquier otro número en esta suma, la suma solo puede aumentar. En particular, la elección da,

y luego

La discusión anterior se puede entender en términos geométricos: el vector se puede descomponer en la "parte media" y la "parte de varianza" al proyectar hacia la dirección de y hacia el hiperplano complementario ortogonal de esa dirección. Se obtiene para la parte a lo largo de y para la parte complementaria. Dado que se trata de una descomposición ortogonal, el teorema de Pitágoras dice , y tomando expectativas obtenemos , como se indicó anteriormente (pero por ). Si la distribución de es rotacionalmente simétrica, como en el caso cuando se toman muestras de una gaussiana, entonces, en promedio, la dimensión a lo largo de contribuye a igualmente que las direcciones perpendiculares a , de modo que y . De hecho, esto es cierto en general, como se explicó anteriormente.

Estimación de una probabilidad de Poisson

Un caso mucho más extremo de un estimador sesgado que es mejor que cualquier estimador insesgado surge de la distribución de Poisson . [6] [7] Supongamos que X tiene una distribución de Poisson con expectativa  λ . Supongamos que se desea estimar

con una muestra de tamaño 1. (Por ejemplo, cuando las llamadas entrantes en una centralita telefónica se modelan como un proceso de Poisson, y λ es el número promedio de llamadas por minuto, entonces e −2 λ es la probabilidad de que no lleguen llamadas en los próximos dos minutos).

Dado que la esperanza de un estimador insesgado δ ( X ) es igual al estimado , es decir

La única función de los datos que constituyen un estimador insesgado es

Para ver esto, note que al descomponer e λ a partir de la expresión anterior para la expectativa, la suma que queda es también una expansión en serie de Taylor de e λ , produciendo e − λ e λ  = e −2 λ (ver Caracterizaciones de la función exponencial ).

Si el valor observado de X es 100, entonces la estimación es 1, aunque es muy probable que el valor real de la cantidad que se está estimando esté cerca de 0, que es el extremo opuesto. Y, si se observa que X es 101, entonces la estimación es aún más absurda: es −1, aunque la cantidad que se está estimando debe ser positiva.

El estimador de máxima verosimilitud (sesgado)

es mucho mejor que este estimador imparcial. No sólo su valor es siempre positivo, sino que también es más preciso en el sentido de que su error cuadrático medio

es más pequeño; compare el MSE del estimador imparcial de

Los MSE son funciones del valor verdadero  λ . El sesgo del estimador de máxima verosimilitud es:

Máximo de una distribución uniforme discreta

El sesgo de los estimadores de máxima verosimilitud puede ser sustancial. Consideremos un caso en el que se colocan n boletos numerados del 1 al n en una caja y se selecciona uno al azar, lo que da un valor X. Si n es desconocido, entonces el estimador de máxima verosimilitud de n es X , aunque la esperanza de X dado n es solo ( n  + 1)/2; solo podemos estar seguros de que n es al menos X y probablemente sea mayor. En este caso, el estimador insesgado natural es 2 X  − 1.

Estimadores medianamente imparciales

La teoría de los estimadores medianamente imparciales fue revivida por George W. Brown en 1947: [8]

Se dirá que una estimación de un parámetro unidimensional θ es insesgada respecto de la mediana si, para un valor θ fijo, la mediana de la distribución de la estimación se encuentra en el valor θ; es decir, la estimación subestima con la misma frecuencia con la que sobreestima. Este requisito parece cumplir, para la mayoría de los propósitos, tanto como el requisito de insesgada respecto de la media y tiene la propiedad adicional de que es invariante ante una transformación uno a uno.

Lehmann, Birnbaum, van der Vaart y Pfanzagl han señalado otras propiedades de los estimadores medianamente insesgados. [9] En particular, los estimadores medianamente insesgados existen en casos en los que no existen estimadores de media insesgada y de máxima verosimilitud . Son invariantes bajo transformaciones uno a uno .

Existen métodos para construir estimadores imparciales de la mediana para distribuciones de probabilidad que tienen funciones de verosimilitud monótonas , como las familias exponenciales de un parámetro, para asegurar que sean óptimas (en un sentido análogo a la propiedad de varianza mínima considerada para los estimadores imparciales de la media). [10] [11] Uno de estos procedimientos es un análogo del procedimiento de Rao-Blackwell para estimadores imparciales de la media: el procedimiento se aplica a una clase más pequeña de distribuciones de probabilidad que el procedimiento de Rao-Blackwell para la estimación imparcial de la media, pero a una clase más grande de funciones de pérdida. [11]

Sesgo con respecto a otras funciones de pérdida

Cualquier estimador imparcial de media con mínima varianza minimiza el riesgo ( pérdida esperada ) con respecto a la función de pérdida de error al cuadrado (entre estimadores imparciales de media), como observó Gauss . [12] Un estimador imparcial de mediana con desviación absoluta mínima-promedio minimiza el riesgo con respecto a la función de pérdida absoluta (entre estimadores imparciales de mediana), como observó Laplace . [12] [13] Otras funciones de pérdida se utilizan en estadística, particularmente en estadística robusta . [12] [14]

Efecto de las transformaciones

Para parámetros univariados, los estimadores insesgados a la mediana permanecen insesgados a la mediana bajo transformaciones que preservan el orden (o invierten el orden). Nótese que, cuando se aplica una transformación a un estimador insesgado a la media, el resultado no necesita ser un estimador insesgado a la media de su estadística poblacional correspondiente. Por la desigualdad de Jensen , una función convexa como transformación introducirá sesgo positivo, mientras que una función cóncava introducirá sesgo negativo, y una función de convexidad mixta puede introducir sesgo en cualquier dirección, dependiendo de la función y distribución específicas. Es decir, para una función no lineal f y un estimador insesgado a la media U de un parámetro p , el estimador compuesto f ( U ) no necesita ser un estimador insesgado a la media de f ( p ). Por ejemplo, la raíz cuadrada del estimador imparcial de la varianza de la población no es un estimador imparcial de la desviación estándar de la población : la raíz cuadrada de la varianza de la muestra imparcial, la desviación estándar de la muestra corregida , está sesgada. El sesgo depende tanto de la distribución de muestreo del estimador como de la transformación, y puede ser bastante complejo de calcular; consulte la estimación imparcial de la desviación estándar para una discusión sobre este caso.

Sesgo, varianza y error cuadrático medio

Distribuciones de muestreo de dos estimadores alternativos para un parámetro β 0 . Aunque β 1 ^ es insesgado, es claramente inferior al sesgado β 2 ^ .

La regresión de cresta es un ejemplo de una técnica en la que permitir un pequeño sesgo puede llevar a una reducción considerable de la varianza y a estimaciones más confiables en general.

Si bien el sesgo cuantifica la diferencia promedio que se espera entre un estimador y un parámetro subyacente, se puede esperar además que un estimador basado en una muestra finita difiera del parámetro debido a la aleatoriedad de la muestra. Un estimador que minimiza el sesgo no necesariamente minimizará el error cuadrático medio. Una medida que se utiliza para intentar reflejar ambos tipos de diferencia es el error cuadrático medio [2] .

Se puede demostrar que esto es igual al cuadrado del sesgo, más la varianza: [2]

Cuando el parámetro es un vector, se aplica una descomposición análoga: [15]

donde es la traza (suma diagonal) de la matriz de covarianza del estimador y es la norma del vector cuadrado .

Ejemplo: Estimación de la varianza poblacional

Por ejemplo, [16] supongamos un estimador de la forma

Se busca la varianza de la población como se indicó anteriormente, pero esta vez para minimizar el MSE:

Si las variables X 1 ... X n siguen una distribución normal, entonces nS 22 tiene una distribución chi-cuadrado con n  − 1 grados de libertad, dando:

y entonces

Con un poco de álgebra se puede confirmar que es c = 1/( n  + 1) lo que minimiza esta función de pérdida combinada, en lugar de c = 1/( n  − 1) que minimiza solo el cuadrado del sesgo.

De manera más general, sólo en clases restringidas de problemas habrá un estimador que minimice el MSE independientemente de los valores de los parámetros.

Sin embargo, es muy común que se perciba que existe una compensación entre sesgo y varianza , de modo que un pequeño aumento en el sesgo se puede intercambiar por una disminución mayor en la varianza, lo que da como resultado un estimador más deseable en general.

Visión bayesiana

La mayoría de los bayesianos no se preocupan demasiado por la imparcialidad (al menos en el sentido formal de la teoría del muestreo mencionado anteriormente) de sus estimaciones. Por ejemplo, Gelman y coautores (1995) escriben: "Desde una perspectiva bayesiana, el principio de imparcialidad es razonable en el límite de muestras grandes, pero de lo contrario es potencialmente engañoso". [17]

Fundamentalmente, la diferencia entre el enfoque bayesiano y el enfoque de teoría de muestreo antes mencionado es que en el enfoque de teoría de muestreo el parámetro se toma como fijo y luego se consideran las distribuciones de probabilidad de una estadística, con base en la distribución de muestreo predicha de los datos. Sin embargo, para un enfoque bayesiano, son los datos los que se conocen y son fijos, y es el parámetro desconocido para el cual se intenta construir una distribución de probabilidad, utilizando el teorema de Bayes :

En este caso, el segundo término, la probabilidad de los datos dado el valor desconocido del parámetro θ, depende únicamente de los datos obtenidos y del modelado del proceso de generación de datos. Sin embargo, un cálculo bayesiano también incluye el primer término, la probabilidad previa de θ, que tiene en cuenta todo lo que el analista pueda saber o sospechar sobre θ antes de que lleguen los datos. Esta información no desempeña ningún papel en el enfoque de la teoría del muestreo; de hecho, cualquier intento de incluirla se consideraría un "sesgo" que se aleja de lo que indicaban puramente los datos. En la medida en que los cálculos bayesianos incluyen información previa, es esencialmente inevitable que sus resultados no sean "imparciales" en términos de la teoría del muestreo.

Pero los resultados de un enfoque bayesiano pueden diferir de los del enfoque de la teoría de muestreo incluso si el bayesiano intenta adoptar una distribución previa "no informativa".

Por ejemplo, considere nuevamente la estimación de una varianza poblacional desconocida σ 2 de una distribución normal con media desconocida, donde se desea optimizar c en la función de pérdida esperada.

Una opción estándar de prior no informativo para este problema es el prior de Jeffreys , , que es equivalente a adoptar un prior plano invariante al reescalamiento para ln(σ 2 ) .

Una consecuencia de adoptar esta distribución previa es que S 22 sigue siendo una cantidad fundamental , es decir, la distribución de probabilidad de S 22 depende solo de S 22 , independientemente del valor de S 2 o σ 2 :

Sin embargo, mientras

En contraste

— cuando se toma la expectativa sobre la distribución de probabilidad de σ 2 dado S 2 , como es en el caso bayesiano, en lugar de S 2 dado σ 2 , ya no se puede tomar σ 4 como una constante y factorizarla. La consecuencia de esto es que, en comparación con el cálculo de la teoría de muestreo, el cálculo bayesiano pone más peso en valores mayores de σ 2 , teniendo en cuenta adecuadamente (como el cálculo de la teoría de muestreo no puede) que bajo esta función de pérdida al cuadrado la consecuencia de subestimar valores grandes de σ 2 es más costosa en términos de pérdida al cuadrado que la de sobreestimar valores pequeños de σ 2 .

El cálculo bayesiano elaborado proporciona una distribución chi-cuadrado inversa escalada con n  − 1 grados de libertad para la distribución de probabilidad posterior de σ 2 . La pérdida esperada se minimiza cuando cnS 2  = <σ 2 >; esto ocurre cuando c  = 1/( n  − 3).

Por lo tanto, incluso con un previo no informativo, un cálculo bayesiano puede no dar el mismo resultado de minimización de pérdida esperada que el cálculo de la teoría de muestreo correspondiente.

Véase también

Notas

  1. ^ "Para la distribución binomial, ¿por qué no existe un estimador imparcial para $1/p$?". Mathematics Stack Exchange . Consultado el 27 de diciembre de 2023 .
  2. ^ abc Kozdron, Michael (marzo de 2016). "Evaluación de la bondad de un estimador: sesgo, error cuadrático medio, eficiencia relativa (Capítulo 3)" (PDF) . stat.math.uregina.ca . Consultado el 11 de septiembre de 2020 .
  3. ^ ab Taylor, Courtney (13 de enero de 2019). "Estimadores imparciales y sesgados". ThoughtCo . Consultado el 12 de septiembre de 2020 .
  4. ^ Dekking, Michel, ed. (2005). Una introducción moderna a la probabilidad y la estadística: comprender por qué y cómo . Textos de Springer sobre estadística. Londres [Heidelberg]: Springer. ISBN 978-1-85233-896-1.
  5. ^ Richard Arnold Johnson; Dean W. Wichern (2007). Análisis estadístico multivariante aplicado. Pearson Prentice Hall. ISBN 978-0-13-187715-3. Recuperado el 10 de agosto de 2012 .
  6. ^ Romano, JP; Siegel, AF (1986). Contraejemplos en probabilidad y estadística . Monterey, California, EE. UU.: Wadsworth & Brooks / Cole. pág. 168.
  7. ^ Hardy, M. (1 de marzo de 2003). "Un contraejemplo esclarecedor". American Mathematical Monthly . 110 (3): 234–238. arXiv : math/0206006 . doi :10.2307/3647938. ISSN  0002-9890. JSTOR  3647938.
  8. ^ Brown (1947), página 583
  9. ^ Lehmann 1951; Birnbaum 1961; Van der Vaart 1961; Pfanzagl 1994
  10. ^ Pfanzagl, Johann (1979). "Sobre estimadores óptimos de mediana no sesgados en presencia de parámetros molestos". Anales de Estadística . 7 (1): 187–193. doi : 10.1214/aos/1176344563 .
  11. ^ ab Brown, LD; Cohen, Arthur; Strawderman, WE (1976). "Un teorema de clase completo para la razón de verosimilitud estrictamente monótona con aplicaciones". Ann. Statist . 4 (4): 712–722. doi : 10.1214/aos/1176343543 .
  12. ^ abc Dodge, Yadolah, ed. (1987). Análisis de datos estadísticos basado en la norma L 1 y métodos relacionados . Documentos de la Primera Conferencia Internacional celebrada en Neuchâtel, del 31 de agosto al 4 de septiembre de 1987. Ámsterdam: Holanda Septentrional. ISBN 0-444-70273-3.
  13. ^ Jaynes, ET (2007). Teoría de la probabilidad: la lógica de la ciencia . Cambridge: Cambridge Univ. Press. pág. 172. ISBN. 978-0-521-59271-0.
  14. ^ Klebanov, Lev B.; Rachev, Svetlozar T.; Fabozzi, Frank J. (2009). "Funciones de pérdida y la teoría de la estimación insesgada". Modelos robustos y no robustos en estadística . Nueva York: Nova Scientific. ISBN 978-1-60741-768-2.
  15. ^ Taboga, Marco (2010). "Conferencias sobre teoría de la probabilidad y estadística matemática".
  16. ^ DeGroot, Morris H. (1986). Probabilidad y estadística (2.ª ed.). Addison-Wesley. págs. 414-5. ISBN 0-201-11366-X.Pero compárese, por ejemplo, con la discusión en Casella; Berger (2001). Inferencia estadística (2.ª ed.). Duxbury. p. 332. ISBN 0-534-24312-6.
  17. ^ Gelman, A.; et al. (1995). Análisis de datos bayesianos . Chapman y Hall. pág. 108. ISBN 0-412-03991-5.

Referencias

Enlaces externos