stringtranslate.com

Sesgo de un estimador

En estadística , el sesgo de un estimador (o función de sesgo ) es la diferencia entre el valor esperado de este estimador y el valor real del parámetro que se estima. Un estimador o regla de decisión con sesgo cero se llama insesgado . En estadística, el "sesgo" es una propiedad objetiva de un estimador. El sesgo es un concepto distinto de la coherencia : los estimadores consistentes convergen en probabilidad con el valor real del parámetro, pero pueden estar sesgados o insesgados; consulte sesgo versus coherencia para obtener más información.

En igualdad de condiciones, es preferible un estimador insesgado a un estimador sesgado, aunque en la práctica se utilizan con frecuencia estimadores sesgados (con un sesgo generalmente pequeño). Cuando se utiliza un estimador sesgado, se calculan los límites del sesgo. Se puede utilizar un estimador sesgado por varias razones: porque no existe un estimador insesgado sin más suposiciones sobre una población; porque un estimador es difícil de calcular (como en la estimación insesgada de la desviación estándar ); porque un estimador sesgado puede ser insesgado con respecto a diferentes medidas de tendencia central ; porque un estimador sesgado da un valor más bajo de alguna función de pérdida (particularmente el error cuadrático medio ) en comparación con los estimadores insesgados (especialmente en los estimadores de contracción ); o porque en algunos casos ser insesgado es una condición demasiado fuerte y los únicos estimadores insesgados no son útiles.

El sesgo también se puede medir con respecto a la mediana , en lugar de a la media (valor esperado), en cuyo caso se distingue la mediana (insesgada) de la media habitual ( propiedad de insesgación ). La insesgación de la media no se conserva en transformaciones no lineales , aunque sí la insesgación de la mediana (ver § Efecto de las transformaciones); por ejemplo, la varianza muestral es un estimador sesgado de la varianza poblacional. Todos estos se ilustran a continuación.

No siempre es necesario que exista un estimador insesgado para un parámetro. Por ejemplo, no existe un estimador insesgado para el recíproco del parámetro de una variable aleatoria binomial. [1]

Definición

Supongamos que tenemos un modelo estadístico , parametrizado por un número real θ , que da lugar a una distribución de probabilidad para los datos observados, y una estadística que sirve como estimador de θ en función de cualquier dato observado . Es decir, asumimos que nuestros datos siguen alguna distribución desconocida (donde θ es una constante fija y desconocida que forma parte de esta distribución) y luego construimos algún estimador que asigna los datos observados a valores que esperamos sean cercanos a θ . El sesgo de relativo a se define como [2]

donde denota el valor esperado sobre la distribución (es decir, promediando todas las observaciones posibles ). La segunda ecuación se sigue ya que θ es medible con respecto a la distribución condicional .

Se dice que un estimador es insesgado si su sesgo es igual a cero para todos los valores del parámetro θ , o de manera equivalente, si el valor esperado del estimador coincide con el del parámetro. [3] No se garantiza que la imparcialidad se mantenga. Por ejemplo, si es un estimador insesgado para el parámetro θ , no se garantiza que g( ) sea un estimador insesgado para g( θ). [4]

En un experimento de simulación sobre las propiedades de un estimador, el sesgo del estimador puede evaluarse utilizando la diferencia media con signo .

Ejemplos

varianza muestral

La varianza muestral de una variable aleatoria demuestra dos aspectos del sesgo del estimador: en primer lugar, el estimador ingenuo está sesgado, lo que puede corregirse mediante un factor de escala; en segundo lugar, el estimador insesgado no es óptimo en términos de error cuadrático medio (MSE), lo que puede minimizarse utilizando un factor de escala diferente, lo que da como resultado un estimador sesgado con un MSE más bajo que el estimador insesgado. Concretamente, el estimador ingenuo suma las desviaciones al cuadrado y las divide por n, lo que está sesgado. En cambio, dividir por n  − 1 produce un estimador insesgado. Por el contrario, el MSE se puede minimizar dividiendo por un número diferente (dependiendo de la distribución), pero esto da como resultado un estimador sesgado. Este número es siempre mayor que n  − 1, por lo que se conoce como estimador de contracción , ya que "reduce" el estimador insesgado hacia cero; para la distribución normal el valor óptimo es n  + 1.

Supongamos que X 1 , ..., X n son variables aleatorias independientes e idénticamente distribuidas (iid) con expectativa μ y varianza σ 2 . Si la media muestral y la varianza muestral no corregida se definen como

entonces S 2 es un estimador sesgado de σ 2 , porque

Para continuar, observamos que restando de ambos lados de , obtenemos

Es decir, (por multiplicación cruzada) . Entonces, lo anterior queda como:

Esto se puede ver observando la siguiente fórmula, que se deriva de la fórmula de Bienaymé , para el término de la desigualdad para la expectativa de la varianza muestral no corregida anterior: .

En otras palabras, el valor esperado de la varianza muestral no corregida no es igual a la varianza poblacional σ 2 , a menos que se multiplique por un factor de normalización. La media muestral, por otro lado, es un estimador insesgado [5] de la media poblacional  μ . [3]

Tenga en cuenta que la definición habitual de varianza muestral es , y este es un estimador insesgado de la varianza poblacional.

Algebraicamente hablando, es imparcial porque:

donde la transición a la segunda línea utiliza el resultado derivado anteriormente para el estimador sesgado. Por tanto , y por tanto es un estimador insesgado de la varianza poblacional, σ 2 . La relación entre las estimaciones sesgadas (no corregidas) e insesgadas de la varianza se conoce como corrección de Bessel .

La razón por la que una varianza muestral no corregida, S 2 , está sesgada se debe al hecho de que la media muestral es un estimador de mínimos cuadrados ordinarios (MCO) para μ : es el número que hace que la suma sea lo más pequeña posible. Es decir, cuando se introduce cualquier otro número en esta suma, la suma sólo puede aumentar. En particular, la elección da,

y luego

La discusión anterior se puede entender en términos geométricos: el vector se puede descomponer en la "parte media" y la "parte de varianza" proyectándolo en la dirección y hacia el hiperplano complemento ortogonal de esa dirección. Se obtiene por la parte a lo largo y por la parte complementaria. Dado que se trata de una descomposición ortogonal, el teorema de Pitágoras dice , y tomando las expectativas obtenemos , como arriba (pero multiplicado por ). Si la distribución de es rotacionalmente simétrica, como en el caso cuando se toma una muestra de un gaussiano, entonces, en promedio, la dimensión a lo largo contribuye en igual medida que las direcciones perpendiculares a , de modo que y . De hecho, esto es cierto en general, como se explicó anteriormente.

Estimando una probabilidad de Poisson

Un caso mucho más extremo en el que un estimador sesgado es mejor que cualquier estimador insesgado surge de la distribución de Poisson . [6] [7] Supongamos que X tiene una distribución de Poisson con expectativa  λ . Supongamos que se desea estimar

con una muestra de tamaño 1. (Por ejemplo, cuando las llamadas entrantes en una centralita telefónica se modelan como un proceso de Poisson, y λ es el número promedio de llamadas por minuto, entonces e −2 λ es la probabilidad de que no llegue ninguna llamada en el próximos dos minutos.)

Dado que la expectativa de un estimador insesgado δ ( X ) es igual al estimador , es decir

la única función de los datos que constituyen un estimador insesgado es

Para ver esto, tenga en cuenta que al descomponer e λ de la expresión anterior para la expectativa, la suma que queda es también una expansión en serie de Taylor de e λ , lo que produce e − λ e λ  = e −2 λ (consulte Caracterizaciones de la función exponencial ).

Si el valor observado de X es 100, entonces la estimación es 1, aunque es muy probable que el valor real de la cantidad que se estima esté cerca de 0, que es el extremo opuesto. Y si se observa que X es 101, entonces la estimación es aún más absurda: es −1, aunque la cantidad estimada debe ser positiva.

El estimador de máxima verosimilitud (sesgado)

es mucho mejor que este estimador insesgado. Su valor no sólo es siempre positivo sino que también es más preciso en el sentido de que su error cuadrático medio

es más pequeño; comparar el MSE del estimador insesgado de

Los MSE son funciones del valor verdadero  λ . El sesgo del estimador de máxima verosimilitud es:

Máximo de una distribución uniforme discreta

El sesgo de los estimadores de máxima verosimilitud puede ser sustancial. Considere un caso en el que n boletos numerados del 1 al n se colocan en una caja y se selecciona uno al azar, lo que da un valor X. Si n es desconocido, entonces el estimador de máxima verosimilitud de n es X , aunque la expectativa de X dado n es sólo ( n  + 1)/2; sólo podemos estar seguros de que n es al menos X y probablemente sea más. En este caso, el estimador insesgado natural es 2 X  − 1.

Estimadores insesgados de mediana

La teoría de los estimadores insesgados de la mediana fue revivida por George W. Brown en 1947: [8]

Se dirá que una estimación de un parámetro unidimensional θ es medianamente insesgada si, para θ fijo, la mediana de la distribución de la estimación está en el valor θ; es decir, la estimación subestima con tanta frecuencia como sobreestima. Para la mayoría de los propósitos, este requisito parece cumplir tanto como el requisito insesgado de media y tiene la propiedad adicional de que es invariante bajo transformación uno a uno.

Lehmann, Birnbaum, van der Vaart y Pfanzagl han observado otras propiedades de los estimadores insesgados de la mediana. [ cita necesaria ] En particular, existen estimadores insesgados de mediana en los casos en que no existen estimadores insesgados de media y de máxima verosimilitud . Son invariantes bajo transformaciones uno a uno .

Existen métodos para construir estimadores insesgados de mediana para distribuciones de probabilidad que tienen funciones de verosimilitud monótonas , como familias exponenciales de un parámetro, para garantizar que sean óptimas (en un sentido análogo a la propiedad de varianza mínima considerada para los estimadores insesgados de media) . [9] [10] Uno de esos procedimientos es análogo al procedimiento de Rao-Blackwell para estimadores insesgados de media: el procedimiento es válido para una clase más pequeña de distribuciones de probabilidad que el procedimiento de Rao-Blackwell para estimaciones insesgadas de media, pero para una clase más pequeña de distribuciones de probabilidad. clase de funciones de pérdida. [10]

Sesgo con respecto a otras funciones de pérdida

Cualquier estimador insesgado de media de varianza mínima minimiza el riesgo ( pérdida esperada ) con respecto a la función de pérdida de error cuadrático (entre estimadores insesgados de media), como lo observa Gauss . [11] Un estimador insesgado de mediana de desviación absoluta promedio mínimo minimiza el riesgo con respecto a la función de pérdida absoluta (entre estimadores de mediana insesgados), como lo observó Laplace . [11] [12] Otras funciones de pérdida se utilizan en estadísticas, particularmente en estadísticas sólidas . [11] [13]

Efecto de las transformaciones

Para parámetros univariados, los estimadores insesgados en la mediana permanecen insesgados en la mediana bajo transformaciones que preservan el orden (u orden inverso). Tenga en cuenta que, cuando se aplica una transformación a un estimador insesgado de media, no es necesario que el resultado sea un estimador insesgado de media de su estadístico de población correspondiente. Según la desigualdad de Jensen , una función convexa como transformación introducirá un sesgo positivo, mientras que una función cóncava introducirá un sesgo negativo, y una función de convexidad mixta puede introducir un sesgo en cualquier dirección, dependiendo de la función y distribución específicas. Es decir, para una función no lineal f y un estimador insesgado por la media U de un parámetro p , el estimador compuesto f ( U ) no necesita ser un estimador insesgado por la media de f ( p ). Por ejemplo, la raíz cuadrada del estimador insesgado de la varianza poblacional no es un estimador insesgado de la media de la desviación estándar de la población: la raíz cuadrada de la varianza muestral insesgada , la desviación estándar muestral corregida , está sesgada. El sesgo depende tanto de la distribución muestral del estimador como de la transformada, y su cálculo puede ser bastante complicado; consulte la estimación insesgada de la desviación estándar para una discusión en este caso.

Sesgo, varianza y error cuadrático medio

Distribuciones muestrales de dos estimadores alternativos para un parámetro β 0 . Aunque β 1 ^ es imparcial, es claramente inferior al β 2 ^ sesgado .

La regresión de crestas es un ejemplo de una técnica en la que permitir un pequeño sesgo puede conducir a una reducción considerable de la varianza y a estimaciones más confiables en general.

Si bien el sesgo cuantifica la diferencia promedio que se espera entre un estimador y un parámetro subyacente, también se puede esperar que un estimador basado en una muestra finita difiera del parámetro debido a la aleatoriedad de la muestra. Un estimador que minimiza el sesgo no necesariamente minimizará el error cuadrático medio. Una medida que se utiliza para intentar reflejar ambos tipos de diferencia es el error cuadrático medio , [2]

Se puede demostrar que esto es igual al cuadrado del sesgo, más la varianza: [2]

Cuando el parámetro es un vector, se aplica una descomposición análoga: [14]

donde es la traza (suma diagonal) de la matriz de covarianza del estimador y es la norma del vector cuadrado .

Ejemplo: estimación de la varianza poblacional

Por ejemplo, [15] supongamos un estimador de la forma

Se busca la varianza poblacional como se indicó anteriormente, pero esta vez para minimizar el MSE:

Si las variables X 1 ... X n siguen una distribución normal, entonces nS 22 tiene una distribución chi-cuadrado con n  − 1 grados de libertad, dando:

y entonces

Con un poco de álgebra se puede confirmar que es c = 1/( n  + 1) lo que minimiza esta función de pérdida combinada, en lugar de c = 1/( n  − 1) lo que minimiza solo el cuadrado del sesgo.

De manera más general, sólo en clases restringidas de problemas habrá un estimador que minimice el MSE independientemente de los valores de los parámetros.

Sin embargo, es muy común que se perciba que existe una compensación entre sesgo y varianza , de modo que un pequeño aumento en el sesgo puede intercambiarse por una disminución mayor en la varianza, lo que resulta en un estimador más deseable en general.

Vista bayesiana

La mayoría de los bayesianos no se preocupan por la imparcialidad (al menos en el sentido formal de la teoría del muestreo mencionado anteriormente) de sus estimaciones. Por ejemplo, Gelman y coautores (1995) escriben: "Desde una perspectiva bayesiana, el principio de imparcialidad es razonable en el límite de muestras grandes, pero por lo demás es potencialmente engañoso". [dieciséis]

Fundamentalmente, la diferencia entre el enfoque bayesiano y el enfoque de la teoría del muestreo anterior es que en el enfoque de la teoría del muestreo el parámetro se toma como fijo y luego se consideran las distribuciones de probabilidad de una estadística, con base en la distribución muestral predicha de los datos. Para un bayesiano, sin embargo, son los datos los que se conocen y son fijos, y es el parámetro desconocido para el que se intenta construir una distribución de probabilidad, utilizando el teorema de Bayes :

Aquí el segundo término, la probabilidad de que los datos tengan el valor del parámetro desconocido θ, depende solo de los datos obtenidos y del modelado del proceso de generación de datos. Sin embargo, un cálculo bayesiano también incluye el primer término, la probabilidad previa de θ, que tiene en cuenta todo lo que el analista puede saber o sospechar sobre θ antes de que lleguen los datos. Esta información no desempeña ningún papel en el enfoque de la teoría del muestreo; de hecho, cualquier intento de incluirlo se consideraría un "sesgo" que se alejara de lo que indicaban únicamente los datos. En la medida en que los cálculos bayesianos incluyan información previa, es esencialmente inevitable que sus resultados no sean "imparciales" en términos de la teoría del muestreo.

Pero los resultados de un enfoque bayesiano pueden diferir del enfoque de la teoría del muestreo incluso si el bayesiano intenta adoptar un enfoque previo "no informativo".

Por ejemplo, considere nuevamente la estimación de una varianza poblacional desconocida σ 2 de una distribución Normal con media desconocida, donde se desea optimizar c en la función de pérdida esperada.

Una elección estándar de previa no informativa para este problema es la previa de Jeffreys , que equivale a adoptar una previa plana invariante de reescalado para ln(σ 2 ) .

Una consecuencia de adoptar esta priorización es que S 22 sigue siendo una cantidad fundamental , es decir, la distribución de probabilidad de S 22 depende sólo de S 22 , independientemente del valor de S 2 o σ 2 :

Sin embargo, mientras

a diferencia de

— cuando la expectativa se toma sobre la distribución de probabilidad de σ 2 dado S 2 , como ocurre en el caso bayesiano, en lugar de S 2 dado σ 2 , ya no se puede tomar σ 4 como una constante y factorizarla. La consecuencia de esto es que, en comparación con el cálculo de la teoría de muestreo, el cálculo bayesiano otorga más peso a valores más grandes de σ 2 , teniendo en cuenta adecuadamente (algo que el cálculo de la teoría de muestreo no puede) que bajo esta función de pérdida al cuadrado la consecuencia Subestimar valores grandes de σ 2 es más costoso en términos de pérdidas al cuadrado que sobreestimar valores pequeños de σ 2 .

El cálculo bayesiano elaborado da una distribución chi-cuadrado inversa escalada con n  − 1 grados de libertad para la distribución de probabilidad posterior de σ 2 . La pérdida esperada se minimiza cuando cnS 2  = <σ 2 >; esto ocurre cuando c  = 1/( n  − 3).

Por lo tanto, incluso con un análisis previo poco informativo, un cálculo bayesiano puede no dar el mismo resultado de minimización de pérdidas esperadas que el correspondiente cálculo de la teoría de muestreo.

Ver también

Notas

  1. ^ "Para la distribución binomial, ¿por qué no existe un estimador insesgado para $1/p$?". Intercambio de pilas de matemáticas . Consultado el 27 de diciembre de 2023 .
  2. ^ abc Kozdron, Michael (marzo de 2016). "Evaluación de la bondad de un estimador: sesgo, error cuadrático medio, eficiencia relativa (capítulo 3)" (PDF) . stat.math.uregina.ca . Consultado el 11 de septiembre de 2020 .
  3. ^ ab Taylor, Courtney (13 de enero de 2019). "Estimadores imparciales y sesgados". PensamientoCo . Consultado el 12 de septiembre de 2020 .
  4. ^ Dekking, Michel, ed. (2005). Una introducción moderna a la probabilidad y la estadística: comprender por qué y cómo . Textos de Springer en estadística. Londres [Heidelberg]: Springer. ISBN 978-1-85233-896-1.
  5. ^ Richard Arnold Johnson; Dean W. Wichern (2007). Análisis Estadístico Multivariado Aplicado. Pearson-Prentice Hall. ISBN 978-0-13-187715-3. Consultado el 10 de agosto de 2012 .
  6. ^ JP Romano y AF Siegel (1986) Contraejemplos en probabilidad y estadística , Wadsworth & Brooks/Cole, Monterey, California, EE. UU., p. 168
  7. ^ Hardy, M. (1 de marzo de 2003). "Un contraejemplo esclarecedor". Mensual Matemático Estadounidense . 110 (3): 234–238. arXiv : matemáticas/0206006 . doi :10.2307/3647938. ISSN  0002-9890. JSTOR  3647938.
  8. ^ Marrón (1947), página 583
  9. ^ Pfanzagl, Johann (1979). "Sobre estimadores insesgados de mediana óptima en presencia de parámetros molestos". Los anales de la estadística . 7 (1): 187–193. doi : 10.1214/aos/1176344563 .
  10. ^ ab Brown, LD; Cohen, Arturo; Strawderman, NOSOTROS (1976). "Un teorema de clase completo para una relación de verosimilitud estricta y monótona con aplicaciones". Ana. Estatista . 4 (4): 712–722. doi : 10.1214/aos/1176343543 .
  11. ^ abc Dodge, Yadolah, ed. (1987). Análisis de datos estadísticos basado en la norma L 1 y métodos relacionados . Artículos de la Primera Conferencia Internacional celebrada en Neuchâtel del 31 de agosto al 4 de septiembre de 1987. Ámsterdam: Holanda Septentrional. ISBN 0-444-70273-3.
  12. ^ Jaynes, et (2007). Teoría de la probabilidad: la lógica de la ciencia . Cambridge: Universidad de Cambridge. Prensa. pag. 172.ISBN _ 978-0-521-59271-0.
  13. ^ Klebanov, Lev B.; Rachev, Svetlozar T.; Fabozzi, Frank J. (2009). "Funciones de pérdida y teoría de la estimación insesgada". Modelos robustos y no robustos en estadística . Nueva York: Nova Scientific. ISBN 978-1-60741-768-2.
  14. ^ Taboga, Marco (2010). "Conferencias sobre teoría de la probabilidad y estadística matemática".
  15. ^ DeGroot, Morris H. (1986). Probabilidad y Estadística (2ª ed.). Addison-Wesley. págs. 414–5. ISBN 0-201-11366-X.Pero compárelo, por ejemplo, con la discusión en Casella; Berger (2001). Inferencia estadística (2ª ed.). Duxbury. pag. 332.ISBN _ 0-534-24312-6.
  16. ^ Gelman, A.; et al. (1995). Análisis de datos bayesianos . Chapman y Hall. pag. 108.ISBN _ 0-412-03991-5.

Referencias

enlaces externos