Teorema estadístico
En estadística , el teorema de Rao-Blackwell , a veces denominado teorema de Rao-Blackwell-Kolmogorov , es un resultado que caracteriza la transformación de un estimador arbitrariamente crudo en un estimador que es óptimo según el criterio del error cuadrático medio o cualquier variedad de criterios similares.
El teorema de Rao-Blackwell establece que si g ( X ) es cualquier tipo de estimador de un parámetro θ, entonces la esperanza condicional de g ( X ) dado T ( X ), donde T es un estadístico suficiente , es típicamente un mejor estimador de θ, y nunca es peor. A veces uno puede construir muy fácilmente un estimador muy rudimentario g ( X ), y luego evaluar ese valor esperado condicional para obtener un estimador que sea óptimo en varios sentidos.
El teorema recibe su nombre de CR Rao y David Blackwell . El proceso de transformación de un estimador mediante el teorema de Rao-Blackwell se puede denominar Rao-Blackwellización . El estimador transformado se denomina estimador de Rao-Blackwell . [1] [2] [3]
Definiciones
- Un estimador δ( X ) es una variable aleatoria observable (es decir, un estadístico ) que se utiliza para estimar alguna cantidad no observable . Por ejemplo, es posible que no se pueda observar la altura promedio de todos los estudiantes varones de la Universidad de X, pero sí se pueden observar las alturas de una muestra aleatoria de 40 de ellos. La altura promedio de esos 40 (el "promedio de la muestra") se puede utilizar como estimador del "promedio de la población" no observable.
- Una estadística suficiente T ( X ) es una estadística calculada a partir de datos X para estimar algún parámetro θ para el cual ninguna otra estadística que pueda calcularse a partir de datos X proporciona información adicional sobre θ. Se define como una variable aleatoria observable tal que la distribución de probabilidad condicional de todos los datos observables X dados T ( X ) no depende del parámetro no observable θ, como la media o la desviación estándar de toda la población de la que se tomaron los datos X. En los ejemplos citados con más frecuencia, las cantidades "no observables" son parámetros que parametrizan una familia conocida de distribuciones de probabilidad según las cuales se distribuyen los datos.
- En otras palabras, una estadística suficiente T(X) para un parámetro θ es una estadística tal que la probabilidad condicional de los datos X , dado T ( X ), no depende del parámetro θ.
- Un estimador de Rao–Blackwell δ 1 ( X ) de una cantidad no observable θ es el valor esperado condicional E(δ( X ) | T ( X )) de algún estimador δ( X ) dado un estadístico suficiente T ( X ). Llamemos a δ( X ) el "estimador original" y a δ 1 ( X ) el "estimador mejorado" . Es importante que el estimador mejorado sea observable , es decir, que no dependa de θ. Generalmente, el valor esperado condicional de una función de estos datos dada otra función de estos datos depende de θ, pero la propia definición de suficiencia dada anteriormente implica que esta no depende.
- El error cuadrático medio de un estimador es el valor esperado del cuadrado de su desviación de la cantidad no observable que se está estimando de θ.
El teorema
Versión con error cuadrático medio
Un caso del teorema de Rao-Blackwell establece:
- El error cuadrático medio del estimador Rao-Blackwell no excede el del estimador original.
En otras palabras,
Las herramientas esenciales de la prueba, además de la definición anterior, son la ley de la expectativa total y el hecho de que para cualquier variable aleatoria Y , E( Y 2 ) no puede ser menor que [E( Y )] 2 . Esa desigualdad es un caso de desigualdad de Jensen , aunque también se puede demostrar que se sigue instantáneamente del hecho frecuentemente mencionado de que
Más precisamente, el error cuadrático medio del estimador de Rao-Blackwell tiene la siguiente descomposición [4]
Desde entonces , se deduce inmediatamente el teorema de Rao-Blackwell.
Generalización de pérdida convexa
La versión más general del teorema de Rao-Blackwell habla de la "pérdida esperada" o función de riesgo :
donde la "función de pérdida" L puede ser cualquier función convexa . Si la función de pérdida es dos veces diferenciable, como en el caso del error cuadrático medio, entonces tenemos la desigualdad más aguda [4]
Propiedades
El estimador mejorado es insesgado si y solo si el estimador original es insesgado, como se puede ver inmediatamente al utilizar la ley de la expectativa total . El teorema se cumple independientemente de que se utilicen estimadores sesgados o insesgados.
El teorema parece muy débil: sólo dice que el estimador de Rao-Blackwell no es peor que el estimador original. Sin embargo, en la práctica, la mejora suele ser enorme. [5]
Ejemplo
Las llamadas telefónicas llegan a una centralita de acuerdo con un proceso de Poisson a una tasa promedio de λ por minuto. Esta tasa no es observable, pero sí se observan los números X 1 , ..., X n de llamadas telefónicas que llegaron durante n períodos sucesivos de un minuto. Se desea estimar la probabilidad e −λ de que el siguiente período de un minuto transcurra sin llamadas telefónicas.
Un estimador extremadamente crudo de la probabilidad deseada es
Es decir, estima que esta probabilidad es 1 si no se recibieron llamadas telefónicas en el primer minuto y cero en caso contrario. A pesar de las aparentes limitaciones de este estimador, el resultado que arroja su Rao-Blackwellización es un estimador muy bueno.
La suma
se puede demostrar fácilmente que es una estadística suficiente para λ, es decir, la distribución condicional de los datos X 1 , ..., X n , depende de λ solo a través de esta suma. Por lo tanto, encontramos el estimador de Rao-Blackwell
Después de hacer algo de álgebra tenemos
Dado que el número promedio de llamadas que llegan durante los primeros n minutos es n λ, uno podría no sorprenderse si este estimador tiene una probabilidad bastante alta (si n es grande) de estar cerca de
Por lo tanto, δ 1 es claramente un estimador muy mejorado de esa última cantidad. De hecho, dado que S n es completo y δ 0 es insesgado, δ 1 es el único estimador insesgado de varianza mínima según el teorema de Lehmann-Scheffé .
Idempotencia
La Rao-Blackwellización es una operación idempotente . Su uso para mejorar el estimador ya mejorado no genera una mejora adicional, sino que simplemente devuelve como resultado el mismo estimador mejorado.
Completitud y varianza mínima de Lehmann-Scheffé
Si la estadística de condicionamiento es completa y suficiente , y el estimador inicial es insesgado, entonces el estimador de Rao-Blackwell es el único " mejor estimador insesgado ": véase el teorema de Lehmann-Scheffé .
Galili y Meilijson proporcionaron en 2016 un ejemplo de una mejora de Rao–Blackwell mejorable, cuando se utiliza un estadístico mínimo suficiente que no es completo . [6] Sea una muestra aleatoria de una distribución uniforme de escala con media desconocida y parámetro de diseño conocido . En la búsqueda de los "mejores" posibles estimadores insesgados para es natural considerar como un estimador insesgado inicial (crudo) para y luego tratar de mejorarlo. Dado que no es una función de , el estadístico mínimo suficiente para (donde y ), se puede mejorar utilizando el teorema de Rao–Blackwell de la siguiente manera:
Sin embargo, se puede demostrar que el siguiente estimador imparcial tiene una varianza menor:
Y de hecho, se podría mejorar aún más utilizando el siguiente estimador:
El modelo es un modelo a escala . Luego se pueden derivar estimadores equivariantes óptimos para funciones de pérdida que sean invariantes . [7]
Véase también
Referencias
- ^ Blackwell, D. (1947). "Esperanza condicional y estimación secuencial no sesgada". Anales de estadística matemática . 18 (1): 105–110. doi : 10.1214/aoms/1177730497 . MR 0019903. Zbl 0033.07603.
- ^ Kolmogorov, AN (1950). "Estimaciones imparciales". Izvestia Akad. Nauk SSSR. Ser. Estera . 14 : 303–326. SEÑOR 0036479.
- ^ Rao, C. Radhakrishna (1945). "Información y precisión alcanzables en la estimación de parámetros estadísticos". Boletín de la Sociedad Matemática de Calcuta . 37 (3): 81–91.
- ^ ab JG Liao; A. Berg (22 de junio de 2018). "Afilando la desigualdad de Jensen". The American Statistician . 73 (3): 278–281. arXiv : 1707.08644 . doi :10.1080/00031305.2017.1419145. S2CID 88515366.
- ^ Carpenter, Bob (20 de enero de 2020). "Rao-Blackwellización y parámetros discretos en Stan". Modelado estadístico, inferencia causal y ciencias sociales . Consultado el 13 de septiembre de 2021.
El teorema de Rao-Blackwell establece que el enfoque de marginalización tiene una varianza menor o igual que el enfoque directo. En la práctica, esta diferencia puede ser enorme.
- ^ Tal Galili; Isaac Meilijson (31 de marzo de 2016). "Un ejemplo de una mejora Rao-Blackwell mejorable, un estimador de máxima verosimilitud ineficiente y un estimador bayesiano generalizado imparcial". The American Statistician . 70 (1): 108–113. doi :10.1080/00031305.2015.1100683. PMC 4960505 . PMID 27499547.
- ^ Taraldsen, Gunnar (2020). "Micha Mandel (2020), "El modelo uniforme a escala revisitado", The American Statistician, 74:1, 98–100: Comentario". The American Statistician . 74 (3): 315. doi :10.1080/00031305.2020.1769727. ISSN 0003-1305. S2CID 219493070.
Enlaces externos