Teorema estadístico
En estadística , el teorema de Rao-Blackwell , a veces denominado teorema de Rao-Blackwell-Kolmogorov , es un resultado que caracteriza la transformación de un estimador arbitrariamente crudo en un estimador óptimo según el criterio del error cuadrático medio o cualquiera de una variedad de criterios similares.
El teorema de Rao-Blackwell establece que si g ( X ) es cualquier tipo de estimador de un parámetro θ, entonces la expectativa condicional de g ( X ) dada T ( X ), donde T es un estadístico suficiente , suele ser un mejor estimador de θ, y nunca es peor. A veces se puede construir muy fácilmente un estimador g ( X ) muy burdo y luego evaluar ese valor esperado condicional para obtener un estimador que sea óptimo en varios sentidos.
El teorema lleva el nombre de CR Rao y David Blackwell . El proceso de transformación de un estimador utilizando el teorema de Rao-Blackwell puede denominarse Rao-Blackwellización . El estimador transformado se llama estimador de Rao-Blackwell . [1] [2] [3]
Definiciones
- Un estimador δ( X ) es una variable aleatoria observable (es decir, una estadística ) utilizada para estimar alguna cantidad no observable . Por ejemplo, es posible que no se pueda observar la altura promedio de todos los estudiantes varones de la Universidad de X, pero sí se pueden observar las alturas de una muestra aleatoria de 40 de ellos. La altura promedio de esos 40 años (el "promedio de la muestra") puede usarse como un estimador del "promedio de la población" no observable.
- Una estadística suficiente T ( X ) es una estadística calculada a partir de los datos X para estimar algún parámetro θ para el cual ninguna otra estadística que pueda calcularse a partir de los datos X proporciona información adicional sobre θ. Se define como una variable aleatoria observable tal que la distribución de probabilidad condicional de todos los datos observables X dado T ( X ) no depende del parámetro no observable θ, como la media o la desviación estándar de toda la población de la que se obtuvieron los datos X. tomado. En los ejemplos citados con más frecuencia, las cantidades "no observables" son parámetros que parametrizan una familia conocida de distribuciones de probabilidad según las cuales se distribuyen los datos.
- En otras palabras, un estadístico suficiente T(X) para un parámetro θ es un estadístico tal que la probabilidad condicional de los datos X , dado T ( X ), no depende del parámetro θ.
- Un estimador de Rao-Blackwell δ 1 ( X ) de una cantidad no observable θ es el valor esperado condicional E(δ( X ) | T ( X )) de algún estimador δ( X ) dada una estadística suficiente T ( X ). Llame a δ( X ) el "estimador original" y a δ 1 ( X ) el "estimador mejorado" . Es importante que el estimador mejorado sea observable , es decir, que no dependa de θ. Generalmente, el valor esperado condicional de una función de estos datos dada otra función de estos datos depende de θ, pero la definición misma de suficiencia dada anteriormente implica que ésta no depende.
- El error cuadrático medio de un estimador es el valor esperado del cuadrado de su desviación de la cantidad no observable que se estima de θ.
el teorema
Versión de error cuadrático medio
Un caso del teorema de Rao-Blackwell establece:
- El error cuadrático medio del estimador de Rao-Blackwell no excede al del estimador original.
En otras palabras,
![{\displaystyle \operatorname {E} ((\delta _ {1}(X)-\theta )^{2})\leq \operatorname {E} ((\delta (X)-\theta )^{2} ).}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Las herramientas esenciales de la prueba además de la definición anterior son la ley de expectativa total y el hecho de que para cualquier variable aleatoria Y , E( Y 2 ) no puede ser menor que [E( Y )] 2 . Esa desigualdad es un caso de desigualdad de Jensen , aunque también se puede demostrar que se deriva instantáneamente del hecho frecuentemente mencionado de que
![{\displaystyle 0\leq \operatorname {Var} (Y)=\operatorname {E} ((Y-\operatorname {E} (Y))^{2})=\operatorname {E} (Y^{2} )-(\nombre del operador {E} (Y))^{2}.}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Más precisamente, el error cuadrático medio del estimador de Rao-Blackwell tiene la siguiente descomposición [4]
![{\displaystyle \operatorname {E} [(\delta _ {1}(X)-\theta )^{2}]=\operatorname {E} [(\delta (X)-\theta )^{2}] -\nombreoperador {E} [\nombreoperador {Var} (\delta (X)\mid T(X))]}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Dado que , se sigue inmediatamente el teorema de Rao-Blackwell.![{\displaystyle \operatorname {E} [\operatorname {Var} (\delta (X)\mid T(X))]\geq 0}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Generalización de pérdida convexa
La versión más general del teorema de Rao-Blackwell habla de la "pérdida esperada" o función de riesgo :
![{\displaystyle \operatorname {E} (L(\delta _ {1}(X)))\leq \operatorname {E} (L(\delta (X)))}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
donde la "función de pérdida" L puede ser cualquier función convexa . Si la función de pérdida es dos veces diferenciable, como en el caso del error cuadrático medio, entonces tenemos la desigualdad más marcada [4]
![{\displaystyle \operatorname {E} (L(\delta (X)))-\operatorname {E} (L(\delta _ {1}(X)))\geq {\frac {1}{2}} \operatorname {E} _{T}\left[\inf _{x}L''(x)\operatorname {Var} (\delta (X)\mid T)\right].}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Propiedades
El estimador mejorado es insesgado si y sólo si el estimador original es insesgado, como puede verse inmediatamente utilizando la ley de la expectativa total . El teorema se cumple independientemente de si se utilizan estimadores sesgados o insesgados.
El teorema parece muy débil: sólo dice que el estimador de Rao-Blackwell no es peor que el estimador original. Sin embargo, en la práctica la mejora suele ser enorme. [5]
Ejemplo
Las llamadas telefónicas llegan a una centralita según un proceso de Poisson a una velocidad promedio de λ por minuto. Esta tasa no es observable, pero sí se observan los números X 1 , ..., X n de llamadas telefónicas que llegaron durante n períodos sucesivos de un minuto. Se desea estimar la probabilidad e −λ de que el siguiente período de un minuto transcurra sin llamadas telefónicas.
Un estimador extremadamente crudo de la probabilidad deseada es
![{\displaystyle \delta _{0}=\left\{{\begin{matrix}1&{\text{if}}\ X_{1}=0,\\0&{\text{de lo contrario,}}\end{ matriz}}\right.}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
es decir, estima que esta probabilidad es 1 si no llegó ninguna llamada telefónica en el primer minuto y cero en caso contrario. A pesar de las aparentes limitaciones de este estimador, el resultado obtenido por su Rao-Blackwellización es un muy buen estimador.
La suma
![{\displaystyle S_{n}=\sum _{i=1}^{n}X_{i}=X_{1}+\cdots +X_{n}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Se puede demostrar fácilmente que es un estadístico suficiente para λ, es decir, la distribución condicional de los datos X 1 , ..., X n , depende de λ sólo a través de esta suma. Por tanto, encontramos el estimador de Rao-Blackwell
![{\displaystyle \delta _ {1}=\operatorname {E} (\delta _ {0}\mid S_ {n} = s_ {n}).}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Después de hacer algo de álgebra tenemos
![{\displaystyle {\begin{aligned}\delta _{1}&=\operatorname {E} \left(\mathbf {1} _{\{X_{1}=0\}}{\Bigg |}\sum _{i=1}^{n}X_{i}=s_{n}\right)\\&=P\left(X_{1}=0{\Bigg |}\sum _{i=1}^ {n}X_{i}=s_{n}\right)\\&=P\left(X_{1}=0,\sum _{i=2}^{n}X_{i}=s_{n }\right)\times P\left(\sum _{i=1}^{n}X_{i}=s_{n}\right)^{-1}\\&=e^{-\lambda } {\frac {\left((n-1)\lambda \right)^{s_{n}}e^{-(n-1)\lambda }}{s_{n}!}}\times \left( {\frac {(n\lambda )^{s_{n}}e^{-n\lambda }}{s_{n}!}}\right)^{-1}\\&={\frac {\ left((n-1)\lambda \right)^{s_{n}}e^{-n\lambda }}{s_{n}!}}\times {\frac {s_{n}!}{( n\lambda )^{s_{n}}e^{-n\lambda }}}\\&=\left(1-{\frac {1}{n}}\right)^{s_{n}} \end{alineado}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Dado que el número promedio de llamadas que llegan durante los primeros n minutos es n λ, no debería sorprendernos que este estimador tenga una probabilidad bastante alta (si n es grande) de estar cerca de
![{\displaystyle \left(1-{1 \over n}\right)^{n\lambda }\approx e^{-\lambda }.}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Por lo tanto, δ 1 es claramente un estimador muy mejorado de esa última cantidad. De hecho, dado que S n es completo y δ 0 es insesgado, δ 1 es el único estimador insesgado de varianza mínima según el teorema de Lehmann-Scheffé .
Idempotencia
Rao-Blackwellization es una operación idempotente . Usarlo para mejorar el estimador ya mejorado no obtiene una mejora adicional, sino que simplemente devuelve como resultado el mismo estimador mejorado.
Integridad y varianza mínima de Lehmann-Scheffé
Si el estadístico condicionante es completo y suficiente , y el estimador inicial es insesgado, entonces el estimador de Rao-Blackwell es el único " mejor estimador insesgado ": véase el teorema de Lehmann-Scheffé .
Galili y Meilijson proporcionaron en 2016 un ejemplo de una mejora de Rao-Blackwell mejorable, cuando se utiliza una estadística mínima suficiente que no es completa . [6] Sea una muestra aleatoria de una distribución de escala uniforme con media desconocida y diseño conocido. parámetro . En la búsqueda de los "mejores" estimadores insesgados posibles, es natural considerarlo como un estimador insesgado inicial (crudo) y luego intentar mejorarlo. Dado que no es una función de , el estadístico mínimo suficiente para (donde y ), se puede mejorar utilizando el teorema de Rao-Blackwell de la siguiente manera:![{\displaystyle X_{1},\ldots,X_{n}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle X\sim U\left((1-k)\theta,(1+k)\theta \right),}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle E[X]=\theta}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle k\en (0,1)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \theta,}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle X_{1}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \theta}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle X_{1}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle T=\left(X_{(1)},X_{(n)}\right)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \theta}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle X_{(1)}=\min(X_{i})}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle X_{(n)}=\max(X_{i})}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle {\hat {\theta }}_{RB}=E_{\theta }\left[X_{1}|X_{(1)},X_{(n)}\right]={\frac { X_{(1)}+X_{(n)}}{2}}.}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Sin embargo, se puede demostrar que el siguiente estimador insesgado tiene una varianza menor:
![{\displaystyle {\hat {\theta }}_{LV}={\frac {1}{2\left(k^{2}{\frac {n-1}{n+1}}+1\right )}}\left[(1-k){{X}_{(1)}}+(1+k){{X}_{(n)}}\right].}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Y de hecho, podría mejorarse aún más si se utiliza el siguiente estimador:
![{\displaystyle {\hat {\theta }}_{BAYES}={\frac {n+1}{n}}\left[1-{\frac {{\frac {\left({\frac {{X }_{(1)}}{1-k}}\right)}{\left({\frac {{X}_{(n)}}{1+k}}\right)}}-1} {{{\left[{\frac {\left({\frac {{X}_{(1)}}{1-k}}\right)}{\left({\frac {{X}_{ (n)}}{1+k}}\right)}}\right]}^{n+1}}-1}}\right]{\frac {X_{(n)}}{1+k} }}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
El modelo es un modelo a escala . Luego se pueden derivar estimadores equivariantes óptimos para funciones de pérdida que son invariantes . [7]
Ver también
Referencias
- ^ Blackwell, D. (1947). "Expectativa condicional y estimación secuencial insesgada". Anales de estadística matemática . 18 (1): 105–110. doi : 10.1214/aoms/1177730497 . Señor 0019903. Zbl 0033.07603.
- ^ Kolmogorov, AN (1950). "Estimaciones imparciales". Izvestia Akad. Nauk SSSR. Ser. Estera . 14 : 303–326. SEÑOR 0036479.
- ^ Rao, C. Radhakrishna (1945). "Información y precisión alcanzables en la estimación de parámetros estadísticos". Boletín de la Sociedad Matemática de Calcuta . 37 (3): 81–91.
- ^ ab JG Liao; A. Berg (22 de junio de 2018). "Agudizando la desigualdad de Jensen". El estadístico estadounidense . 73 (3): 278–281. arXiv : 1707.08644 . doi :10.1080/00031305.2017.1419145. S2CID 88515366.
- ^ Carpintero, Bob (20 de enero de 2020). "Rao-Blackwellización y parámetros discretos en Stan". Modelado estadístico, inferencia causal y ciencias sociales . Consultado el 13 de septiembre de 2021 .
El teorema de Rao-Blackwell establece que el enfoque de marginación tiene una varianza menor o igual que el enfoque directo.
En la práctica, esta diferencia puede ser enorme.
- ^ Tal Galili; Isaac Meilijson (31 de marzo de 2016). "Un ejemplo de una mejora Rao-Blackwell mejorable, un estimador de máxima verosimilitud ineficiente y un estimador de Bayes generalizado imparcial". El estadístico estadounidense . 70 (1): 108-113. doi :10.1080/00031305.2015.1100683. PMC 4960505 . PMID 27499547.
- ^ Taraldsen, Gunnar (2020). "Micha Mandel (2020)," El modelo uniforme a escala revisitado ", The American Statistician, 74: 1, 98-100: comentario". El estadístico estadounidense . 74 (3): 315. doi :10.1080/00031305.2020.1769727. ISSN 0003-1305. S2CID 219493070.
enlaces externos