Expectativa condicional

En teoría de la probabilidad , la expectativa condicional , el valor esperado condicional o la media condicional de una variable aleatoria es su valor esperado evaluado con respecto a la distribución de probabilidad condicional . Si la variable aleatoria puede tomar solo un número finito de valores, las "condiciones" son que la variable solo puede tomar un subconjunto de esos valores. Más formalmente, en el caso en que la variable aleatoria se define sobre un espacio de probabilidad discreto , las "condiciones" son una partición de este espacio de probabilidad.

Dependiendo del contexto, la expectativa condicional puede ser una variable aleatoria o una función. La variable aleatoria se denota de manera análoga a la probabilidad condicional . La forma de función se denota o un símbolo de función separado como se introduce con el significado . $E(X\mid Y)$ $E(X\mid Y=y)$ $f(y)$ $E(X\mid Y)=f(Y)$

Ejemplos

Ejemplo 1: Lanzamiento de dados

Consideremos el lanzamiento de un dado normal y supongamos que A = 1 si el número es par (es decir, 2, 4 o 6) y A = 0 en caso contrario. Además, supongamos que B = 1 si el número es primo (es decir, 2, 3 o 5) y B = 0 en caso contrario.

La expectativa incondicional de A es , pero la expectativa de A condicional a B = 1 (es decir, condicional a que el resultado del dado sea 2, 3 o 5) es , y la expectativa de A condicional a B = 0 (es decir, condicional a que el resultado del dado sea 1, 4 o 6) es . Asimismo, la expectativa de B condicional a A = 1 es , y la expectativa de B condicional a A = 0 es . $E[A]=(0+1+0+1+0+1)/6=1/2$ $E[A\mid B=1]=(1+0+0)/3=1/3$ $E[A\mid B=0]=(0+1+1)/3=2/3$ $E[B\mid A=1]=(1+0+0)/3=1/3$ $E[B\mid A=0]=(0+1+1)/3=2/3$

Ejemplo 2: Datos de precipitaciones

Supongamos que tenemos datos de precipitaciones diarias (mm de lluvia cada día) recopilados por una estación meteorológica todos los días del período de diez años (3652 días) desde el 1 de enero de 1990 hasta el 31 de diciembre de 1999. La expectativa incondicional de lluvia para un día no especificado es el promedio de las cantidades de lluvia para esos 3652 días. La expectativa condicional de lluvia para un día no especificado que se sabe que está (condicional a estar) en el mes de marzo, es el promedio de las precipitaciones diarias durante los 310 días del período de diez años que cae en marzo. Y la expectativa condicional de lluvia condicional a los días con fecha del 2 de marzo es el promedio de las cantidades de lluvia que se produjeron en los diez días con esa fecha específica.

Historia

El concepto relacionado de probabilidad condicional se remonta al menos a Laplace , quien calculó distribuciones condicionales. Fue Andrey Kolmogorov quien, en 1933, lo formalizó utilizando el teorema de Radon-Nikodym . ^[1] En los trabajos de Paul Halmos ^[2] y Joseph L. Doob ^[3] de 1953, la esperanza condicional se generalizó a su definición moderna utilizando sub-σ-álgebras . ^[4]

Definiciones

Condicionamiento a un evento

Si $A$ es un evento con probabilidad distinta de cero, y $X$ es una variable aleatoria discreta , la esperanza condicional de $X$ dado $A$ es ${\mathcal {F}}$

{\begin{aligned}\operatorname {E} (X\mid A)&=\sum _{x}xP(X=x\mid A)\\&=\sum _{x}x{\frac {P(\{X=x\}\cap A)}{P(A)}}\end{aligned}}

donde la suma se toma sobre todos los resultados posibles de $X.$

Si , la expectativa condicional no está definida debido a la división por cero. $P(A)=0$

Variables aleatorias discretas

Si $X$ e $Y$ son variables aleatorias discretas , la esperanza condicional de $X$ dado $Y$ es

{\begin{aligned}\operatorname {E} (X\mid Y=y)&=\sum _{x}xP(X=x\mid Y=y)\\&=\sum _{x}x{\frac {P(X=x,Y=y)}{P(Y=y)}}\end{aligned}}

donde es la función de masa de probabilidad conjunta de X $e$ Y. $La$ suma se toma sobre todos los resultados posibles de $X.$ $P(X=x,Y=y)$

Observe que como se indicó anteriormente, la expresión no está definida si . $P(Y=y)=0$

El condicionamiento sobre una variable aleatoria discreta es lo mismo que el condicionamiento sobre el evento correspondiente:

\nombreoperador {E} (X\mid Y=y)=\nombreoperador {E} (X\mid A)

donde $A$ es el conjunto . $\{Y=y\}$

Variables aleatorias continuas

Sean y variables aleatorias continuas con densidad conjunta y densidad condicional del evento dado. La esperanza condicional del evento dado es ${\estilo de visualización X}$ ${\estilo de visualización Y}$ $f_{X,Y}(x,y),$ ${\estilo de visualización Y}$ $f_{Y}(y),$ $\textstyle f_{X|Y}(x|y)={\frac {f_{X,Y}(x,y)}{f_{Y}(y)}}$ $X$ $Y=y.$ $X$ $Y=y$

{\begin{aligned}\operatorname {E} (X\mid Y=y)&=\int _{-\infty }^{\infty }xf_{X|Y}(x\mid y)\,\mathrm {d} x\\&={\frac {1}{f_{Y}(y)}}\int _{-\infty }^{\infty }xf_{X,Y}(x,y)\,\mathrm {d} x.\end{aligned}}

Cuando el denominador es cero, la expresión no está definida.

El condicionamiento basado en una variable aleatoria continua no es lo mismo que el condicionamiento basado en el evento, como en el caso discreto. Para una discusión, véase Condicionamiento basado en un evento de probabilidad cero . No respetar esta distinción puede llevar a conclusiones contradictorias, como lo ilustra la paradoja de Borel-Kolmogorov . $\{Y=y\}$

yo2variables aleatorias

Se supone que todas las variables aleatorias de esta sección están en , es decir, son integrables al cuadrado . En su generalidad completa, la esperanza condicional se desarrolla sin este supuesto, véase más adelante en Esperanza condicional con respecto a una sub-σ-álgebra. Sin embargo, la teoría se considera más intuitiva ^[5] y admite generalizaciones importantes. En el contexto de las variables aleatorias, la esperanza condicional también se denomina regresión . $L^{2}$ $L^{2}$ $L^{2}$

En lo que sigue, sea un espacio de probabilidad y en con media y varianza . La expectativa minimiza el error cuadrático medio : $(\Omega ,{\mathcal {F}},P)$ $X:\Omega \to \mathbb {R}$ $L^{2}$ $\mu _{X}$ $\sigma _{X}^{2}$ $\mu _{X}$

\min _{x\in \mathbb {R} }\operatorname {E} \left((X-x)^{2}\right)=\operatorname {E} \left((X-\mu _{X})^{2}\right)=\sigma _{X}^{2}

La esperanza condicional de $X$ se define de manera análoga, excepto que en lugar de un único número , el resultado será una función . Sea un vector aleatorio . La esperanza condicional es una función medible tal que $\mu _{X}$ $e_{X}(y)$ $Y:\Omega \to \mathbb {R} ^{n}$ $e_{X}:\mathbb {R} ^{n}\to \mathbb {R}$

\min _{g{\text{ measurable }}}\operatorname {E} \left((X-g(Y))^{2}\right)=\operatorname {E} \left((X-e_{X}(Y))^{2}\right)

Tenga en cuenta que, a diferencia de , la expectativa condicional generalmente no es única: puede haber múltiples minimizadores del error cuadrático medio. $\mu _{X}$ $e_{X}$

Unicidad

Ejemplo 1 : Consideremos el caso en el que $Y$ es la variable aleatoria constante que siempre es 1. Entonces el error cuadrático medio se minimiza mediante cualquier función de la forma

e_{X}(y)={\begin{cases}\mu _{X}&{\text{ if }}y=1\\{\text{any number}}&{\text{ otherwise}}\end{cases}}

Ejemplo 2 : Consideremos el caso en el que $Y$ es el vector aleatorio bidimensional . Entonces, claramente $(X,2X)$

\operatorname {E} (X\mid Y)=X

pero en términos de funciones se puede expresar como o o infinitas otras formas. En el contexto de la regresión lineal , esta falta de unicidad se denomina multicolinealidad . $e_{X}(y_{1},y_{2})=3y_{1}-y_{2}$ $e'_{X}(y_{1},y_{2})=y_{2}-y_{1}$

La expectativa condicional es única hasta un conjunto de medida cero en . La medida utilizada es la medida de empuje hacia adelante inducida por $Y$ . $\mathbb {R} ^{n}$

En el primer ejemplo, la medida de empuje hacia adelante es una distribución de Dirac en 1. En el segundo, se concentra en la "diagonal" , de modo que cualquier conjunto que no la intersecta tiene medida 0. $\{y:y_{2}=2y_{1}\}$

Existencia

La existencia de un minimizador para no es trivial. Se puede demostrar que $\min _{g}\operatorname {E} \left((X-g(Y))^{2}\right)$

M:=\{g(Y):g{\text{ is measurable and }}\operatorname {E} (g(Y)^{2})<\infty \}=L^{2}(\Omega ,\sigma (Y))

es un subespacio cerrado del espacio de Hilbert . ^[6] Por el teorema de proyección de Hilbert , la condición necesaria y suficiente para que sea un minimizador es que para todo en $M$ tenemos $L^{2}(\Omega )$ $e_{X}$ $f(Y)$

\langle X-e_{X}(Y),f(Y)\rangle =0

En palabras, esta ecuación dice que el residuo es ortogonal al espacio $M$ de todas las funciones de $Y$ . Esta condición de ortogonalidad, aplicada a las funciones indicadoras , se utiliza a continuación para extender la expectativa condicional al caso de que $X$ e $Y$ no estén necesariamente en . $X-e_{X}(Y)$ $f(Y)=1_{Y\in H}$ $L^{2}$

Conexiones con la regresión

La expectativa condicional se aproxima a menudo en matemáticas aplicadas y estadísticas debido a las dificultades para calcularla analíticamente y para la interpolación. ^[7]

El subespacio de Hilbert

M=\{g(Y):\operatorname {E} (g(Y)^{2})<\infty \}

La función definida anteriormente se reemplaza con subconjuntos de la misma al restringir la forma funcional de $g$ , en lugar de permitir cualquier función medible. Ejemplos de esto son la regresión del árbol de decisión cuando se requiere que $g$ sea una función simple , la regresión lineal cuando se requiere que $g$ sea afín , etc.

Estas generalizaciones de la expectativa condicional tienen como consecuencia que muchas de sus propiedades ya no se cumplan. Por ejemplo, sea $M$ el espacio de todas las funciones lineales de $Y$ y sea θ denominemos esta expectativa/ proyección condicional generalizada. Si θ no contiene las funciones constantes , la propiedad de la torre no se cumplirá. ${\mathcal {E}}_{M}$ $L^{2}$ $M$ $\operatorname {E} ({\mathcal {E}}_{M}(X))=\operatorname {E} (X)$

Un caso especial importante es cuando $X$ e $Y$ se distribuyen de manera normal en conjunto. En este caso, se puede demostrar que la esperanza condicional es equivalente a la regresión lineal:

e_{X}(Y)=\alpha _{0}+\sum _{i}\alpha _{i}Y_{i}

para los coeficientes descritos en Distribución normal multivariada#Distribuciones condicionales . $\{\alpha _{i}\}_{i=0..n}$

Expectativa condicional con respecto a una sub-σ-álgebra

**Esperanza condicional con respecto a una σ-álgebra:** en este ejemplo el espacio de probabilidad es el intervalo [0,1] con la medida de Lebesgue . Definimos las siguientes σ-álgebras: ; es la σ-álgebra generada por los intervalos con puntos finales 0, 1 ⁄ 4 , 1 ⁄ 2 , 3 ⁄ 4 , 1; y es la σ-álgebra generada por los intervalos con puntos finales 0, 1 ⁄ 2 , 1. Aquí la esperanza condicional es efectivamente el promedio sobre los conjuntos mínimos de la σ-álgebra. $(\Omega ,{\mathcal {F}},P)$ ${\mathcal {A}}={\mathcal {F}}$ ${\mathcal {B}}$ ${\mathcal {C}}$

Considere lo siguiente:

$(\Omega ,{\mathcal {F}},P)$ es un espacio de probabilidad .
$X\colon \Omega \to \mathbb {R} ^{n}$ es una variable aleatoria en ese espacio de probabilidad con expectativa finita.
${\mathcal {H}}\subseteq {\mathcal {F}}$ es una sub- σ-álgebra de . ${\mathcal {F}}$

Como es una subálgebra de , la función no suele ser medible, por lo que no se puede afirmar en general la existencia de las integrales de la forma , donde y es la restricción de a . Sin embargo, los promedios locales se pueden recuperar en con la ayuda de la esperanza condicional. ${\mathcal {H}}$ $\sigma$ ${\mathcal {F}}$ $X\colon \Omega \to \mathbb {R} ^{n}$ ${\mathcal {H}}$ ${\textstyle \int _{H}X\,dP|_{\mathcal {H}}}$ $H\in {\mathcal {H}}$ $P|_{\mathcal {H}}$ $P$ ${\mathcal {H}}$ ${\textstyle \int _{H}X\,dP}$ $(\Omega ,{\mathcal {H}},P|_{\mathcal {H}})$

Una expectativa condicional de X dado , denotada como , es cualquier función medible que satisface: ${\mathcal {H}}$ $\operatorname {E} (X\mid {\mathcal {H}})$ ${\mathcal {H}}$ $\Omega \to \mathbb {R} ^{n}$

\int _{H}\operatorname {E} (X\mid {\mathcal {H}})\,\mathrm {d} P=\int _{H}X\,\mathrm {d} P

para cada . ^[8] $H\in {\mathcal {H}}$

Como se señala en la discusión, esta condición es equivalente a decir que el residuo es ortogonal a las funciones indicadoras : $L^{2}$ $X-\operatorname {E} (X\mid {\mathcal {H}})$ $1_{H}$

\langle X-\operatorname {E} (X\mid {\mathcal {H}}),1_{H}\rangle =0

Existencia

La existencia de se puede establecer notando que para es una medida finita en que es absolutamente continua con respecto a . Si es la inyección natural de a , entonces es la restricción de a y es la restricción de a . Además, es absolutamente continua con respecto a , porque la condición $\operatorname {E} (X\mid {\mathcal {H}})$ ${\textstyle \mu ^{X}\colon F\mapsto \int _{F}X\,\mathrm {d} P}$ $F\in {\mathcal {F}}$ $(\Omega ,{\mathcal {F}})$ $P$ $h$ ${\mathcal {H}}$ ${\mathcal {F}}$ $\mu ^{X}\circ h=\mu ^{X}|_{\mathcal {H}}$ $\mu ^{X}$ ${\mathcal {H}}$ $P\circ h=P|_{\mathcal {H}}$ $P$ ${\mathcal {H}}$ $\mu ^{X}\circ h$ $P\circ h$

P\circ h(H)=0\iff P(h(H))=0

implica

\mu ^{X}(h(H))=0\iff \mu ^{X}\circ h(H)=0.

Así pues, tenemos

\operatorname {E} (X\mid {\mathcal {H}})={\frac {\mathrm {d} \mu ^{X}|_{\mathcal {H}}}{\mathrm {d} P|_{\mathcal {H}}}}={\frac {\mathrm {d} (\mu ^{X}\circ h)}{\mathrm {d} (P\circ h)}},

donde las derivadas son derivadas de Radon-Nikodym de las medidas.

Esperanza condicional con respecto a una variable aleatoria

Consideremos, además de lo anterior,

Un espacio medible , y $(U,\Sigma )$
Una variable aleatoria . $Y\colon \Omega \to U$

La expectativa condicional de $X$ dado $Y$ se define aplicando la construcción anterior sobre el σ-álgebra generada por $Y$ :

\operatorname {E} [X\mid Y]:=\operatorname {E} [X\mid \sigma (Y)]

Por el lema de Doob-Dynkin , existe una función tal que $e_{X}\colon U\to \mathbb {R} ^{n}$

\operatorname {E} [X\mid Y]=e_{X}(Y)

Discusión

Esta no es una definición constructiva; simplemente se nos da la propiedad requerida que una expectativa condicional debe satisfacer.
- La definición de puede parecerse a la de para un evento, pero son objetos muy diferentes. La primera es una función medible , mientras que la segunda es un elemento de y para . $\operatorname {E} (X\mid {\mathcal {H}})$ $\operatorname {E} (X\mid H)$ $H$ ${\mathcal {H}}$ $\Omega \to \mathbb {R} ^{n}$ $\mathbb {R} ^{n}$ $\operatorname {E} (X\mid H)\ P(H)=\int _{H}X\,\mathrm {d} P=\int _{H}\operatorname {E} (X\mid {\mathcal {H}})\,\mathrm {d} P$ $H\in {\mathcal {H}}$
- Se puede demostrar que la unicidad es casi segura : es decir, las versiones de la misma expectativa condicional solo diferirán en un conjunto de probabilidad cero .
El álgebra σ controla la "granularidad" del condicionamiento. Una expectativa condicional sobre un álgebra σ más fina (más grande) retiene información sobre las probabilidades de una clase más grande de eventos. Una expectativa condicional sobre un álgebra σ más gruesa (más pequeña) promedia sobre más eventos. ${\mathcal {H}}$ $E(X\mid {\mathcal {H}})$ ${\mathcal {H}}$

Probabilidad condicional

Para un subconjunto de Borel $B$ en , se puede considerar la colección de variables aleatorias ${\mathcal {B}}(\mathbb {R} ^{n})$

\kappa _{\mathcal {H}}(\omega ,B):=\operatorname {E} (1_{X\in B}|{\mathcal {H}})(\omega )

Se puede demostrar que forman un núcleo de Markov , es decir, para casi todos , es una medida de probabilidad. ^[9] $\omega$ $\kappa _{\mathcal {H}}(\omega ,-)$

La ley del estadístico inconsciente es entonces

\operatorname {E} [f(X)|{\mathcal {H}}]=\int f(x)\kappa _{\mathcal {H}}(-,\mathrm {d} x)

Esto demuestra que las expectativas condicionales son, al igual que sus contrapartes incondicionales, integraciones contra una medida condicional.

Definición general

En términos generales, considere lo siguiente:

Un espacio de probabilidad . $(\Omega ,{\mathcal {A}},P)$
Un espacio de Banach . $(E,\|\cdot \|_{E})$
Una variable aleatoria integrable de Bochner . $X:\Omega \to E$
Una sub-σ-álgebra . ${\mathcal {H}}\subseteq {\mathcal {A}}$

La expectativa condicional de lo dado es la de una variable aleatoria única, integrable y medible que satisfaga hasta un conjunto nulo. $X$ ${\mathcal {H}}$ $P$ $E$ ${\mathcal {H}}$ $\operatorname {E} (X\mid {\mathcal {H}})$

\int _{H}\operatorname {E} (X\mid {\mathcal {H}})\,\mathrm {d} P=\int _{H}X\,\mathrm {d} P

para todos . ^[10]^[11] $H\in {\mathcal {H}}$

En este contexto, la expectativa condicional a veces también se denota en notación de operador como . $\operatorname {E} ^{\mathcal {H}}X$

Propiedades básicas

Todas las fórmulas siguientes deben entenderse en un sentido casi seguro. El álgebra σ podría reemplazarse por una variable aleatoria , es decir . ${\mathcal {H}}$ $Z$ ${\mathcal {H}}=\sigma (Z)$

Extrayendo factores independientes:
- Si es independiente de , entonces . $X$ ${\mathcal {H}}$ $E(X\mid {\mathcal {H}})=E(X)$

Prueba

Sea . Entonces es independiente de , por lo que obtenemos que $B\in {\mathcal {H}}$ $X$ $1_{B}$

\int _{B}X\,dP=E(X1_{B})=E(X)E(1_{B})=E(X)P(B)=\int _{B}E(X)\,dP.

Por tanto, la definición de expectativa condicional se satisface mediante la variable aleatoria constante , como se desea. $E(X)$ $\square$

- Si es independiente de , entonces . Nótese que este no es necesariamente el caso si solo es independiente de y de . $X$ $\sigma (Y,{\mathcal {H}})$ $E(XY\mid {\mathcal {H}})=E(X)\,E(Y\mid {\mathcal {H}})$ $X$ ${\mathcal {H}}$ $Y$
- Si son independientes, son independientes, es independiente de y es independiente de , entonces . $X,Y$ ${\mathcal {G}},{\mathcal {H}}$ $X$ ${\mathcal {H}}$ $Y$ ${\mathcal {G}}$ $E(E(XY\mid {\mathcal {G}})\mid {\mathcal {H}})=E(X)E(Y)=E(E(XY\mid {\mathcal {H}})\mid {\mathcal {G}})$
Estabilidad:
- Si es -medible, entonces . $X$ ${\mathcal {H}}$ $E(X\mid {\mathcal {H}})=X$

Prueba

Para cada uno tenemos , o equivalentemente $H\in {\mathcal {H}}$ $\int _{H}E(X|{\mathcal {H}})dP=\int _{H}XdP$

\int _{H}{\big (}E(X|{\mathcal {H}})-X{\big )}dP=0

Dado que esto es cierto para cada , y tanto como son -medibles (la primera propiedad se cumple por definición; la última propiedad es clave aquí), a partir de esto se puede demostrar $H\in {\mathcal {H}}$ $E(X|{\mathcal {H}})$ $X$ ${\mathcal {H}}$

\int _{H}{\big |}E(X|{\mathcal {H}})-X{\big |}dP=0

Y esto se aplica prácticamente a todas partes. $E(X|{\mathcal {H}})=X$ $\square$

- En particular, para las sub-σ-álgebras tenemos . ${\mathcal {H}}_{1}\subset {\mathcal {H}}_{2}\subset {\mathcal {F}}$ $E(E(X\mid {\mathcal {H}}_{1})\mid {\mathcal {H}}_{2})=E(X\mid {\mathcal {H}}_{1})$
- Si Z es una variable aleatoria, entonces . En su forma más simple, esto dice . $\operatorname {E} (f(Z)\mid Z)=f(Z)$ $\operatorname {E} (Z\mid Z)=Z$
Extrayendo factores conocidos:
- Si es -medible, entonces . $X$ ${\mathcal {H}}$ $E(XY\mid {\mathcal {H}})=X\,E(Y\mid {\mathcal {H}})$

Prueba

Aquí se supone que todas las variables aleatorias son no negativas sin pérdida de generalidad. El caso general se puede tratar con . $X=X^{+}-X^{-}$

Fijar y dejar . Luego, para cualquier $A\in {\mathcal {H}}$ $X=1_{A}$ $H\in {\mathcal {H}}$

\int _{H}E(1_{A}Y|{\mathcal {H}})dP=\int _{H}1_{A}YdP=\int _{A\cap H}YdP=\int _{A\cap H}E(Y|{\mathcal {H}})dP=\int _{H}1_{A}E(Y|{\mathcal {H}})dP

De ahí que esté en casi todas partes. $E(1_{A}Y|{\mathcal {H}})=1_{A}E(Y|{\mathcal {H}})$

Cualquier función simple es una combinación lineal finita de funciones indicadoras. Por linealidad, la propiedad anterior se cumple para funciones simples: si es una función simple entonces . $X_{n}$ $E(X_{n}Y|{\mathcal {H}})=X_{n}\,E(Y|{\mathcal {H}})$

Sea ahora -medible. Entonces existe una secuencia de funciones simples que convergen monótonamente (aquí significa ) y puntualmente a . En consecuencia, para , la secuencia converge monótonamente y puntualmente a . $X$ ${\mathcal {H}}$ $\{X_{n}\}_{n\geq 1}$ $X_{n}\leq X_{n+1}$ $X$ $Y\geq 0$ $\{X_{n}Y\}_{n\geq 1}$ $XY$

Además, dado que , la secuencia converge monótonamente y puntualmente a $E(Y|{\mathcal {H}})\geq 0$ $\{X_{n}E(Y|{\mathcal {H}})\}_{n\geq 1}$ $X\,E(Y|{\mathcal {H}})$

Combinando el caso especial probado para funciones simples, la definición de expectativa condicional y desplegando el teorema de convergencia monótona:

\int _{H}X\,E(Y|{\mathcal {H}})dP=\int _{H}\lim _{n\to \infty }X_{n}\,E(Y|{\mathcal {H}})dP=\lim _{n\to \infty }\int _{H}X_{n}E(Y|{\mathcal {H}})dP=\lim _{n\to \infty }\int _{H}E(X_{n}Y|{\mathcal {H}})dP=\lim _{n\to \infty }\int _{H}X_{n}YdP=\int _{H}\lim _{n\to \infty }X_{n}YdP=\int _{H}XYdP=\int _{H}E(XY|{\mathcal {H}})dP

Esto es válido para todos , desde casi todas partes. $H\in {\mathcal {H}}$ $X\,E(Y|{\mathcal {H}})=E(XY|{\mathcal {H}})$ $\square$

- Si Z es una variable aleatoria, entonces . $\operatorname {E} (f(Z)Y\mid Z)=f(Z)\operatorname {E} (Y\mid Z)$
Ley de la expectativa total : . ^[12] $E(E(X\mid {\mathcal {H}}))=E(X)$
Propiedad de la torre:
- Para las sub-σ-álgebras tenemos . ${\mathcal {H}}_{1}\subset {\mathcal {H}}_{2}\subset {\mathcal {F}}$ $E(E(X\mid {\mathcal {H}}_{2})\mid {\mathcal {H}}_{1})=E(X\mid {\mathcal {H}}_{1})$
  - Un caso especial recupera la Ley de la expectativa total: . ${\mathcal {H}}_{1}=\{\emptyset ,\Omega \}$ $E(E(X\mid {\mathcal {H}}_{2}))=E(X)$
  - Un caso especial es cuando Z es una variable aleatoria medible. Entonces y por lo tanto . ${\mathcal {H}}$ $\sigma (Z)\subset {\mathcal {H}}$ $E(E(X\mid {\mathcal {H}})\mid Z)=E(X\mid Z)$
  - Propiedad martingala de Doob : lo anterior con (que es -medible), y usando también , da . $Z=E(X\mid {\mathcal {H}})$ ${\mathcal {H}}$ $\operatorname {E} (Z\mid Z)=Z$ $E(X\mid E(X\mid {\mathcal {H}}))=E(X\mid {\mathcal {H}})$
- Para las variables aleatorias tenemos . $X,Y$ $E(E(X\mid Y)\mid f(Y))=E(X\mid f(Y))$
- Para las variables aleatorias tenemos . $X,Y,Z$ $E(E(X\mid Y,Z)\mid Y)=E(X\mid Y)$
Linealidad: tenemos y para . $E(X_{1}+X_{2}\mid {\mathcal {H}})=E(X_{1}\mid {\mathcal {H}})+E(X_{2}\mid {\mathcal {H}})$ $E(aX\mid {\mathcal {H}})=a\,E(X\mid {\mathcal {H}})$ $a\in \mathbb {R}$
Positividad: Si entonces . $X\geq 0$ $E(X\mid {\mathcal {H}})\geq 0$
Monotonía: Si entonces . $X_{1}\leq X_{2}$ $E(X_{1}\mid {\mathcal {H}})\leq E(X_{2}\mid {\mathcal {H}})$
Convergencia monótona : Si entonces . $0\leq X_{n}\uparrow X$ $E(X_{n}\mid {\mathcal {H}})\uparrow E(X\mid {\mathcal {H}})$
Convergencia dominada : Si y con , entonces . $X_{n}\to X$ $|X_{n}|\leq Y$ $Y\in L^{1}$ $E(X_{n}\mid {\mathcal {H}})\to E(X\mid {\mathcal {H}})$
Lema de Fatou : Si entonces . $\textstyle E(\inf _{n}X_{n}\mid {\mathcal {H}})>-\infty$ $\textstyle E(\liminf _{n\to \infty }X_{n}\mid {\mathcal {H}})\leq \liminf _{n\to \infty }E(X_{n}\mid {\mathcal {H}})$
Desigualdad de Jensen : Si es una función convexa , entonces . $f\colon \mathbb {R} \rightarrow \mathbb {R}$ $f(E(X\mid {\mathcal {H}}))\leq E(f(X)\mid {\mathcal {H}})$
Varianza condicional : Utilizando la expectativa condicional podemos definir, por analogía con la definición de la varianza como la desviación cuadrática media del promedio, la varianza condicional.
- Definición: $\operatorname {Var} (X\mid {\mathcal {H}})=\operatorname {E} {\bigl (}(X-\operatorname {E} (X\mid {\mathcal {H}}))^{2}\mid {\mathcal {H}}{\bigr )}$
- Fórmula algebraica para la varianza: $\operatorname {Var} (X\mid {\mathcal {H}})=\operatorname {E} (X^{2}\mid {\mathcal {H}})-{\bigl (}\operatorname {E} (X\mid {\mathcal {H}}){\bigr )}^{2}$
- Ley de varianza total : . $\operatorname {Var} (X)=\operatorname {E} (\operatorname {Var} (X\mid {\mathcal {H}}))+\operatorname {Var} (\operatorname {E} (X\mid {\mathcal {H}}))$
Convergencia martingala : para una variable aleatoria , que tiene expectativa finita, tenemos , si cualquiera de los dos es una serie creciente de sub-σ-álgebras y o si es una serie decreciente de sub-σ-álgebras y . $X$ $E(X\mid {\mathcal {H}}_{n})\to E(X\mid {\mathcal {H}})$ ${\mathcal {H}}_{1}\subset {\mathcal {H}}_{2}\subset \dotsb$ $\textstyle {\mathcal {H}}=\sigma (\bigcup _{n=1}^{\infty }{\mathcal {H}}_{n})$ ${\mathcal {H}}_{1}\supset {\mathcal {H}}_{2}\supset \dotsb$ $\textstyle {\mathcal {H}}=\bigcap _{n=1}^{\infty }{\mathcal {H}}_{n}$
Expectativa condicional como -proyección: Si están en el espacio de Hilbert de variables aleatorias reales integrables al cuadrado (variables aleatorias reales con segundo momento finito) entonces $L^{2}$ $X,Y$
- para -medible , tenemos , es decir la esperanza condicional es en el sentido del producto escalar L 2 ( P ) la proyección ortogonal de al subespacio lineal de funciones -medibles. (Esto permite definir y demostrar la existencia de la esperanza condicional con base en el teorema de proyección de Hilbert .) ${\mathcal {H}}$ $Y$ $E(Y(X-E(X\mid {\mathcal {H}})))=0$ $E(X\mid {\mathcal {H}})$ $X$ ${\mathcal {H}}$
- La asignación es autoadjunta : $X\mapsto \operatorname {E} (X\mid {\mathcal {H}})$ $\operatorname {E} (X\operatorname {E} (Y\mid {\mathcal {H}}))=\operatorname {E} \left(\operatorname {E} (X\mid {\mathcal {H}})\operatorname {E} (Y\mid {\mathcal {H}})\right)=\operatorname {E} (\operatorname {E} (X\mid {\mathcal {H}})Y)$
El condicionamiento es una proyección contractiva de espacios L p . Es decir, para cualquier p ≥ 1. $L^{p}(\Omega ,{\mathcal {F}},P)\rightarrow L^{p}(\Omega ,{\mathcal {H}},P)$ $\operatorname {E} {\big (}|\operatorname {E} (X\mid {\mathcal {H}})|^{p}{\big )}\leq \operatorname {E} {\big (}|X|^{p}{\big )}$
Propiedad de independencia condicional de Doob: ^[13] Si son condicionalmente independientes dado , entonces (equivalentemente, ). $X,Y$ $Z$ $P(X\in B\mid Y,Z)=P(X\in B\mid Z)$ $E(1_{\{X\in B\}}\mid Y,Z)=E(1_{\{X\in B\}}\mid Z)$

Véase también

Leyes de probabilidad

Ley de acumulación total (generaliza las otras tres)
Ley de la expectativa total
Ley de probabilidad total
Ley de varianza total

Notas

^
Kolmogorov, Andrey (1933). Grundbegriffe der Wahrscheinlichkeitsrechnung (en alemán). Berlín: Julius Springer. pag. 46.
- Traducción: Kolmogorov, Andrey (1956). Fundamentos de la teoría de la probabilidad (2.ª ed.). Nueva York: Chelsea. p. 53. ISBN 0-8284-0023-7Archivado desde el original el 14 de septiembre de 2018. Consultado el 14 de marzo de 2009 .
^ Oxtoby, JC (1953). "Revisión: Teoría de la medida, por PR Halmos" (PDF) . Bull. Amer. Math. Soc . 59 (1): 89–91. doi : 10.1090/s0002-9904-1953-09662-8 .
^ JL Doob (1953). Procesos estocásticos . John Wiley & Sons . ISBN 0-471-52369-0.
^ Olav Kallenberg: Fundamentos de la probabilidad moderna. 2.ª edición. Springer, Nueva York 2002, ISBN 0-387-95313-2 , pág. 573.
^ "Probabilidad - Intuición detrás de la expectativa condicional". Intercambio de pila de matemáticas .
^ Brockwell, Peter J. (1991). Series temporales: teoría y métodos (2.ª ed.). Nueva York: Springer-Verlag. ISBN 978-1-4419-0320-4.
^ Hastie, Trevor. Los elementos del aprendizaje estadístico: minería de datos, inferencia y predicción (PDF) (Segunda edición corregida, 7.ª edición). Nueva York. ISBN 978-0-387-84858-7.
^ Billingsley, Patrick (1995). "Sección 34. Expectativa condicional". Probabilidad y medida (3.ª ed.). John Wiley & Sons. pág. 445. ISBN 0-471-00710-2.
^ Klenke, Achim. Teoría de la probabilidad: un curso completo (Segunda edición). Londres. ISBN 978-1-4471-5361-0.
^ Da Prato, Giuseppe; Zabczyk, Jerzy (2014). Ecuaciones estocásticas en dimensiones infinitas . Cambridge University Press. pág. 26. doi :10.1017/CBO9781107295513.(Definición en espacios de Banach separables)
^ Hytönen, Tuomas; van Neerven, Jan; Veraar, Mark; Weis, Lutz (2016). Análisis en espacios de Banach, volumen I: Martingalas y teoría de Littlewood-Paley . Springer Cham. doi :10.1007/978-3-319-48520-1.(Definición en espacios de Banach generales)
^ "Expectativa condicional". www.statlect.com . Consultado el 11 de septiembre de 2020 .
^ Kallenberg, Olav (2001). Fundamentos de la probabilidad moderna (2.ª ed.). York, PA, EE. UU.: Springer. pág. 110. ISBN 0-387-95313-2.

Referencias

William Feller , Introducción a la teoría de la probabilidad y sus aplicaciones , vol. 1, 1950, página 223
Paul A. Meyer, Probabilidad y potenciales , Blaisdell Publishing Co., 1966, página 28
Grimmett, Geoffrey ; Stirzaker, David (2001). Probabilidad y procesos aleatorios (3.ª ed.). Oxford University Press. ISBN 0-19-857222-0., páginas 67–69

Enlaces externos

Ushakov, NG (2001) [1994], "Esperanza matemática condicional", Enciclopedia de Matemáticas , EMS Press