Valor esperado de una variable aleatoria dado que se sabe que ocurren ciertas condiciones
En teoría de la probabilidad , la expectativa condicional , el valor esperado condicional o la media condicional de una variable aleatoria es su valor esperado evaluado con respecto a la distribución de probabilidad condicional . Si la variable aleatoria puede tomar solo un número finito de valores, las "condiciones" son que la variable solo puede tomar un subconjunto de esos valores. Más formalmente, en el caso en que la variable aleatoria se define sobre un espacio de probabilidad discreto , las "condiciones" son una partición de este espacio de probabilidad.
Dependiendo del contexto, la expectativa condicional puede ser una variable aleatoria o una función. La variable aleatoria se denota de manera análoga a la probabilidad condicional . La forma de función se denota o un símbolo de función separado como se introduce con el significado .
Ejemplos
Ejemplo 1: Lanzamiento de dados
Consideremos el lanzamiento de un dado normal y supongamos que A = 1 si el número es par (es decir, 2, 4 o 6) y A = 0 en caso contrario. Además, supongamos que B = 1 si el número es primo (es decir, 2, 3 o 5) y B = 0 en caso contrario.
La expectativa incondicional de A es , pero la expectativa de A condicional a B = 1 (es decir, condicional a que el resultado del dado sea 2, 3 o 5) es , y la expectativa de A condicional a B = 0 (es decir, condicional a que el resultado del dado sea 1, 4 o 6) es . Asimismo, la expectativa de B condicional a A = 1 es , y la expectativa de B condicional a A = 0 es .
Ejemplo 2: Datos de precipitaciones
Supongamos que tenemos datos de precipitaciones diarias (mm de lluvia cada día) recopilados por una estación meteorológica todos los días del período de diez años (3652 días) desde el 1 de enero de 1990 hasta el 31 de diciembre de 1999. La expectativa incondicional de lluvia para un día no especificado es el promedio de las cantidades de lluvia para esos 3652 días. La expectativa condicional de lluvia para un día no especificado que se sabe que está (condicional a estar) en el mes de marzo, es el promedio de la lluvia diaria durante los 310 días del período de diez años que cae en marzo. Y la expectativa condicional de lluvia condicional a los días con fecha del 2 de marzo es el promedio de las cantidades de lluvia que se produjeron en los diez días con esa fecha específica.
Observe que como se indicó anteriormente la expresión no está definida si .
El condicionamiento sobre una variable aleatoria discreta es lo mismo que el condicionamiento sobre el evento correspondiente:
donde A es el conjunto .
Variables aleatorias continuas
Sean y variables aleatorias continuas con densidad conjunta y
densidad condicional del evento dado.
La esperanza condicional del evento dado es
Cuando el denominador es cero, la expresión no está definida.
El condicionamiento basado en una variable aleatoria continua no es lo mismo que el condicionamiento basado en el evento, como en el caso discreto. Para una discusión, véase Condicionamiento basado en un evento de probabilidad cero . No respetar esta distinción puede llevar a conclusiones contradictorias, como lo ilustra la paradoja de Borel-Kolmogorov .
yo2variables aleatorias
Se supone que todas las variables aleatorias de esta sección están en , es decir, son integrables al cuadrado . En su generalidad completa, la esperanza condicional se desarrolla sin este supuesto, véase más adelante en Esperanza condicional con respecto a una sub-σ-álgebra. Sin embargo, la teoría se considera más intuitiva [5] y admite generalizaciones importantes. En el contexto de las variables aleatorias, la esperanza condicional también se denomina regresión .
En lo que sigue, sea un espacio de probabilidad y en con media y varianza . La expectativa minimiza el error cuadrático medio :
.
La esperanza condicional de X se define de manera análoga, excepto que en lugar de un único número , el resultado será una función . Sea un vector aleatorio . La esperanza condicional es una función medible tal que
.
Tenga en cuenta que, a diferencia de , la expectativa condicional generalmente no es única: puede haber múltiples minimizadores del error cuadrático medio.
Unicidad
Ejemplo 1 : Consideremos el caso en el que Y es la variable aleatoria constante que siempre es 1. Entonces el error cuadrático medio se minimiza mediante cualquier función de la forma
Ejemplo 2 : Consideremos el caso en el que Y es el vector aleatorio bidimensional . Entonces, claramente
pero en términos de funciones se puede expresar como o o de infinitas otras maneras. En el contexto de la regresión lineal , esta falta de unicidad se denomina multicolinealidad .
La expectativa condicional es única hasta un conjunto de medida cero en . La medida utilizada es la medida de empuje hacia adelante inducida por Y .
En el primer ejemplo, la medida de empuje hacia adelante es una distribución de Dirac en 1. En el segundo, se concentra en la "diagonal" , de modo que cualquier conjunto que no la intersecta tiene medida 0.
Existencia
La existencia de un minimizador para no es trivial. Se puede demostrar que
es un subespacio cerrado del espacio de Hilbert . [6]
Por el teorema de proyección de Hilbert , la condición necesaria y suficiente para que sea un minimizador es que para todo en M tenemos
.
En palabras, esta ecuación dice que el residuo es ortogonal al espacio M de todas las funciones de Y . Esta condición de ortogonalidad, aplicada a las funciones indicadoras , se utiliza a continuación para extender la expectativa condicional al caso de que X e Y no estén necesariamente en .
Conexiones con la regresión
La expectativa condicional se aproxima a menudo en matemáticas y estadísticas aplicadas debido a las dificultades para calcularla analíticamente y para la interpolación. [7]
El subespacio de Hilbert
La función definida anteriormente se reemplaza con subconjuntos de la misma al restringir la forma funcional de g , en lugar de permitir cualquier función medible. Ejemplos de esto son la regresión del árbol de decisión cuando se requiere que g sea una función simple , la regresión lineal cuando se requiere que g sea afín , etc.
Estas generalizaciones de la expectativa condicional tienen como consecuencia que muchas de sus propiedades ya no se cumplan. Por ejemplo, sea M
el espacio de todas las funciones lineales de Y y sea θ denominemos esta expectativa/ proyección condicional generalizada. Si θ no contiene las funciones constantes θ , la propiedad de la torre
no se cumplirá.
Un caso especial importante es cuando X e Y se distribuyen de manera normal en conjunto. En este caso se puede demostrar que la esperanza condicional es equivalente a la regresión lineal:
Como es una subálgebra de , la función no suele ser medible, por lo que no se puede afirmar en general la existencia de las integrales de la forma , donde y es la restricción de a . Sin embargo, los promedios locales se pueden recuperar en con la ayuda de la esperanza condicional.
Una expectativa condicional de X dado , denotada como , es cualquier función medible que satisface:
para cada . [8]
Como se señaló en la discusión, esta condición es equivalente a decir que el residuo es ortogonal a las funciones indicadoras :
Existencia
La existencia de se puede establecer observando que para es una medida finita en que es absolutamente continua con respecto a . Si es la inyección natural de a , entonces es la restricción de a y es la restricción de a . Además, es absolutamente continua con respecto a , porque la condición
Esta no es una definición constructiva; simplemente se nos da la propiedad requerida que una expectativa condicional debe satisfacer.
La definición de puede parecerse a la de para un evento, pero son objetos muy diferentes. La primera es una función medible , mientras que la segunda es un elemento de y para .
Se puede demostrar que la unicidad es casi segura : es decir, las versiones de la misma expectativa condicional solo diferirán en un conjunto de probabilidad cero .
El álgebra σ controla la "granularidad" del condicionamiento. Una expectativa condicional sobre un álgebra σ más fina (más grande) retiene información sobre las probabilidades de una clase más grande de eventos. Una expectativa condicional sobre un álgebra σ más gruesa (más pequeña) promedia sobre más eventos.
Probabilidad condicional
Para un subconjunto de Borel B en , se puede considerar la colección de variables aleatorias
.
Se puede demostrar que forman un núcleo de Markov , es decir, para casi todos , es una medida de probabilidad. [9]
La expectativa condicional de lo dado es hasta un conjunto nulo de variables aleatorias únicas e integrables, de valor numérico y medible que satisfacen
para todos . [10] [11]
En este contexto, la expectativa condicional a veces también se denota en notación de operador como .
Propiedades básicas
Todas las fórmulas siguientes deben entenderse en un sentido casi seguro. El álgebra σ podría reemplazarse por una variable aleatoria , es decir .
Sea . Entonces es independiente de , por lo que obtenemos que
Por tanto, la definición de expectativa condicional se satisface mediante la variable aleatoria constante , como se desea.
Si es independiente de , entonces . Nótese que este no es necesariamente el caso si solo es independiente de y de .
Si son independientes, son independientes, es independiente de y es independiente de , entonces .
Estabilidad:
Si es -medible, entonces .
Prueba
Para cada uno tenemos , o equivalentemente
Dado que esto es cierto para cada , y tanto como son -medibles (la primera propiedad se cumple por definición; la última propiedad es clave aquí), a partir de esto se puede demostrar
Y esto se aplica prácticamente a todas partes.
En particular, para las sub-σ-álgebras tenemos . (Tenga en cuenta que esto es diferente de la propiedad de la torre a continuación).
Si Z es una variable aleatoria, entonces . En su forma más simple, esto dice .
Sacando a la luz factores conocidos:
Si es -medible, entonces .
Prueba
Aquí se supone que todas las variables aleatorias son no negativas sin pérdida de generalidad. El caso general se puede tratar con .
Fijar y dejar . Luego, para cualquier
De ahí que esté en casi todas partes.
Cualquier función simple es una combinación lineal finita de funciones indicadoras. Por linealidad, la propiedad anterior se cumple para funciones simples: si es una función simple entonces .
Sea ahora -medible. Entonces existe una secuencia de funciones simples que convergen monótonamente (aquí significa ) y puntualmente a . En consecuencia, para , la secuencia converge monótonamente y puntualmente a .
Además, dado que , la secuencia converge monótonamente y puntualmente a
Combinando el caso especial probado para funciones simples, la definición de expectativa condicional y desplegando el teorema de convergencia monótona:
Esto es válido para todos , desde casi todas partes.
Varianza condicional : Utilizando la expectativa condicional podemos definir, por analogía con la definición de la varianza como la desviación cuadrática media del promedio, la varianza condicional.
Convergencia martingala : para una variable aleatoria , que tiene expectativa finita, tenemos , si cualquiera de los dos es una serie creciente de sub-σ-álgebras y o si es una serie decreciente de sub-σ-álgebras y .
Expectativa condicional como -proyección: Si están en el espacio de Hilbert de variables aleatorias reales integrables al cuadrado (variables aleatorias reales con segundo momento finito) entonces
para -medible , tenemos , es decir la esperanza condicional es en el sentido del producto escalar L 2 ( P ) la proyección ortogonal de al subespacio lineal de funciones -medibles. (Esto permite definir y demostrar la existencia de la esperanza condicional con base en el teorema de proyección de Hilbert .)
^ Kolmogorov, Andrey (1933). Grundbegriffe der Wahrscheinlichkeitsrechnung (en alemán). Berlín: Julius Springer. pag. 46.
Traducción: Kolmogorov, Andrey (1956). Fundamentos de la teoría de la probabilidad (2.ª ed.). Nueva York: Chelsea. p. 53. ISBN 0-8284-0023-7Archivado desde el original el 14 de septiembre de 2018. Consultado el 14 de marzo de 2009 .
^ Oxtoby, JC (1953). "Revisión: Teoría de la medida, por PR Halmos" (PDF) . Bull. Amer. Math. Soc . 59 (1): 89–91. doi : 10.1090/s0002-9904-1953-09662-8 .
^ Olav Kallenberg: Fundamentos de la probabilidad moderna. 2.ª edición. Springer, Nueva York 2002, ISBN 0-387-95313-2 , pág. 573.
^ "Probabilidad - Intuición detrás de la expectativa condicional". Stack Exchange de matemáticas .
^ Brockwell, Peter J. (1991). Series temporales: teoría y métodos (2.ª ed.). Nueva York: Springer-Verlag. ISBN978-1-4419-0320-4.
^ Hastie, Trevor. Los elementos del aprendizaje estadístico: minería de datos, inferencia y predicción (PDF) (Segunda edición corregida, 7.ª edición). Nueva York. ISBN978-0-387-84858-7.
^ Billingsley, Patrick (1995). "Sección 34. Expectativa condicional". Probabilidad y medida (3.ª ed.). John Wiley & Sons. pág. 445. ISBN0-471-00710-2.
^ Klenke, Achim. Teoría de la probabilidad: un curso completo (Segunda edición). Londres. ISBN978-1-4471-5361-0.
^ Da Prato, Giuseppe; Zabczyk, Jerzy (2014). Ecuaciones estocásticas en dimensiones infinitas . Cambridge University Press. pág. 26. doi :10.1017/CBO9781107295513.(Definición en espacios de Banach separables)
^ Hytönen, Tuomas; van Neerven, enero; Verar, Mark; Weis, Lutz (2016). Análisis en espacios de Banach, Volumen I: Martingalas y teoría de Littlewood-Paley . Springer Cham. doi :10.1007/978-3-319-48520-1.(Definición en espacios de Banach generales)
^ "Expectativa condicional". www.statlect.com . Consultado el 11 de septiembre de 2020 .
^ Kallenberg, Olav (2001). Fundamentos de la probabilidad moderna (2ª ed.). York, Pensilvania, Estados Unidos: Springer. pag. 110.ISBN0-387-95313-2.
Referencias
William Feller , Introducción a la teoría de la probabilidad y sus aplicaciones , vol. 1, 1950, página 223
Paul A. Meyer, Probabilidad y potenciales , Blaisdell Publishing Co., 1966, página 28
Grimmett, Geoffrey ; Stirzaker, David (2001). Probabilidad y procesos aleatorios (3.ª ed.). Oxford University Press. ISBN 0-19-857222-0., páginas 67–69