stringtranslate.com

Ley del estadístico inconsciente

En teoría de probabilidad y estadística , la ley del estadístico inconsciente , o LOTUS , es un teorema que expresa el valor esperado de una función g ( X ) de una variable aleatoria X en términos de g y la distribución de probabilidad de X.

La forma de la ley depende del tipo de variable aleatoria X en cuestión. Si la distribución de X es discreta y se conoce su función de masa de probabilidad p X , entonces el valor esperado de g ( X ) es donde la suma es sobre todos los valores posibles x de X . Si en cambio la distribución de X es continua con la función de densidad de probabilidad f X , entonces el valor esperado de g ( X ) es

Ambos casos especiales se pueden expresar en términos de la función de distribución de probabilidad acumulativa F X de X , con el valor esperado de g ( X ) ahora dado por la integral de Lebesgue–Stieltjes

En un sentido aún más general, X podría ser un elemento aleatorio en cualquier espacio medible , en cuyo caso la ley se da en términos de la teoría de la medida y la integral de Lebesgue . En este contexto, no hay necesidad de restringir el contexto a las medidas de probabilidad , y la ley se convierte en un teorema general de análisis matemático sobre la integración de Lebesgue en relación con una medida de empuje hacia adelante .

Etimología

Esta proposición se conoce (a veces) como la ley del estadístico inconsciente debido a una supuesta tendencia a pensar en la identidad como la definición misma del valor esperado, en lugar de (más formalmente) como una consecuencia de su verdadera definición. [1] El nombre a veces se atribuye al libro de texto de Sheldon Ross Introducción a los modelos de probabilidad , aunque eliminó la referencia en ediciones posteriores. [2] Muchos libros de texto de estadística presentan el resultado como la definición del valor esperado. [3]

Distribuciones conjuntas

Una propiedad similar se cumple para distribuciones conjuntas o, equivalentemente, para vectores aleatorios . Para variables aleatorias discretas X e Y , una función de dos variables g y una función de masa de probabilidad conjunta : [4] En el caso absolutamente continuo , donde la función de densidad de probabilidad conjunta es

Casos especiales

Se dan aquí varios casos especiales. En el caso más simple, en el que la variable aleatoria X toma una cantidad contable de valores (de modo que su distribución es discreta), la demostración es particularmente simple y se cumple sin modificación si X es un vector aleatorio discreto o incluso un elemento aleatorio discreto .

El caso de una variable aleatoria continua es más sutil, ya que la prueba en general requiere formas sutiles de la fórmula de cambio de variables para la integración. Sin embargo, en el marco de la teoría de la medida , el caso discreto se generaliza directamente a elementos aleatorios generales (no necesariamente discretos) , y el caso de una variable aleatoria continua es entonces un caso especial al hacer uso del teorema de Radon-Nikodym .

Caso discreto

Supóngase que X es una variable aleatoria que toma solo un número finito o contable de valores diferentes x 1 , x 2 , ... , con probabilidades p 1 , p 2 , ... . Entonces, para cualquier función g de estos valores, la variable aleatoria g ( X ) tiene valores g ( x 1 ), g ( x 2 ), ... , aunque algunos de estos pueden coincidir entre sí. Por ejemplo, este es el caso si X puede tomar ambos valores 1 y −1 y g ( x ) = x 2 .

Sea y 1 , y 2 , ... enumerar los posibles valores distintos de , y para cada i sea I i la colección de todos los j con g ( x j ) = y i . Entonces, de acuerdo con la definición de valor esperado, hay

Puesto que a puede ser la imagen de múltiples y distintos , se cumple que

Entonces el valor esperado puede reescribirse como Esta igualdad relaciona el promedio de las salidas de g ( X ) ponderadas por las probabilidades de las salidas mismas con el promedio de las salidas de g ( X ) ponderadas por las probabilidades de las salidas de X .

Si X sólo toma un número finito de valores posibles, lo anterior es completamente riguroso. Sin embargo, si X toma un número contable de valores, la última igualdad dada no siempre se cumple, como se ve por el teorema de la serie de Riemann . Debido a esto, es necesario suponer la convergencia absoluta de las sumas en cuestión. [5]

Caso continuo

Supóngase que X es una variable aleatoria cuya distribución tiene una densidad continua f . Si g es una función general, entonces la probabilidad de que g ( X ) tenga valor en un conjunto de números reales K es igual a la probabilidad de que X tenga valor en g −1 ( K ) , que viene dada por Bajo diversas condiciones en g , la fórmula de cambio de variables para integración se puede aplicar para relacionar esto con una integral sobre K , y por tanto para identificar la densidad de g ( X ) en términos de la densidad de X . En el caso más simple, si g es diferenciable con derivada que no se anula en ninguna parte, entonces la integral anterior se puede escribir como identificando así a g ( X ) como poseedor de la densidad f ( g −1 ( y ))( g −1 )′( y ) . El valor esperado de g ( X ) se identifica entonces como donde la igualdad sigue mediante otro uso de la fórmula de cambio de variables para integración. Esto demuestra que el valor esperado de g ( X ) está codificado enteramente por la función g y la densidad f de X . [6]

La suposición de que g es diferenciable con derivada no nula, que es necesaria para aplicar la fórmula habitual de cambio de variables, excluye muchos casos típicos, como g ( x ) = x 2 . El resultado sigue siendo válido en estos entornos más amplios, aunque la prueba requiere resultados más sofisticados de análisis matemático como el teorema de Sard y la fórmula de coarea . En una generalidad aún mayor, utilizando la teoría de Lebesgue como se muestra a continuación, se puede encontrar que la identidad es válida siempre que X tenga una densidad f (que no tiene que ser continua) y siempre que g sea una función medible para la que g ( X ) tenga un valor esperado finito. (Toda función continua es medible). Además, sin modificación de la prueba, esto se cumple incluso si X es un vector aleatorio (con densidad) y g es una función multivariable; la integral se toma entonces sobre el rango multidimensional de valores de X .

Formulación teórica de la medida

Una forma abstracta y general del resultado está disponible usando el marco de la teoría de la medida y la integral de Lebesgue . Aquí, el escenario es el de un espacio de medida (Ω, μ ) y una función medible X de Ω a un espacio medible Ω' . El teorema entonces dice que para cualquier función medible g en Ω' que se valora en números reales (o incluso la línea de números reales extendida ), hay (interpretado como diciendo, en particular, que cualquier lado de la igualdad existe si el otro lado existe). Aquí X μ denota la medida de empuje hacia adelante en Ω′ . El 'caso discreto' dado arriba es el caso especial que surge cuando X toma solo una cantidad contable de valores y μ es una medida de probabilidad . De hecho, el caso discreto (aunque sin la restricción a las medidas de probabilidad) es el primer paso para probar la formulación general de la teoría de la medida, ya que la versión general se sigue de allí mediante una aplicación del teorema de convergencia monótona . [7] Sin mayores cambios, el resultado también puede formularse en el contexto de medidas externas . [8]

Si μ es una medida σ-finita , es aplicable la teoría de la derivada de Radon–Nikodym . En el caso especial de que la medida X μ sea absolutamente continua en relación con alguna medida σ-finita de fondo ν en Ω′ , existe una función de valor real f X en Ω' que representa la derivada de Radon–Nikodym de las dos medidas, y luego En el caso especial adicional de que Ω′ sea la línea de números reales , como en los contextos discutidos anteriormente, es natural tomar ν como la medida de Lebesgue , y esto entonces recupera el 'caso continuo' dado anteriormente siempre que μ sea una medida de probabilidad . (En este caso especial, la condición de σ-finitez es nula, ya que la medida de Lebesgue y cada medida de probabilidad son trivialmente σ-finitas). [9]

Referencias

  1. ^ DeGroot y Schervish 2014, págs. 213-214.
  2. ^ Casella y Berger 2001, Sección 2.2; Ross 2019.
  3. ^ Casella y Berger 2001, Sección 2.2.
  4. ^ Ross 2019.
  5. ^ Feller 1968, Sección IX.2.
  6. ^ Papoulis y Pillai 2002, Capítulo 5.
  7. ^ Bogachev 2007, sección 3.6; Cohn 2013, sección 2.6; Halmos 1950, artículo 39.
  8. ^ Federer 1969, Sección 2.4.
  9. ^ Halmos 1950, Sección 39.