La desigualdad de Markov

En la teoría de la probabilidad , la desigualdad de Markov da un límite superior a la probabilidad de que una variable aleatoria no negativa sea mayor o igual que alguna constante positiva . La desigualdad de Markov es estricta en el sentido de que para cada constante positiva elegida, existe una variable aleatoria tal que la desigualdad es de hecho una igualdad. ^[1]

Lleva el nombre del matemático ruso Andrey Markov , aunque apareció antes en el trabajo de Pafnuty Chebyshev (maestro de Markov), y muchas fuentes, especialmente en análisis , se refieren a ella como la desigualdad de Chebyshev (a veces, llamándola la primera desigualdad de Chebyshev, mientras que refiriéndose a la desigualdad de Chebyshev como la segunda desigualdad de Chebyshev) o la desigualdad de Bienaymé .

La desigualdad de Markov (y otras desigualdades similares) relacionan las probabilidades con las expectativas y proporcionan límites (frecuentemente flexibles pero aún útiles) para la función de distribución acumulativa de una variable aleatoria. La desigualdad de Markov también se puede utilizar para limitar la expectativa de una variable aleatoria no negativa en términos de su función de distribución.

Declaración

Si $X$ es una variable aleatoria no negativa y $a > 0$ , entonces la probabilidad de que $X$ sea al menos $a$ es como máximo la expectativa de $X$ dividida por $a$ : ^[1]

\operatorname {P} (X\geq a)\leq {\frac {\operatorname {E} (X)}{a}}.

Cuando , podemos tomar para reescribir la desigualdad anterior como $\operatorname {E} (X)>0$ $a={\tilde {a}}\cdot \operatorname {E} (X)$ ${\tilde {a}}>0$

\operatorname {P} (X\geq {\tilde {a}}\cdot \operatorname {E} (X))\leq {\frac {1}{\tilde {a}}}.

En el lenguaje de la teoría de la medida , la desigualdad de Markov establece que si $(X, Σ, μ)$ es un espacio de medida , es una función real extendida mensurable y $ε$ $> 0$ , entonces $f$

\mu (\{x\in X:|f(x)|\geq \varepsilon \})\leq {\frac {1}{\varepsilon }}\int _{X}|f|\,d\mu .

Esta definición teórica de la medida a veces se denomina desigualdad de Chebyshev . ^[2]

Versión extendida para funciones no decrecientes

Si $φ$ es una función no negativa no decreciente, $X$ es una variable aleatoria (no necesariamente no negativa) y $φ (a) > 0$ , entonces ^[3]

\operatorname {P} (X\geq a)\leq {\frac {\operatorname {E} (\varphi (X))}{\varphi (a)}}.

Un corolario inmediato, utilizando momentos más altos de $X$ apoyados en valores mayores que 0, es

\operatorname {P} (|X|\geq a)\leq {\frac {\operatorname {E} (|X|^{n})}{a^{n}}}.

La desigualdad de Markov uniformemente aleatoria

Si $X$ es una variable aleatoria no negativa y $a > 0$ , y $U$ es una variable aleatoria distribuida uniformemente que es independiente de $X$ , entonces ^[4] $[0,1]$

\operatorname {P} (X\geq Ua)\leq {\frac {\operatorname {E} (X)}{a}}.

Como es casi seguro que $U$ es menor que uno, esta cota es estrictamente más fuerte que la desigualdad de Markov. Sorprendentemente, $U$ no puede ser reemplazado por ninguna constante menor que uno, lo que significa que las mejoras deterministas de la desigualdad de Markov no pueden existir en general. Mientras que la desigualdad de Markov se cumple con igualdad para distribuciones apoyadas en , la variante aleatoria anterior se cumple con igualdad para cualquier distribución acotada en . $\{0,a\}$ $[0,a]$

Pruebas

Separamos el caso en el que el espacio de medidas es un espacio de probabilidad del caso más general porque el caso de probabilidad es más accesible para el lector general.

Intuición

$\operatorname {E} (X)=\operatorname {P} (X<a)\cdot \operatorname {E} (X|X<a)+\operatorname {P} (X\geq a)\cdot \operatorname {E} (X|X\geq a)$ donde es mayor o igual a 0 ya que la variable aleatoria no es negativa y es mayor o igual a porque la expectativa condicional solo toma en cuenta los valores mayores o iguales a los que rv puede tomar. $\operatorname {E} (X|X<a)$ $X$ $\operatorname {E} (X|X\geq a)$ $a$ $a$ $X$

De ahí intuitivamente , lo que conduce directamente a . $\operatorname {E} (X)\geq \operatorname {P} (X\geq a)\cdot \operatorname {E} (X|X\geq a)\geq a\cdot \operatorname {P} (X\geq a)$ $\operatorname {P} (X\geq a)\leq {\frac {\operatorname {E} (X)}{a}}$

Prueba de teoría de probabilidad

Método 1: De la definición de expectativa:

\operatorname {E} (X)=\int _{-\infty }^{\infty }xf(x)\,dx

Sin embargo, X es una variable aleatoria no negativa, por lo tanto,

\operatorname {E} (X)=\int _{-\infty }^{\infty }xf(x)\,dx=\int _{0}^{\infty }xf(x)\,dx

De esto podemos derivar,

\operatorname {E} (X)=\int _{0}^{a}xf(x)\,dx+\int _{a}^{\infty }xf(x)\,dx\geq \int _{a}^{\infty }xf(x)\,dx\geq \int _{a}^{\infty }af(x)\,dx=a\int _{a}^{\infty }f(x)\,dx=a\operatorname {Pr} (X\geq a)

A partir de aquí, dividir por nos permite ver que $a$

\Pr(X\geq a)\leq \operatorname {E} (X)/a

Método 2: Para cualquier evento , sea la variable aleatoria indicadora de , es decir, si ocurre y no. $E$ $I_{E}$ $E$ $I_{E}=1$ $E$ $I_{E}=0$

Usando esta notación, tenemos si el evento ocurre y si . Entonces, dado , $I_{(X\geq a)}=1$ $X\geq a$ $I_{(X\geq a)}=0$ $X<a$ $a>0$

aI_{(X\geq a)}\leq X

lo cual queda claro si consideramos los dos valores posibles de . Si , entonces , y así . De lo contrario, tenemos , para cuál y así . $X\geq a$ $X<a$ $I_{(X\geq a)}=0$ $aI_{(X\geq a)}=0\leq X$ $X\geq a$ $I_{X\geq a}=1$ $aI_{X\geq a}=a\leq X$

Dado que es una función monótonamente creciente, esperar ambos lados de una desigualdad no puede revertirla. Por lo tanto, $\operatorname {E}$

\operatorname {E} (aI_{(X\geq a)})\leq \operatorname {E} (X).

Ahora, usando la linealidad de las expectativas, el lado izquierdo de esta desigualdad es el mismo que

a\operatorname {E} (I_{(X\geq a)})=a(1\cdot \operatorname {P} (X\geq a)+0\cdot \operatorname {P} (X<a))=a\operatorname {P} (X\geq a).

Así tenemos

a\operatorname {P} (X\geq a)\leq \operatorname {E} (X)

y como a > 0, podemos dividir ambos lados por a .

Prueba de la teoría de la medida

Podemos suponer que la función no es negativa, ya que sólo su valor absoluto entra en la ecuación. Ahora, considere la función de valor real s en X dada por $f$

s(x)={\begin{cases}\varepsilon ,&{\text{if }}f(x)\geq \varepsilon \\0,&{\text{if }}f(x)<\varepsilon \end{cases}}

Entonces . Por la definición de la integral de Lebesgue $0\leq s(x)\leq f(x)$

\int _{X}f(x)\,d\mu \geq \int _{X}s(x)\,d\mu =\varepsilon \mu (\{x\in X:\,f(x)\geq \varepsilon \})

y como , ambos lados se pueden dividir por , obteniendo $\varepsilon >0$ $\varepsilon$

\mu (\{x\in X:\,f(x)\geq \varepsilon \})\leq {1 \over \varepsilon }\int _{X}f\,d\mu .

Caso discreto

Ahora proporcionamos una prueba para el caso especial en el que es una variable aleatoria discreta que solo toma valores enteros no negativos. $X$

Sea un número entero positivo. Por definición $a$ $a\operatorname {Pr} (X>a)$ $=a\operatorname {Pr} (X=a+1)+a\operatorname {Pr} (X=a+2)+a\operatorname {Pr} (X=a+3)+...$ $\leq a\operatorname {Pr} (X=a)+(a+1)\operatorname {Pr} (X=a+1)+(a+2)\operatorname {Pr} (X=a+2)+...$ $\leq \operatorname {Pr} (X=1)+2\operatorname {Pr} (X=2)+3\operatorname {Pr} (X=3)+...$ $+a\operatorname {Pr} (X=a)+(a+1)\operatorname {Pr} (X=a+1)+(a+2)\operatorname {Pr} (X=a+2)+...$ $=\operatorname {E} (X)$

Dividiendo por se obtiene el resultado deseado. $a$

Corolarios

La desigualdad de Chebyshev

La desigualdad de Chebyshev utiliza la varianza para limitar la probabilidad de que una variable aleatoria se desvíe mucho de la media. Específicamente,

\operatorname {P} (|X-\operatorname {E} (X)|\geq a)\leq {\frac {\operatorname {Var} (X)}{a^{2}}},

para cualquier $a > 0$ . ^[3] Aquí $Var(X)$ es la varianza de X, definida como:

\operatorname {Var} (X)=\operatorname {E} [(X-\operatorname {E} (X))^{2}].

La desigualdad de Chebyshev se deriva de la desigualdad de Markov al considerar la variable aleatoria

(X-\operatorname {E} (X))^{2}

y la constante para la cual se lee la desigualdad de Markov $a^{2},$

\operatorname {P} ((X-\operatorname {E} (X))^{2}\geq a^{2})\leq {\frac {\operatorname {Var} (X)}{a^{2}}}.

Este argumento se puede resumir (donde "MI" indica el uso de la desigualdad de Markov):

\operatorname {P} (|X-\operatorname {E} (X)|\geq a)=\operatorname {P} \left((X-\operatorname {E} (X))^{2}\geq a^{2}\right)\,{\overset {\underset {\mathrm {MI} }{}}{\leq }}\,{\frac {\operatorname {E} \left((X-\operatorname {E} (X))^{2}\right)}{a^{2}}}={\frac {\operatorname {Var} (X)}{a^{2}}}.

Otros corolarios

El resultado "monótono" se puede demostrar mediante:
$\operatorname {P} (|X|\geq a)=\operatorname {P} {\big (}\varphi (|X|)\geq \varphi (a){\big )}\,{\overset {\underset {\mathrm {MI} }{}}{\leq }}\,{\frac {\operatorname {E} (\varphi (|X|))}{\varphi (a)}}$
El resultado de que, para una variable aleatoria no negativa $X$ , la función cuantil de $X$ satisface:
$Q_{X}(1-p)\leq {\frac {\operatorname {E} (X)}{p}},$
la prueba usando
$p\leq \operatorname {P} (X\geq Q_{X}(1-p))\,{\overset {\underset {\mathrm {MI} }{}}{\leq }}\,{\frac {\operatorname {E} (X)}{Q_{X}(1-p)}}.$
Sea una variable aleatoria matricial autoadjunta y . Entonces $M\succeq 0$ $A\succ 0$
$\operatorname {P} (M\npreceq A)\leq \operatorname {tr} (\operatorname {E} (X)A^{-1})$
lo cual se puede demostrar de manera similar. ^[5]

Ejemplos

Suponiendo que ningún ingreso sea negativo, la desigualdad de Markov muestra que no más del 10% (1/10) de la población puede tener más de 10 veces el ingreso promedio. ^[6]

Otro ejemplo sencillo es el siguiente: Andrew comete 4 errores en promedio en sus exámenes del curso de Estadística. El mejor límite superior de la probabilidad de que Andrew cometa al menos 10 errores es 0,4, ya que tenga en cuenta que Andrew podría cometer exactamente 10 errores con una probabilidad de 0,4 y no cometer ningún error con una probabilidad de 0,6; la expectativa es exactamente 4 errores. $\operatorname {P} (X\geq 10)\leq {\frac {\operatorname {E} (X)}{\alpha }}={\frac {4}{10}}.$

Ver también

Desigualdad de Paley-Zygmund : un límite inferior correspondiente
Desigualdad de concentración : un resumen de los límites finales de variables aleatorias.

Referencias

^ ab Huber, Mark (26 de noviembre de 2019). "Reducir a la mitad los límites de las desigualdades de Markov, Chebyshev y Chernoff mediante suavizado". El Mensual Matemático Estadounidense . 126 (10): 915–927. arXiv : 1803.06361 . doi :10.1080/00029890.2019.1656484. ISSN 0002-9890.
^ Stein, EM ; Shakarchi, R. (2005), Análisis real , Conferencias de análisis de Princeton , vol. 3 (1ª ed.), pág. 91.
^ ab Lin, Zhengyan (2010). Desigualdades de probabilidad . Saltador. pag. 52.
^ Ramdas, Aaditya; Manole, Tudor, mejoras aleatorias e intercambiables de las desigualdades de Markov, Chebyshev y Chernoff, arXiv : 2304.02611.
^ Tu, Stephen (4 de noviembre de 2017). "La desigualdad de Markov para matrices" . Consultado el 27 de mayo de 2024 .
^ Ross, Kevin. 5.4 Desigualdades de probabilidad | Introducción a la probabilidad y la simulación.

enlaces externos

La prueba formal de la desigualdad de Markov en el sistema de Mizar .