La desigualdad de Markov da un límite superior para la medida del conjunto (indicado en rojo) donde excede un nivel determinado . El límite combina el nivel con el valor promedio de .
Lleva el nombre del matemático ruso Andrey Markov , aunque apareció antes en el trabajo de Pafnuty Chebyshev (maestro de Markov), y muchas fuentes, especialmente en análisis , se refieren a ella como la desigualdad de Chebyshev (a veces, llamándola la primera desigualdad de Chebyshev, mientras que refiriéndose a la desigualdad de Chebyshev como la segunda desigualdad de Chebyshev) o la desigualdad de Bienaymé .
La desigualdad de Markov (y otras desigualdades similares) relacionan las probabilidades con las expectativas y proporcionan límites (frecuentemente flexibles pero aún útiles) para la función de distribución acumulativa de una variable aleatoria. La desigualdad de Markov también se puede utilizar para limitar la expectativa de una variable aleatoria no negativa en términos de su función de distribución.
Declaración
Si X es una variable aleatoria no negativa y a > 0 , entonces la probabilidad de que X sea al menos a es como máximo la expectativa de X dividida por a : [1]
Cuando , podemos tomar para reescribir la desigualdad anterior como
Si φ es una función no negativa no decreciente, X es una variable aleatoria (no necesariamente no negativa) y φ ( a ) > 0 , entonces [3]
Un corolario inmediato, utilizando momentos más altos de X apoyados en valores mayores que 0, es
La desigualdad de Markov uniformemente aleatoria
Si X es una variable aleatoria no negativa y a > 0 , y U es una variable aleatoria distribuida uniformemente que es independiente de X , entonces [4]
Como es casi seguro que U es menor que uno, esta cota es estrictamente más fuerte que la desigualdad de Markov. Sorprendentemente, U no puede ser reemplazado por ninguna constante menor que uno, lo que significa que las mejoras deterministas de la desigualdad de Markov no pueden existir en general. Mientras que la desigualdad de Markov se cumple con igualdad para distribuciones apoyadas en , la variante aleatoria anterior se cumple con igualdad para cualquier distribución acotada en .
Pruebas
Separamos el caso en el que el espacio de medidas es un espacio de probabilidad del caso más general porque el caso de probabilidad es más accesible para el lector general.
Intuición
donde es mayor o igual a 0 ya que la variable aleatoria no es negativa y es mayor o igual a porque la expectativa condicional solo toma en cuenta los valores mayores o iguales a los que rv puede tomar.
De ahí intuitivamente , lo que conduce directamente a .
Prueba de teoría de probabilidad
Método 1:
De la definición de expectativa:
Sin embargo, X es una variable aleatoria no negativa, por lo tanto,
De esto podemos derivar,
A partir de aquí, dividir por nos permite ver que
Método 2:
Para cualquier evento , sea la variable aleatoria indicadora de , es decir, si ocurre y no.
Usando esta notación, tenemos si el evento ocurre y si . Entonces, dado ,
lo cual queda claro si consideramos los dos valores posibles de . Si , entonces , y así . De lo contrario, tenemos , para cuál y así .
Dado que es una función monótonamente creciente, esperar ambos lados de una desigualdad no puede revertirla. Por lo tanto,
Ahora, usando la linealidad de las expectativas, el lado izquierdo de esta desigualdad es el mismo que
Así tenemos
y como a > 0, podemos dividir ambos lados por a .
Prueba de la teoría de la medida
Podemos suponer que la función no es negativa, ya que sólo su valor absoluto entra en la ecuación. Ahora, considere la función de valor real s en X dada por
y como , ambos lados se pueden dividir por , obteniendo
Caso discreto
Ahora proporcionamos una prueba para el caso especial en el que es una variable aleatoria discreta que solo toma valores enteros no negativos.
Sea un número entero positivo. Por definición
Dividiendo por se obtiene el resultado deseado.
Corolarios
La desigualdad de Chebyshev
La desigualdad de Chebyshev utiliza la varianza para limitar la probabilidad de que una variable aleatoria se desvíe mucho de la media. Específicamente,
para cualquier a > 0 . [3] Aquí Var( X ) es la varianza de X, definida como:
La desigualdad de Chebyshev se deriva de la desigualdad de Markov al considerar la variable aleatoria
y la constante para la cual se lee la desigualdad de Markov
Este argumento se puede resumir (donde "MI" indica el uso de la desigualdad de Markov):
Otros corolarios
El resultado "monótono" se puede demostrar mediante:
El resultado de que, para una variable aleatoria no negativa X , la función cuantil de X satisface:
la prueba usando
Sea una variable aleatoria matricial autoadjunta y . Entonces
lo cual se puede demostrar de manera similar. [5]
Ejemplos
Suponiendo que ningún ingreso sea negativo, la desigualdad de Markov muestra que no más del 10% (1/10) de la población puede tener más de 10 veces el ingreso promedio. [6]
Otro ejemplo sencillo es el siguiente: Andrew comete 4 errores en promedio en sus exámenes del curso de Estadística. El mejor límite superior de la probabilidad de que Andrew cometa al menos 10 errores es 0,4, ya que tenga en cuenta que Andrew podría cometer exactamente 10 errores con una probabilidad de 0,4 y no cometer ningún error con una probabilidad de 0,6; la expectativa es exactamente 4 errores.
^ ab Huber, Mark (26 de noviembre de 2019). "Reducir a la mitad los límites de las desigualdades de Markov, Chebyshev y Chernoff mediante suavizado". El Mensual Matemático Estadounidense . 126 (10): 915–927. arXiv : 1803.06361 . doi :10.1080/00029890.2019.1656484. ISSN 0002-9890.