En teoría de la probabilidad , la teoría de las grandes desviaciones se refiere al comportamiento asintótico de colas remotas de secuencias de distribuciones de probabilidad. Si bien algunas ideas básicas de la teoría se remontan a Laplace , la formalización comenzó con las matemáticas de seguros, es decir, la teoría de la ruina con Cramér y Lundberg . En 1966, en un artículo de Varadhan , se desarrolló una formalización unificada de la teoría de la gran desviación . [1] La teoría de las grandes desviaciones formaliza las ideas heurísticas de concentración de medidas y generaliza ampliamente la noción de convergencia de medidas de probabilidad .
En términos generales, la teoría de las grandes desviaciones se ocupa de la disminución exponencial de las medidas de probabilidad de ciertos tipos de eventos extremos o de cola .
¡Cualquier desviación importante se realiza de la manera menos improbable de todas las improbables!
— Frank den Hollander, Grandes desviaciones, pág. 10
Considere una secuencia de lanzamientos independientes de una moneda justa. Los posibles resultados podrían ser cara o cruz. Denotemos el posible resultado de la i-ésima prueba por , donde codificamos la cabeza como 1 y la cola como 0. Ahora denotemos el valor medio después de las pruebas, a saber
Entonces se encuentra entre 0 y 1. De la ley de los grandes números se deduce que a medida que N crece, la distribución de converge a (el valor esperado de un solo lanzamiento de moneda).
Además, según el teorema del límite central , se deduce que tiene una distribución aproximadamente normal para grandes . El teorema del límite central puede proporcionar información más detallada sobre el comportamiento que la ley de los grandes números. Por ejemplo, podemos encontrar aproximadamente una probabilidad de cola de (la probabilidad de que sea mayor que algún valor ) para un valor fijo de . Sin embargo, la aproximación mediante el teorema del límite central puede no ser precisa si está lejos de serlo y no es lo suficientemente grande. Además, no proporciona información sobre la convergencia de las probabilidades de cola como . Sin embargo, la teoría de la gran desviación puede proporcionar respuestas a tales problemas.
Precisemos más esta afirmación. Para un valor dado , calculemos la probabilidad de la cola . Definir
Tenga en cuenta que la función es convexa y no negativa, que es cero en y aumenta a medida que se aproxima a . Es el negativo de la entropía de Bernoulli con ; que es apropiado para lanzamientos de monedas se desprende de la propiedad de equipartición asintótica aplicada a un ensayo de Bernoulli . Luego, mediante la desigualdad de Chernoff , se puede demostrar que . [2] Este límite es bastante agudo, en el sentido de que no puede reemplazarse con un número mayor que produciría una desigualdad estricta para todos los positivos . [3] (Sin embargo, el límite exponencial aún se puede reducir mediante un factor subexponencial del orden de ; esto se desprende de la aproximación de Stirling aplicada al coeficiente binomial que aparece en la distribución de Bernoulli ). Por lo tanto, obtenemos el siguiente resultado:
La probabilidad decae exponencialmente a un ritmo que depende de x . Esta fórmula aproxima cualquier probabilidad de cola de la media muestral de variables iid y proporciona su convergencia a medida que aumenta el número de muestras.
En el ejemplo anterior de lanzamiento de moneda, asumimos explícitamente que cada lanzamiento es una prueba independiente y que la probabilidad de obtener cara o cruz es siempre la misma.
Sean variables aleatorias independientes e idénticamente distribuidas ( iid) cuya distribución común satisface una determinada condición de crecimiento. Entonces existe el siguiente límite:
Aquí
como antes.
La función se denomina " función de tasa " o "función de Cramér" o, a veces, "función de entropía".
El límite mencionado anteriormente significa que para grandes ,
que es el resultado básico de la teoría de las grandes desviaciones. [4] [5]
Si conocemos la distribución de probabilidad de , se puede obtener una expresión explícita para la función de tasa. Esto viene dado por una transformación de Legendre-Fenchel , [6]
dónde
se llama función generadora acumulativa (CGF) y denota la expectativa matemática .
Si sigue una distribución normal , la función de tasa se convierte en una parábola con su vértice en la media de la distribución normal.
Si se trata de una cadena de Markov irreducible y aperiódica , la variante del resultado básico de grandes desviaciones indicada anteriormente puede ser válida. [ cita necesaria ]
El ejemplo anterior controlaba la probabilidad del evento , es decir, la concentración de la ley de en el conjunto compacto . También es posible controlar la probabilidad del evento para alguna secuencia . El siguiente es un ejemplo de un principio de desviaciones moderadas : [7] [8]
Teorema : sea una secuencia de variables iid centradas con varianza finita tal que . Definir . Luego para cualquier secuencia :
En particular, el caso límite es el teorema del límite central .
Dado un espacio polaco , sea una secuencia de medidas de probabilidad de Borel en , sea una secuencia de números reales positivos tal que y finalmente sea un funcional semicontinuo inferior en . Se dice que la secuencia satisface un principio de gran desviación con velocidad y tasa si, y sólo si, para cada conjunto medible de Borel ,
donde y denotan respectivamente el cierre y el interior de . [ cita necesaria ]
Los primeros resultados rigurosos sobre grandes desviaciones se deben al matemático sueco Harald Cramér , quien los aplicó para modelar el negocio de los seguros. [9] Desde el punto de vista de una compañía de seguros, los ingresos son a una tasa constante por mes (la prima mensual), pero las reclamaciones se producen al azar. Para que la empresa tenga éxito durante un cierto período de tiempo (preferiblemente muchos meses), las ganancias totales deben exceder el reclamo total. Por lo tanto, para estimar la prima hay que plantearse la siguiente pregunta: "¿Qué debemos elegir como prima para que a lo largo de los meses la reclamación total sea inferior a ?" Esta es claramente la misma pregunta que plantea la teoría de las grandes desviaciones. Cramér dio una solución a esta pregunta para variables aleatorias iid , donde la función de tasa se expresa como una serie de potencias .
Una lista muy incompleta de matemáticos que han logrado avances importantes incluiría a Petrov , [10] Sanov , [11] SRS Varadhan (que ganó el premio Abel por su contribución a la teoría), D. Ruelle , OE Lanford , Amir Dembo , y Ofer Zeitouni . [12]
Los principios de grandes desviaciones se pueden aplicar eficazmente para recopilar información a partir de un modelo probabilístico. Así, la teoría de las grandes desviaciones encuentra sus aplicaciones en la teoría de la información y la gestión de riesgos . En física, la aplicación más conocida de la teoría de las grandes desviaciones surge en la termodinámica y la mecánica estadística (en relación con la relación de la entropía con la función de velocidad).
La función de tasa está relacionada con la entropía en la mecánica estadística. Esto se puede ver heurísticamente de la siguiente manera. En mecánica estadística, la entropía de un macroestado particular está relacionada con el número de microestados que corresponden a este macroestado. En nuestro ejemplo de lanzamiento de moneda, el valor medio podría designar un macroestado particular. Y la secuencia particular de caras y cruces que da lugar a un valor particular de constituye un microestado particular. En términos generales, un macroestado que tiene un mayor número de microestados que lo generan, tiene mayor entropía. Y un estado con mayor entropía tiene mayores posibilidades de realizarse en experimentos reales. El macroestado con un valor medio de 1/2 (tantas caras como cruces) tiene el mayor número de microestados que lo generan y, de hecho, es el estado con mayor entropía. Y en la mayoría de las situaciones prácticas obtendremos este macroestado para un gran número de ensayos. La "función de tasa", por otro lado, mide la probabilidad de aparición de un macroestado particular. Cuanto menor sea la función de tasa, mayor será la probabilidad de que aparezca un macroestado. En nuestro lanzamiento de moneda, el valor de la "función de tasa" para un valor medio igual a 1/2 es cero. De esta manera se puede ver la "función de tasa" como el negativo de la "entropía".
Existe una relación entre la "función de tasa" en la teoría de las grandes desviaciones y la divergencia de Kullback-Leibler ; la conexión la establece el teorema de Sanov (ver Sanov [11] y Novak, [13] cap. 14.5).
En un caso especial, las grandes desviaciones están estrechamente relacionadas con el concepto de límites de Gromov-Hausdorff . [14]