En teoría de la probabilidad , una distribución subgaussiana , la distribución de una variable aleatoria subgaussiana , es una distribución de probabilidad con un fuerte decaimiento de cola. Más específicamente, las colas de una distribución subgaussiana están dominadas por (es decir, decaen al menos tan rápido como) las colas de una distribución gaussiana . Esta propiedad da a las distribuciones subgaussianas su nombre.
A menudo, en el análisis, dividimos un objeto (como una variable aleatoria) en dos partes, una masa central y una cola distante, y luego analizamos cada una por separado. En probabilidad, esta división suele ser como "Todo lo interesante sucede cerca del centro. El evento de la cola es tan raro que podemos ignorarlo sin problemas". Las distribuciones subgaussianas son dignas de estudio, porque la distribución gaussiana se entiende bien y, por lo tanto, podemos dar límites precisos a la rareza del evento de la cola. De manera similar, las distribuciones subexponenciales también son dignas de estudio.
Formalmente, la distribución de probabilidad de una variable aleatoria se denomina subgaussiana si existe una constante positiva C tal que para cada ,
.
Existen muchas definiciones equivalentes. Por ejemplo, una variable aleatoria es subgaussiana si y solo si su función de distribución está acotada desde arriba (hasta una constante) por la función de distribución de una gaussiana:
donde es constante y es una variable aleatoria gaussiana de media cero. [1] : Teorema 2.6
Definiciones
Norma subgaussiana
La norma subgaussiana de , denotada como , es En otras palabras, es la norma de Orlicz de generada por la función de Orlicz. Por la condición siguiente, las variables aleatorias subgaussianas se pueden caracterizar como aquellas variables aleatorias con norma subgaussiana finita.
Indicador de varianza
Si existe algo tal que para todo , entonces se llama proxy de varianza , y el más pequeño de ellos se llama proxy de varianza óptimo y se denota por .
Desde cuando es gaussiano, entonces tenemos , como debería ser.
Definiciones equivalentes
Sea una variable aleatoria. Las siguientes condiciones son equivalentes: (Proposición 2.5.2 [2] )
Límite de probabilidad de cola: para todos , donde es una constante positiva;
Además, la constante es la misma en las definiciones (1) a (5), hasta una constante absoluta. Por ejemplo, dada una variable aleatoria que satisface (1) y (2), las constantes mínimas en las dos definiciones satisfacen , donde son constantes independientes de la variable aleatoria.
Prueba de equivalencia
A modo de ejemplo, las primeras cuatro definiciones son equivalentes según la prueba siguiente.
De la prueba podemos extraer un ciclo de tres desigualdades:
Si , entonces para todos .
Si para todos , entonces .
Si , entonces .
En particular, las constantes proporcionadas por las definiciones son las mismas hasta un factor constante, por lo que podemos decir que las definiciones son equivalentes hasta una constante independiente de .
De manera similar, debido a que hasta una constante multiplicativa positiva, para todo , las definiciones (3) y (4) también son equivalentes hasta una constante.
Propiedades básicas
Proposición.
Si es subgaussiano, y , entonces y .
Si son subgaussianos, entonces .
Proposición. ( Límite de Chernoff ) Si es subgaussiano, entonces para todo .
Definición. significa que , donde la constante positiva es independiente de y .
Proposición. Si es subgaussiano, entonces .
Demostración. Por la desigualdad triangular, . Ahora tenemos . Por la equivalencia de las definiciones (2) y (4) de subgaussianidad, dadas anteriormente, tenemos .
Proposición. Si son subgaussianas e independientes, entonces .
Demostración. Si son independientes, entonces se utiliza que el cumulante de las variables aleatorias independientes es aditivo. Es decir, .
Si no es independiente, entonces por la desigualdad de Hölder , para cualquier tenemos Resolviendo el problema de optimización , obtenemos el resultado.
Corolario. Las sumas lineales de variables aleatorias subgaussianas son subgaussianas.
Estrictamente subgaussiano
Desarrollando la función generadora de cumulantes : encontramos que . En el límite de la posibilidad, definimos que una variable aleatoria que satisface se llama estrictamente subgaussiana.
Propiedades
Teorema. [5] Sea una variable aleatoria subgaussiana con media cero. Si todos los ceros de su función característica son reales, entonces es estrictamente subgaussiana.
Corolario. Si son independientes y estrictamente subgaussianas, entonces cualquier suma lineal de ellas es estrictamente subgaussiana.
Ejemplos
Calculando las funciones características, podemos demostrar que algunas distribuciones son estrictamente subgaussianas: distribución uniforme simétrica, distribución de Bernoulli simétrica.
Como una distribución uniforme simétrica es estrictamente subgaussiana, su convolución consigo misma es estrictamente subgaussiana. Es decir, la distribución triangular simétrica es estrictamente subgaussiana.
Dado que la distribución de Bernoulli simétrica es estrictamente subgaussiana, cualquier distribución binomial simétrica es estrictamente subgaussiana.
Ejemplos
El proxy de varianza óptimo se conoce para muchas distribuciones de probabilidad estándar, incluidas la beta, Bernoulli, Dirichlet [6] , Kumaraswamy, triangular [7] , gaussiana truncada y exponencial truncada. [8]
Distribución de Bernoulli
Sean dos números positivos. Sea una distribución de Bernoulli centrada , de modo que tenga media cero, entonces . [5] Su norma subgaussiana es donde es la única solución positiva de .
Sea una variable aleatoria con distribución Bernoulli simétrica (o distribución Rademacher ). Es decir, toma valores y con probabilidades cada uno. Como , se deduce que y por lo tanto es una variable aleatoria subgaussiana.
Distribuciones acotadas
Las distribuciones acotadas no tienen cola en absoluto, por lo que claramente son subgaussianas.
Dado que la suma de las variables aleatorias subgaussianas sigue siendo subgaussiana, la convolución de las distribuciones subgaussianas sigue siendo subgaussiana. En particular, cualquier convolución de la distribución normal con cualquier distribución acotada es subgaussiana.
Mezclas
Dadas distribuciones subgaussianas , podemos construir una mezcla aditiva de la siguiente manera: primero escogemos aleatoriamente un número , luego escogemos .
Como tenemos , y por lo tanto la mezcla es subgaussiana.
De manera más general, la mezcla de infinitas distribuciones subgaussianas también es subgaussiana, si la norma subgaussiana tiene un supremo finito: .
Vectores aleatorios subgaussianos
Hasta ahora, hemos analizado la subgaussianidad para variables aleatorias de valor real. También podemos definir la subgaussianidad para vectores aleatorios. El propósito de la subgaussianidad es hacer que las colas decaigan rápidamente, por lo que generalizamos en consecuencia: un vector aleatorio subgaussiano es un vector aleatorio donde la cola decae rápidamente.
Sea un vector aleatorio que toma valores en .
Definir.
, donde está la esfera unitaria en .
es subgaussiano si y solo si .
Teorema. (Teorema 3.4.6 [2] ) Para cualquier entero positivo , el vector aleatorio uniformemente distribuido es subgaussiano, con .
Esto no es tan sorprendente, porque como , la proyección de a la primera coordenada converge en distribución a la distribución normal estándar.
Desigualdades máximas
Proposición. Si son subgaussianas de media cero, con , entonces para cualquier , tenemos con probabilidad .
Demostración. Por el límite de Chernoff, . Ahora aplique el límite de unión .
Proposición. (Ejercicio 2.5.10 [2] ) Si son subgaussianas, con , entonces Además, el límite es agudo, ya que cuando son muestras IID de tenemos . [9]
[10]
Teorema. (sobre un conjunto finito) Si son subgaussianos, con , entonces Teorema. (sobre un politopo convexo ) Fijemos un conjunto finito de vectores . Si es un vector aleatorio, tal que cada , entonces se cumplen las 4 desigualdades anteriores, reemplazando .
Aquí está el politopo convexo abarcado por los vectores .
Teorema. (sobre una pelota) Si es un vector aleatorio en , tal que para todos en la esfera unitaria , entonces Para cualquier , con probabilidad al menos ,
Desigualdades
Teorema. (Teorema 2.6.1 [2] ) Existe una constante positiva tal que dado cualquier número de variables aleatorias subgaussianas independientes de media cero , Teorema. (Desigualdad de Hoeffding) (Teorema 2.6.3 [2] ) Existe una constante positiva tal que dado cualquier número de variables aleatorias subgaussianas independientes de media cero , Teorema. (Desigualdad de Bernstein) (Teorema 2.8.1 [2] ) Existe una constante positiva tal que dado cualquier número de variables aleatorias subexponenciales independientes de media cero , Teorema. (Desigualdad de Khinchine) (Ejercicio 2.6.5 [2] ) Existe una constante positiva tal que dado cualquier número de variables aleatorias subgaussianas independientes de media cero y varianza uno , cualquier , y cualquier ,
Desigualdad de Hanson-Wright
La desigualdad de Hanson-Wright establece que si un vector aleatorio es subgaussiano en cierto sentido, entonces cualquier forma cuadrática de este vector, , también es subgaussiana/subexponencial. Además, el límite superior de la cola de , es uniforme .
En (Hanson, Wright, 1971) se demostró una versión débil del siguiente teorema. [11] Existen muchas extensiones y variantes. Al igual que el teorema del límite central, la desigualdad de Hanson-Wright es más un conjunto de teoremas con el mismo propósito que un único teorema. El propósito es tomar un vector subgaussiano y acotar uniformemente sus formas cuadráticas.
Teorema. [12] [13] Existe una constante , tal que:
Sea un entero positivo. Sean variables aleatorias independientes, de modo que cada una satisfaga . Combínelas en un vector aleatorio . Para cualquier matriz , tenemos donde , y es la norma de Frobenius de la matriz, y es la norma del operador de la matriz.
En palabras, la forma cuadrática tiene su cola uniformemente limitada por una exponencial o una gaussiana, cualquiera que sea mayor.
En el enunciado del teorema, la constante es una "constante absoluta", lo que significa que no tiene dependencia de . Es una constante matemática muy similar a pi y e .
Consecuencias
Teorema (concentración subgaussiana). [12] Existe una constante , tal que:
Sean números enteros positivos. Sean variables aleatorias independientes, tales que cada una satisfaga . Combínelas en un vector aleatorio . Para cualquier matriz , tenemos En palabras, el vector aleatorio está concentrado en una capa esférica de radio , tal que es subgaussiana, con norma subgaussiana .
^ Wainwright MJ. Estadísticas de alta dimensión: un punto de vista no asintótico . Cambridge: Cambridge University Press; 2019. doi :10.1017/9781108627771, ISBN 9781108627771 .
^ abcdefg Vershynin, R. (2018). Probabilidad de alta dimensión: una introducción con aplicaciones en la ciencia de datos . Cambridge: Cambridge University Press.
^ Kahane, J. (1960). "Propiedades locales de funciones de la serie de Fourier aléatoires". Estudios Matemáticos . 19 : 1–25. doi :10.4064/sm-19-1-1-25.
^ Buldygin, VV; Kozachenko, Yu. V. (1980). "Variables aleatorias subgaussianas". Revista de Matemáticas de Ucrania . 32 (6): 483–489. doi :10.1007/BF01087176.
^ ab Bobkov, SG; Chistyakov, GP; Götze, F. (3 de agosto de 2023). "Distribuciones de probabilidad estrictamente subgaussianas". arXiv : 2308.01749 [math.PR].
^ Marchal, Olivier; Arbel, Julyan (2017). "Sobre la sub-gaussianidad de las distribuciones Beta y Dirichlet". Comunicaciones electrónicas en probabilidad . 22 . arXiv : 1705.00048 . doi :10.1214/17-ECP92.
^ Arbel, Julyan; Marchal, Olivier; Nguyen, Hien D. (2020). "Sobre subgaussianidad estricta, varianza proxy óptima y simetría para variables aleatorias acotadas". Esaim: Probability and Statistics . 24 : 39–55. arXiv : 1901.09188 . doi :10.1051/ps/2019018.
^ Barreto, Mathias; Marchal, Olivier; Arbel, Julyan (2024). "Proxy de varianza subgaussiana óptima para variables aleatorias exponenciales y gaussianas truncadas". arXiv : 2403.08628 [math.ST].
^ Kamath, Gautam. "Límites de la expectativa del máximo de muestras de una gaussiana". (2015)
^ "MIT 18.S997 | Primavera de 2015 | Estadística de alta dimensión, Capítulo 1. Variables aleatorias subgaussianas" (PDF) . MIT OpenCourseWare . Consultado el 3 de abril de 2024 .
^ Hanson, DL; Wright, FT (1971). "Un límite en las probabilidades de cola para formas cuadráticas en variables aleatorias independientes". Anales de estadística matemática . 42 (3): 1079–1083. doi : 10.1214/aoms/1177693335 . ISSN 0003-4851. JSTOR 2240253.
^ ab Rudelson, Mark; Vershynin, Roman (enero de 2013). "Desigualdad de Hanson-Wright y concentración subgaussiana". Comunicaciones electrónicas en probabilidad . 18 (ninguno): 1–9. arXiv : 1306.2872 . doi :10.1214/ECP.v18-2865. ISSN 1083-589X.
^ Vershynin, Roman (2018). "6. Formas cuadráticas, simetrización y contracción". Probabilidad de alta dimensión: una introducción con aplicaciones en la ciencia de datos. Cambridge Series in Statistical and Probabilistic Mathematics. Cambridge: Cambridge University Press. págs. 127–146. doi :10.1017/9781108231596.009. ISBN978-1-108-41519-4.
Referencias
Kahane, JP (1960). "Propiedades locales de funciones de la serie de Fourier aléatoires". Estudios Matemáticos . 19 : 1–25. doi : 10.4064/sm-19-1-1-25 .
Buldygin, VV; Kozachenko, Yu.V. (1980). "Variables aleatorias subgaussianas". Revista de Matemáticas de Ucrania . 32 (6): 483–489. doi :10.1007/BF01087176.
Ledoux, Michel; Talagrand, Michel (1991). Probabilidad en espacios de Banach . Springer-Verlag.
Stromberg, KR (1994). Probabilidad para analistas . Chapman & Hall/CRC.
Litvak, AE; Pajor, A.; Rudelson, M.; Tomczak-Jaegermann, N. (2005). "Valor singular más pequeño de matrices aleatorias y geometría de politopos aleatorios" (PDF) . Avances en Matemáticas . 195 (2): 491–523. doi : 10.1016/j.aim.2004.08.004 .
Rudelson, Mark; Vershynin, Roman (2010). "Teoría no asintótica de matrices aleatorias: valores singulares extremos". Actas del Congreso Internacional de Matemáticos 2010. págs. 1576–1602. arXiv : 1003.2990 . doi :10.1142/9789814324359_0111.
Rivasplata, O. (2012). "Variables aleatorias subgaussianas: una nota expositiva" (PDF) . Inédito .
Vershynin, R. (2018). "Probabilidad de alta dimensión: una introducción con aplicaciones en la ciencia de datos" (PDF). Volumen 47 de Cambridge Series in Statistical and Probabilistic Mathematics . Cambridge University Press, Cambridge.
Zajkowskim, K. (2020). "Sobre normas en alguna clase de espacios de Orlicz de tipo exponencial de variables aleatorias". Positividad. Revista internacional de matemáticas dedicada a la teoría y aplicaciones de la positividad. 24 (5): 1231--1240. arXiv :1709.02970. doi :10.1007/s11117-019-00729-6.