stringtranslate.com

Distribución subgaussiana

En teoría de la probabilidad , una distribución subgaussiana , la distribución de una variable aleatoria subgaussiana , es una distribución de probabilidad con un fuerte decaimiento de cola. Más específicamente, las colas de una distribución subgaussiana están dominadas por (es decir, decaen al menos tan rápido como) las colas de una distribución gaussiana . Esta propiedad da a las distribuciones subgaussianas su nombre.

A menudo, en el análisis, dividimos un objeto (como una variable aleatoria) en dos partes, una masa central y una cola distante, y luego analizamos cada una por separado. En probabilidad, esta división suele ser como "Todo lo interesante sucede cerca del centro. El evento de la cola es tan raro que podemos ignorarlo sin problemas". Las distribuciones subgaussianas son dignas de estudio, porque la distribución gaussiana se entiende bien y, por lo tanto, podemos dar límites precisos a la rareza del evento de la cola. De manera similar, las distribuciones subexponenciales también son dignas de estudio.

Formalmente, la distribución de probabilidad de una variable aleatoria se denomina subgaussiana si existe una constante positiva C tal que para cada ,

.

Existen muchas definiciones equivalentes. Por ejemplo, una variable aleatoria es subgaussiana si y solo si su función de distribución está acotada desde arriba (hasta una constante) por la función de distribución de una gaussiana:

donde es constante y es una variable aleatoria gaussiana de media cero. [1] : Teorema 2.6 

Definiciones

Norma subgaussiana

La norma subgaussiana de , denotada como , es En otras palabras, es la norma de Orlicz de generada por la función de Orlicz. Por la condición siguiente, las variables aleatorias subgaussianas se pueden caracterizar como aquellas variables aleatorias con norma subgaussiana finita.

Indicador de varianza

Si existe algo tal que para todo , entonces se llama proxy de varianza , y el más pequeño de ellos se llama proxy de varianza óptimo y se denota por .

Desde cuando es gaussiano, entonces tenemos , como debería ser.

Definiciones equivalentes

Sea una variable aleatoria. Las siguientes condiciones son equivalentes: (Proposición 2.5.2 [2] )

  1. Límite de probabilidad de cola: para todos , donde es una constante positiva;
  2. Norma subgaussiana finita: .
  3. Momento : para todo , donde es una constante positiva y es la función Gamma .
  4. Momento : para todos ,
  5. Función generadora de momentos (de ), o proxy de varianza [3] [4]  : para todo , donde es una constante positiva.
  6. Función generadora de momentos (de ): para algunos , para todos .
  7. Límite de unión : para algún c > 0 , para todo n > c , donde son copias iid de X .
  8. Subexponencial : tiene una distribución subexponencial.

Además, la constante es la misma en las definiciones (1) a (5), hasta una constante absoluta. Por ejemplo, dada una variable aleatoria que satisface (1) y (2), las constantes mínimas en las dos definiciones satisfacen , donde son constantes independientes de la variable aleatoria.

Prueba de equivalencia

A modo de ejemplo, las primeras cuatro definiciones son equivalentes según la prueba siguiente.

Prueba . Por la representación de la torta en capas ,


Después de un cambio de variables , encontramos que Por la serie de Taylor que es menor o igual a para . Sea , entonces


Por la desigualdad de Markov , por fórmula asintótica para la función gamma: .

De la prueba podemos extraer un ciclo de tres desigualdades:

En particular, las constantes proporcionadas por las definiciones son las mismas hasta un factor constante, por lo que podemos decir que las definiciones son equivalentes hasta una constante independiente de .

De manera similar, debido a que hasta una constante multiplicativa positiva, para todo , las definiciones (3) y (4) también son equivalentes hasta una constante.

Propiedades básicas

Proposición.

Proposición. ( Límite de Chernoff ) Si es subgaussiano, entonces para todo .

Definición. significa que , donde la constante positiva es independiente de y .

Proposición. Si es subgaussiano, entonces .

Demostración. Por la desigualdad triangular, . Ahora tenemos . Por la equivalencia de las definiciones (2) y (4) de subgaussianidad, dadas anteriormente, tenemos .

Proposición. Si son subgaussianas e independientes, entonces .

Demostración. Si son independientes, entonces se utiliza que el cumulante de las variables aleatorias independientes es aditivo. Es decir, .

Si no es independiente, entonces por la desigualdad de Hölder , para cualquier tenemos Resolviendo el problema de optimización , obtenemos el resultado.

Corolario. Las sumas lineales de variables aleatorias subgaussianas son subgaussianas.

Estrictamente subgaussiano

Desarrollando la función generadora de cumulantes : encontramos que . En el límite de la posibilidad, definimos que una variable aleatoria que satisface se llama estrictamente subgaussiana.

Propiedades

Teorema. [5] Sea una variable aleatoria subgaussiana con media cero. Si todos los ceros de su función característica son reales, entonces es estrictamente subgaussiana.

Corolario. Si son independientes y estrictamente subgaussianas, entonces cualquier suma lineal de ellas es estrictamente subgaussiana.

Ejemplos

Calculando las funciones características, podemos demostrar que algunas distribuciones son estrictamente subgaussianas: distribución uniforme simétrica, distribución de Bernoulli simétrica.

Como una distribución uniforme simétrica es estrictamente subgaussiana, su convolución consigo misma es estrictamente subgaussiana. Es decir, la distribución triangular simétrica es estrictamente subgaussiana.

Dado que la distribución de Bernoulli simétrica es estrictamente subgaussiana, cualquier distribución binomial simétrica es estrictamente subgaussiana.

Ejemplos

El proxy de varianza óptimo se conoce para muchas distribuciones de probabilidad estándar, incluidas beta, Bernoulli, Dirichlet [6] , Kumaraswamy, triangular [7] , gaussiana truncada y exponencial truncada [8] .

Distribución de Bernoulli

Sean dos números positivos. Sea una distribución de Bernoulli centrada , de modo que tenga media cero, entonces . [9] Su norma subgaussiana es donde es la única solución positiva de .

Sea una variable aleatoria con distribución Bernoulli simétrica (o distribución Rademacher ). Es decir, toma valores y con probabilidades cada uno. Como , se deduce que y por lo tanto es una variable aleatoria subgaussiana.

Distribuciones acotadas

Algunas distribuciones acotadas comúnmente utilizadas.

Las distribuciones acotadas no tienen cola en absoluto, por lo que claramente son subgaussianas.

Si está acotado dentro del intervalo , el lema de Hoeffding establece que . La desigualdad de Hoeffding es el límite de Chernoff obtenido utilizando este hecho.

Convoluciones

Densidad de una mezcla de tres distribuciones normales ( μ  = 5, 10, 15, σ  = 2) con pesos iguales. Cada componente se muestra como una densidad ponderada (cada una integra 1/3)

Dado que la suma de las variables aleatorias subgaussianas sigue siendo subgaussiana, la convolución de las distribuciones subgaussianas sigue siendo subgaussiana. En particular, cualquier convolución de la distribución normal con cualquier distribución acotada es subgaussiana.

Mezclas

Dadas distribuciones subgaussianas , podemos construir una mezcla aditiva de la siguiente manera: primero escogemos aleatoriamente un número , luego escogemos .

Como tenemos , y por lo tanto la mezcla es subgaussiana.

En particular, cualquier mezcla gaussiana es subgaussiana.

De manera más general, la mezcla de infinitas distribuciones subgaussianas también es subgaussiana, si la norma subgaussiana tiene un supremo finito: .

Vectores aleatorios subgaussianos

Hasta ahora, hemos analizado la subgaussianidad para variables aleatorias de valor real. También podemos definir la subgaussianidad para vectores aleatorios. El propósito de la subgaussianidad es hacer que las colas decaigan rápidamente, por lo que generalizamos en consecuencia: un vector aleatorio subgaussiano es un vector aleatorio donde la cola decae rápidamente.

Sea un vector aleatorio que toma valores en .

Definir.

Teorema. (Teorema 3.4.6 [2] ) Para cualquier entero positivo , el vector aleatorio uniformemente distribuido es subgaussiano, con .

Esto no es tan sorprendente, porque como , la proyección de a la primera coordenada converge en distribución a la distribución normal estándar.

Desigualdades máximas

Proposición. Si son subgaussianas de media cero, con , entonces para cualquier , tenemos con probabilidad .

Demostración. Por el límite de Chernoff, . Ahora aplique el límite de unión .

Proposición. (Ejercicio 2.5.10 [2] ) Si son subgaussianas, con , entonces Además, el límite es agudo, ya que cuando son muestras IID de tenemos . [10]

[11]

Teorema. (sobre un conjunto finito) Si son subgaussianos, con , entonces Teorema. (sobre un politopo convexo ) Fijemos un conjunto finito de vectores . Si es un vector aleatorio, tal que cada , entonces se cumplen las 4 desigualdades anteriores, reemplazando .

Aquí está el politopo convexo abarcado por los vectores .

Teorema. (sobre una pelota) Si es un vector aleatorio en , tal que para todos en la esfera unitaria , entonces Para cualquier , con probabilidad al menos ,

Desigualdades

Teorema. (Teorema 2.6.1 [2] ) Existe una constante positiva tal que dado cualquier número de variables aleatorias subgaussianas independientes de media cero , Teorema. (Desigualdad de Hoeffding) (Teorema 2.6.3 [2] ) Existe una constante positiva tal que dado cualquier número de variables aleatorias subgaussianas independientes de media cero , Teorema. (Desigualdad de Bernstein) (Teorema 2.8.1 [2] ) Existe una constante positiva tal que dado cualquier número de variables aleatorias subexponenciales independientes de media cero , Teorema. (Desigualdad de Khinchine) (Ejercicio 2.6.5 [2] ) Existe una constante positiva tal que dado cualquier número de variables aleatorias subgaussianas independientes de media cero y varianza uno , cualquier , y cualquier ,

Desigualdad de Hanson-Wright

La desigualdad de Hanson-Wright establece que si un vector aleatorio es subgaussiano en cierto sentido, entonces cualquier forma cuadrática de este vector, , también es subgaussiana/subexponencial. Además, el límite superior de la cola de , es uniforme .

En (Hanson, Wright, 1971) se demostró una versión débil del siguiente teorema. [12] Existen muchas extensiones y variantes. Al igual que el teorema del límite central, la desigualdad de Hanson-Wright es más un conjunto de teoremas con el mismo propósito que un único teorema. El propósito es tomar un vector subgaussiano y acotar uniformemente sus formas cuadráticas.

Teorema. [13] [14] Existe una constante , tal que:

Sea un entero positivo. Sean variables aleatorias independientes, de modo que cada una satisfaga . Combínelas en un vector aleatorio . Para cualquier matriz , tenemos donde , y es la norma de Frobenius de la matriz, y es la norma del operador de la matriz.

En palabras, la forma cuadrática tiene su cola uniformemente limitada por una exponencial o una gaussiana, cualquiera que sea mayor.


En el enunciado del teorema, la constante es una "constante absoluta", lo que significa que no tiene dependencia de . Es una constante matemática muy similar a pi y e .

Consecuencias

Teorema (concentración subgaussiana). [13] Existe una constante , tal que:

Sean números enteros positivos. Sean variables aleatorias independientes, tales que cada una satisfaga . Combínelas en un vector aleatorio . Para cualquier matriz , tenemos En palabras, el vector aleatorio está concentrado en una capa esférica de radio , tal que es subgaussiana, con norma subgaussiana .

Véase también

Notas

  1. ^ Wainwright MJ. Estadísticas de alta dimensión: un punto de vista no asintótico . Cambridge: Cambridge University Press; 2019. doi :10.1017/9781108627771, ISBN 9781108627771
  2. ^ abcdefg Vershynin, R. (2018). Probabilidad de alta dimensión: una introducción con aplicaciones en la ciencia de datos . Cambridge: Cambridge University Press.
  3. ^ Kahane, J. (1960). "Propiedades locales de funciones de la serie de Fourier aléatoires". Estudios Matemáticos . 19 : 1–25. doi :10.4064/sm-19-1-1-25.
  4. ^ Buldygin, VV; Kozachenko, Yu. V. (1980). "Variables aleatorias subgaussianas". Revista matemática ucraniana . 32 (6): 483–489. doi :10.1007/BF01087176.
  5. ^ Bobkov, SG; Chistyakov, GP; Götze, F. (3 de agosto de 2023). "Distribuciones de probabilidad estrictamente subgaussianas". arXiv : 2308.01749 [math.PR].
  6. ^ Marchal, Olivier; Arbel, Julyan (2017). "Sobre la sub-gaussianidad de las distribuciones Beta y Dirichlet". Comunicaciones electrónicas en probabilidad . 22 . arXiv : 1705.00048 . doi :10.1214/17-ECP92.
  7. ^ Arbel, Julyan; Marchal, Olivier; Nguyen, Hien D. (2020). "Sobre subgaussianidad estricta, varianza proxy óptima y simetría para variables aleatorias acotadas". Esaim: Probability and Statistics . 24 : 39–55. arXiv : 1901.09188 . doi :10.1051/ps/2019018.
  8. ^ Barreto, Mathias; Marchal, Olivier; Arbel, Julyan (2024). "Proxy de varianza subgaussiana óptima para variables aleatorias exponenciales y gaussianas truncadas". arXiv : 2403.08628 [math.ST].
  9. ^ Bobkov, SG; Chistyakov, GP; Götze, F. (3 de agosto de 2023). "Distribuciones de probabilidad estrictamente subgaussianas". arXiv : 2308.01749 [math.PR].
  10. ^ Kamath, Gautam. "Límites de la expectativa del máximo de muestras de una gaussiana". (2015)
  11. ^ "MIT 18.S997 | Primavera de 2015 | Estadística de alta dimensión, Capítulo 1. Variables aleatorias subgaussianas" (PDF) . MIT OpenCourseWare . Consultado el 3 de abril de 2024 .
  12. ^ Hanson, DL; Wright, FT (1971). "Un límite en las probabilidades de cola para formas cuadráticas en variables aleatorias independientes". Anales de estadística matemática . 42 (3): 1079–1083. doi : 10.1214/aoms/1177693335 . ISSN  0003-4851. JSTOR  2240253.
  13. ^ ab Rudelson, Mark; Vershynin, Roman (enero de 2013). "Desigualdad de Hanson-Wright y concentración subgaussiana". Comunicaciones electrónicas en probabilidad . 18 (ninguno): 1–9. arXiv : 1306.2872 . doi :10.1214/ECP.v18-2865. ISSN  1083-589X.
  14. ^ Vershynin, Roman (2018). "6. Formas cuadráticas, simetrización y contracción". Probabilidad de alta dimensión: una introducción con aplicaciones en la ciencia de datos. Cambridge Series in Statistical and Probabilistic Mathematics. Cambridge: Cambridge University Press. págs. 127–146. doi :10.1017/9781108231596.009. ISBN 978-1-108-41519-4.

Referencias