Desigualdad de Dvoretzky-Kiefer-Wolfowitz

En la teoría de la probabilidad y la estadística , la desigualdad de Dvoretzky-Kiefer-Wolfowitz-Massart ( desigualdad DKW ) proporciona un límite para la distancia en el peor de los casos de una función de distribución determinada empíricamente respecto de su función de distribución de población asociada . Recibe su nombre en honor a Aryeh Dvoretzky , Jack Kiefer y Jacob Wolfowitz , quienes en 1956 demostraron la desigualdad.

\Pr {\Bigl (}\sup _{x\in \mathbb {R} }|F_{n}(x)-F(x)|>\varepsilon {\Bigr )}\leq Ce^{-2n\varepsilon ^{2}}\qquad {\text{para cada }}\varepsilon >0.

con una constante multiplicativa no especificada C delante del exponente en el lado derecho. ^[1]

En 1990, Pascal Massart demostró la desigualdad con la constante aguda C = 2, ^[2] confirmando una conjetura de Birnbaum y McCarty. ^[3] En 2021, Michael Naaman demostró la versión multivariada de la desigualdad DKW y generalizó el resultado de estrechez de Massart al caso multivariado, lo que da como resultado una constante aguda de dos veces la dimensión k del espacio en el que se encuentran las observaciones: C = 2 k . ^[4]

La desigualdad DKW

Dado un número natural n , sean X ₁ , X ₂ , …, X _n variables aleatorias independientes de valor real e idénticamente distribuidas con función de distribución acumulativa F (·). Sea F _n la función de distribución empírica asociada definida por

F_{n}(x)={\frac {1}{n}}\sum _{i=1}^{n}\mathbf {1} _{\{X_{i}\leq x\}},\qquad x\in \mathbb {R} .

Entonces, es la probabilidad de que una sola variable aleatoria sea menor que , y es la fracción de variables aleatorias que son menores que . ${\estilo de visualización F(x)}$ ${\estilo de visualización X}$ ${\estilo de visualización x}$ $Estilo de visualización F_{n}(x)}$ ${\estilo de visualización x}$

La desigualdad de Dvoretzky-Kiefer-Wolfowitz limita la probabilidad de que la función aleatoria F _n difiera de F en más de una constante dada ε > 0 en cualquier punto de la recta real. Más precisamente, existe la estimación unilateral

\Pr {\Bigl (}\sup _{x\in \mathbb {R} }{\bigl (}F_{n}(x)-F(x){\bigr )}>\varepsilon {\Bigr )}\leq e^{-2n\varepsilon ^{2}}\qquad {\text{para cada }}\varepsilon \geq {\sqrt {{\tfrac {1}{2n}}\ln 2}},

lo que también implica una estimación bilateral ^[5]

\Pr {\Bigl (}\sup _{x\in \mathbb {R} }|F_{n}(x)-F(x)|>\varepsilon {\Bigr )}\leq 2e^{-2n\varepsilon ^{2}}\qquad {\text{para cada }}\varepsilon >0.

Esto refuerza el teorema de Glivenko-Cantelli al cuantificar la tasa de convergencia cuando n tiende a infinito. También estima la probabilidad de cola del estadístico de Kolmogorov-Smirnov . Las desigualdades anteriores se derivan del caso donde F corresponde a la distribución uniforme en [0,1] ^[6] ya que F _n tiene las mismas distribuciones que G _n ( F ) donde G _n es la distribución empírica de U ₁ , U ₂ , …, U _n donde estos son independientes y Uniform(0,1), y notando que

\sup_{x\in\mathbb {R}}|F_{n}(x)-F(x)|\;{\stackrel {d}{=}}\;\sup_{x\in\mathbb {R}}|G_{n}(F(x))-F(x)|\leq \sup_{0\leq t\leq 1}|G_{n}(t)-t|,

con igualdad si y sólo si F es continua.

Caso multivariado

En el caso multivariado, X ₁ , X ₂ , …, X _n es una secuencia iid de vectores k -dimensionales. Si F _n es la función de distribución acumulativa empírica multivariada, entonces

\Pr {\Bigl (}\sup _{t\in \mathbb {R} ^{k}}|F_{n}(t)-F(t)|>\varepsilon {\Bigr )}\leq (n+1)ke^{-2n\varepsilon ^{2}}

para cada ε , n , k > 0. El término ( n + 1) puede reemplazarse por un 2 para cualquier n suficientemente grande . ^[4]

Estimador de Kaplan-Meier

La desigualdad de Dvoretzky-Kiefer-Wolfowitz se obtiene para el estimador de Kaplan-Meier, que es un análogo de datos censurados por la derecha de la función de distribución empírica.

\Pr {\Bigl (}{\sqrt {n}}\sup _{t\in [0,\infty )}|(1-G(t))(F_{n}(t)-F(t))|>\varepsilon {\Bigr )}\leq 2.5e^{-2\varepsilon ^{2}+C\varepsilon }

para cada y para alguna constante , donde es el estimador de Kaplan-Meier, y es la función de distribución de censura. ^[7] $\varepsilon >0$ $C<\infty$ $Estilo de visualización F_{n}$ ${\estilo de visualización G}$

Construcción de bandas CDF

La desigualdad de Dvoretzky–Kiefer–Wolfowitz es un método para generar límites de confianza basados en la CDF y producir una banda de confianza , que a veces se denomina banda de confianza de Kolmogorov–Smirnov . El propósito de este intervalo de confianza es contener toda la CDF en el nivel de confianza especificado, mientras que los enfoques alternativos intentan alcanzar solo el nivel de confianza en cada punto individual, lo que puede permitir un límite más estricto. Los límites de DKW corren paralelos a la CDF empírica y están igualmente por encima y por debajo de ella. El intervalo de confianza igualmente espaciado alrededor de la CDF empírica permite diferentes tasas de violaciones en todo el soporte de la distribución. En particular, es más común que una CDF esté fuera del límite de la CDF estimado utilizando la desigualdad de DKW cerca de la mediana de la distribución que cerca de los puntos finales de la distribución.

El intervalo que contiene la CDF verdadera, , con probabilidad a menudo se especifica como ${\estilo de visualización F(x)}$ ${\estilo de visualización 1-\alfa}$

F_{n}(x)-\varepsilon \leq F(x)\leq F_{n}(x)+\varepsilon \;{\text{ donde }}\varepsilon ={\sqrt {\frac {\ln {\frac {2}{\alpha }}}{2n}}}

que también es un caso especial del procedimiento asintótico para el caso multivariado, ^[4] mediante el cual se utiliza el siguiente valor crítico

{\frac {d(\alpha ,k)}{\sqrt {n}}}={\sqrt {\frac {\ln {\frac {2k}{\alpha }}}{2n}}}

para la prueba multivariada; se puede reemplazar 2 k con k ( n + 1) para una prueba que se cumple para todos los n ; además, la prueba multivariada descrita por Naaman se puede generalizar para tener en cuenta la heterogeneidad y la dependencia.

Véase también

Desigualdad de concentración : un resumen de los límites de conjuntos de variables aleatorias.

Referencias

^ Dvoretzky, A. ; Kiefer, J. ; Wolfowitz, J. (1956), "Carácter minimax asintótico de la función de distribución de muestra y del estimador multinomial clásico", Annals of Mathematical Statistics , 27 (3): 642–669, doi : 10.1214/aoms/1177728174 , MR 0083864
^ Massart, P. (1990), "La constante estricta en la desigualdad de Dvoretzky–Kiefer–Wolfowitz", Anales de probabilidad , 18 (3): 1269–1283, doi : 10.1214/aop/1176990746 , MR 1062069
^ Birnbaum, ZW; McCarty, RC (1958). "Un límite de confianza superior sin distribución para Pr{Y<X}, basado en muestras independientes de X e Y". Anales de estadística matemática . 29 : 558–562. doi : 10.1214/aoms/1177706631 . MR 0093874. Zbl 0087.34002.
^ abc Naaman, Michael (2021). "Sobre la constante estrecha en la desigualdad multivariada de Dvoretzky-Kiefer-Wolfowitz". Statistics and Probability Letters . 173 : 1–8. doi : 10.1016/j.spl.2021.109088 . S2CID 233844405.
^ Kosorok, MR (2008), "Capítulo 11: Resultados adicionales del proceso empírico", Introducción a los procesos empíricos y la inferencia semiparamétrica , Springer, pág. 210, ISBN 9780387749778
^ Shorack, GR ; Wellner, JA (1986), Procesos empíricos con aplicaciones a la estadística , Wiley, ISBN 0-471-86725-X
^ Bitouze, D.; Laurent, B.; Massart, P. (1999), "Una desigualdad de tipo Dvoretzky–Kiefer–Wolfowitz para el estimador de Kaplan–Meier", Annales de l'Institut Henri Poincaré B , 35 (6), Elsevier : 735–763, Bibcode :1999AIHPB..35..735B, doi :10.1016/S0246-0203(99)00112-0