stringtranslate.com

Intervalo de confianza no paramétrico basado en CDF

En estadística , los intervalos de confianza no paramétricos basados ​​en la función de distribución acumulativa (CDF) son una clase general de intervalos de confianza en torno a las funciones estadísticas de una distribución. Para calcular estos intervalos de confianza, todo lo que se requiere es una muestra distribuida de forma independiente e idéntica (iid) de la distribución y límites conocidos en el soporte de la distribución. El último requisito simplemente significa que toda la masa de probabilidad distinta de cero de la distribución debe estar contenida en algún intervalo conocido .

Intuición

La intuición detrás del enfoque basado en la función de distribución de probabilidad es que los límites de la función de distribución de probabilidad de una distribución se pueden traducir en límites de las funciones estadísticas de esa distribución. Dados un límite superior e inferior de la función de distribución de probabilidad, el enfoque implica encontrar las funciones de distribución de probabilidad dentro de los límites que maximizan y minimizan la función estadística de interés.

Propiedades de los límites

A diferencia de los enfoques que hacen suposiciones asintóticas, incluidos los enfoques bootstrap y aquellos que se basan en el teorema del límite central , los límites basados ​​en la función de distribución de variables son válidos para tamaños de muestra finitos. Y a diferencia de los límites basados ​​en desigualdades como las desigualdades de Hoeffding y McDiarmid , los límites basados ​​en la función de distribución de variables utilizan propiedades de toda la muestra y, por lo tanto, a menudo producen límites significativamente más estrictos.

Límites de CDF

Al producir límites en la CDF, debemos diferenciar entre bandas puntuales y simultáneas .

Ilustración de diferentes límites de la CDF. Esto muestra los límites de la CDF generados a partir de una muestra aleatoria de 30 puntos. La línea violeta son los límites DKW simultáneos que abarcan toda la CDF con un nivel de confianza del 95 %. Las líneas naranjas muestran los límites de Clopper-Pearson puntuales, que solo garantizan puntos individuales con un nivel de confianza del 95 % y, por lo tanto, proporcionan un límite más estricto.

Banda puntual

Un límite de CDF puntual es aquel que solo garantiza su probabilidad de cobertura del porcentaje en cualquier punto individual de la CDF empírica. Debido a las garantías relajadas, estos intervalos pueden ser mucho más pequeños.

Un método para generarlos se basa en la distribución binomial. Si se considera un único punto de una CDF de valor , la distribución empírica en ese punto se distribuirá proporcionalmente a la distribución binomial con y se establecerá igual al número de muestras en la distribución empírica. Por lo tanto, cualquiera de los métodos disponibles para generar un intervalo de confianza de proporción binomial se puede utilizar también para generar un límite de CDF.

Banda Simultánea

Los intervalos de confianza basados ​​en la CDF requieren un límite probabilístico en la CDF de la distribución a partir de la cual se generó la muestra. Existe una variedad de métodos para generar intervalos de confianza para la CDF de una distribución, , dada una muestra iid extraída de la distribución. Todos estos métodos se basan en la función de distribución empírica (CDF empírica). Dada una muestra iid de tamaño  n , , la CDF empírica se define como

donde es el indicador del evento A. La desigualdad de Dvoretzky–Kiefer–Wolfowitz , [1] cuya constante ajustada fue determinada por Massart, [2] coloca un intervalo de confianza alrededor de la estadística de Kolmogorov–Smirnov entre la CDF y la CDF empírica. Dada una muestra iid de tamaño  n de , los estados límite

Esto puede verse como un rango de confianza que corre paralelo a la CDF empírica y se encuentra igualmente por encima y por debajo de ella.

El intervalo que contiene la CDF verdadera, , con probabilidad a menudo se especifica como


Ilustración del límite de la función de distribución de probabilidad empírica que se obtiene utilizando la desigualdad de Dvoretzky-Kiefer-Wolfowitz. La notación indica el estadístico de orden .

El intervalo de confianza igualmente espaciado alrededor de la CDF empírica permite diferentes tasas de violaciones a lo largo del soporte de la distribución. En particular, es más común que una CDF esté fuera del límite de la CDF estimado utilizando la desigualdad de Dvoretzky-Kiefer-Wolfowitz cerca de la mediana de la distribución que cerca de los puntos finales de la distribución. En contraste, el límite basado en las estadísticas de orden introducidas por Learned-Miller y DeStefano [3] permite una tasa de violación igual a lo largo de todas las estadísticas de orden. Esto a su vez da como resultado un límite que es más estricto cerca de los extremos del soporte de la distribución y más flexible en el medio del soporte. Se pueden generar otros tipos de límites variando la tasa de violación de las estadísticas de orden. Por ejemplo, si se desea un límite más estricto en la distribución en la parte superior del soporte, se puede permitir una tasa de violación más alta en la parte superior del soporte a expensas de tener una tasa de violación más baja, y por lo tanto un límite más flexible, para la parte inferior del soporte.

Un límite no paramétrico en la media

Supongamos sin pérdida de generalidad que el soporte de la distribución está contenido en Dado un envolvente de confianza para la CDF de es fácil derivar un intervalo de confianza correspondiente para la media de . Se puede demostrar [4] que la CDF que maximiza la media es la que corre a lo largo del envolvente de confianza inferior, , y la CDF que minimiza la media es la que corre a lo largo del envolvente superior, . Utilizando la identidad

El intervalo de confianza para la media se puede calcular como

Un límite no paramétrico en la varianza

Supongamos sin pérdida de generalidad que el soporte de la distribución de interés, , está contenido en . Dada una envolvente de confianza para , se puede demostrar [5] que la CDF dentro de la envolvente que minimiza la varianza comienza en la envolvente inferior, tiene una discontinuidad de salto hacia la envolvente superior y luego continúa a lo largo de la envolvente superior. Además, se puede demostrar que esta CDF que minimiza la varianza, F', debe satisfacer la restricción de que la discontinuidad de salto ocurre en . La CDF que maximiza la varianza comienza en la envolvente superior, pasa horizontalmente a la envolvente inferior y luego continúa a lo largo de la envolvente inferior. Romano y Wolf proporcionan algoritmos explícitos para calcular estas CDF que maximizan y minimizan la varianza. [5]

Límites de otras funciones estadísticas

El marco basado en CDF para generar intervalos de confianza es muy general y se puede aplicar a una variedad de otras funciones estadísticas, incluidas

Véase también

Referencias

  1. ^ A., Dvoretzky; Kiefer, J.; Wolfowitz, J. (1956). "Carácter minimax asintótico de la función de distribución muestral y del estimador multinomial clásico". Anales de estadística matemática . 27 (3): 642–669. doi : 10.1214/aoms/1177728174 .
  2. ^ Massart, P. (1990). "La constante estrecha en la desigualdad de Dvoretzky–Kiefer–Wolfowitz". Anales de probabilidad . 18 (3): 1269–1283. doi : 10.1214/aop/1176990746 .
  3. ^ ab Learned-Miller, E.; DeStefano, J. (2008). "Un límite superior probabilístico en la entropía diferencial". IEEE Transactions on Information Theory . 54 (11): 5223–5230. arXiv : cs/0504091 . doi :10.1109/tit.2008.929937. S2CID  1696031.
  4. ^ Anderson, TW (1969). "Límites de confianza para el valor de una variable aleatoria arbitraria acotada con una función de distribución continua". Boletín del Instituto Internacional y Estadístico . 43 : 249–251.
  5. ^ ab Romano, JP; M., Wolf (2002). "Intervalos de confianza no paramétricos explícitos para la varianza con cobertura garantizada". Communications in Statistics - Theory and Methods . 31 (8): 1231–1250. CiteSeerX 10.1.1.202.3170 . doi :10.1081/sta-120006065. S2CID  14330754. 
  6. ^ VanderKraats, ND; Banerjee, A. (2011). "Un límite inferior probabilístico de información mutua, libre de distribución y de muestra finita". Neural Computation . 23 (7): 1862–1898. doi :10.1162/neco_a_00144. PMID  21492010. S2CID  1736014.