En estadística , los intervalos de confianza no paramétricos basados en la función de distribución acumulativa (CDF) son una clase general de intervalos de confianza en torno a las funciones estadísticas de una distribución. Para calcular estos intervalos de confianza, todo lo que se requiere es una muestra distribuida de forma independiente e idéntica (iid) de la distribución y límites conocidos en el soporte de la distribución. El último requisito simplemente significa que toda la masa de probabilidad distinta de cero de la distribución debe estar contenida en algún intervalo conocido .
La intuición detrás del enfoque basado en la función de distribución de probabilidad es que los límites de la función de distribución de probabilidad de una distribución se pueden traducir en límites de las funciones estadísticas de esa distribución. Dados un límite superior e inferior de la función de distribución de probabilidad, el enfoque implica encontrar las funciones de distribución de probabilidad dentro de los límites que maximizan y minimizan la función estadística de interés.
A diferencia de los enfoques que hacen suposiciones asintóticas, incluidos los enfoques bootstrap y aquellos que se basan en el teorema del límite central , los límites basados en la función de distribución de variables son válidos para tamaños de muestra finitos. Y a diferencia de los límites basados en desigualdades como las desigualdades de Hoeffding y McDiarmid , los límites basados en la función de distribución de variables utilizan propiedades de toda la muestra y, por lo tanto, a menudo producen límites significativamente más estrictos.
Al producir límites en la CDF, debemos diferenciar entre bandas puntuales y simultáneas .
Un límite de CDF puntual es aquel que solo garantiza su probabilidad de cobertura del porcentaje en cualquier punto individual de la CDF empírica. Debido a las garantías relajadas, estos intervalos pueden ser mucho más pequeños.
Un método para generarlos se basa en la distribución binomial. Si se considera un único punto de una CDF de valor , la distribución empírica en ese punto se distribuirá proporcionalmente a la distribución binomial con y se establecerá igual al número de muestras en la distribución empírica. Por lo tanto, cualquiera de los métodos disponibles para generar un intervalo de confianza de proporción binomial se puede utilizar también para generar un límite de CDF.
Los intervalos de confianza basados en la CDF requieren un límite probabilístico en la CDF de la distribución a partir de la cual se generó la muestra. Existe una variedad de métodos para generar intervalos de confianza para la CDF de una distribución, , dada una muestra iid extraída de la distribución. Todos estos métodos se basan en la función de distribución empírica (CDF empírica). Dada una muestra iid de tamaño n , , la CDF empírica se define como
donde es el indicador del evento A. La desigualdad de Dvoretzky–Kiefer–Wolfowitz , [1] cuya constante ajustada fue determinada por Massart, [2] coloca un intervalo de confianza alrededor de la estadística de Kolmogorov–Smirnov entre la CDF y la CDF empírica. Dada una muestra iid de tamaño n de , los estados límite
Esto puede verse como un rango de confianza que corre paralelo a la CDF empírica y se encuentra igualmente por encima y por debajo de ella.
El intervalo que contiene la CDF verdadera, , con probabilidad a menudo se especifica como
El intervalo de confianza igualmente espaciado alrededor de la CDF empírica permite diferentes tasas de violaciones a lo largo del soporte de la distribución. En particular, es más común que una CDF esté fuera del límite de la CDF estimado utilizando la desigualdad de Dvoretzky-Kiefer-Wolfowitz cerca de la mediana de la distribución que cerca de los puntos finales de la distribución. En contraste, el límite basado en las estadísticas de orden introducidas por Learned-Miller y DeStefano [3] permite una tasa de violación igual a lo largo de todas las estadísticas de orden. Esto a su vez da como resultado un límite que es más estricto cerca de los extremos del soporte de la distribución y más flexible en el medio del soporte. Se pueden generar otros tipos de límites variando la tasa de violación de las estadísticas de orden. Por ejemplo, si se desea un límite más estricto en la distribución en la parte superior del soporte, se puede permitir una tasa de violación más alta en la parte superior del soporte a expensas de tener una tasa de violación más baja, y por lo tanto un límite más flexible, para la parte inferior del soporte.
Supongamos sin pérdida de generalidad que el soporte de la distribución está contenido en Dado un envolvente de confianza para la CDF de es fácil derivar un intervalo de confianza correspondiente para la media de . Se puede demostrar [4] que la CDF que maximiza la media es la que corre a lo largo del envolvente de confianza inferior, , y la CDF que minimiza la media es la que corre a lo largo del envolvente superior, . Utilizando la identidad
El intervalo de confianza para la media se puede calcular como
Supongamos sin pérdida de generalidad que el soporte de la distribución de interés, , está contenido en . Dada una envolvente de confianza para , se puede demostrar [5] que la CDF dentro de la envolvente que minimiza la varianza comienza en la envolvente inferior, tiene una discontinuidad de salto hacia la envolvente superior y luego continúa a lo largo de la envolvente superior. Además, se puede demostrar que esta CDF que minimiza la varianza, F', debe satisfacer la restricción de que la discontinuidad de salto ocurre en . La CDF que maximiza la varianza comienza en la envolvente superior, pasa horizontalmente a la envolvente inferior y luego continúa a lo largo de la envolvente inferior. Romano y Wolf proporcionan algoritmos explícitos para calcular estas CDF que maximizan y minimizan la varianza. [5]
El marco basado en CDF para generar intervalos de confianza es muy general y se puede aplicar a una variedad de otras funciones estadísticas, incluidas