Distribución empírica

En estadística, una función de distribución empírica (comúnmente llamada función de distribución empírica, FDe) es la función de distribución asociada con una medida empírica de una muestra.Su valor en cualquier valor especificado de la variable medida es la fracción de observaciones de la variable medida que son menores o iguales al valor especificado.sean n variables aleatorias reales independientes e idénticamente distribuidas que se distribuyen según la función de distribución acumulativaEn ese caso, la función de distribución empírica se define como[2]​[3]​es una variable aleatoria de Bernoulli con el parámetroSin embargo, en algunos libros de texto, se define alternativamente como:que se denota más comúnmentees un estimador imparcial de la varianza de la distribución poblacional, para cualquier distribución de X que tenga una varianza finita.El error cuadrático medio para la distribución empírica es el siguiente.(léase "techo de a") denota el entero mínimo mayor o igual quePara cualquier número real a, la notación(léase "piso de a") denota el entero mayor menor o igual que-th quantile es único y es igual a-th no es único y es cualquier número realtiende a infinito, las propiedades asintóticas de las dos definiciones que se dan arriba son las mismas.Además, por la ley fuerte de los números grandes, el estimadorcasi con seguridad, para cada valor deEsta expresión establece que hay convergencia puntual de la función de distribución empírica a la verdadera función de distribución acumulativa.Un resultado más lógicamente fuerte, llamado el teorema de Glivenko-Cantelli, establece que la convergencia de hecho ocurre uniformemente sobre t:[6]​La norma del suprmeo en esta expresión se llama estadística de Kolmogorov–Smirnov para la bondad del ajuste entre la distribución empíricay la verdadera función de distribución acumulativa asumidaPuedne usarse otras normas como, por ejemplo, la norma L2, lo que da lugar a la estadística de Cramér-von Mises.La distribución asintótica se puede caracterizar de varias maneras diferentes.En primer lugar, el teorema del límite central establece que pointwise,||left} Este resultado se extiende por el teorema de Donsker, que afirma que el proceso empírico, converge en distribución en el espacio de SkorokhodLa tasa uniforme de convergencia en el teorema de Donsker se puede cuantificar por el resultado conocido como incrustación húngara:[7]​Según desigualdad de Dvoretzky-Kiefer-Wolfowitz el intervalo que contiene el verdadero CDF,se especifica como De acuerdo con los límites anteriores, podemos trazar los intervalos empíricos CDF, CDF y Confidence para diferentes distribuciones utilizando cualquiera de las implementaciones estadísticas.A continuación se muestra la sintaxis de Statsmodel para trazar la distribución empírica.
Gráficos empíricos de CDF, CDF e intervalos de confianza para varios tamaños de muestra de distribución normal
Gráficos empíricos de CDF, CDF e intervalo de confianza para varios tamaños de muestra de la distribución de Cauchy
Gráficos empíricos de CDF, CDF e intervalo de confianza para varios tamaños de muestra de distribución triangular