Función de distribución empírica

En estadística , una función de distribución empírica (comúnmente también llamada función de distribución acumulativa empírica , eCDF ) es la función de distribución asociada con la medida empírica de una muestra . ^[1] Esta función de distribución acumulativa es una función escalonada que salta en $1/ n$ en cada uno de los $n$ puntos de datos. Su valor en cualquier valor especificado de la variable medida es la fracción de observaciones de la variable medida que son menores o iguales al valor especificado.

La función de distribución empírica es una estimación de la función de distribución acumulativa que generó los puntos de la muestra. Converge con probabilidad 1 a esa distribución subyacente, según el teorema de Glivenko-Cantelli . Existen varios resultados que cuantifican la tasa de convergencia de la función de distribución empírica a la función de distribución acumulativa subyacente.

Definición

Sean $(X 1, \dots, X n)$ variables aleatorias reales independientes , idénticamente distribuidas y con la función de distribución acumulativa común $F (t)$ . Entonces la función de distribución empírica se define como ^[2]

{\widehat {F}}_{n}(t)={\frac {{\mbox{número de elementos en la muestra}}\leq t}{n}}={\frac {1}{n}}\sum _{i=1}^{n}\mathbf {1} _{X_{i}\leq t},

donde es el indicador del evento $A$ . Para un $t$ fijo , el indicador es una variable aleatoria de Bernoulli con parámetro $p$ $=$ $F$ $($ $t$ $)$ ; por lo tanto es una variable aleatoria binomial con media $nF$ $($ $t$ $)$ y varianza $nF$ $($ $t$ $)(1 -$ $F$ $($ $t$ $))$ . Esto implica que es un estimador insesgado para $F$ $($ $t$ $)$ . $\mathbf {1}_{A}$ $\mathbf {1}_{X_{i}\leq t}$ $n{\widehat {F}}_{n}(t)$ ${\widehat {F}}_{n}(t)$

Sin embargo, en algunos libros de texto, la definición se da como

{\widehat {F}}_{n}(t)={\frac {1}{n+1}}\sum _{i=1}^{n}\mathbf {1} _{X_{i}\leq t}

^[3]^[4]

Propiedades asintóticas

Dado que la relación $(n + 1)/ n$ se acerca a 1 cuando $n$ tiende a infinito, las propiedades asintóticas de las dos definiciones que se dan arriba son las mismas.

Por la ley fuerte de los grandes números , el estimador converge a $F$ $($ $t$ $)$ cuando $n$ $\to \infty$ casi con seguridad , para cada valor de $t$ : ^[2] $\scriptstyle {\widehat {F}}_{n}(t)$

{\widehat {F}}_{n}(t)\ {\xrightarrow {\text{como}}}\ F(t);

Por lo tanto, el estimador es consistente . Esta expresión afirma la convergencia puntual de la función de distribución empírica a la verdadera función de distribución acumulativa. Existe un resultado más contundente, llamado teorema de Glivenko-Cantelli , que afirma que la convergencia, de hecho, ocurre de manera uniforme a lo largo de $t$ : ^[5] $\scriptstyle {\widehat {F}}_{n}(t)$

\|{\widehat {F}}_{n}-F\|_{\infty }\equiv \sup _{t\in \mathbb {R}} {\big |}{\widehat {F}}_{n}(t)-F(t){\big |}\ \xrightarrow {} \ 0.

La norma sup en esta expresión se denomina estadística de Kolmogorov–Smirnov para probar la bondad de ajuste entre la distribución empírica y la función de distribución acumulativa verdadera supuesta $F$ . En este caso, se pueden utilizar razonablemente otras funciones normativas en lugar de la norma sup. Por ejemplo, la norma L 2 da lugar a la estadística de Cramér–von Mises . $\scriptstyle {\widehat {F}}_{n}(t)$

La distribución asintótica se puede caracterizar de varias maneras diferentes. En primer lugar, el teorema del límite central establece que puntualmente , tiene una distribución asintóticamente normal con la tasa estándar de convergencia: ^[2] $\scriptstyle {\widehat {F}}_{n}(t)$ ${\sqrt {n}}$

{\sqrt {n}}{\big (}{\widehat {F}}_{n}(t)-F(t){\big )}\ \ {\xrightarrow {d}}\ \ {\mathcal {N}}{\Big (}0,F(t){\big (}1-F(t){\big )}{\Big )}.

Este resultado se extiende mediante el teorema de Donsker , que afirma que el proceso empírico , visto como una función indexada por , converge en distribución en el espacio de Skorokhod al proceso gaussiano de media cero , donde $B$ es el puente browniano estándar . ^[5] La estructura de covarianza de este proceso gaussiano es $\scriptstyle {\sqrt {n}}({\widehat {F}}_{n}-F)$ $\scriptstyle t\in \mathbb {R}$ $\scriptstyle D[-\infty,+\infty]$ $G_{F}=B\circ F$

\operatorname {E} [\,G_{F}(t_{1})G_{F}(t_{2})\,]=F(t_{1}\wedge t_{2})-F(t_{1})F(t_{2}).

La tasa uniforme de convergencia en el teorema de Donsker se puede cuantificar mediante el resultado conocido como incrustación húngara : ^[6]

\limsup _{n\to \infty }{\frac {\sqrt {n}}{\ln ^{2}n}}{\big \|}{\sqrt {n}}({\widehat {F}}_{n}-F)-G_{F,n}{\big \|}_{\infty }<\infty ,\quad {\text{as}}

Alternativamente, la tasa de convergencia de también se puede cuantificar en términos del comportamiento asintótico de la supranorma de esta expresión. Existen varios resultados en este sentido, por ejemplo, la desigualdad de Dvoretzky-Kiefer-Wolfowitz proporciona un límite en las probabilidades de cola de : ^[6] $\scriptstyle {\sqrt {n}}({\widehat {F}}_{n}-F)$ $\scriptstyle {\sqrt {n}}\|{\widehat {F}}_{n}-F\|_{\infty }$

\Pr \!{\Big (}{\sqrt {n}}\|{\widehat {F}}_{n}-F\|_{\infty }>z{\Big )}\leq 2e^{-2z^{2}}.

De hecho, Kolmogorov ha demostrado que si la función de distribución acumulativa $F$ es continua, entonces la expresión converge en distribución a , que tiene la distribución de Kolmogorov que no depende de la forma de $F$ . $\scriptstyle {\sqrt {n}}\|{\widehat {F}}_{n}-F\|_{\infty }$ $\scriptstyle \|B\|_{\infty }$

Otro resultado, que se desprende de la ley del logaritmo iterado , es que ^[6]

\limsup _{n\to \infty }{\frac {{\sqrt {n}}\|{\widehat {F}}_{n}-F\|_{\infty }}{\sqrt {2\ln \ln n}}}\leq {\frac {1}{2}},\quad {\text{as}}

\liminf _{n\to \infty }{\sqrt {2n\ln \ln n}}\|{\widehat {F}}_{n}-F\|_{\infty }={\frac {\pi }{2}},\quad {\text{as}}

Intervalos de confianza

Según la desigualdad de Dvoretzky-Kiefer-Wolfowitz, el intervalo que contiene la CDF verdadera, , con probabilidad se especifica como ${\estilo de visualización F(x)}$ ${\estilo de visualización 1-\alfa}$

F_{n}(x)-\varepsilon \leq F(x)\leq F_{n}(x)+\varepsilon \;{\text{ donde }}\varepsilon ={\sqrt {\frac {\ln {\frac {2}{\alpha }}}{2n}}}.

Según los límites anteriores, podemos trazar la CDF empírica, la CDF y los intervalos de confianza para diferentes distribuciones utilizando cualquiera de las implementaciones estadísticas.

Implementación estadística

Una lista no exhaustiva de implementaciones de software de la función de distribución empírica incluye:

En el software R, calculamos una función de distribución acumulativa empírica, con varios métodos para graficar, imprimir y calcular con dicho objeto “ecdf”.
En MATLAB podemos utilizar el gráfico de función de distribución acumulativa (cdf) empírica
jmp de SAS, el gráfico CDF crea un gráfico de la función de distribución acumulativa empírica.
Minitab, crear una CDF empírica
Mathwave, podemos ajustar la distribución de probabilidad a nuestros datos
Diagrama de datos, podemos trazar un gráfico CDF empírico
Scipy, podemos usar scipy.stats.ecdf
Statsmodels, podemos utilizar statsmodels.distributions.empirical_distribution.ECDF
Matplotlib, utilizando la función matplotlib.pyplot.ecdf (nueva en la versión 3.8.0) ^[7]
Seaborn, utilizando la función seaborn.ecdfplot
Plotly, utilizando la función plotly.express.ecdf
Excel, podemos trazar un gráfico de CDF empírico
ArviZ , utilizando la función az.plot_ecdf

Véase también

Referencias

^ Una introducción moderna a la probabilidad y la estadística: entender por qué y cómo. Michel Dekking. Londres: Springer. 2005. pág. 219. ISBN 978-1-85233-896-1.OCLC 262680588 .{{cite book}}: Mantenimiento de CS1: otros ( enlace )
^ abc van der Vaart, AW (1998). Estadística asintótica . Cambridge University Press. pág. 265. ISBN 0-521-78450-6.
^ Coles, S. (2001) Introducción al modelado estadístico de valores extremos . Springer, pág. 36, Definición 2.4. ISBN 978-1-4471-3675-0 .
^ Madsen, HO, Krenk, S., Lind, SC (2006) Métodos de seguridad estructural . Publicaciones de Dover. pág. 148-149. ISBN 0486445976
^ ab van der Vaart, AW (1998). Estadística asintótica . Cambridge University Press. pág. 266. ISBN 0-521-78450-6.
^ abc van der Vaart, AW (1998). Estadística asintótica . Cambridge University Press. pág. 268. ISBN 0-521-78450-6.
^ "Novedades en Matplotlib 3.8.0 (13 de septiembre de 2023) — Documentación de Matplotlib 3.8.3".

Lectura adicional

Shorack, GR ; Wellner, JA (1986). Procesos empíricos con aplicaciones a la estadística . Nueva York: Wiley. ISBN 0-471-86725-X.

Enlaces externos

Medios relacionados con Funciones de distribución empírica en Wikimedia Commons