Función de distribución empírica

En estadística , una función de distribución empírica (comúnmente también llamada función de distribución acumulativa empírica , eCDF) es la función de distribución asociada con la medida empírica de una muestra . ^[1] Esta función de distribución acumulativa es una función escalonada que salta $1/ n$ en cada uno de los $n$ puntos de datos. Su valor en cualquier valor especificado de la variable medida es la fracción de observaciones de la variable medida que son menores o iguales al valor especificado.

La función de distribución empírica es una estimación de la función de distribución acumulativa que generó los puntos en la muestra. Converge con probabilidad 1 a esa distribución subyacente, según el teorema de Glivenko-Cantelli . Existen varios resultados para cuantificar la tasa de convergencia de la función de distribución empírica con la función de distribución acumulativa subyacente.

Definición

Sean $(X 1,\dots, X n)$ variables aleatorias reales independientes, distribuidas idénticamente y con la función de distribución acumulativa común $F (t)$ . Entonces la función de distribución empírica se define como ^[2]

{\widehat {F}}_{n}(t)={\frac {{\mbox{number of elements in the sample}}\leq t}{n}}={\frac {1}{n}}\sum _{i=1}^{n}\mathbf {1} _{X_{i}\leq t},

¿ Dónde está el indicador del evento $A$ ? Para una $t$ fija , el indicador es una variable aleatoria de Bernoulli con parámetro $p$ $=$ $F$ $($ $t$ $)$ ; por lo tanto , es una variable aleatoria binomial con media $nF$ $($ $t$ $)$ y varianza $nF$ $($ $t$ $)(1 -$ $F$ $($ $t$ $))$ . Esto implica que es un estimador insesgado de $F$ $($ $t$ $)$ . $\mathbf {1} _{A}$ $\mathbf {1} _{X_{i}\leq t}$ $n{\widehat {F}}_{n}(t)$ ${\widehat {F}}_{n}(t)$

Sin embargo, en algunos libros de texto, la definición se da como

{\widehat {F}}_{n}(t)={\frac {1}{n+1}}\sum _{i=1}^{n}\mathbf {1} _{X_{i}\leq t}

^[3]^[4]

Significar

La media de la distribución empírica es un estimador insesgado de la media de la distribución poblacional.

E_{n}(X)={\frac {1}{n}}\left(\sum _{i=1}^{n}{x_{i}}\right)

que se denota más comúnmente ${\bar {x}}$

Diferencia

La varianza de los tiempos de distribución empírica es un estimador insesgado de la varianza de la distribución poblacional, para cualquier distribución de X que tenga una varianza finita. ${\tfrac {n}{n-1}}$

{\begin{aligned}\operatorname {Var} (X)&=\operatorname {E} \left[(X-\operatorname {E} [X])^{2}\right]\\[4pt]&=\operatorname {E} \left[(X-{\bar {x}})^{2}\right]\\[4pt]&={\frac {1}{n}}\left(\sum _{i=1}^{n}{(x_{i}-{\bar {x}})^{2}}\right)\end{aligned}}

Error medio cuadrado

El error cuadrático medio para la distribución empírica es el siguiente.

{\begin{aligned}\operatorname {MSE} &={\frac {1}{n}}\sum _{i=1}^{n}(Y_{i}-{\hat {Y_{i}}})^{2}\\[4pt]&=\operatorname {Var} _{\hat {\theta }}({\hat {\theta }})+\operatorname {Bias} ({\hat {\theta }},\theta )^{2}\end{aligned}}

¿Dónde hay un estimador y un parámetro desconocido? ${\hat {\theta }}$ $\theta$

Cuantiles

Para cualquier número real, la notación (léase “techo de a”) denota el mínimo entero mayor o igual a . Para cualquier número real a, la notación (léase “piso de a”) denota el mayor entero menor o igual que . $a$ $\lceil {a}\rceil$ $a$ $\lfloor {a}\rfloor$ $a$

Si no es un número entero, entonces el -ésimo cuantil es único y es igual a $nq$ $q$ $x_{(\lceil {nq}\rceil )}$

Si es un número entero, entonces el -ésimo cuantil no es único y es cualquier número real tal que $nq$ $q$ $x$

x_{({nq})}<x<x_{({nq+1})}

Mediana empírica

Si es impar, entonces la mediana empírica es el número $n$

{\tilde {x}}=x_{(\lceil {n/2}\rceil )}

Si es par, entonces la mediana empírica es el número $n$

{\tilde {x}}={\frac {x_{n/2}+x_{n/2+1}}{2}}

Propiedades asintóticas

Dado que la relación $(n + 1)/ n$ se acerca a 1 cuando $n$ tiende al infinito, las propiedades asintóticas de las dos definiciones dadas anteriormente son las mismas.

Por la fuerte ley de los números grandes , el estimador converge a $F$ $($ $t$ $)$ cuando $n$ $\to \infty$ casi con seguridad , para cada valor de $t$ : ^[2] $\scriptstyle {\widehat {F}}_{n}(t)$

{\widehat {F}}_{n}(t)\ {\xrightarrow {\text{a.s.}}}\ F(t);

por tanto el estimador es consistente . Esta expresión afirma la convergencia puntual de la función de distribución empírica con la verdadera función de distribución acumulativa. Existe un resultado más sólido, llamado teorema de Glivenko-Cantelli , que establece que, de hecho, la convergencia ocurre uniformemente en $t$ : ^[5] $\scriptstyle {\widehat {F}}_{n}(t)$

\|{\widehat {F}}_{n}-F\|_{\infty }\equiv \sup _{t\in \mathbb {R} }{\big |}{\widehat {F}}_{n}(t)-F(t){\big |}\ {\xrightarrow {\text{a.s.}}}\ 0.

La norma superior en esta expresión se denomina estadístico de Kolmogorov-Smirnov para probar la bondad de ajuste entre la distribución empírica y la función de distribución acumulativa verdadera supuesta $F.$ Aquí se pueden utilizar razonablemente otras funciones de norma en lugar de la norma sup. Por ejemplo, la norma L 2 da lugar al estadístico de Cramér-von Mises . $\scriptstyle {\widehat {F}}_{n}(t)$

La distribución asintótica se puede caracterizar de varias maneras diferentes. Primero, el teorema del límite central establece que puntualmente , tiene una distribución asintóticamente normal con la tasa de convergencia estándar: ^[2] $\scriptstyle {\widehat {F}}_{n}(t)$ ${\sqrt {n}}$

{\sqrt {n}}{\big (}{\widehat {F}}_{n}(t)-F(t){\big )}\ \ {\xrightarrow {d}}\ \ {\mathcal {N}}{\Big (}0,F(t){\big (}1-F(t){\big )}{\Big )}.

Este resultado se amplía con el teorema de Donsker , que afirma que el proceso empírico , visto como una función indexada por , converge en distribución en el espacio de Skorokhod con el proceso gaussiano de media cero , donde $B$ es el puente browniano estándar . ^[5] La estructura de covarianza de este proceso gaussiano es $\scriptstyle {\sqrt {n}}({\widehat {F}}_{n}-F)$ $\scriptstyle t\in \mathbb {R}$ $\scriptstyle D[-\infty ,+\infty ]$ $\scriptstyle G_{F}=B\circ F$

\operatorname {E} [\,G_{F}(t_{1})G_{F}(t_{2})\,]=F(t_{1}\wedge t_{2})-F(t_{1})F(t_{2}).

La tasa uniforme de convergencia en el teorema de Donsker se puede cuantificar mediante el resultado conocido como incrustación húngara : ^[6]

\limsup _{n\to \infty }{\frac {\sqrt {n}}{\ln ^{2}n}}{\big \|}{\sqrt {n}}({\widehat {F}}_{n}-F)-G_{F,n}{\big \|}_{\infty }<\infty ,\quad {\text{a.s.}}

Alternativamente, la tasa de convergencia de también se puede cuantificar en términos del comportamiento asintótico de la norma sup de esta expresión. Existe una cantidad de resultados en este lugar, por ejemplo, la desigualdad de Dvoretzky-Kiefer-Wolfowitz proporciona probabilidades limitadas en la cola de : ^[6] $\scriptstyle {\sqrt {n}}({\widehat {F}}_{n}-F)$ $\scriptstyle {\sqrt {n}}\|{\widehat {F}}_{n}-F\|_{\infty }$

\Pr \!{\Big (}{\sqrt {n}}\|{\widehat {F}}_{n}-F\|_{\infty }>z{\Big )}\leq 2e^{-2z^{2}}.

De hecho, Kolmogorov ha demostrado que si la función de distribución acumulativa $F$ es continua, entonces la expresión converge en distribución a , que tiene la distribución de Kolmogorov que no depende de la forma de $F$ . $\scriptstyle {\sqrt {n}}\|{\widehat {F}}_{n}-F\|_{\infty }$ $\scriptstyle \|B\|_{\infty }$

Otro resultado, que se desprende de la ley del logaritmo iterado , es que ^[6]

\limsup _{n\to \infty }{\frac {{\sqrt {n}}\|{\widehat {F}}_{n}-F\|_{\infty }}{\sqrt {2\ln \ln n}}}\leq {\frac {1}{2}},\quad {\text{a.s.}}

\liminf _{n\to \infty }{\sqrt {2n\ln \ln n}}\|{\widehat {F}}_{n}-F\|_{\infty }={\frac {\pi }{2}},\quad {\text{a.s.}}

Intervalos de confianza

Según la desigualdad de Dvoretzky-Kiefer-Wolfowitz, el intervalo que contiene la CDF verdadera, con probabilidad se especifica como $F(x)$ $1-\alpha$

F_{n}(x)-\varepsilon \leq F(x)\leq F_{n}(x)+\varepsilon \;{\text{ where }}\varepsilon ={\sqrt {\frac {\ln {\frac {2}{\alpha }}}{2n}}}.

Según los límites anteriores, podemos trazar el CDF empírico, el CDF y los intervalos de confianza para diferentes distribuciones utilizando cualquiera de las implementaciones estadísticas.

Implementación estadística

Una lista no exhaustiva de implementaciones de software de la función de distribución empírica incluye:

En el software R, calculamos una función de distribución acumulativa empírica, con varios métodos para trazar, imprimir y calcular con dicho objeto "ecdf".
En MATLAB podemos utilizar el gráfico de función de distribución acumulativa empírica (cdf)
jmp de SAS, el gráfico CDF crea un gráfico de la función de distribución acumulativa empírica.
Minitab, cree un CDF empírico
Mathwave, podemos ajustar la distribución de probabilidad a nuestros datos.
Gráfico de datos, podemos trazar un gráfico CDF empírico
Scipy, podemos usar scipy.stats.ecdf
Statsmodels, podemos usar statsmodels.distributions.empirical_distribution.ECDF
Matplotlib, usando la función matplotlib.pyplot.ecdf (nueva en la versión 3.8.0) ^[7]
Seaborn, usando la función seaborn.ecdfplot
Plotly, usando la función plotly.express.ecdf
Excel, podemos trazar un gráfico CDF empírico
ArviZ , usando la función az.plot_ecdf

Ver también

Referencias

^ Una introducción moderna a la probabilidad y la estadística: comprender por qué y cómo. Michel Dekking. Londres: Springer. 2005. pág. 219.ISBN _ 978-1-85233-896-1. OCLC 262680588.{{cite book}}: CS1 maint: others (link)
^ abc van der Vaart, AW (1998). Estadísticas asintóticas . Prensa de la Universidad de Cambridge. pag. 265.ISBN _ 0-521-78450-6.
^ Coles, S. (2001) Introducción al modelado estadístico de valores extremos . Springer, pág. 36, Definición 2.4. ISBN 978-1-4471-3675-0 .
^ Madsen, HO, Krenk, S., Lind, SC (2006) Métodos de seguridad estructural . Publicaciones de Dover. pag. 148-149. ISBN 0486445976
^ ab van der Vaart, AW (1998). Estadísticas asintóticas . Prensa de la Universidad de Cambridge. pag. 266.ISBN _ 0-521-78450-6.
^ abc van der Vaart, AW (1998). Estadísticas asintóticas . Prensa de la Universidad de Cambridge. pag. 268.ISBN _ 0-521-78450-6.
^ "Novedades de Matplotlib 3.8.0 (13 de septiembre de 2023): documentación de Matplotlib 3.8.3".

Otras lecturas

Shorack, GR ; Wellner, JA (1986). Procesos Empíricos con Aplicaciones a la Estadística . Nueva York: Wiley. ISBN 0-471-86725-X.

enlaces externos

Medios relacionados con las funciones de distribución empírica en Wikimedia Commons