Función de distribución acumulativa

En teoría de probabilidad y estadística , la función de distribución acumulativa ( CDF ) de una variable aleatoria de valor real , o simplemente función de distribución de , evaluada en , es la probabilidad de que tome un valor menor o igual a . ^[1] $X$ $X$ $x$ $X$ $x$

Cada distribución de probabilidad basada en números reales, discreta o "mixta", así como continua , se identifica de forma única mediante una función creciente monótona continua por la derecha (una función càdlàg ) que satisface y . $F\colon \mathbb {R} \rightarrow [0,1]$ $\lim _{x\rightarrow -\infty }F(x)=0$ $\lim _{x\rightarrow \infty }F(x)=1$

En el caso de una distribución escalar continua , da el área bajo la función de densidad de probabilidad desde el infinito negativo hasta . Las funciones de distribución acumulativa también se utilizan para especificar la distribución de variables aleatorias multivariadas . $x$

Definición

La función de distribución acumulativa de una variable aleatoria de valor real es la función dada por ^[2]^{: p.}⁷⁷ $X$

donde el lado derecho representa la probabilidad de que la variable aleatoria tome un valor menor o igual a . $X$ $x$

La probabilidad de que se encuentre en el intervalo semicerrado , donde , es por tanto ^[2]^{: p.}⁸⁴ $X$ $(a,b]$ $a<b$

En la definición anterior, el signo "menor o igual a", "≤", es una convención, no una de uso universal (por ejemplo, la literatura húngara usa "<"), pero la distinción es importante para distribuciones discretas. El uso adecuado de tablas de distribuciones binomial y de Poisson depende de esta convención. Además, fórmulas importantes como la fórmula de inversión de Paul Lévy para la función característica también se basan en la formulación "menor o igual".

Si se tratan varias variables aleatorias, etc., las letras correspondientes se utilizan como subíndices, mientras que, si se trata solo una, generalmente se omite el subíndice. Es convencional utilizar mayúsculas para una función de distribución acumulativa, en contraste con las minúsculas utilizadas para las funciones de densidad de probabilidad y funciones de masa de probabilidad . Esto se aplica cuando se habla de distribuciones generales: algunas distribuciones específicas tienen su propia notación convencional, por ejemplo, la distribución normal usa y en lugar de y , respectivamente. $X,Y,\ldots$ $F$ $f$ $\Phi$ $\phi$ $F$ $f$

La función de densidad de probabilidad de una variable aleatoria continua se puede determinar a partir de la función de distribución acumulativa diferenciando ^[3] usando el Teorema Fundamental del Cálculo ; es decir, dado , $F(x)$

f(x)={\frac {dF(x)}{dx}}

La CDF de una variable aleatoria continua se puede expresar como la integral de su función de densidad de probabilidad de la siguiente manera: ^[2]^{: p.}⁸⁶ $X$ ${\ Displaystyle f_ {X}}$

F_{X}(x)=\int _{-\infty }^{x}f_{X}(t)\,dt.

En el caso de una variable aleatoria que tiene una distribución que tiene un componente discreto en un valor , $X$ $b$

\operatorname {P} (X=b)=F_{X}(b)-\lim _{x\to b^{-}}F_{X}(x).

Si es continuo en , esto es igual a cero y no hay componente discreto en . $F_{X}$ $b$ $b$

Propiedades

Toda función de distribución acumulativa no es decreciente ^[2]^{: p.}⁷⁸ y continuo a la derecha , ^[2]^{: p.}⁷⁹ lo que la convierte en una función càdlàg . Además, $F_{X}$

\lim _{x\to -\infty }F_{X}(x)=0,\quad \lim _{x\to +\infty }F_{X}(x)=1.

Cada función con estas cuatro propiedades es una CDF, es decir, para cada función, se puede definir una variable aleatoria de modo que la función sea la función de distribución acumulativa de esa variable aleatoria.

Si es una variable aleatoria puramente discreta , entonces alcanza valores con probabilidad , y la CDF de será discontinua en los puntos : $X$ $x_{1},x_{2},\ldots$ $p_{i}=p(x_{i})$ $X$ $x_{i}$

F_{X}(x)=\operatorname {P} (X\leq x)=\sum _{x_{i}\leq x}\operatorname {P} (X=x_{i})=\sum _{x_{i}\leq x}p(x_{i}).

Si la CDF de una variable aleatoria de valor real es continua , entonces es una variable aleatoria continua ; si además es absolutamente continua , entonces existe una función integrable de Lebesgue tal que $F_{X}$ $X$ $X$ $F_{X}$ $f_{X}(x)$

F_{X}(b)-F_{X}(a)=\operatorname {P} (a<X\leq b)=\int _{a}^{b}f_{X}(x)\,dx

derivada casi en todas partes función de densidad de probabilidad

a

b

f_{X}

F_{X}

X

Si tiene una norma L1 finita , es decir, la expectativa de es finita, entonces la expectativa viene dada por la integral de Riemann-Stieltjes $X$ $|X|$

\mathbb {E} [X]=\int _{-\infty }^{\infty }tdF_{X}(t)

x\geq 0

{\begin{aligned}x(1-F_{X}(x))&\leq \int _{x}^{\infty }tdF_{X}(t)\\xF_{X}(-x)&\leq \int _{-\infty }^{-x}(-t)dF_{X}(t)\end{aligned}}

En particular, tenemos

\lim _{x\to -\infty }xF(x)=0,\quad \lim _{x\to +\infty }x(1-F(x))=0.

Ejemplos

Como ejemplo, supongamos que está distribuido uniformemente en el intervalo unitario . $X$ $[0,1]$

Entonces la CDF de está dada por $X$

F_{X}(x)={\begin{cases}0&:\ x<0\\x&:\ 0\leq x\leq 1\\1&:\ x>1\end{cases}}

Supongamos en cambio que toma sólo los valores discretos 0 y 1, con igual probabilidad. $X$

Entonces la CDF de está dada por $X$

F_{X}(x)={\begin{cases}0&:\ x<0\\1/2&:\ 0\leq x<1\\1&:\ x\geq 1\end{cases}}

Supongamos que tiene una distribución exponencial . Entonces la CDF de está dada por $X$ $X$

F_{X}(x;\lambda )={\begin{cases}1-e^{-\lambda x}&x\geq 0,\\0&x<0.\end{cases}}

Aquí λ > 0 es el parámetro de la distribución, a menudo llamado parámetro de tasa.

Supongamos que tiene una distribución normal . Entonces la CDF de está dada por $X$ $X$

F(x;\mu ,\sigma )={\frac {1}{\sigma {\sqrt {2\pi }}}}\int _{-\infty }^{x}\exp \left(-{\frac {(t-\mu )^{2}}{2\sigma ^{2}}}\right)\,dt.

Aquí el parámetro es la media o expectativa de la distribución; y es su desviación estándar. $\mu$ $\sigma$

Una tabla de la CDF de la distribución normal estándar se utiliza a menudo en aplicaciones estadísticas, donde se denomina tabla normal estándar , tabla normal unitaria o tabla Z.

Supongamos que tiene una distribución binomial . Entonces la CDF de está dada por $X$ $X$

F(k;n,p)=\Pr(X\leq k)=\sum _{i=0}^{\lfloor k\rfloor }{n \choose i}p^{i}(1-p)^{n-i}

Aquí está la probabilidad de éxito y la función denota la distribución de probabilidad discreta del número de éxitos en una secuencia de experimentos independientes, y es el "piso" bajo , es decir, el mayor entero menor o igual a . $p$ $n$ $\lfloor k\rfloor$ $k$ $k$

Funciones derivadas

Función de distribución acumulativa complementaria (distribución de cola)

A veces, es útil estudiar la pregunta opuesta y preguntar con qué frecuencia la variable aleatoria está por encima de un nivel particular. Esto se llama elfunción de distribución acumulativa complementaria (ccdf ) o simplemente eldistribución de la cola oexcedencia , y se define como

{\bar {F}}_{X}(x)=\operatorname {P} (X>x)=1-F_{X}(x).

Esto tiene aplicaciones en las pruebas de hipótesis estadísticas , por ejemplo, porque el valor p unilateral es la probabilidad de observar una estadística de prueba al menos tan extrema como la observada. Por lo tanto, siempre que el estadístico de prueba , T , tenga una distribución continua, el valor p unilateral viene dado simplemente por la ccdf: para un valor observado del estadístico de prueba $t$

p=\operatorname {P} (T\geq t)=\operatorname {P} (T>t)=1-F_{T}(t).

En el análisis de supervivencia , se denomina función de supervivencia y se denota , mientras que el término función de confiabilidad es común en ingeniería . ${\bar {F}}_{X}(x)$ $S(x)$

Propiedades

Para una variable aleatoria continua no negativa que tiene una expectativa, la desigualdad de Markov establece que ^[4] ${\bar {F}}_{X}(x)\leq {\frac {\operatorname {E} (X)}{x}}.$
Como , y de hecho siempre que sea finito. Prueba: ^[^{cita necesaria}^] Suponiendo que tiene una función de densidad , para cualquier $x\to \infty ,{\bar {F}}_{X}(x)\to 0$ ${\bar {F}}_{X}(x)=o(1/x)$ $\operatorname {E} (X)$

$X$ $f_{X}$ $c>0$ $\operatorname {E} (X)=\int _{0}^{\infty }xf_{X}(x)\,dx\geq \int _{0}^{c}xf_{X}(x)\,dx+c\int _{c}^{\infty }f_{X}(x)\,dx$ Luego, al reconocer ${\bar {F}}_{X}(c)=\int _{c}^{\infty }f_{X}(x)\,dx$ y reorganizar términos, $0\leq c{\bar {F}}_{X}(c)\leq \operatorname {E} (X)-\int _{0}^{c}xf_{X}(x)\,dx\to 0{\text{ as }}c\to \infty$ como se afirma.
Para una variable aleatoria que tiene una expectativa, $\operatorname {E} (X)=\int _{0}^{\infty }{\bar {F}}_{X}(x)\,dx-\int _{-\infty }^{0}F_{X}(x)\,dx$ y para una variable aleatoria no negativa, el segundo término es 0.
Si la variable aleatoria solo puede tomar valores enteros no negativos, esto equivale a $\operatorname {E} (X)=\sum _{n=0}^{\infty }{\bar {F}}_{X}(n).$

Distribución acumulativa plegada

Si bien el gráfico de una distribución acumulativa a menudo tiene forma de S, una ilustración alternativa es la distribución acumulativa plegada o diagrama de montaña , que dobla la mitad superior del gráfico, ^[5]^[6] es decir $F$

F_{\text{fold}}(x)=F(x)1_{\{F(x)\leq 0.5\}}+(1-F(x))1_{\{F(x)>0.5\}}

donde denota la función indicadora y el segundo sumando es la función de supervivencia , utilizándose así dos escalas, una para la pendiente ascendente y otra para la pendiente descendente. Esta forma de ilustración enfatiza la mediana , la dispersión (específicamente, la desviación media absoluta de la mediana ^[7] ) y la asimetría de la distribución o de los resultados empíricos. $1_{\{A\}}$

Función de distribución inversa (función cuantil)

Si el CDF F es estrictamente creciente y continuo, entonces el número real único es tal que . Esto define la función de distribución inversa o función cuantil . $F^{-1}(p),p\in [0,1],$ $x$ $F(x)=p$

Algunas distribuciones no tienen una inversa única (por ejemplo, if for all , lo que hace que sean constantes). En este caso, se puede utilizar la función de distribución inversa generalizada , que se define como $f_{X}(x)=0$ $a<x<b$ $F_{X}$

F^{-1}(p)=\inf\{x\in \mathbb {R} :F(x)\geq p\},\quad \forall p\in [0,1].

Ejemplo 1: La mediana es . $F^{-1}(0.5)$
Ejemplo 2: Poner . Luego llamamos al percentil 95. $\tau =F^{-1}(0.95)$ $\tau$

Algunas propiedades útiles de la cdf inversa (que también se conservan en la definición de la función de distribución inversa generalizada) son:

$F^{-1}$ no es decreciente ^[8]
$F^{-1}(F(x))\leq x$
$F(F^{-1}(p))\geq p$
$F^{-1}(p)\leq x$ si y solo si $p\leq F(x)$
Si tiene una distribución, entonces se distribuye como . Esto se utiliza en la generación de números aleatorios utilizando el método de muestreo de transformación inversa . $Y$ $U[0,1]$ $F^{-1}(Y)$ $F$
Si es una colección de variables aleatorias distribuidas independientes definidas en el mismo espacio muestral, entonces existen variables aleatorias tales que se distribuyen como y con probabilidad 1 para todas . ^[^{cita necesaria}^] $\{X_{\alpha }\}$ $F$ $Y_{\alpha }$ $Y_{\alpha }$ $U[0,1]$ $F^{-1}(Y_{\alpha })=X_{\alpha }$ $\alpha$

La inversa de la CDF se puede utilizar para traducir los resultados obtenidos para la distribución uniforme a otras distribuciones.

Función de distribución empírica

La función de distribución empírica es una estimación de la función de distribución acumulativa que generó los puntos en la muestra. Converge con probabilidad 1 a esa distribución subyacente. Existen varios resultados para cuantificar la tasa de convergencia de la función de distribución empírica con la función de distribución acumulativa subyacente. ^[9]

Caso multivariado

Definición de dos variables aleatorias

Cuando se trata simultáneamente con más de una variable aleatoria, también se puede definir la función de distribución acumulativa conjunta . Por ejemplo, para un par de variables aleatorias , la CDF conjunta viene dada por ^[2]^{: p.}⁸⁹ $X,Y$ $F_{XY}$

donde el lado derecho representa la probabilidad de que la variable aleatoria tome un valor menor o igual a y que tome un valor menor o igual a . $X$ $x$ $Y$ $y$

Ejemplo de función de distribución acumulativa conjunta:

Para dos variables continuas X e Y :

\Pr(a<X<b{\text{ and }}c<Y<d)=\int _{a}^{b}\int _{c}^{d}f(x,y)\,dy\,dx;

Para dos variables aleatorias discretas, es beneficioso generar una tabla de probabilidades y abordar la probabilidad acumulada para cada rango potencial de X e Y , y aquí está el ejemplo: ^[10]

dada la función de masa de probabilidad conjunta en forma tabular, determine la función de distribución acumulativa conjunta.

Solución: utilizando la tabla de probabilidades dada para cada rango potencial de X e Y , la función de distribución acumulativa conjunta se puede construir en forma tabular:

Definición para más de dos variables aleatorias

Para variables aleatorias , la CDF conjunta viene dada por $N$ $X_{1},\ldots ,X_{N}$ $F_{X_{1},\ldots ,X_{N}}$

Interpretar las variables aleatorias como un vector aleatorio produce una notación más corta: $N$ $\mathbf {X} =(X_{1},\ldots ,X_{N})^{T}$

F_{\mathbf {X} }(\mathbf {x} )=\operatorname {P} (X_{1}\leq x_{1},\ldots ,X_{N}\leq x_{N})

Propiedades

Cada CDF multivariante es:

Monótonamente no decreciente para cada una de sus variables,
Continua por la derecha en cada una de sus variables,
$0\leq F_{X_{1}\ldots X_{n}}(x_{1},\ldots ,x_{n})\leq 1,$
$\lim _{x_{1},\ldots ,x_{n}\rightarrow +\infty }F_{X_{1}\ldots X_{n}}(x_{1},\ldots ,x_{n})=1{\text{ and }}\lim _{x_{i}\rightarrow -\infty }F_{X_{1}\ldots X_{n}}(x_{1},\ldots ,x_{n})=0,{\text{for all }}i.$

No todas las funciones que satisfacen las cuatro propiedades anteriores son una CDF multivariada, a diferencia del caso de una sola dimensión. Por ejemplo, let for o or y let else. Es fácil ver que se cumplen las condiciones anteriores, y aun así no es un CDF ya que si lo fuera, entonces como se explica a continuación. $F(x,y)=0$ $x<0$ $x+y<1$ $y<0$ $F(x,y)=1$ $F$ ${\textstyle \operatorname {P} \left({\frac {1}{3}}<X\leq 1,{\frac {1}{3}}<Y\leq 1\right)=-1}$

La probabilidad de que un punto pertenezca a un hiperrectángulo es análoga al caso unidimensional: ^[11]

F_{X_{1},X_{2}}(a,c)+F_{X_{1},X_{2}}(b,d)-F_{X_{1},X_{2}}(a,d)-F_{X_{1},X_{2}}(b,c)=\operatorname {P} (a<X_{1}\leq b,c<X_{2}\leq d)=\int ...

Caso complejo

Variable aleatoria compleja

La generalización de la función de distribución acumulativa de variables aleatorias reales a complejas no es obvia porque las expresiones de la forma no tienen sentido. Sin embargo, las expresiones de la forma tienen sentido. Por lo tanto, definimos la distribución acumulativa de variables aleatorias complejas mediante la distribución conjunta de sus partes real e imaginaria: $P(Z\leq 1+2i)$ $P(\Re {(Z)}\leq 1,\Im {(Z)}\leq 3)$

F_{Z}(z)=F_{\Re {(Z)},\Im {(Z)}}(\Re {(z)},\Im {(z)})=P(\Re {(Z)}\leq \Re {(z)},\Im {(Z)}\leq \Im {(z)}).

Vector aleatorio complejo

La generalización de los rendimientos de la ecuación 4

F_{\mathbf {Z} }(\mathbf {z} )=F_{\Re {(Z_{1})},\Im {(Z_{1})},\ldots ,\Re {(Z_{n})},\Im {(Z_{n})}}(\Re {(z_{1})},\Im {(z_{1})},\ldots ,\Re {(z_{n})},\Im {(z_{n})})=\operatorname {P} (\Re {(Z_{1})}\leq \Re {(z_{1})},\Im {(Z_{1})}\leq \Im {(z_{1})},\ldots ,\Re {(Z_{n})}\leq \Re {(z_{n})},\Im {(Z_{n})}\leq \Im {(z_{n})})

\mathbf {Z} =(Z_{1},\ldots ,Z_{N})^{T}

Uso en análisis estadístico.

El concepto de función de distribución acumulativa aparece explícitamente en el análisis estadístico de dos maneras (similares). El análisis de frecuencia acumulada es el análisis de la frecuencia de ocurrencia de valores de un fenómeno menores que un valor de referencia. La función de distribución empírica es una estimación directa formal de la función de distribución acumulativa para la cual se pueden derivar propiedades estadísticas simples y que puede formar la base de varias pruebas de hipótesis estadísticas . Estas pruebas pueden evaluar si existe evidencia de que una muestra de datos haya surgido de una distribución determinada, o de dos muestras de datos que hayan surgido de la misma distribución de población (desconocida).

Pruebas de Kolmogorov-Smirnov y Kuiper

La prueba de Kolmogorov-Smirnov se basa en funciones de distribución acumulativa y se puede utilizar para comprobar si dos distribuciones empíricas son diferentes o si una distribución empírica es diferente de una distribución ideal. La prueba de Kuiper, estrechamente relacionada , es útil si el dominio de la distribución es cíclico, como en el día de la semana. Por ejemplo, la prueba de Kuiper podría usarse para ver si el número de tornados varía durante el año o si las ventas de un producto varían según el día de la semana o el día del mes.

Ver también

Estadísticas descriptivas
Accesorio de distribución
Ojiva (estadísticas)
La distribución seminormal modificada ^[12] con la función de PDF activada se proporciona como , donde denota la función Psi de Fox-Wright . $(0,\infty )$ $f(x)={\frac {2\beta ^{\frac {\alpha }{2}}x^{\alpha -1}\exp(-\beta x^{2}+\gamma x)}{\Psi {\left({\frac {\alpha }{2}},{\frac {\gamma }{\sqrt {\beta }}}\right)}}}$ $\Psi (\alpha ,z)={}_{1}\Psi _{1}\left({\begin{matrix}\left(\alpha ,{\frac {1}{2}}\right)\\(1,0)\end{matrix}};z\right)$

Referencias

^ Deisenroth, Marc Peter; Faisal, A. Aldo; Ong, Cheng pronto (2020). Matemáticas para el aprendizaje automático. Prensa de la Universidad de Cambridge. pag. 181.ISBN _ 9781108455145.
^ Parque abcdef, Kun Il (2018). Fundamentos de Probabilidad y Procesos Estocásticos con Aplicaciones a las Comunicaciones . Saltador. ISBN 978-3-319-68074-3.
^ Montgomery, Douglas C.; Runger, George C. (2003). Estadística Aplicada y Probabilidad para Ingenieros (PDF) . John Wiley & Sons, Inc. pág. 104.ISBN _ 0-471-20454-4. Archivado (PDF) desde el original el 30 de julio de 2012.
^ Zwillinger, Daniel; Kokoska, Stephen (2010). Tablas y fórmulas de estadística y probabilidad estándar CRC . Prensa CRC. pag. 49.ISBN _ 978-1-58488-059-2.
^ Gentil, JE (2009). Estadística Computacional. Saltador . ISBN 978-0-387-98145-1. Consultado el 6 de agosto de 2010 .^{[ página necesaria ]}
^ Monti, KL (1995). "Curvas de función de distribución empírica plegada (gráficos de montaña)". El estadístico estadounidense . 49 (4): 342–345. doi :10.2307/2684570. JSTOR 2684570.
^ Xue, JH; Titterington, DM (2011). "La función de distribución acumulativa plegada por p y la desviación absoluta media del cuantil p" (PDF) . Cartas de estadística y probabilidad . 81 (8): 1179–1182. doi :10.1016/j.spl.2011.03.014.
^ Chan, Stanley H. (2021). Introducción a la probabilidad para la ciencia de datos. Publicaciones de Michigan. pag. 18.ISBN _ 978-1-60785-746-4.
^ Hesse, C. (1990). "Tasas de convergencia de la función de distribución empírica y la función característica empírica de una amplia clase de procesos lineales". Revista de análisis multivariado . 35 (2): 186–202. doi :10.1016/0047-259X(90)90024-C.
^ "Función de distribución acumulativa conjunta (CDF)". matemáticas.info . Consultado el 11 de diciembre de 2019 .
^ "Copia archivada" (PDF) . www.math.wustl.edu . Archivado desde el original (PDF) el 22 de febrero de 2016 . Consultado el 13 de enero de 2022 .{{cite web}}: CS1 maint: archived copy as title (link)
^ Sol, Jingchao; Kong, Maiying; Pal, Subhadip (22 de junio de 2021). "La distribución seminormal modificada: propiedades y un esquema de muestreo eficiente". Comunicaciones en Estadística - Teoría y Métodos . 52 (5): 1591-1613. doi :10.1080/03610926.2021.1934700. ISSN 0361-0926. S2CID 237919587.

enlaces externos

Medios relacionados con las funciones de distribución acumulativa en Wikimedia Commons