Función de distribución acumulativa

En teoría de probabilidad y estadística , la función de distribución acumulativa ( CDF ) de una variable aleatoria de valor real , o simplemente función de distribución de , evaluada en , es la probabilidad de que tome un valor menor o igual a . ^[1] ${\estilo de visualización X}$ ${\estilo de visualización X}$ ${\estilo de visualización x}$ ${\estilo de visualización X}$ ${\estilo de visualización x}$

Toda distribución de probabilidad basada en números reales, discreta o "mixta", así como continua , se identifica de forma única mediante una función monótona creciente y continua por la derecha (una función càdlàg ) que satisface y . $F\colon \mathbb {R} \rightarrow [0,1]$ $\lim_{x\rightarrow -\infty}F(x)=0$ $\lim_{x\rightarrow \infty}F(x)=1$

En el caso de una distribución escalar continua , da el área bajo la función de densidad de probabilidad desde el infinito negativo hasta . Las funciones de distribución acumulativa también se utilizan para especificar la distribución de variables aleatorias multivariadas . ${\estilo de visualización x}$

Definición

La función de distribución acumulativa de una variable aleatoria de valor real es la función dada por ^[2]^{: p. 77} ${\estilo de visualización X}$

donde el lado derecho representa la probabilidad de que la variable aleatoria tome un valor menor o igual a . ${\estilo de visualización X}$ ${\estilo de visualización x}$

La probabilidad de que se encuentre en el intervalo semicerrado , donde , es por lo tanto ^[2]^{: p. 84} ${\estilo de visualización X}$ ${\estilo de visualización (a,b]}$ ${\estilo de visualización a<b}$

En la definición anterior, el signo "menor o igual a", "≤", es una convención, no una de uso universal (por ejemplo, la literatura húngara utiliza "<"), pero la distinción es importante para distribuciones discretas. El uso adecuado de las tablas de las distribuciones binomial y de Poisson depende de esta convención. Además, fórmulas importantes como la fórmula de inversión de Paul Lévy para la función característica también se basan en la formulación "menor o igual a".

Si se tratan varias variables aleatorias, etc., las letras correspondientes se utilizan como subíndices, mientras que, si se trata solo de una, el subíndice suele omitirse. Es convencional utilizar una mayúscula para una función de distribución acumulativa, en contraste con las minúsculas utilizadas para las funciones de densidad de probabilidad y las funciones de masa de probabilidad . Esto se aplica cuando se analizan distribuciones generales: algunas distribuciones específicas tienen su propia notación convencional, por ejemplo, la distribución normal utiliza y en lugar de y , respectivamente. $X,Y,\lpuntos$ ${\estilo de visualización F}$ ${\estilo de visualización f}$ ${\estilo de visualización \Phi}$ ${\estilo de visualización \phi}$ ${\estilo de visualización F}$ ${\estilo de visualización f}$

La función de densidad de probabilidad de una variable aleatoria continua se puede determinar a partir de la función de distribución acumulativa diferenciando ^[3] utilizando el Teorema Fundamental del Cálculo ; es decir, dado , siempre que exista la derivada. ${\estilo de visualización F(x)}$ $f(x)={\frac {dF(x)}{dx}}$

La CDF de una variable aleatoria continua se puede expresar como la integral de su función de densidad de probabilidad de la siguiente manera: ^[2]^{: p. 86} ${\estilo de visualización X}$ $Estilo de visualización f_ {X}}$ $F_{X}(x)=\int _{-\infty }^{x}f_{X}(t)\,dt.$

En el caso de una variable aleatoria que tiene una distribución que tiene un componente discreto en un valor , ${\estilo de visualización X}$ ${\estilo de visualización b}$ $\operatorname {P}(X=b)=F_{X}(b)-\lim _{x\to b^{-}}F_{X}(x).$

Si es continua en , esto es igual a cero y no hay ningún componente discreto en . $Estilo de visualización F_ {X}}$ ${\estilo de visualización b}$ ${\estilo de visualización b}$

Propiedades

Toda función de distribución acumulativa es no decreciente ^[2]^{: p. 78} y continua por la derecha ^[2]^{: p. 79,} lo que la convierte en una función càdlàg . Además, $Estilo de visualización F_ {X}}$ $\lim _{x\to -\infty }F_{X}(x)=0,\quad \lim _{x\to +\infty }F_{X}(x)=1.$

Cada función con estas tres propiedades es una CDF, es decir, para cada una de estas funciones se puede definir una variable aleatoria tal que la función sea la función de distribución acumulativa de esa variable aleatoria.

Si es una variable aleatoria puramente discreta , entonces alcanza valores con probabilidad y la CDF de será discontinua en los puntos : ${\estilo de visualización X}$ $x_{1},x_{2},\lpuntos$ $p_{i}=p(x_{i})$ ${\estilo de visualización X}$ $Estilo de visualización x_{i}}$ $F_{X}(x)=\operatorname {P} (X\leq x)=\sum _{x_{i}\leq x}\operatorname {P} (X=x_{i})=\sum _{x_{i}\leq x}p(x_{i}).$

Si la CDF de una variable aleatoria de valor real es continua , entonces es una variable aleatoria continua ; si además es absolutamente continua , entonces existe una función integrable de Lebesgue tal que para todos los números reales y . La función es igual a la derivada de casi en todas partes , y se denomina función de densidad de probabilidad de la distribución de . $Estilo de visualización F_ {X}}$ ${\estilo de visualización X}$ ${\estilo de visualización X}$ $Estilo de visualización F_ {X}}$ $Estilo de visualización f_{X}(x)}$ $F_{X}(b)-F_{X}(a)=\nombre del operador {P} (a<X\leq b)=\int _{a}^{b}f_{X}(x)\,dx$ ${\estilo de visualización a}$ ${\estilo de visualización b}$ $Estilo de visualización f_ {X}}$ $Estilo de visualización F_ {X}}$ ${\estilo de visualización X}$

Si tiene una norma L1 finita , es decir, la esperanza de es finita, entonces la esperanza está dada por la integral de Riemann-Stieltjes ${\estilo de visualización X}$ ${\estilo de visualización |X|}$ $\mathbb {E}[X]=\int _{-\infty }^{\infty }t\,dF_{X}(t)$

y para cualquier , así como como se muestra en el diagrama (considere las áreas de los dos rectángulos rojos y sus extensiones hacia la derecha o izquierda hasta el gráfico de ). En particular, tenemos Además, el valor esperado (finito) de la variable aleatoria de valor real se puede definir en el gráfico de su función de distribución acumulativa como se ilustra en el dibujo en la definición de valor esperado para variables aleatorias de valor real arbitrarias . $x\geq 0$ $x(1-F_{X}(x))\leq \int _{x}^{\infty }t\,dF_{X}(t)$ $xF_{X}(-x)\leq \int _{-\infty }^{-x}(-t)\,dF_{X}(t)$ $Estilo de visualización F_ {X}}$ $\lim _{x\to -\infty }xF_{X}(x)=0,\quad \lim _{x\to +\infty }x(1-F_{X}(x))=0.$ ${\estilo de visualización X}$

Ejemplos

A modo de ejemplo, supongamos que se distribuye uniformemente en el intervalo unitario . ${\estilo de visualización X}$ ${\estilo de visualización [0,1]}$

Entonces la CDF de está dada por ${\estilo de visualización X}$ $F_{X}(x)={\begin{cases}0&:\ x<0\\x&:\ 0\leq x\leq 1\\1&:\ x>1\end{cases}}$

Supongamos, en cambio, que toma sólo los valores discretos 0 y 1, con igual probabilidad. ${\estilo de visualización X}$

Entonces la CDF de está dada por ${\estilo de visualización X}$ $F_{X}(x)={\begin{cases}0&:\ x<0\\1/2&:\ 0\leq x<1\\1&:\ x\geq 1\end{cases}}$

Supongamos que se distribuye exponencialmente . Entonces, la CDF de está dada por ${\estilo de visualización X}$ ${\estilo de visualización X}$ $F_{X}(x;\lambda )={\begin{cases}1-e^{-\lambda x}&x\geq 0,\\0&x<0.\end{cases}}$

Aquí λ > 0 es el parámetro de la distribución, a menudo llamado parámetro de velocidad.

Supongamos que se distribuye normalmente . Entonces la CDF de está dada por ${\estilo de visualización X}$ ${\estilo de visualización X}$ $F(x;\mu,\sigma)={\frac {1}{\sigma {\sqrt {2\pi}}}}\int _{-\infty }^{t}\exp \left(-{\frac {(x-\mu)^{2}}{2\sigma ^{2}}}\right)\,dx.$

Aquí el parámetro es la media o expectativa de la distribución; y es su desviación estándar. ${\estilo de visualización \mu}$ ${\estilo de visualización \sigma}$

Una tabla de la CDF de la distribución normal estándar se utiliza a menudo en aplicaciones estadísticas, donde se denomina tabla normal estándar , tabla normal unitaria o tabla Z.

Supongamos que se distribuye binomialmente . Entonces la CDF de está dada por ${\estilo de visualización X}$ ${\estilo de visualización X}$ $F(k;n,p)=\Pr(X\leq k)=\sum _{i=0}^{\lfloor k\rfloor }{n \choose i}p^{i}(1-p)^{n-i}$

Aquí está la probabilidad de éxito y la función denota la distribución de probabilidad discreta del número de éxitos en una secuencia de experimentos independientes, y es el "piso" debajo de , es decir, el mayor entero menor o igual a . $p$ $n$ $\lfloor k\rfloor$ $k$ $k$

Funciones derivadas

Función de distribución acumulativa complementaria (distribución de cola)

A veces, resulta útil estudiar la cuestión opuesta y preguntar con qué frecuencia la variable aleatoria se encuentra por encima de un nivel determinado. Esto se denominafunción de distribución acumulativa complementaria (ccdf ) o simplemente eldistribución de la cola oexcedencia , y se define como ${\bar {F}}_{X}(x)=\operatorname {P} (X>x)=1-F_{X}(x).$

Esto tiene aplicaciones en las pruebas de hipótesis estadísticas , por ejemplo, porque el valor p unilateral es la probabilidad de observar un estadístico de prueba al menos tan extremo como el observado. Por lo tanto, siempre que el estadístico de prueba , T , tenga una distribución continua, el valor p unilateral viene dado simplemente por la función de distribución continua de correspondencia: para un valor observado del estadístico de prueba $t$ $p=\operatorname {P} (T\geq t)=\operatorname {P} (T>t)=1-F_{T}(t).$

En el análisis de supervivencia , se denomina función de supervivencia y se denota , mientras que el término función de confiabilidad es común en ingeniería . ${\bar {F}}_{X}(x)$ $S(x)$

Propiedades

Para una variable aleatoria continua no negativa que tiene una expectativa, la desigualdad de Markov establece que ^[4] ${\bar {F}}_{X}(x)\leq {\frac {\operatorname {E} (X)}{x}}.$
Como , y de hecho siempre que sea finito. Prueba: ^[^{cita requerida}^] Suponiendo que tiene una función de densidad , para cualquier Entonces, al reconocer y reordenar términos, como se afirma. $x\to \infty ,{\bar {F}}_{X}(x)\to 0$ ${\bar {F}}_{X}(x)=o(1/x)$ $\operatorname {E} (X)$

$X$ $f_{X}$ $c>0$ $\operatorname {E} (X)=\int _{0}^{\infty }xf_{X}(x)\,dx\geq \int _{0}^{c}xf_{X}(x)\,dx+c\int _{c}^{\infty }f_{X}(x)\,dx$ ${\bar {F}}_{X}(c)=\int _{c}^{\infty }f_{X}(x)\,dx$ $0\leq c{\bar {F}}_{X}(c)\leq \operatorname {E} (X)-\int _{0}^{c}xf_{X}(x)\,dx\to 0{\text{ as }}c\to \infty$
Para una variable aleatoria que tiene una expectativa, y para una variable aleatoria no negativa, el segundo término es 0. Si la variable aleatoria solo puede tomar valores enteros no negativos, esto es equivalente a $\operatorname {E} (X)=\int _{0}^{\infty }{\bar {F}}_{X}(x)\,dx-\int _{-\infty }^{0}F_{X}(x)\,dx$
$\operatorname {E} (X)=\sum _{n=0}^{\infty }{\bar {F}}_{X}(n).$

Distribución acumulativa plegada

Si bien el gráfico de una distribución acumulativa a menudo tiene forma de S, una ilustración alternativa es la distribución acumulativa plegada o gráfico de montaña , que pliega la mitad superior del gráfico, ^[5]^[6] es decir $F$

F_{\text{fold}}(x)=F(x)1_{\{F(x)\leq 0.5\}}+(1-F(x))1_{\{F(x)>0.5\}}

donde denota la función indicadora y el segundo sumando es la función superviviente , por lo que se utilizan dos escalas, una para la pendiente ascendente y otra para la descendente. Esta forma de ilustración enfatiza la mediana , la dispersión (específicamente, la desviación absoluta media de la mediana ^[7] ) y la asimetría de la distribución o de los resultados empíricos. $1_{\{A\}}$

Función de distribución inversa (función cuantil)

Si la CDF F es estrictamente creciente y continua, entonces es el único número real tal que . Esto define la función de distribución inversa o función cuantil . $F^{-1}(p),p\in [0,1],$ $x$ $F(x)=p$

Algunas distribuciones no tienen una única inversa (por ejemplo, si para todos , lo que hace que sea constante). En este caso, se puede utilizar la función de distribución inversa generalizada , que se define como $f_{X}(x)=0$ $a<x<b$ $F_{X}$

F^{-1}(p)=\inf\{x\in \mathbb {R} :F(x)\geq p\},\quad \forall p\in [0,1].

Ejemplo 1: La mediana es . $F^{-1}(0.5)$
Ejemplo 2: Ponemos . Entonces lo llamamos percentil 95. $\tau =F^{-1}(0.95)$ $\tau$

Algunas propiedades útiles de la función de distribución inversa inversa (que también se conservan en la definición de la función de distribución inversa generalizada) son:

$F^{-1}$ no es decreciente ^[8]
$F^{-1}(F(x))\leq x$
$F(F^{-1}(p))\geq p$
$F^{-1}(p)\leq x$ Si y sólo si $p\leq F(x)$
Si tiene una distribución, entonces se distribuye como . Esto se utiliza en la generación de números aleatorios mediante el método de muestreo por transformada inversa . $Y$ $U[0,1]$ $F^{-1}(Y)$ $F$
Si es una colección de variables aleatorias distribuidas de forma independiente definidas en el mismo espacio muestral, entonces existen variables aleatorias tales que se distribuyen como y con probabilidad 1 para todos . ^[^{cita requerida}^] $\{X_{\alpha }\}$ $F$ $Y_{\alpha }$ $Y_{\alpha }$ $U[0,1]$ $F^{-1}(Y_{\alpha })=X_{\alpha }$ $\alpha$

La inversa de la función de distribución acumulativa se puede utilizar para traducir los resultados obtenidos para la distribución uniforme a otras distribuciones.

Función de distribución empírica

La función de distribución empírica es una estimación de la función de distribución acumulativa que generó los puntos de la muestra. Converge con probabilidad 1 a esa distribución subyacente. Existen varios resultados que cuantifican la tasa de convergencia de la función de distribución empírica a la función de distribución acumulativa subyacente. ^[9]

Caso multivariado

Definición de dos variables aleatorias

Cuando se trabaja simultáneamente con más de una variable aleatoria , también se puede definir la función de distribución acumulativa conjunta . Por ejemplo, para un par de variables aleatorias , la CDF conjunta viene dada por ^[2]^{: p. 89} $X,Y$ $F_{XY}$

donde el lado derecho representa la probabilidad de que la variable aleatoria tome un valor menor o igual a y que tome un valor menor o igual a . $X$ $x$ $Y$ $y$

Ejemplo de función de distribución acumulativa conjunta:

Para dos variables continuas X e Y : $\Pr(a<X<b{\text{ and }}c<Y<d)=\int _{a}^{b}\int _{c}^{d}f(x,y)\,dy\,dx;$

Para dos variables aleatorias discretas, es beneficioso generar una tabla de probabilidades y abordar la probabilidad acumulada para cada rango potencial de X e Y , y aquí está el ejemplo: ^[10]

Dada la función de masa de probabilidad conjunta en forma tabular, determine la función de distribución acumulativa conjunta.

Solución: utilizando la tabla de probabilidades dada para cada rango potencial de X e Y , la función de distribución acumulativa conjunta se puede construir en forma tabular:

Definición para más de dos variables aleatorias

Para las variables aleatorias , la CDF conjunta viene dada por $N$ $X_{1},\ldots ,X_{N}$ $F_{X_{1},\ldots ,X_{N}}$

Interpretar las variables aleatorias como un vector aleatorio produce una notación más corta: $N$ $\mathbf {X} =(X_{1},\ldots ,X_{N})^{T}$ $F_{\mathbf {X} }(\mathbf {x} )=\operatorname {P} (X_{1}\leq x_{1},\ldots ,X_{N}\leq x_{N})$

Propiedades

Cada CDF multivariante es:

Monótonamente no decreciente para cada una de sus variables,
Derecha-continua en cada una de sus variables,
$0\leq F_{X_{1}\ldots X_{n}}(x_{1},\ldots ,x_{n})\leq 1,$
$\lim _{x_{1},\ldots ,x_{n}\rightarrow +\infty }F_{X_{1}\ldots X_{n}}(x_{1},\ldots ,x_{n})=1{\text{ and }}\lim _{x_{i}\rightarrow -\infty }F_{X_{1}\ldots X_{n}}(x_{1},\ldots ,x_{n})=0,{\text{for all }}i.$

No todas las funciones que satisfacen las cuatro propiedades anteriores son una CDF multivariable, a diferencia del caso de dimensión única. Por ejemplo, sea para o o y sea en caso contrario. Es fácil ver que se cumplen las condiciones anteriores, y sin embargo no es una CDF ya que si lo fuera, entonces, como se explica a continuación. $F(x,y)=0$ $x<0$ $x+y<1$ $y<0$ $F(x,y)=1$ $F$ ${\textstyle \operatorname {P} \left({\frac {1}{3}}<X\leq 1,{\frac {1}{3}}<Y\leq 1\right)=-1}$

La probabilidad de que un punto pertenezca a un hiperrectángulo es análoga al caso unidimensional: ^[11] $F_{X_{1},X_{2}}(a,c)+F_{X_{1},X_{2}}(b,d)-F_{X_{1},X_{2}}(a,d)-F_{X_{1},X_{2}}(b,c)=\operatorname {P} (a<X_{1}\leq b,c<X_{2}\leq d)=\int ...$

Caso complejo

Variable aleatoria compleja

La generalización de la función de distribución acumulativa de variables aleatorias reales a complejas no es obvia porque las expresiones de la forma no tienen sentido. Sin embargo, las expresiones de la forma sí tienen sentido. Por lo tanto, definimos la distribución acumulativa de una variable aleatoria compleja a través de la distribución conjunta de sus partes reales e imaginarias: $P(Z\leq 1+2i)$ $P(\Re {(Z)}\leq 1,\Im {(Z)}\leq 3)$ $F_{Z}(z)=F_{\Re {(Z)},\Im {(Z)}}(\Re {(z)},\Im {(z)})=P(\Re {(Z)}\leq \Re {(z)},\Im {(Z)}\leq \Im {(z)}).$

Vector aleatorio complejo

La generalización de la ecuación 4 da como resultado una definición para el CDS de un vector aleatorio complejo . $F_{\mathbf {Z} }(\mathbf {z} )=F_{\Re {(Z_{1})},\Im {(Z_{1})},\ldots ,\Re {(Z_{n})},\Im {(Z_{n})}}(\Re {(z_{1})},\Im {(z_{1})},\ldots ,\Re {(z_{n})},\Im {(z_{n})})=\operatorname {P} (\Re {(Z_{1})}\leq \Re {(z_{1})},\Im {(Z_{1})}\leq \Im {(z_{1})},\ldots ,\Re {(Z_{n})}\leq \Re {(z_{n})},\Im {(Z_{n})}\leq \Im {(z_{n})})$ $\mathbf {Z} =(Z_{1},\ldots ,Z_{N})^{T}$

Uso en análisis estadístico

El concepto de función de distribución acumulativa aparece explícitamente en el análisis estadístico de dos maneras (similares). El análisis de frecuencia acumulativa es el análisis de la frecuencia de ocurrencia de valores de un fenómeno menores que un valor de referencia. La función de distribución empírica es una estimación directa formal de la función de distribución acumulativa para la cual se pueden derivar propiedades estadísticas simples y que puede formar la base de varias pruebas de hipótesis estadísticas . Dichas pruebas pueden evaluar si hay evidencia en contra de que una muestra de datos haya surgido de una distribución dada, o evidencia en contra de que dos muestras de datos hayan surgido de la misma distribución de población (desconocida).

Pruebas de Kolmogorov-Smirnov y Kuiper

La prueba de Kolmogorov-Smirnov se basa en funciones de distribución acumulativa y se puede utilizar para comprobar si dos distribuciones empíricas son diferentes o si una distribución empírica es diferente de una distribución ideal. La prueba de Kuiper, estrechamente relacionada , es útil si el dominio de la distribución es cíclico, como en el caso de los días de la semana. Por ejemplo, la prueba de Kuiper se puede utilizar para comprobar si la cantidad de tornados varía durante el año o si las ventas de un producto varían según el día de la semana o el día del mes.

Véase también

Estadísticas descriptivas
Montaje de distribución
Ojiva (estadística)
La distribución seminormal modificada ^[12] con la función de densidad de probabilidad activada se da como , donde denota la función Psi de Fox–Wright . $(0,\infty )$ $f(x)={\frac {2\beta ^{\frac {\alpha }{2}}x^{\alpha -1}\exp(-\beta x^{2}+\gamma x)}{\Psi {\left({\frac {\alpha }{2}},{\frac {\gamma }{\sqrt {\beta }}}\right)}}}$ $\Psi (\alpha ,z)={}_{1}\Psi _{1}\left({\begin{matrix}\left(\alpha ,{\frac {1}{2}}\right)\\(1,0)\end{matrix}};z\right)$

Referencias

^ Deisenroth, Marc Peter; Faisal, A. Aldo; Ong, Cheng Soon (2020). Matemáticas para el aprendizaje automático. Cambridge University Press. pág. 181. ISBN 9781108455145.
^ abcdef Park, Kun Il (2018). Fundamentos de probabilidad y procesos estocásticos con aplicaciones a las comunicaciones . Springer. ISBN 978-3-319-68074-3.
^ Montgomery, Douglas C.; Runger, George C. (2003). Estadística aplicada y probabilidad para ingenieros (PDF) . John Wiley & Sons, Inc. pág. 104. ISBN 0-471-20454-4. Archivado (PDF) del original el 30 de julio de 2012.
^ Zwillinger, Daniel; Kokoska, Stephen (2010). Tablas y fórmulas estándar de probabilidad y estadística del CRC . CRC Press. pág. 49. ISBN 978-1-58488-059-2.
^ Gentle, JE (2009). Estadística computacional. Springer . ISBN 978-0-387-98145-1. Recuperado el 6 de agosto de 2010 .^{[ página necesaria ]}
^ Monti, KL (1995). "Curvas de función de distribución empírica plegadas (gráficos de montaña)". The American Statistician . 49 (4): 342–345. doi :10.2307/2684570. JSTOR 2684570.
^ Xue, JH; Titterington, DM (2011). "La función de distribución acumulativa p-plegada y la desviación absoluta media del p-cuantil" (PDF) . Statistics & Probability Letters . 81 (8): 1179–1182. doi :10.1016/j.spl.2011.03.014.
^ Chan, Stanley H. (2021). Introducción a la probabilidad para la ciencia de datos. Michigan Publishing. pág. 18. ISBN 978-1-60785-746-4.
^ Hesse, C. (1990). "Tasas de convergencia para la función de distribución empírica y la función característica empírica de una amplia clase de procesos lineales". Journal of Multivariate Analysis . 35 (2): 186–202. doi :10.1016/0047-259X(90)90024-C.
^ "Función de distribución acumulativa conjunta (CDF)". math.info . Consultado el 11 de diciembre de 2019 .
^ "Copia archivada" (PDF) . www.math.wustl.edu . Archivado desde el original (PDF) el 22 de febrero de 2016 . Consultado el 13 de enero de 2022 .{{cite web}}: CS1 maint: archived copy as title (link)
^ Sun, Jingchao; Kong, Maiying; Pal, Subhadip (22 de junio de 2021). "La distribución seminormal modificada: propiedades y un esquema de muestreo eficiente". Comunicaciones en estadística: teoría y métodos . 52 (5): 1591–1613. doi :10.1080/03610926.2021.1934700. ISSN 0361-0926. S2CID 237919587.

Enlaces externos

Medios relacionados con Funciones de distribución acumulativa en Wikimedia Commons