Distribución geométrica

En teoría de probabilidad y estadística , la distribución geométrica es una de dos distribuciones de probabilidad discretas :

La distribución de probabilidad del número de ensayos de Bernoulli necesarios para obtener un éxito, respaldada por el conjunto ; $X$ $\{1,2,3,\ldots \}$
La distribución de probabilidad del número de fracasos antes del primer éxito, respaldada por el conjunto . $Y=X-1$ $\{0,1,2,\ldots \}$

Cuál de ellas se denomina distribución geométrica es una cuestión de convención y conveniencia.

Estas dos distribuciones geométricas diferentes no deben confundirse entre sí. A menudo, se adopta el nombre de distribución geométrica desplazada para la primera (distribución de ); sin embargo, para evitar ambigüedades, se considera prudente indicar cuál es el objetivo, mencionando explícitamente el soporte. $X$

La distribución geométrica da la probabilidad de que la primera ocurrencia de éxito requiera pruebas independientes, cada una con probabilidad de éxito . Si la probabilidad de éxito en cada prueba es , entonces la probabilidad de que la enésima prueba sea el primer éxito es $k$ $p$ $p$ $k$

\Pr(X=k)=(1-p)^{k-1}p

para $k=1,2,3,4,\dots$

La forma anterior de distribución geométrica se utiliza para modelar el número de pruebas hasta el primer éxito inclusive. Por el contrario, se utiliza la siguiente forma de distribución geométrica para modelar el número de fracasos hasta el primer éxito:

\Pr(Y=k)=\Pr(X=k+1)=(1-p)^{k}p

para $k=0,1,2,3,\dots$

En cualquier caso, la secuencia de probabilidades es una secuencia geométrica .

Por ejemplo, supongamos que se lanza repetidamente un dado normal hasta que aparece por primera vez un "1". La distribución de probabilidad del número de veces que se lanza se apoya en el conjunto infinito y es una distribución geométrica con . $\{1,2,3,\dots \}$ $p=1/6$

La distribución geométrica se denota por Geo( p ) donde . ^[1] $0<p\leq 1$

Definiciones

Considere una secuencia de pruebas, donde cada prueba tiene sólo dos resultados posibles (fracaso y éxito designados). Se supone que la probabilidad de éxito es la misma para cada prueba. En tal secuencia de pruebas, la distribución geométrica es útil para modelar el número de fracasos antes del primer éxito, ya que el experimento puede tener un número indefinido de pruebas hasta el éxito, a diferencia de la distribución binomial que tiene un número determinado de pruebas. La distribución da la probabilidad de que haya cero fracasos antes del primer éxito, un fracaso antes del primer éxito, dos fracasos antes del primer éxito, y así sucesivamente. ^[2]

Supuestos: ¿Cuándo la distribución geométrica es un modelo apropiado?

La distribución geométrica es un modelo apropiado si los siguientes supuestos son verdaderos. ^[3]

El fenómeno que se está modelando es una secuencia de ensayos independientes.
Sólo hay dos resultados posibles para cada prueba, a menudo denominados éxito o fracaso.
La probabilidad de éxito, p , es la misma para todos los ensayos.

Si estas condiciones son verdaderas, entonces la variable aleatoria geométrica Y es el recuento del número de fracasos antes del primer éxito. El número posible de fracasos antes del primer éxito es 0, 1, 2, 3, etc. En los gráficos anteriores, esta formulación se muestra a la derecha.

Una formulación alternativa es que la variable aleatoria geométrica X es el número total de intentos hasta el primer éxito inclusive, y el número de fracasos es X − 1. En los gráficos anteriores, esta formulación se muestra a la izquierda.

Ejemplos de resultados de probabilidad

La fórmula general para calcular la probabilidad de k fracasos antes del primer éxito, donde la probabilidad de éxito es p y la probabilidad de fracaso es q = 1 − p , es

\Pr(Y=k)=q^{k}\,p.

para k = 0, 1, 2, 3, ...

E1) Un médico busca un antidepresivo para un paciente recién diagnosticado. Supongamos que, de los fármacos antidepresivos disponibles, la probabilidad de que cualquier fármaco en particular sea eficaz para un paciente en particular es p = 0,6. ¿Cuál es la probabilidad de que el primer fármaco que se considere eficaz para este paciente sea el primer fármaco probado, el segundo fármaco probado, y así sucesivamente? ¿Cuál es la cantidad esperada de medicamentos que se probarán para encontrar uno que sea efectivo?

La probabilidad de que el primer fármaco funcione. No hay fracasos antes del primer éxito. Y = 0 fallos. La probabilidad Pr (cero fracasos antes del primer éxito) es simplemente la probabilidad de que el primer fármaco funcione.

\Pr(Y=0)=q^{0}\,p\ =0.4^{0}\times 0.6=1\times 0.6=0.6.

La probabilidad de que el primer fármaco falle, pero el segundo funcione. Hay un fracaso antes del primer éxito. Y = 1 fallo. La probabilidad de esta secuencia de eventos es Pr (el primer fármaco falla) p (el segundo fármaco tiene éxito), que viene dada por $\times$

\Pr(Y=1)=q^{1}\,p\ =0.4^{1}\times 0.6=0.4\times 0.6=0.24.

La probabilidad de que el primer fármaco falle, el segundo fármaco falle, pero el tercero funcione. Hay dos fracasos antes del primer éxito. Y = 2 fracasos. La probabilidad de esta secuencia de eventos es Pr(el primer fármaco falla) p(el segundo fármaco falla) Pr(el tercer fármaco tiene éxito) $\times$ $\times$

\Pr(Y=2)=q^{2}\,p,=0.4^{2}\times 0.6=0.096.

E2) Una pareja de recién casados planea tener hijos y continuará hasta tener la primera niña. ¿Cuál es la probabilidad de que haya cero niños antes de la primera niña, un niño antes de la primera niña, dos niños antes de la primera niña, etc.?

La probabilidad de tener una niña (éxito) es p = 0,5 y la probabilidad de tener un niño (fracaso) es q = 1 − p = 0,5.

La probabilidad de que no haya niños antes de la primera niña es

\Pr(Y=0)=q^{0}\,p\ =0.5^{0}\times 0.5=1\times 0.5=0.5.

La probabilidad de que haya un niño antes que la primera niña es

\Pr(Y=1)=q^{1}\,p\ =0.5^{1}\times 0.5=0.5\times 0.5=0.25.

La probabilidad de que haya dos niños antes que la primera niña es

\Pr(Y=2)=q^{2}\,p\ =0.5^{2}\times 0.5=0.125.

etcétera.

Propiedades

Momentos y cumulantes

El valor esperado para el número de ensayos independientes para obtener el primer éxito y la varianza de una variable aleatoria X distribuida geométricamente es:

\operatorname {E} (X)={\frac {1}{p}},\qquad \operatorname {var} (X)={\frac {1-p}{p^{2}}}.

De manera similar, el valor esperado y la varianza de la variable aleatoria distribuida geométricamente Y = X - 1 (Ver definición de distribución ) es: $\Pr(Y=k)$

\operatorname {E} (Y)=\operatorname {E} (X-1)=\operatorname {E} (X)-1={\frac {1-p}{p}},\qquad \operatorname {var} (Y)={\frac {1-p}{p^{2}}}.

Prueba

Valor esperado de X

Considere el valor esperado de X como se indicó anteriormente, es decir, el número promedio de intentos hasta lograr el éxito. En el primer intento, o tenemos éxito con probabilidad o fallamos con probabilidad . Si fallamos la media restante de intentos hasta que un éxito sea idéntico a la media original. Esto se desprende del hecho de que todos los ensayos son independientes. De esto obtenemos la fórmula: $\mathrm {E} (X)$ $p$ $1-p$

$\mathrm {E} (X)=p\cdot 1+(1-p)\cdot (1+\mathrm {E} (X)),$

que si se resuelve da : $\mathrm {E} (X)$

$\mathrm {E} (X)={\frac {1}{p}}.$

Valor esperado de Y

Que el valor esperado de Y como se indicó anteriormente es (1 − p )/ p se puede ver trivialmente o se puede mostrar de la siguiente manera: $\mathrm {E} (Y)=\mathrm {E} (X-1)=\mathrm {E} (X)-1={\frac {1}{p}}-1={\frac {1-p}{p}}$

${\begin{aligned}\mathrm {E} (Y)&{}=\sum _{k=0}^{\infty }(1-p)^{k}p\cdot k\\&{}=p\sum _{k=0}^{\infty }(1-p)^{k}k\\&{}=p(1-p)\sum _{k=0}^{\infty }(1-p)^{k-1}\cdot k\\&{}=p(1-p)\left[{\frac {d}{dp}}\left(-\sum _{k=0}^{\infty }(1-p)^{k}\right)\right]\\&{}=p(1-p){\frac {d}{dp}}\left(-{\frac {1}{p}}\right)={\frac {1-p}{p}}.\end{aligned}}$

El intercambio de suma y diferenciación se justifica por el hecho de que las series de potencias convergentes convergen uniformemente en subconjuntos compactos del conjunto de puntos donde convergen.

Sea μ = (1 − p )/ p el valor esperado de Y . Entonces los cumulantes de la distribución de probabilidad de Y satisfacen la recursividad $\kappa _{n}$

\kappa _{n+1}=\mu (\mu +1){\frac {d\kappa _{n}}{d\mu }}.

Ejemplos de valor esperado

E3) Un paciente está esperando un donante de riñón compatible adecuado para un trasplante. Si la probabilidad de que un donante seleccionado al azar sea compatible es p = 0,1, ¿cuál es el número esperado de donantes que se someterán a pruebas antes de encontrar un donante compatible?

Con p = 0,1, el número medio de fracasos antes del primer éxito es E( Y ) = (1 − p )/ p =(1 − 0,1)/0,1 = 9.

Para la formulación alternativa, donde X es el número de intentos hasta el primer éxito inclusive, el valor esperado es E( X ) = 1/ p = 1/0,1 = 10.

Por ejemplo 1 anterior, con p = 0,6, el número medio de fracasos antes del primer éxito es E( Y ) = (1 − p )/ p = (1 − 0,6)/0,6 = 0,67.

Momentos de orden superior

Los momentos para el número de fracasos antes del primer éxito están dados por

{\begin{aligned}\mathrm {E} (Y^{n})&{}=\sum _{k=0}^{\infty }(1-p)^{k}p\cdot k^{n}\\&{}=p\operatorname {Li} _{-n}(1-p)&({\text{for }}n\neq 0)\end{aligned}}

¿Dónde está la función polilogaritmo ? $\operatorname {Li} _{-n}(1-p)$

Propiedades generales

Las funciones generadoras de probabilidad de X e Y son, respectivamente,

{\begin{aligned}G_{X}(s)&={\frac {s\,p}{1-s\,(1-p)}},\\[10pt]G_{Y}(s)&={\frac {p}{1-s\,(1-p)}},\quad |s|<(1-p)^{-1}.\end{aligned}}

Al igual que su análogo continuo (la distribución exponencial ), la distribución geométrica no tiene memoria . Es decir, lo siguiente es válido para cada m y n .

\Pr\{X>m+n|X>n\}=\Pr\{X>m\}

La distribución geométrica admitida en {0, 1, 2, 3, ... } es la única distribución discreta sin memoria. Tenga en cuenta que la distribución geométrica admitida en {1, 2, ... } no carece de memoria.

Entre todas las distribuciones de probabilidad discretas admitidas en {1, 2, 3, ...} con un valor esperado μ dado , la distribución geométrica X con parámetro p = 1/ μ es la que tiene la mayor entropía . ^[4]
La distribución geométrica del número Y de fracasos antes del primer éxito es infinitamente divisible , es decir, para cualquier entero positivo n , existen variables aleatorias independientes distribuidas idénticamente Y ₁ , ..., Y _n cuya suma tiene la misma distribución que Y. . Estos no estarán distribuidos geométricamente a menos que n = 1; siguen una distribución binomial negativa .
Los dígitos decimales de la variable aleatoria Y distribuida geométricamente son una secuencia de variables aleatorias independientes (y no distribuidas de manera idéntica). ^{[ cita necesaria ]} Por ejemplo, el dígito de las centenas D tiene esta distribución de probabilidad:

\Pr(D=d)={q^{100d} \over 1+q^{100}+q^{200}+\cdots +q^{900}},

donde q = 1 − p , y de manera similar para los otros dígitos y, de manera más general, de manera similar para sistemas numéricos con bases distintas a 10. Cuando la base es 2, esto muestra que una variable aleatoria distribuida geométricamente se puede escribir como una suma de Variables aleatorias independientes cuyas distribuciones de probabilidad son indescomponibles .

La codificación Golomb es el código de prefijo óptimo ^{[ aclaración necesaria ]} para la distribución geométrica discreta. ^[5]
La suma de dos variables aleatorias distribuidas Geo (p) independientes no es una distribución geométrica. ^[1]

Distribuciones relacionadas

La distribución geométrica Y es un caso especial de la distribución binomial negativa , con r = 1. De manera más general, si Y ₁ , ..., Y _r son variables independientes distribuidas geométricamente con parámetro p , entonces la suma

Z=\sum _{m=1}^{r}Y_{m}

sigue una distribución binomial negativa con parámetros r y p . ^[6]

La distribución geométrica es un caso especial de distribución de Poisson compuesta discreta .
Si Y ₁ , ..., Y _r son variables independientes distribuidas geométricamente (con parámetros de éxito posiblemente diferentes p _m ), entonces su mínimo

W=\min _{m\in 1,\ldots ,r}Y_{m}\,

también está distribuida geométricamente, con parámetro ^[7]

p=1-\prod _{m}(1-p_{m}).

Supongamos que 0 < r < 1, y para k = 1, 2, 3, ... la variable aleatoria X _k tiene una distribución de Poisson con valor esperado r ^k / k . Entonces

\sum _{k=1}^{\infty }k\,X_{k}

tiene una distribución geométrica que toma valores en el conjunto {0, 1, 2, ...}, con valor esperado r /(1 − r ). ^{[ cita necesaria ]}

La distribución exponencial es el análogo continuo de la distribución geométrica. Si X es una variable aleatoria distribuida exponencialmente con parámetro λ, entonces

Y=\lfloor X\rfloor ,

donde es la función piso (o entero mayor), es una variable aleatoria distribuida geométricamente con parámetro p = 1 − e ⁻^λ (por lo tanto λ = −ln(1 − p ) ^[8] ) y que toma valores en el conjunto {0, 1, 2, ...}. Esto se puede utilizar para generar números pseudoaleatorios distribuidos geométricamente generando primero números pseudoaleatorios distribuidos exponencialmente a partir de un generador de números pseudoaleatorios uniforme : luego se distribuye geométricamente con el parámetro , si está distribuido uniformemente en [0,1].

\lfloor \quad \rfloor

\lfloor \ln(U)/\ln(1-p)\rfloor

p

U

Si p = 1/ n y X está distribuido geométricamente con el parámetro p , entonces la distribución de X / n se acerca a una distribución exponencial con valor esperado 1 cuando n → ∞, ya que

{\begin{aligned}\Pr(X/n>a)=\Pr(X>na)&=(1-p)^{na}=\left(1-{\frac {1}{n}}\right)^{na}=\left[\left(1-{\frac {1}{n}}\right)^{n}\right]^{a}\\&\to [e^{-1}]^{a}=e^{-a}{\text{ as }}n\to \infty .\end{aligned}}

De manera más general, si p = λ / n , donde λ es un parámetro, entonces cuando n → ∞ la distribución de X / n se aproxima a una distribución exponencial con tasa λ :

\Pr(X>nx)=\lim _{n\to \infty }(1-\lambda /n)^{nx}=e^{-\lambda x}

por lo tanto la función de distribución de X / n converge a , que es la de una variable aleatoria exponencial. $1-e^{-\lambda x}$

Inferencia estadística

Estimación de parámetros

Para ambas variantes de la distribución geométrica, el parámetro p se puede estimar igualando el valor esperado con la media muestral . Este es el método de los momentos , que en este caso produce estimaciones de máxima verosimilitud de p . ^[9]^[10]

Específicamente, para la primera variante, sea k = k ₁ , ..., k _n una muestra donde k _i ≥ 1 para i = 1, ..., n . Entonces p puede estimarse como

{\widehat {p}}=\left({\frac {1}{n}}\sum _{i=1}^{n}k_{i}\right)^{-1}={\frac {n}{\sum _{i=1}^{n}k_{i}}}.\!

En la inferencia bayesiana , la distribución Beta es la distribución previa conjugada del parámetro p . Si a este parámetro se le da una Beta ( α , β ) antes , entonces la distribución posterior es

p\sim \mathrm {Beta} \left(\alpha +n,\ \beta +\sum _{i=1}^{n}(k_{i}-1)\right).\!

La media posterior E[ p ] se acerca a la estimación de máxima verosimilitud cuando α y β se acercan a cero. ${\widehat {p}}$

En el caso alternativo, sea k ₁ , ..., k _n una muestra donde k _i ≥ 0 para i = 1, ..., n . Entonces p puede estimarse como

{\widehat {p}}=\left(1+{\frac {1}{n}}\sum _{i=1}^{n}k_{i}\right)^{-1}={\frac {n}{\sum _{i=1}^{n}k_{i}+n}}.\!

La distribución posterior de p dada una Beta( α , β ) previa es ^[11]

p\sim \mathrm {Beta} \left(\alpha +n,\ \beta +\sum _{i=1}^{n}k_{i}\right).\!

Nuevamente la media posterior E[ p ] se acerca a la estimación de máxima verosimilitud cuando α y β se acercan a cero. ${\widehat {p}}$

Para cualquier estimación del uso de Máxima Verosimilitud, el sesgo es igual a ${\widehat {p}}$

b\equiv \operatorname {E} {\bigg [}\;({\hat {p}}_{\mathrm {mle} }-p)\;{\bigg ]}={\frac {p\,(1-p)}{n}}

lo que produce el estimador de máxima verosimilitud corregido por el sesgo

{\hat {p\,}}_{\text{mle}}^{*}={\hat {p\,}}_{\text{mle}}-{\hat {b\,}}

Métodos computacionales

Distribución geométrica usando R

La función R calcula la probabilidad de que haya k fracasos antes del primer éxito, donde el argumento "prob" es la probabilidad de éxito en cada intento.dgeom(k, prob)

Por ejemplo,

dgeom(0,0.6) = 0.6

dgeom(1,0.6) = 0.24

R usa la convención de que k es el número de fracasos, de modo que el número de intentos hasta el primer éxito inclusive es k + 1.

El siguiente código R crea una gráfica de la distribución geométrica de Y = 0 a 10, con p = 0,6.

Y = 0 : 10plot ( Y , dgeom ( Y , 0.6 ), type = "h" , ylim = c ( 0 , 1 ), main = "Distribución geométrica para p=0.6" , ylab = "Pr(Y=Y)" , xlab = "Y=Número de fracasos antes del primer éxito" )

Distribución geométrica usando Excel.

La distribución geométrica, para el número de fracasos antes del primer éxito, es un caso especial de la distribución binomial negativa , para el número de fracasos antes de s éxitos.

La función de Excel NEGBINOMDIST(number_f, number_s, probability_s)calcula la probabilidad de k = número_f fracasos antes de s = número_s éxitos, donde p = probabilidad_s es la probabilidad de éxito en cada prueba. Para la distribución geométrica, sea número_s = 1 éxito. ^[12]

Por ejemplo,

=NEGBINOMDIST(0, 1, 0.6)= 0,6

=NEGBINOMDIST(1, 1, 0.6)= 0,24

Al igual que R, Excel utiliza la convención de que k es el número de fracasos, de modo que el número de intentos hasta el primer éxito inclusive es k + 1.

Ver también

Referencias

^ ab Una introducción moderna a la probabilidad y la estadística: comprender por qué y cómo . Dekking, Michel, 1946-. Londres: Springer. 2005. págs. 48–50, 61–62, 152. ISBN 9781852338961. OCLC 262680588.{{cite book}}: CS1 maint: others (link)
^ Holmes, Alejandro; Illowsky, Bárbara; Dean, Susan (29 de noviembre de 2017). Estadísticas empresariales introductorias. Houston, Texas: OpenStax.
^ Raikar, Sanat Pai (31 de agosto de 2023). "Distribución geométrica". Enciclopedia Británica .
^ Parque, Sung Y.; Bera, Anil K. (junio de 2009). "Modelo de heterocedasticidad condicional autorregresiva de máxima entropía". Revista de Econometría . 150 (2): 219–230. doi :10.1016/j.jeconom.2008.12.014.
^ Gallager, R.; van Voorhis, D. (marzo de 1975). "Códigos fuente óptimos para alfabetos enteros distribuidos geométricamente (Corresp.)". Transacciones IEEE sobre teoría de la información . 21 (2): 228–230. doi :10.1109/TIT.1975.1055357. ISSN 0018-9448.
^ Pitman, Jim. Probabilidad (edición de 1993). Editores Springer. págs. 372.
^ Ciardo, Gianfranco; Leemis, Lawrence M.; Nicol, David (1 de junio de 1995). "Sobre el mínimo de variables aleatorias independientes distribuidas geométricamente". Cartas de estadística y probabilidad . 23 (4): 313–326. doi :10.1016/0167-7152(94)00130-Z. hdl : 2060/19940028569 . S2CID 1505801.
^ "Wolfram-Alpha: motor de conocimiento computacional". www.wolframalpha.com .
^ casella, george; Berger, Roger l (2002). inferencia estadística (2ª ed.). págs. 312–315. ISBN 0-534-24312-6.
^ "Ejemplos de MLE: distribuciones exponenciales y geométricas Old Kiwi - Rhea". www.projectrhea.org . Consultado el 17 de noviembre de 2019 .
^ "3. Familias conjugadas de distribuciones" (PDF) . Archivado (PDF) desde el original el 8 de abril de 2010.
^ "3.5 Distribución de probabilidad geométrica utilizando una hoja de cálculo de Excel". Estadística LibreTexts . 2021-07-24 . Consultado el 20 de octubre de 2023 .

enlaces externos

Distribución geométrica en MathWorld .