Distribución de probabilidad
En teoría de probabilidad y estadística , la distribución geométrica es una de dos distribuciones de probabilidad discretas :
- Distribución de probabilidad del número de ensayos de Bernoulli necesarios para obtener un éxito, respaldada por ;
- Distribución de probabilidad del número de fallos antes del primer éxito, apoyada en .
Estas dos distribuciones geométricas diferentes no deben confundirse entre sí. A menudo, se adopta el nombre de distribución geométrica desplazada para la primera (distribución de ); sin embargo, para evitar ambigüedades, se considera conveniente indicar de cuál se trata, mencionando explícitamente el soporte.
La distribución geométrica da la probabilidad de que la primera ocurrencia de éxito requiera ensayos independientes, cada uno con probabilidad de éxito . Si la probabilidad de éxito en cada ensayo es , entonces la probabilidad de que el ensayo -ésimo sea el primer éxito es
para
La forma anterior de la distribución geométrica se utiliza para modelar el número de ensayos hasta el primer éxito inclusive. Por el contrario, la siguiente forma de la distribución geométrica se utiliza para modelar el número de fracasos hasta el primer éxito:
para
La distribución geométrica recibe su nombre porque sus probabilidades siguen una secuencia geométrica . A veces se la denomina distribución Furry en honor a Wendell H. Furry . [1] : 210
Definición
La distribución geométrica es la distribución de probabilidad discreta que describe cuándo ocurre el primer éxito en una secuencia infinita de ensayos de Bernoulli independientes e idénticamente distribuidos . Su función de masa de probabilidad depende de su parametrización y de su apoyo . Cuando se apoya en , la función de masa de probabilidad es donde es el número de ensayos y es la probabilidad de éxito en cada ensayo. [2] : 260–261
El soporte también puede ser , definiendo . Esto altera la función de masa de probabilidad en donde es el número de fallas antes del primer éxito. [3] : 66
Una parametrización alternativa de la distribución da la función de masa de probabilidad donde y . [1] : 208–209
Un ejemplo de distribución geométrica surge al lanzar un dado de seis caras hasta que aparezca un "1". Cada lanzamiento es independiente y tiene una probabilidad de éxito. El número de lanzamientos necesarios sigue una distribución geométrica con .
Propiedades
Sin memoria
La distribución geométrica es la única distribución de probabilidad discreta sin memoria. [4] Es la versión discreta de la misma propiedad que se encuentra en la distribución exponencial . [1] : 228 La propiedad afirma que el número de ensayos fallidos previamente no afecta el número de ensayos futuros necesarios para obtener éxito.
Debido a que existen dos definiciones de la distribución geométrica, también existen dos definiciones de falta de memoria para variables aleatorias discretas. [5] Expresadas en términos de probabilidad condicional , las dos definiciones son
y
donde y son números naturales , es una variable aleatoria distribuida geométricamente definida sobre , y es una variable aleatoria distribuida geométricamente definida sobre . Tenga en cuenta que estas definiciones no son equivalentes para variables aleatorias discretas; no satisface la primera ecuación y no satisface la segunda.
Momentos y cumulantes
El valor esperado y la varianza de una variable aleatoria distribuida geométricamente definida sobre es [2] : 261 Cuando una variable aleatoria distribuida geométricamente definida sobre , el valor esperado cambia a mientras que la varianza permanece igual. [6] : 114–115
Por ejemplo, al lanzar un dado de seis caras hasta que aparezca un "1", el número promedio de tiradas necesarias es y el número promedio de fallos es .
La función generadora de momentos de la distribución geométrica cuando se define sobre y respectivamente es [7] [6] : 114 Los momentos para el número de fallas antes del primer éxito están dados por
donde es la función polilogaritmo . [8]
La función generadora de cumulantes de la distribución geométrica definida sobre es [1] : 216 Los cumulantes satisfacen la recursión donde , cuando se define sobre . [1] : 216
Prueba del valor esperado
Considere el valor esperado de X como se indica arriba, es decir, el número promedio de ensayos hasta obtener un éxito. En el primer ensayo, o tenemos éxito con una probabilidad de , o fallamos con una probabilidad de . Si fallamos, el número medio de ensayos restantes hasta obtener un éxito es idéntico al promedio original. Esto se deduce del hecho de que todos los ensayos son independientes. De esto obtenemos la fórmula:
que, si se resuelve para , da: [ cita requerida ]
El número esperado de fallas se puede encontrar a partir de la linealidad de la expectativa , . También se puede mostrar de la siguiente manera: [ cita requerida ]
El intercambio de suma y diferenciación se justifica por el hecho de que las series de potencias convergentes convergen uniformemente en subconjuntos compactos del conjunto de puntos donde convergen.
Resumen de estadísticas
La media de la distribución geométrica es su valor esperado que, como se discutió previamente en § Momentos y cumulantes, es o cuando se define sobre o respectivamente.
La mediana de la distribución geométrica es cuando se define sobre [9] y cuando se define sobre [ 3] : 69
La moda de la distribución geométrica es el primer valor del conjunto de soporte. Es 1 cuando se define sobre y 0 cuando se define sobre . [3] : 69
La asimetría de la distribución geométrica es . [6] : 115
La curtosis de la distribución geométrica es . [6] : 115 El exceso de curtosis de una distribución es la diferencia entre su curtosis y la curtosis de una distribución normal , . [10] : 217 Por lo tanto, el exceso de curtosis de la distribución geométrica es . Como , el exceso de curtosis siempre es positivo, por lo que la distribución es leptocúrtica . [3] : 69 En otras palabras, la cola de una distribución geométrica decae más rápido que una gaussiana. [10] : 217
Entropía e información de Fisher
Entropía (distribución geométrica, fracasos antes del éxito)
La entropía es una medida de incertidumbre en una distribución de probabilidad. Para la distribución geométrica que modela el número de fracasos antes del primer éxito, la función de masa de probabilidad es:
La entropía para esta distribución se define como:
La entropía aumenta a medida que disminuye la probabilidad, lo que refleja una mayor incertidumbre a medida que el éxito se vuelve más raro.
Información de Fisher (Distribución geométrica, fracasos antes del éxito)
La información de Fisher mide la cantidad de información que una variable aleatoria observable lleva consigo sobre un parámetro desconocido . Para la distribución geométrica (fallos antes del primer éxito), la información de Fisher con respecto a viene dada por:
Prueba:
- La función de verosimilitud para una variable aleatoria geométrica es:
- La función de log-verosimilitud es:
- La función de puntuación (primera derivada de la verosimilitud logarítmica respecto de ) es:
- La segunda derivada de la función de log-verosimilitud es:
- La información de Fisher se calcula como el valor esperado negativo de la segunda derivada:
La información de Fisher aumenta a medida que disminuye, lo que indica que los éxitos más raros proporcionan más información sobre el parámetro .
Entropía (Distribución geométrica, ensayos hasta el éxito)
Para la distribución geométrica que modela el número de ensayos hasta el primer éxito, la función de masa de probabilidad es:
La entropía para esta distribución viene dada por:
La entropía aumenta a medida que disminuye, lo que refleja una mayor incertidumbre a medida que la probabilidad de éxito en cada ensayo se hace menor.
Información de Fisher (Distribución geométrica, ensayos hasta el éxito)
La información de Fisher para la distribución geométrica que modela el número de ensayos hasta el primer éxito viene dada por:
Prueba:
- La función de verosimilitud para una variable aleatoria geométrica es:
- La función de log-verosimilitud es:
- La función de puntuación (primera derivada de la verosimilitud logarítmica respecto de ) es:
- La segunda derivada de la función de log-verosimilitud es:
- La información de Fisher se calcula como el valor esperado negativo de la segunda derivada:
Propiedades generales
- Las funciones generadoras de probabilidad de variables aleatorias geométricas y definidas sobre y son, respectivamente, [6] : 114–115
- La función característica es igual a por lo que la función característica de la distribución geométrica, cuando se define sobre y respectivamente, es [11] : 1630
- La entropía de una distribución geométrica con parámetro es [12]
- Dada una media , la distribución geométrica es la distribución de probabilidad de entropía máxima de todas las distribuciones de probabilidad discretas. La distribución continua correspondiente es la distribución exponencial . [13]
- La distribución geométrica definida en es infinitamente divisible , es decir, para cualquier entero positivo , existen variables aleatorias independientes idénticamente distribuidas cuya suma también está distribuida geométricamente. Esto se debe a que la distribución binomial negativa se puede derivar de una suma de variables aleatorias logarítmicas con punto de Poisson . [11] : 606–607
- Los dígitos decimales de la variable aleatoria Y distribuida geométricamente son una secuencia de variables aleatorias independientes (y no idénticamente distribuidas). [ cita requerida ] Por ejemplo, el dígito de las centenas D tiene esta distribución de probabilidad:
- donde q = 1 − p , y de manera similar para los otros dígitos, y, más generalmente, de manera similar para sistemas numéricos con bases distintas de 10. Cuando la base es 2, esto demuestra que una variable aleatoria distribuida geométricamente se puede escribir como una suma de variables aleatorias independientes cuyas distribuciones de probabilidad son indecomponibles .
Distribuciones relacionadas
- La suma de variables aleatorias geométricas independientes con parámetro es una variable aleatoria binomial negativa con parámetros y . [14] La distribución geométrica es un caso especial de la distribución binomial negativa, con .
- La distribución geométrica es un caso especial de distribución de Poisson compuesta discreta . [11] : 606
- El mínimo de variables aleatorias geométricas con parámetros también se distribuye geométricamente con parámetro . [15]
- Supóngase que 0 < r < 1, y para k = 1, 2, 3, ... la variable aleatoria X k tiene una distribución de Poisson con valor esperado r k / k . Entonces
- tiene una distribución geométrica que toma valores en , con valor esperado r /(1 − r ). [ cita requerida ]
- La distribución exponencial es el análogo continuo de la distribución geométrica. La aplicación de la función floor a la distribución exponencial con parámetro crea una distribución geométrica con parámetro definido sobre . [3] : 74 Esto se puede utilizar para generar números aleatorios distribuidos geométricamente como se detalla en § Generación de variables aleatorias.
- Si p = 1/ n y X se distribuye geométricamente con parámetro p , entonces la distribución de X / n se aproxima a una distribución exponencial con valor esperado 1 cuando n → ∞, ya que De manera más general, si p = λ / n , donde λ es un parámetro, entonces cuando n → ∞ la distribución de X / n se aproxima a una distribución exponencial con tasa λ : por lo tanto, la función de distribución de X / n converge a , que es la de una variable aleatoria exponencial. [ cita requerida ]
- El índice de dispersión de la distribución geométrica es y su coeficiente de variación es . La distribución está sobredispersa . [1] : 216
Inferencia estadística
El verdadero parámetro de una distribución geométrica desconocida se puede inferir a través de estimadores y distribuciones conjugadas.
Método de momentos
Si existen, los primeros momentos de una distribución de probabilidad se pueden estimar a partir de una muestra utilizando la fórmula donde es el momento muestral n y . [16] : 349–350 La estimación con da la media muestral , denotada . Sustituir esta estimación en la fórmula por el valor esperado de una distribución geométrica y resolver para da los estimadores y cuando se apoyan en y respectivamente. Estos estimadores están sesgados ya que como resultado de la desigualdad de Jensen . [17] : 53–54
Estimación de máxima verosimilitud
El estimador de máxima verosimilitud de es el valor que maximiza la función de verosimilitud dada una muestra. [16] : 308 Al hallar el cero de la derivada de la función de log-verosimilitud cuando la distribución está definida sobre , se puede hallar que el estimador de máxima verosimilitud es , donde es la media de la muestra. [18] Si el dominio es , entonces el estimador se desplaza a . Como se explicó anteriormente en § Método de momentos, estos estimadores están sesgados.
Independientemente del dominio, el sesgo es igual a
que produce el estimador de máxima verosimilitud corregido por sesgo , [ cita requerida ]
Inferencia bayesiana
En la inferencia bayesiana , el parámetro es una variable aleatoria de una distribución previa con una distribución posterior calculada utilizando el teorema de Bayes después de observar muestras. [17] : 167 Si se elige una distribución beta como distribución previa, entonces la posterior también será una distribución beta y se llama distribución conjugada . En particular, si se selecciona una previa, entonces la posterior, después de observar muestras , es [19] Alternativamente, si las muestras están en , la distribución posterior es [20] Dado que el valor esperado de una distribución es , [11] : 145 cuando y se acercan a cero, la media posterior se acerca a su estimación de máxima verosimilitud.
Generación de variables aleatorias
La distribución geométrica se puede generar experimentalmente a partir de variables aleatorias uniformes estándar iid al encontrar que la primera de esas variables aleatorias sea menor o igual a . Sin embargo, el número de variables aleatorias necesarias también se distribuye geométricamente y el algoritmo se vuelve más lento a medida que disminuye. [21] : 498
La generación aleatoria se puede realizar en tiempo constante truncando números aleatorios exponenciales . Una variable aleatoria exponencial puede distribuirse geométricamente con parámetro a través de . A su vez, se puede generar a partir de una variable aleatoria uniforme estándar modificando la fórmula en . [21] : 499–500 [22]
Aplicaciones
La distribución geométrica se utiliza en muchas disciplinas. En la teoría de colas , la cola M/M/1 tiene un estado estable siguiendo una distribución geométrica. [23] En los procesos estocásticos , el proceso Yule Furry se distribuye geométricamente. [24] La distribución también surge al modelar la vida útil de un dispositivo en contextos discretos. [25] También se ha utilizado para ajustar datos, incluido el modelado de pacientes que propagan COVID-19 . [26]
Véase también
Referencias
- ^ abcdef Johnson, Norman L.; Kemp, Adrienne W.; Kotz, Samuel (19 de agosto de 2005). Distribuciones discretas univariadas. Series de Wiley en probabilidad y estadística (1.ª edición). Wiley. doi :10.1002/0471715816. ISBN 978-0-471-27246-5.
- ^ ab Nagel, Werner; Steyer, Rolf (4 de abril de 2017). Probabilidad y expectativa condicional: fundamentos para las ciencias empíricas. Serie Wiley sobre probabilidad y estadística (1.ª ed.). Wiley. doi :10.1002/9781119243496. ISBN 978-1-119-24352-6.
- ^ abcde Chattamvelli, Rajan; Shanmugam, Ramalingam (2020). Distribuciones discretas en ingeniería y ciencias aplicadas. Synthesis Lectures on Mathematics & Statistics. Cham: Springer International Publishing. doi :10.1007/978-3-031-02425-2. ISBN 978-3-031-01297-6.
- ^ Dekking, Frederik Michel; Kraaikamp, Cornelis; Lopuhaä, Hendrik Paul; Meester, Ludolf Erwin (2005). Una introducción moderna a la probabilidad y la estadística. Textos Springer en Estadística. Londres: Springer Londres. pag. 50.doi :10.1007/1-84628-168-7 . ISBN 978-1-85233-896-1.
- ^ Weisstein, Eric W. "Sin memoria". mathworld.wolfram.com . Consultado el 25 de julio de 2024 .
- ^ abcde Forbes, Catherine; Evans, Merran; Hastings, Nicholas; Peacock, Brian (29 de noviembre de 2010). Distribuciones estadísticas (1.ª ed.). Wiley. doi :10.1002/9780470627242. ISBN 978-0-470-39063-4.
- ^ Bertsekas, Dimitri P.; Tsitsiklis, John N. (2008). Introducción a la probabilidad. Serie Optimización y computación (2.ª ed.). Belmont: Athena Scientific. pág. 235. ISBN 978-1-886529-23-6.
- ^ Weisstein, Eric W. "Distribución geométrica". MathWorld . Consultado el 13 de julio de 2024 .
- ^ Aggarwal, Charu C. (2024). Probabilidad y estadística para el aprendizaje automático: un libro de texto. Cham: Springer Nature Switzerland. p. 138. doi :10.1007/978-3-031-53282-5. ISBN 978-3-031-53281-8.
- ^ ab Chan, Stanley (2021). Introducción a la probabilidad para la ciencia de datos (1.ª ed.). Michigan Publishing . ISBN 978-1-60785-747-1.
- ^ abcd Lovric, Miodrag, ed. (2011). Enciclopedia internacional de ciencias estadísticas (1.ª ed.). Berlín, Heidelberg: Springer Berlin Heidelberg. doi :10.1007/978-3-642-04898-2. ISBN 978-3-642-04897-5.
- ^ ab Gallager, R.; van Voorhis, D. (marzo de 1975). "Códigos fuente óptimos para alfabetos enteros distribuidos geométricamente (Corresp.)". IEEE Transactions on Information Theory . 21 (2): 228–230. doi :10.1109/TIT.1975.1055357. ISSN 0018-9448.
- ^ Lisman, JHC; Zuylen, MCA van (marzo de 1972). "Nota sobre la generación de distribuciones de frecuencias más probables". Statistica Neerlandica . 26 (1): 19–23. doi :10.1111/j.1467-9574.1972.tb00152.x. ISSN 0039-0402.
- ^ Pitman, Jim (1993). Probabilidad. Nueva York, NY: Springer New York. p. 372. doi :10.1007/978-1-4612-4374-8. ISBN 978-0-387-94594-1.
- ^ Ciardo, Gianfranco; Leemis, Lawrence M.; Nicol, David (1 de junio de 1995). "Sobre el mínimo de variables aleatorias independientes distribuidas geométricamente". Statistics & Probability Letters . 23 (4): 313–326. doi :10.1016/0167-7152(94)00130-Z. hdl : 2060/19940028569 . S2CID 1505801.
- ^ ab Evans, Michael; Rosenthal, Jeffrey (2023). Probabilidad y estadística: la ciencia de la incertidumbre (2.ª ed.). Macmillan Learning. ISBN 978-1429224628.
- ^ ab Held, Leonhard; Sabanés Bové, Daniel (2020). Probabilidad e inferencia bayesiana: con aplicaciones en biología y medicina. Estadística para biología y salud. Berlín, Heidelberg: Springer Berlin Heidelberg. doi :10.1007/978-3-662-60792-3. ISBN 978-3-662-60791-6.
- ^ Siegrist, Kyle (5 de mayo de 2020). «7.3: Máxima verosimilitud». Estadísticas LibreTexts . Consultado el 20 de junio de 2024 .
- ^ Fink, Daniel. "Un compendio de priores conjugados". CiteSeerX 10.1.1.157.5540 .
- ^ "3. Familias conjugadas de distribuciones" (PDF) . Archivado (PDF) desde el original el 8 de abril de 2010.
- ^ ab Devroye, Luc (1986). Generación de variables aleatorias no uniformes. Nueva York, NY: Springer New York. doi :10.1007/978-1-4613-8643-8. ISBN 978-1-4613-8645-2.
- ^ Knuth, Donald Ervin (1997). El arte de la programación informática . Vol. 2 (3.ª ed.). Reading, Mass.: Addison-Wesley . pág. 136. ISBN. 978-0-201-89683-1.
- ^ Daskin, Mark S. (2021). Gestión de operaciones en porciones pequeñas. Síntesis de conferencias sobre investigación de operaciones y aplicaciones. Cham: Springer International Publishing. pág. 127. doi :10.1007/978-3-031-02493-1. ISBN 978-3-031-01365-2.
- ^ Madhira, Sivaprasad; Deshmukh, Shailaja (2023). Introducción a los procesos estocásticos utilizando R. Singapur: Springer Nature Singapur. pag. 449.doi : 10.1007 /978-981-99-5601-2. ISBN 978-981-99-5600-5.
- ^ Gupta, Rakesh; Gupta, Shubham; Ali, Irfan (2023), Garg, Harish (ed.), "Algunos modelos de sistemas de cadena de Markov paramétricos discretos para analizar la confiabilidad", Advances in Reliability, Failure and Risk Analysis , Singapur: Springer Nature Singapore, págs. 305-306, doi :10.1007/978-981-19-9909-3_14, ISBN 978-981-19-9908-6, consultado el 13 de julio de 2024
- ^ Polymenis, Athanase (1 de octubre de 2021). "Una aplicación de la distribución geométrica para evaluar el riesgo de infección por SARS-CoV-2 según la ubicación". Revista asiática de ciencias médicas . 12 (10): 8–11. doi : 10.3126/ajms.v12i10.38783 . ISSN 2091-0576.