stringtranslate.com

Distribución binomial negativa

En teoría de probabilidad y estadística , la distribución binomial negativa es una distribución de probabilidad discreta que modela el número de fallos en una secuencia de ensayos de Bernoulli independientes e idénticamente distribuidos antes de que ocurra un número específico (no aleatorio) de éxitos (denotado ). [2] Por ejemplo, podemos definir sacar un 6 en algunos dados como un éxito, y sacar cualquier otro número como un fracaso, y preguntarnos cuántos lanzamientos de fallo ocurrirán antes de que veamos el tercer éxito ( ). En tal caso, la distribución de probabilidad del número de fallos que aparecen será una distribución binomial negativa.

Una formulación alternativa es modelar el número total de ensayos (en lugar del número de fallos). De hecho, para un número específico (no aleatorio) de éxitos ( r ), el número de fallos ( n  −  r ) es aleatorio porque el número total de ensayos ( n ) es aleatorio. Por ejemplo, podríamos utilizar la distribución binomial negativa para modelar el número de días n (aleatorios) que funciona una determinada máquina (especificada por r ) antes de que se estropee.

La distribución de Pascal (por Blaise Pascal ) y la distribución de Polya (por George Pólya ) son casos especiales de la distribución binomial negativa. Una convención entre ingenieros, climatólogos y otros es utilizar "binomial negativa" o "Pascal" para el caso de un parámetro de tiempo de parada de valor entero ( ) y utilizar "Polya" para el caso de valor real.

Para ocurrencias de eventos discretos asociados, como brotes de tornados, las distribuciones de Polya se pueden utilizar para dar modelos más precisos que la distribución de Poisson al permitir que la media y la varianza sean diferentes, a diferencia de Poisson. La distribución binomial negativa tiene una varianza , con la distribución volviéndose idéntica a Poisson en el límite para una media dada (es decir, cuando las fallas son cada vez más raras). Esto puede hacer que la distribución sea una alternativa útil sobredispersada a la distribución de Poisson, por ejemplo para una modificación robusta de la regresión de Poisson . En epidemiología, se ha utilizado para modelar la transmisión de enfermedades para enfermedades infecciosas donde el número probable de infecciones posteriores puede variar considerablemente de un individuo a otro y de un entorno a otro. [3] De manera más general, puede ser apropiada donde los eventos tienen ocurrencias correlacionadas positivamente causando una varianza mayor que si las ocurrencias fueran independientes, debido a un término de covarianza positiva .

El término "binomial negativo" probablemente se debe al hecho de que un determinado coeficiente binomial que aparece en la fórmula para la función de masa de probabilidad de la distribución se puede escribir de forma más sencilla con números negativos. [4]

Definiciones

Imaginemos una secuencia de ensayos Bernoulli independientes : cada ensayo tiene dos resultados potenciales llamados "éxito" y "fracaso". En cada ensayo, la probabilidad de éxito es y la de fracaso es . Observamos esta secuencia hasta que se produce un número predefinido de éxitos. Entonces, el número aleatorio de fracasos observados, , sigue la distribución binomial negativa (o Pascal ):

Función de masa de probabilidad

La función de masa de probabilidad de la distribución binomial negativa es

donde r es el número de éxitos, k es el número de fracasos y p es la probabilidad de éxito en cada ensayo.

Aquí, la cantidad entre paréntesis es el coeficiente binomial y es igual a

Tenga en cuenta que Γ(r) es la función Gamma .

Hay k fallos elegidos entre k  +  r  − 1 ensayos en lugar de k  +  r porque el último de los k  +  r ensayos es, por definición, un éxito.

Esta cantidad se puede escribir alternativamente de la siguiente manera, lo que explica el nombre "binomio negativo":

Nótese que por la última expresión y la serie binomial , para cada 0 ≤ p < 1 y ,

Por lo tanto, los términos de la función de masa de probabilidad de hecho suman uno como se muestra a continuación.

Para entender la definición anterior de la función de masa de probabilidad, tenga en cuenta que la probabilidad de cada secuencia específica de r  éxitos y k  fracasos es p r (1 − p ) k , porque se supone que los resultados de los k  +  r ensayos ocurren de forma independiente . Como el r ésimo éxito siempre viene al final, queda elegir los k  ensayos con fracasos de los k  +  r  − 1 ensayos restantes. El coeficiente binomial anterior, debido a su interpretación combinatoria, da precisamente el número de todas estas secuencias de longitud k  +  r  − 1.

Función de distribución acumulativa

La función de distribución acumulativa se puede expresar en términos de la función beta incompleta regularizada : [2] [5]

(Esta fórmula utiliza la misma parametrización que en la tabla del artículo, siendo r el número de éxitos y con la media).

También se puede expresar en términos de la función de distribución acumulativa de la distribución binomial : [6]

Formulaciones alternativas

Algunas fuentes pueden definir la distribución binomial negativa de forma ligeramente diferente a la principal que se muestra aquí. Las variaciones más comunes son aquellas en las que la variable aleatoria X cuenta cosas diferentes. Estas variaciones se pueden ver en la siguiente tabla:

Cada una de las cuatro definiciones de la distribución binomial negativa se puede expresar de maneras ligeramente diferentes pero equivalentes. La primera formulación alternativa es simplemente una forma equivalente del coeficiente binomial, es decir: . La segunda formulación alternativa simplifica un poco la expresión al reconocer que el número total de ensayos es simplemente el número de éxitos y fracasos, es decir: . Estas segundas formulaciones pueden ser más intuitivas de entender, sin embargo, son quizás menos prácticas ya que tienen más términos.

Después de sustituir esta expresión en la definición original, decimos que X tiene una distribución binomial negativa (o Pólya ) si tiene una función de masa de probabilidad :
Aquí r es un número real y positivo.

En la regresión binomial negativa, [15] la distribución se especifica en términos de su media, , que luego se relaciona con variables explicativas como en la regresión lineal u otros modelos lineales generalizados . A partir de la expresión para la media m , se puede derivar y . Luego, sustituyendo estas expresiones en la de la función de masa de probabilidad cuando r es de valor real, se obtiene esta parametrización de la función de masa de probabilidad en términos de  m :

La varianza puede entonces escribirse como . Algunos autores prefieren fijar , y expresar la varianza como . En este contexto, y dependiendo del autor, el parámetro r o su recíproco α se denomina "parámetro de dispersión", "parámetro de forma" o "coeficiente de agrupamiento", [16] o el parámetro de "heterogeneidad" [15] o "agregación". [10] El término "agregación" se utiliza particularmente en ecología cuando se describen recuentos de organismos individuales. La disminución del parámetro de agregación r hacia cero corresponde a una agregación creciente de los organismos; el aumento de r hacia el infinito corresponde a la ausencia de agregación, como se puede describir mediante la regresión de Poisson .

Parametrizaciones alternativas

A veces la distribución se parametriza en términos de su media μ y varianza σ 2 :

Otra parametrización popular utiliza r y las probabilidades de falla β :

Ejemplos

Duración de la estancia hospitalaria

La duración de la estancia hospitalaria es un ejemplo de datos del mundo real que se pueden modelar bien con una distribución binomial negativa a través de una regresión binomial negativa . [17] [18]

Venta de dulces

A Pat Collis se le pide que venda barras de chocolate para recaudar dinero para la excursión de 6.º grado. Se supone que Pat (con cierta dureza) no debe regresar a casa hasta que haya vendido cinco barras de chocolate. Así que el niño va de puerta en puerta vendiendo barras de chocolate. En cada casa, hay una probabilidad de 0,6 de vender una barra de chocolate y una probabilidad de 0,4 de no vender nada.

¿Cuál es la probabilidad de vender la última barra de chocolate en la casa n ?

Vender caramelos con éxito suficientes veces es lo que define nuestro criterio de parada (en contraposición a no venderlos), por lo que k en este caso representa el número de fracasos y r representa el número de éxitos. Recordemos que la distribución NB( r , p ) describe la probabilidad de k fracasos y r éxitos en k  +  r ensayos de Bernoulli( p ) con éxito en el último ensayo. Vender cinco barras de chocolate significa obtener cinco éxitos. El número de ensayos (es decir, casas) que esto requiere es, por tanto, k  + 5 =  n . La variable aleatoria que nos interesa es el número de casas, por lo que sustituimos k  =  n  − 5 en una función de masa NB(5, 0,4) y obtenemos la siguiente función de masa de la distribución de casas (para n  ≥ 5):

¿Cuál es la probabilidad de que Pat termine en la décima casa?

¿Cuál es la probabilidad de que Pat termine en o antes de llegar a la octava casa?

Para terminar en la octava casa o antes, Pat debe terminar en la quinta, sexta, séptima u octava casa. Sume esas probabilidades:

¿Cuál es la probabilidad de que Pat agote las 30 casas que hay en el vecindario?

Esto se puede expresar como la probabilidad de que Pat no termine en la casa quinta a la trigésima:

Debido a la alta probabilidad de que Pat venda a cada casa (60 por ciento), la probabilidad de que no cumpla su misión es extremadamente baja.

Propiedades

Expectativa

El número total esperado de ensayos necesarios para obtener r éxitos es . Por lo tanto, el número esperado de fracasos sería este valor, menos los éxitos:

Expectativa de éxitos

El número total esperado de fallas en una distribución binomial negativa con parámetros ( r , p ) es r (1 −  p )/ p . Para ver esto, imagine que se realiza un experimento que simula la binomial negativa muchas veces. Es decir, se realiza un conjunto de ensayos hasta que se obtienen r éxitos, luego otro conjunto de ensayos, y luego otro, etc. Escriba el número de ensayos realizados en cada experimento: a , b , c , ... y establezca a  +  b  +  c  + ... =  N . Ahora esperaríamos alrededor de Np éxitos en total. Digamos que el experimento se realizó n veces. Entonces hay nr éxitos en total. Entonces esperaríamos nr = Np , entonces N / nr / p . Vea que N / n es solo el número promedio de ensayos por experimento. Eso es lo que queremos decir con "expectativa". El número promedio de fallas por experimento es N / n  −  rr / p  −  r = r (1 −  p )/ p . Esto coincide con la media que aparece en el recuadro del lado derecho de esta página.

Se puede hacer una derivación rigurosa representando la distribución binomial negativa como la suma de los tiempos de espera. Sea con la convención representa el número de fallas observadas antes de los éxitos con la probabilidad de éxito siendo . Y sea donde representa el número de fallas antes de ver un éxito. Podemos pensar en como el tiempo de espera (número de fallas) entre el ésimo y el ésimo éxito. Por lo tanto

La media es

lo cual se desprende del hecho .

Diferencia

Al contar el número de fallas antes del éxito r -ésimo, la varianza es  r (1 −  p )/ p 2 . Al contar el número de éxitos antes del fracaso r -ésimo, como en la formulación alternativa (3) anterior, la varianza es  rp /(1 −  p ) 2 .

Relación con el teorema del binomio

Supongamos que Y es una variable aleatoria con una distribución binomial con parámetros n y p . Supongamos que p  +  q  = 1, con pq  ≥ 0, entonces

Usando el teorema binomial de Newton , esto también se puede escribir como:

en el que el límite superior de la suma es infinito. En este caso, el coeficiente binomial

se define cuando n es un número real, en lugar de solo un entero positivo. Pero en nuestro caso de la distribución binomial es cero cuando k > n . Podemos decir, por ejemplo

Ahora supongamos que r > 0 y usamos un exponente negativo:

Entonces todos los términos son positivos y el término

es simplemente la probabilidad de que el número de fallas antes del r ésimo éxito sea igual a k , siempre que r sea un entero. (Si r es un número no entero negativo, de modo que el exponente es un número no entero positivo, entonces algunos de los términos en la suma anterior son negativos, por lo que no tenemos una distribución de probabilidad en el conjunto de todos los números enteros no negativos).

Ahora también permitimos valores no enteros de r . Entonces tenemos una distribución binomial negativa propia, que es una generalización de la distribución de Pascal, que coincide con la distribución de Pascal cuando r es un entero positivo.

Recordemos lo dicho anteriormente:

La suma de las variables aleatorias independientes distribuidas binomialmente negativamente r 1 y r 2 con el mismo valor para el parámetro p tiene una distribución binomial negativa con el mismo p pero con un valor  r r 1  +  r 2 .

Esta propiedad persiste cuando la definición se generaliza de esta manera y proporciona una forma rápida de ver que la distribución binomial negativa es infinitamente divisible .

Relaciones de recurrencia

Se cumplen las siguientes relaciones de recurrencia :

Para la función de masa de probabilidad

Para los momentos

Para los acumulantes

Distribuciones relacionadas

Distribución de Poisson

Consideremos una secuencia de variables aleatorias binomiales negativas donde el parámetro de parada r tiende a infinito, mientras que la probabilidad p de éxito en cada ensayo tiende a uno, de tal forma que se mantenga constante la media de la distribución (es decir, el número esperado de fracasos). Denotando esta media como λ , el parámetro p será p  =  r /( r  +  λ )

Bajo esta parametrización la función de masa de probabilidad será

Ahora bien, si consideramos el límite cuando r → ∞, el segundo factor convergerá a uno y el tercero a la función exponente:

que es la función de masa de una variable aleatoria distribuida por Poisson con valor esperado  λ .

En otras palabras, la distribución binomial negativa parametrizada alternativamente converge a la distribución de Poisson y r controla la desviación con respecto a Poisson. Esto hace que la distribución binomial negativa sea adecuada como una alternativa robusta a Poisson, que se aproxima a Poisson para valores grandes de r , pero que tiene una varianza mayor que Poisson para valores pequeños de r .

Mezcla gamma-Poisson

La distribución binomial negativa también surge como una mezcla continua de distribuciones de Poisson (es decir, una distribución de probabilidad compuesta ) donde la distribución de mezcla de la tasa de Poisson es una distribución gamma . Es decir, podemos ver la distribución binomial negativa como una distribución de Poisson( λ ) , donde λ es en sí misma una variable aleatoria, distribuida como una distribución gamma con forma r y escala θ = (1 − p )/ p o, correspondientemente, tasa β = p /(1 − p ) .

Para mostrar la intuición detrás de esta afirmación, considere dos procesos de Poisson independientes, "Éxito" y "Fracaso", con intensidades p y 1 −  p . Juntos, los procesos de Éxito y Fracaso son equivalentes a un solo proceso de Poisson de intensidad 1, donde una ocurrencia del proceso es un éxito si un lanzamiento de moneda independiente correspondiente sale cara con probabilidad p ; de lo contrario, es un fracaso. Si r es un número de conteo, los lanzamientos de moneda muestran que el conteo de éxitos antes del r ésimo fracaso sigue una distribución binomial negativa con parámetros r y p . El conteo es también, sin embargo, el conteo del proceso de Poisson de Éxito en el tiempo aleatorio T de la r ésima ocurrencia en el proceso de Poisson de Fracaso. El recuento de éxitos sigue una distribución de Poisson con media pT , donde T es el tiempo de espera para r ocurrencias en un proceso de Poisson de intensidad 1 −  p , es decir, T tiene una distribución gamma con un parámetro de forma r y una intensidad 1 −  p . Por lo tanto, la distribución binomial negativa es equivalente a una distribución de Poisson con media pT , donde la variable aleatoria T tiene una distribución gamma con un parámetro de forma r y una intensidad (1 − p ) . El párrafo anterior sigue, porque λ  =  pT tiene una distribución gamma con un parámetro de forma r y una intensidad (1 − p )/ p .

La siguiente derivación formal (que no depende de que r sea un número contable) confirma la intuición.

Por este motivo, la distribución binomial negativa también se conoce como distribución gamma-Poisson (mixta) . La distribución binomial negativa se derivó originalmente como un caso límite de la distribución gamma-Poisson. [19]

Distribución de una suma de variables aleatorias distribuidas geométricamente

Si Y r es una variable aleatoria que sigue la distribución binomial negativa con parámetros r y p , y soporta {0, 1, 2, ...}, entonces Y r es una suma de r variables independientes que siguen la distribución geométrica (en {0, 1, 2, ...}) con parámetro p . Como resultado del teorema del límite central , Y r (adecuadamente escalada y desplazada) es por lo tanto aproximadamente normal para  r suficientemente grande .

Además, si B s + r es una variable aleatoria que sigue la distribución binomial con parámetros s  +  r y p , entonces

En este sentido, la distribución binomial negativa es la “inversa” de la distribución binomial.

La suma de las variables aleatorias independientes distribuidas binomialmente negativamente r 1 y r 2 con el mismo valor para el parámetro p tiene una distribución binomial negativa con el mismo p pero con un valor  r r 1  +  r 2 .

La distribución binomial negativa es infinitamente divisible , es decir, si Y tiene una distribución binomial negativa, entonces para cualquier entero positivo n , existen variables aleatorias independientes idénticamente distribuidas Y 1 , ...,  Y n cuya suma tiene la misma distribución que Y.

Representación como distribución de Poisson compuesta

La distribución binomial negativa NB( r , p ) se puede representar como una distribución de Poisson compuesta : Sea una secuencia de variables aleatorias independientes e idénticamente distribuidas , cada una con la distribución de serie logarítmica Log( p ), con función de masa de probabilidad.

Sea N una variable aleatoria, independiente de la secuencia, y supongamos que N tiene una distribución de Poisson con media λ = − r ln(1 − p ) . Entonces la suma aleatoria

tiene una distribución NB( r , p ). Para demostrarlo, calculamos la función generadora de probabilidad G X de X , que es la composición de las funciones generadoras de probabilidad G N y G Y 1 . Utilizando

y

Nosotros obtenemos

que es la función generadora de probabilidad de la distribución NB( r , p ).

La siguiente tabla describe cuatro distribuciones relacionadas con el número de éxitos en una secuencia de sorteos:

(a,b,0) clase de distribuciones

La distribución binomial negativa, junto con las distribuciones de Poisson y binomial, es miembro de la clase de distribuciones ( a , b ,0) . Estas tres distribuciones son casos especiales de la distribución de Panjer. También son miembros de una familia exponencial natural .

Inferencia estadística

Estimación de parámetros

MVUE parapag

Supongamos que p es desconocido y se lleva a cabo un experimento en el que se decide de antemano que el muestreo continuará hasta que se encuentren r éxitos. Una estadística suficiente para el experimento es k , el número de fracasos.

Al estimar p , el estimador insesgado de varianza mínima es

Estimación de máxima verosimilitud

Cuando se conoce r , la estimación de máxima verosimilitud de p es

pero esta es una estimación sesgada . Su inversa ( r  +  k )/ r es, sin embargo, una estimación no sesgada de 1/ p . [20]

Cuando r es desconocido, el estimador de máxima verosimilitud para p y r juntos solo existe para muestras para las cuales la varianza de la muestra es mayor que la media de la muestra. [21] La función de verosimilitud para N observaciones iid ( k 1 , ...,  k N ) es

a partir de la cual calculamos la función de log-verosimilitud

Para encontrar el máximo tomamos las derivadas parciales con respecto a r y p y las igualamos a cero:

y

dónde

es la función digamma .

Resolviendo la primera ecuación para p obtenemos:

Sustituyendo esto en la segunda ecuación obtenemos:

Esta ecuación no se puede resolver para r en forma cerrada . Si se desea una solución numérica, se puede utilizar una técnica iterativa como el método de Newton . Alternativamente, se puede utilizar el algoritmo de expectativa-maximización . [21]

Ocurrencia y aplicaciones

Tiempo de espera en un proceso Bernoulli

Para el caso especial en el que r es un entero, la distribución binomial negativa se conoce como distribución de Pascal . Es la distribución de probabilidad de un cierto número de fracasos y éxitos en una serie de ensayos de Bernoulli independientes e idénticamente distribuidos . Para k  +  r ensayos de Bernoulli con probabilidad de éxito p , la distribución binomial negativa da la probabilidad de k éxitos y r fracasos, con un fracaso en el último ensayo. En otras palabras, la distribución binomial negativa es la distribución de probabilidad del número de éxitos antes del r ésimo fracaso en un proceso de Bernoulli , con probabilidad p de éxitos en cada ensayo. Un proceso de Bernoulli es un proceso de tiempo discreto , por lo que el número de ensayos, fracasos y éxitos son números enteros.

Consideremos el siguiente ejemplo. Supongamos que lanzamos un dado repetidamente y consideramos que un 1 es un fracaso. La probabilidad de éxito en cada intento es 5/6. El número de éxitos antes del tercer fracaso pertenece al conjunto infinito {0, 1, 2, 3, ...}. Ese número de éxitos es una variable aleatoria con distribución binomial negativa.

Cuando r = 1 obtenemos la distribución de probabilidad del número de éxitos antes del primer fracaso (es decir, la probabilidad de que el primer fracaso ocurra en el ( k  + 1)º ensayo), que es una distribución geométrica :

Hallazgos recientes sugieren que el tiempo de espera en un proceso de Bernoulli está fuertemente relacionado con los fractales y la función de Dirichlet. Las distribuciones de probabilidad con propiedades fractales que están relacionadas con la función de Dirichlet pueden derivarse de procesos recurrentes generados por distribuciones discretas uniformes. Dichas distribuciones discretas uniformes pueden ser dígitos pi, lanzamientos de dados justos o giros de casino en vivo. Considere el siguiente tiempo de espera en un proceso de Bernoulli: Una variable aleatoria C i se muestrea repetidamente N veces a partir de una distribución uniforme discreta, donde i varía de 1 a N. Por ejemplo, considere valores enteros que van de 1 a 10. Los momentos de ocurrencia, T k , significan cuándo se repiten los eventos C i , definidos como C i = C i-1 o C i = C i-2 , donde k varía de 1 a M, siendo M menor que N. Posteriormente, defina S j como el intervalo entre T k sucesivos , que representa el tiempo de espera para que ocurra un evento. Por último, introduzca Z l como ln(S j ) – ln(S j-1 ), donde l varía de 1 a U-1. La variable aleatoria Z muestra propiedades fractales, parecidas a la distribución de formas similar a la función de Thomae o la de Dirichlet. [22]

La función de Thomae como distribución

Poisson sobredispersado

La distribución binomial negativa, especialmente en su parametrización alternativa descrita anteriormente, se puede utilizar como una alternativa a la distribución de Poisson. Es especialmente útil para datos discretos en un rango positivo ilimitado cuya varianza de la muestra excede la media de la muestra . En tales casos, las observaciones están sobredispersas con respecto a una distribución de Poisson, para la cual la media es igual a la varianza. Por lo tanto, una distribución de Poisson no es un modelo apropiado. Dado que la distribución binomial negativa tiene un parámetro más que la de Poisson, el segundo parámetro se puede utilizar para ajustar la varianza independientemente de la media. Véase Cumulantes de algunas distribuciones de probabilidad discretas .

Una aplicación de esto es para los recuentos anuales de ciclones tropicales en el Atlántico Norte o para los recuentos mensuales a semestrales de ciclones extratropicales invernales en Europa, para los cuales la varianza es mayor que la media. [23] [24] [25] En el caso de una sobredispersión moderada, esto puede producir resultados sustancialmente similares a una distribución de Poisson sobredispersada. [26] [27]

El modelo binomial negativo se emplea ampliamente en la investigación de la ecología y la biodiversidad para analizar datos de recuentos en los que la sobredispersión es muy común. Esto se debe a que la sobredispersión es indicativa de agregación biológica, como la formación de grupos de especies o comunidades. Ignorar la sobredispersión puede llevar a parámetros del modelo significativamente inflados, lo que resulta en inferencias estadísticas engañosas. La distribución binomial negativa aborda eficazmente los recuentos sobredispersados ​​al permitir que la varianza varíe cuadráticamente con la media. Un parámetro de dispersión adicional gobierna la pendiente del término cuadrático, determinando la gravedad de la sobredispersión. La relación media-varianza cuadrática del modelo demuestra ser un enfoque realista para manejar la sobredispersión, como lo respalda la evidencia empírica de muchos estudios. En general, el modelo NB ofrece dos características atractivas: (1) la interpretación conveniente del parámetro de dispersión como un índice de agrupamiento o agregación, y (2) su forma manejable, que presenta una expresión cerrada para la función de masa de probabilidad. [28]

En genética, la distribución binomial negativa se utiliza comúnmente para modelar datos en forma de recuentos de lecturas de secuencias discretas de experimentos de secuenciación de ARN y ADN de alto rendimiento. [29] [30] [31] [32]

En la epidemiología de las enfermedades infecciosas, la distribución binomial negativa se ha utilizado como una mejor opción que la distribución de Poisson para modelar recuentos sobredispersos de infecciones secundarias a partir de un caso infectado (eventos de superpropagación). [33]

Observaciones de multiplicidad (física)

La distribución binomial negativa ha sido el modelo estadístico más eficaz para una amplia gama de observaciones de multiplicidad en experimentos de colisión de partículas , por ejemplo, [34] [35] [36] [37] [38] (véase [39] para una descripción general), y se sostiene que es una propiedad de la materia invariante en escala , [40] [41] proporcionando el mejor ajuste para las observaciones astronómicas, donde predice el número de galaxias en una región del espacio. [42] [43] [44] [45] La justificación fenomenológica de la eficacia de la distribución binomial negativa en estos contextos permaneció desconocida durante cincuenta años, desde su primera observación en 1973. [46] En 2023, Scott V. Tezlaf demostró finalmente una prueba a partir de primeros principios , donde se demostró que la distribución binomial negativa surge de simetrías en las ecuaciones dinámicas de un conjunto canónico de partículas en el espacio de Minkowski . [47] Aproximadamente, dado un número esperado de ensayos y un número esperado de éxitos , donde

Un conjunto isomorfo de ecuaciones se puede identificar con los parámetros de una densidad de corriente relativista de un conjunto canónico de partículas masivas, a través de

donde es la densidad en reposo , es la densidad cuadrática media relativista, es la densidad de corriente cuadrática media relativista, y , donde es la velocidad cuadrática media del conjunto de partículas y es la velocidad de la luz —de modo que se puede establecer la siguiente función biyectiva :

También se ha demostrado una prueba alternativa rigurosa de la correspondencia anterior a través de la mecánica cuántica mediante la integral de trayectoria de Feynman . [47]

Historia

Esta distribución fue estudiada por primera vez en 1713 por Pierre Remond de Montmort en su Ensayo de análisis de los juegos de azar , como la distribución del número de ensayos necesarios en un experimento para obtener un número dado de éxitos. [48] Ya había sido mencionada previamente por Pascal . [49]

Véase también

Referencias

  1. ^ DeGroot, Morris H. (1986). Probabilidad y estadística (segunda edición). Addison-Wesley. págs. 258-259. ISBN 0-201-11366-X. OCLC  10605205  .​
  2. ^ abc Weisstein, Eric. «Distribución binomial negativa». Wolfram MathWorld . Wolfram Research . Consultado el 11 de octubre de 2020 .
  3. ^ p. ej. Lloyd-Smith, JO; Schreiber, SJ; Kopp, PE; Getz, WM (2005). "Superpropagación y el efecto de la variación individual en la aparición de enfermedades". Nature . 438 (7066): 355–359. Bibcode :2005Natur.438..355L. doi : 10.1038/nature04153 . PMC 7094981 . PMID  16292310. 
    El parámetro de sobredispersión generalmente se denota con la letra en epidemiología, en lugar de como se hace aquí.
  4. ^ Casella, George; Berger, Roger L. (2002). Inferencia estadística (2.ª ed.). Thomson Learning. pág. 95. ISBN 0-534-24312-6.
  5. ^ abc Cook, John D. "Notas sobre la distribución binomial negativa" (PDF) .
  6. ^ Morris KW (1963),Una nota sobre muestreo directo e inverso, Biometrika, 50, 544–545.
  7. ^ "Mathworks: Distribución binomial negativa".
  8. ^ Saha, Abhishek. "Introducción a la probabilidad / Fundamentos de la probabilidad: lección 14" (PDF) .
  9. ^ SAS Institute , "Distribución binomial negativa", Funciones SAS(R) 9.4 y rutinas CALL: referencia, cuarta edición , SAS Institute, Cary, NC, 2016.
  10. ^ de Crawley, Michael J. (2012). El libro R. Wiley. ISBN 978-1-118-44896-0.
  11. ^ ab "Teoría de conjuntos: Sección 3.2.5 – Distribución binomial negativa" (PDF) .
  12. ^ "Randomservices.org, Capítulo 10: Ensayos de Bernoulli, Sección 4: La distribución binomial negativa".
  13. ^ "Stat Trek: Distribución binomial negativa".
  14. ^ Wroughton, Jacqueline. "Distinción entre distribuciones binomiales, hipergeométricas y binomiales negativas" (PDF) .
  15. ^ ab Hilbe, Joseph M. (2011). Regresión binomial negativa (segunda edición). Cambridge, Reino Unido: Cambridge University Press. ISBN 978-0-521-19815-8.
  16. ^ Lloyd-Smith, JO (2007). "Estimación de máxima verosimilitud del parámetro de dispersión binomial negativa para datos altamente sobredispersos, con aplicaciones a enfermedades infecciosas". PLoS ONE . ​​2 (2): e180. Bibcode :2007PLoSO...2..180L. doi : 10.1371/journal.pone.0000180 . PMC 1791715 . PMID  17299582.  Icono de acceso abierto
  17. ^ Carter, EM, Potts, HWW (4 de abril de 2014). "Predicción de la duración de la estancia hospitalaria a partir de un sistema de registro electrónico de pacientes: un ejemplo de reemplazo total de rodilla primario". BMC Medical Informatics and Decision Making . 14 : 26. doi : 10.1186/1472-6947-14-26 . PMC 3992140 . PMID  24708853. {{cite journal}}: CS1 maint: multiple names: authors list (link) Icono de acceso abierto
  18. ^ Orooji, Arezoo; Nazar, Eisa; Sadeghi, Masoumeh; Moradi, Ali; Jafari, Zahra; Esmaily, Habibollah (30 de abril de 2021). "Factores asociados con la duración de la estancia hospitalaria entre pacientes de edad avanzada utilizando modelos de regresión de recuento". Revista Médica de la República Islámica de Irán . 35 : 5. doi :10.47176/mjiri.35.5. PMC 8111647 . PMID  33996656. 
  19. ^ Greenwood, M.; Yule, GU (1920). "Una investigación sobre la naturaleza de las distribuciones de frecuencia representativas de múltiples sucesos con referencia particular a múltiples ataques de enfermedades o accidentes repetidos". JR Stat Soc . 83 (2): 255–279. doi :10.2307/2341080. JSTOR  2341080.
  20. ^ Haldane, JBS (1945). "Sobre un método de estimación de frecuencias". Biometrika . 33 (3): 222–225. doi :10.1093/biomet/33.3.222. hdl : 10338.dmlcz/102575 . JSTOR  2332299. PMID  21006837.
  21. ^ ab Aramidis, K. (1999). "Un algoritmo EM para estimar parámetros binomiales negativos". Revista Australiana y Neozelandesa de Estadística . 41 (2): 213–221. doi : 10.1111/1467-842X.00075 . S2CID  : 118758171.
  22. ^ Endrit Dheskali. Generación de un proceso fractal recurrente utilizando distribuciones uniformes discretas, 26 de febrero de 2024, PREPRINT (versión 1) disponible en Research Square [1]
  23. ^ Villarini, G.; Vecchi, GA; Smith, JA (2010). "Modelado de la dependencia de los recuentos de tormentas tropicales en la cuenca del Atlántico Norte en los índices climáticos". Monthly Weather Review . 138 (7): 2681–2705. Bibcode :2010MWRv..138.2681V. doi : 10.1175/2010MWR3315.1 .
  24. ^ Mailier, PJ; Stephenson, DB; Ferro, CAT; Hodges, KI (2006). "Agrupamiento serial de ciclones extratropicales". Monthly Weather Review . 134 (8): 2224–2240. Código Bibliográfico :2006MWRv..134.2224M. doi : 10.1175/MWR3160.1 .
  25. ^ Vitolo, R.; Stephenson, DB; Cook, Ian M.; Mitchell-Wallace, K. (2009). "Agrupamiento serial de tormentas europeas intensas". Meteorologische Zeitschrift . 18 (4): 411–424. Bibcode :2009MetZe..18..411V. doi :10.1127/0941-2948/2009/0393. S2CID  67845213.
  26. ^ McCullagh, Peter ; Nelder, John (1989). Modelos lineales generalizados (segunda edición). Boca Raton: Chapman and Hall/CRC. ISBN 978-0-412-31760-6.
  27. ^ Cameron, Adrian C.; Trivedi, Pravin K. (1998). Análisis de regresión de datos de recuento . Cambridge University Press. ISBN 978-0-521-63567-7.
  28. ^ Stoklosa, J.; Blakey, RV; Hui, FKC (2022). "Una descripción general de las aplicaciones modernas del modelado binomial negativo en ecología y biodiversidad". Diversidad . 14 (5): 320. doi : 10.3390/d14050320 .
  29. ^ Robinson, MD; Smyth, GK (2007). "Pruebas estadísticas moderadas para evaluar diferencias en la abundancia de etiquetas". Bioinformática . 23 (21): 2881–2887. doi : 10.1093/bioinformatics/btm453 . PMID  17881408.
  30. ^ "Análisis diferencial de datos de recuento – el" (PDF) .
  31. ^ Airoldi, EM; Cohen, WW; Fienberg, SE (junio de 2005). "Modelos bayesianos para términos frecuentes en texto". Actas de la Sociedad de Clasificación de Norteamérica y reuniones anuales de INTERFACE . Vol. 990. St. Louis, MO, EE. UU., pág. 991.
  32. ^ Chen, Yunshun; Davis, McCarthy (25 de septiembre de 2014). «edgeR: análisis de expresión diferencial de datos digitales de expresión génica» (PDF) . Consultado el 14 de octubre de 2014 .
  33. ^ Lloyd-Smith, JO; Schreiber, SJ; Kopp, PE; Getz, WM (2005). "Superpropagación y el efecto de la variación individual en la aparición de enfermedades". Nature . 438 (7066): 355–359. Bibcode :2005Natur.438..355L. doi :10.1038/nature04153. PMC 7094981 . PMID  16292310. 
  34. ^ Grosse-Oetringhaus, Jan Fiete; Reygers, Klaus (1 de agosto de 2010). "Multiplicidad de partículas cargadas en colisiones protón-protón". Journal of Physics G: Física nuclear y de partículas . 37 (8): 083001. arXiv : 0912.0023 . doi :10.1088/0954-3899/37/8/083001. ISSN  0954-3899. S2CID  119233810.
  35. ^ Rybczyński, Maciej; Wilk, Grzegorz; Włodarczyk, Zbigniew (31 de mayo de 2019). "Propiedades intrigantes de las distribuciones de multiplicidad". Revisión física D. 99 (9): 094045. arXiv : 1811.07197 . Código Bib : 2019PhRvD..99i4045R. doi : 10.1103/PhysRevD.99.094045 . ISSN  2470-0010.
  36. ^ Tarnowsky, Terence J.; Westfall, Gary D. (9 de julio de 2013). "Primer estudio de la distribución binomial negativa aplicada a momentos superiores de distribuciones de multiplicidad neta de protones y carga neta". Physics Letters B . 724 (1): 51–55. arXiv : 1210.8102 . Código Bibliográfico :2013PhLB..724...51T. doi : 10.1016/j.physletb.2013.05.064 . ISSN  0370-2693.
  37. ^ Derrick, M.; Gan, KK; Kooijman, P.; Loos, JS; Musgrave, B.; Price, LE; Repond, J.; Schlereth, J.; Sugano, K.; Weiss, JM; Wood, DE; Baranko, G.; Blockus, D.; Brabson, B.; Brom, JM (1986-12-01). "Estudio de la fragmentación de quarks en la aniquilación de ${e}^{+}$${e}^{\mathrm{\ensuremath{{-}}}$ a 29 GeV: multiplicidad de partículas cargadas y distribuciones de rapidez de partículas individuales". Physical Review D . 34 (11): 3304–3320. doi :10.1103/PhysRevD.34.3304. hdl : 1808/15222 . Número de modelo: PMID  9957066.
  38. ^ Zborovský, I. (10 de octubre de 2018). "Distribución de multiplicidad de tres componentes, oscilación de combinantes y propiedades de clanes en colisiones pp en el LHC". The European Physical Journal C . 78 (10): 816. arXiv : 1811.11230 . Código Bibliográfico :2018EPJC...78..816Z. doi : 10.1140/epjc/s10052-018-6287-x . ISSN  1434-6052.
  39. ^ Kittel, Wolfram; De Wolf, Eddi A (2005). Dinámica de multihardones blandos . World Scientific.
  40. ^ Schaeffer, R (1984). "Determinación de la función de correlación de N puntos de la galaxia". Astronomía y Astrofísica . 134 (2): L15. Bibcode :1984A&A...134L..15S.
  41. ^ Schaeffer, R (1985). "La función generadora de probabilidad para el agrupamiento de galaxias". Astronomía y Astrofísica . 144 (1): L1–L4. Código Bibliográfico :1985A&A...144L...1S.
  42. ^ Perez, Lucia A.; Malhotra, Sangeeta; Rhoads, James E.; Tilvi, Vithal (7 de enero de 2021). "Función de probabilidad de vacío de sondeos simulados de emisores Ly α de alto corrimiento al rojo". The Astrophysical Journal . 906 (1): 58. arXiv : 2011.03556 . Bibcode :2021ApJ...906...58P. doi : 10.3847/1538-4357/abc88b . ISSN  1538-4357.
  43. ^ Hurtado-Gil, Lluís; Martínez, Vicente J.; Arnalte-Mur, Pablo; Pons-Bordería, María-Jesús; Pareja-Flores, Cristóbal; Paredes, Silvestre (01-05-2017). "El mejor ajuste para la función de distribución de recuentos en células de galaxias observada". Astronomía y Astrofísica . 601 : A40. arXiv : 1703.01087 . Código Bib : 2017A&A...601A..40H. doi : 10.1051/0004-6361/201629097 . ISSN  0004-6361.
  44. ^ Elizalde, E.; Gaztanaga, E. (enero 1992). "Probabilidad de vacío en función de la forma del vacío y los modelos invariantes de escala". Avisos mensuales de la Real Sociedad Astronómica . 254 (2): 247–256. doi : 10.1093/mnras/254.2.247 . hdl : 2060/19910019799 . ISSN  0035-8711.
  45. ^ Hameeda, M; Plastino, Angelo; Rocca, MC (1 de marzo de 2021). "Distribuciones de Poisson generalizadas para sistemas con interacciones de dos partículas". IOP SciNotes . 2 (1): 015003. Bibcode :2021IOPSN...2a5003H. doi : 10.1088/2633-1357/abec9f . hdl : 11336/181371 . ISSN  2633-1357.
  46. ^ Giovannini, A. (junio de 1973). ""Caos térmico" y "coherencia" en distribuciones de multiplicidad a altas energías". Il Nuovo Cimento A . 15 (3): 543–551. Bibcode :1973NCimA..15..543G. doi :10.1007/bf02734689. ISSN  0369-3546. S2CID  118805136.
  47. ^ ab Tezlaf, Scott V. (29 de septiembre de 2023). "Significado de la distribución binomial negativa en fenómenos de multiplicidad". Physica Scripta . 98 (11). arXiv : 2310.03776 . Bibcode :2023PhyS...98k5310T. doi :10.1088/1402-4896/acfead. ISSN  0031-8949. S2CID  263300385.
  48. ^ Montmort PR de (1713) Essai d'analyse sur les jeux de hasard. 2da ed. Quillau, París
  49. ^ Pascal B (1679) Varia Opera Mathematica. D. Petri de Fermat. tolosae