stringtranslate.com

Distribución de Conway-Maxwell-Poisson

En teoría de probabilidad y estadística , la distribución de Conway–Maxwell–Poisson (CMP o COM–Poisson) es una distribución de probabilidad discreta que lleva el nombre de Richard W. Conway , William L. Maxwell y Siméon Denis Poisson y que generaliza la distribución de Poisson añadiendo un parámetro para modelar la sobredispersión y la subdispersión . Es miembro de la familia exponencial , [1] tiene la distribución de Poisson y la distribución geométrica como casos especiales y la distribución de Bernoulli como caso límite . [2]

Fondo

La distribución CMP fue propuesta originalmente por Conway y Maxwell en 1962 [3] como una solución para manejar sistemas de colas con tasas de servicio dependientes del estado. La distribución CMP fue introducida en la literatura estadística por Boatwright et al. 2003 [4] y Shmueli et al. (2005). [2] La primera investigación detallada sobre las propiedades probabilísticas y estadísticas de la distribución fue publicada por Shmueli et al. (2005). [2] Li et al. (2019) estudian y revisan algunos resultados de probabilidad teórica de la distribución COM-Poisson, [5] especialmente las caracterizaciones de la distribución COM-Poisson.

Función de masa de probabilidad y propiedades básicas

La distribución CMP se define como la distribución con función de masa de probabilidad.

dónde :

La función funciona como una constante de normalización, por lo que la suma de la función de masa de probabilidad es igual a uno. Nótese que no tiene una forma cerrada.

El dominio de parámetros admisibles es , y , .

El parámetro adicional que no aparece en la distribución de Poisson permite ajustar la tasa de decaimiento. Esta tasa de decaimiento es una disminución no lineal en las proporciones de probabilidades sucesivas, específicamente

Cuando , la distribución CMP se convierte en la distribución Poisson estándar y como , la distribución se aproxima a una distribución Bernoulli con parámetro . Cuando la distribución CMP se reduce a una distribución geométrica con probabilidad de éxito proporcionada . [2]

Para la distribución CMP, los momentos se pueden encontrar a través de la fórmula recursiva [2]

Función de distribución acumulativa

En general , no existe una fórmula cerrada para la función de distribución acumulativa de . Si es un entero, podemos, sin embargo, obtener la siguiente fórmula en términos de la función hipergeométrica generalizada : [6]

La constante normalizadora

Muchas estadísticas de resumen importantes, como momentos y cumulantes, de la distribución CMP se pueden expresar en términos de la constante normalizadora . [2] [7] De hecho, la función generadora de probabilidad es , y la media y la varianza se dan por

La función generadora cumulante es

y los cumulantes están dados por

Si bien la constante normalizadora en general no tiene una forma cerrada, existen algunos casos especiales dignos de mención:

Como la constante normalizadora en general no tiene una forma cerrada, resulta de interés la siguiente expansión asintótica . Fije . Entonces, como , [8]

donde están determinados únicamente por la expansión

En particular, , , . Se dan coeficientes adicionales en. [8]

Momentos, cumulantes y resultados relacionados

Para valores generales de , no existen fórmulas de forma cerrada para la media, la varianza y los momentos de la distribución CMP. Sin embargo, tenemos la siguiente fórmula ordenada. [7] Sea , el factorial descendente . Sea , . Entonces

para .

Dado que en general no se dispone de fórmulas de forma cerrada para los momentos y cumulantes de la distribución CMP, las siguientes fórmulas asintóticas son de interés. Sea , donde . Denotemos la asimetría y el exceso de curtosis , donde . Entonces, como , [8]

dónde

La serie asintótica para se cumple para todos , y .

Momentos para el caso de números enteros ν {\displaystyle \nu }

Cuando es un entero se pueden obtener fórmulas explícitas para los momentos . El caso corresponde a la distribución de Poisson. Supongamos ahora que . Para , [7]

donde es la función de Bessel modificada del primer tipo.

Usando la fórmula de conexión para momentos y momentos factoriales se obtiene

En particular, la media de está dada por

Además, dado que , la varianza está dada por

Supongamos ahora que es un número entero. Entonces [6]

En particular,

y

Mediana, moda y desviación media

Sea . Entonces el modo de es si no es un entero. En caso contrario, los modos de son y . [7]

La desviación media de su media viene dada por [7]

No se conoce ninguna fórmula explícita para la mediana de , pero está disponible el siguiente resultado asintótico. [7] Sea la mediana de . Entonces

como .

Caracterización de Stein

Sea , y supongamos que es tal que y . Entonces

Por el contrario, supongamos ahora que es una variable aleatoria de valor real soportada en tal que para todo . Entonces . [7]

Utilizar como distribución limitante

Sea la distribución binomial de Conway-Maxwell con parámetros , y . Fijemos y . Entonces, converge en distribución a la distribución como . [7] Este resultado generaliza la aproximación clásica de Poisson de la distribución binomial. De manera más general, la distribución CMP surge como una distribución límite de la distribución binomial de Conway-Maxwell-Poisson. [7] Aparte del hecho de que COM-binomial se aproxima a COM-Poisson, Zhang et al. (2018) [9] ilustra que la distribución binomial COM-negativa con función de masa de probabilidad

convergentes a una distribución límite que es la COM-Poisson, como .

Distribuciones relacionadas

Estimación de parámetros

Existen algunos métodos para estimar los parámetros de la distribución CMP a partir de los datos. Se analizarán dos métodos: mínimos cuadrados ponderados y máxima verosimilitud. El método de mínimos cuadrados ponderados es simple y eficiente, pero carece de precisión. El método de máxima verosimilitud, por otro lado, es preciso, pero es más complejo y requiere un mayor esfuerzo computacional.

Mínimos cuadrados ponderados

El método de mínimos cuadrados ponderados proporciona un método simple y eficiente para obtener estimaciones aproximadas de los parámetros de la distribución CMP y determinar si la distribución sería un modelo apropiado. Después de utilizar este método, se debe emplear un método alternativo para calcular estimaciones más precisas de los parámetros si el modelo se considera apropiado.

Este método utiliza la relación de probabilidades sucesivas que se ha explicado anteriormente. Al tomar los logaritmos de ambos lados de esta ecuación, surge la siguiente relación lineal

donde denota . Al estimar los parámetros, las probabilidades se pueden reemplazar por las frecuencias relativas de y . Para determinar si la distribución CMP es un modelo apropiado, estos valores se deben graficar para todas las proporciones sin recuentos de cero. Si los datos parecen ser lineales, entonces es probable que el modelo se ajuste bien.

Una vez que se determina la idoneidad del modelo, los parámetros se pueden estimar ajustando una regresión de en . Sin embargo, se viola el supuesto básico de homocedasticidad , por lo que se debe utilizar una regresión de mínimos cuadrados ponderados . La matriz de ponderación inversa tendrá las varianzas de cada razón en la diagonal con las covarianzas de un paso en la primera fuera de la diagonal, ambas indicadas a continuación.

Máxima verosimilitud

La función de verosimilitud CMP es

donde y . Maximizando la probabilidad obtenemos las dos ecuaciones siguientes

que no tienen solución analítica.

En cambio, las estimaciones de máxima verosimilitud se aproximan numéricamente mediante el método de Newton-Raphson . En cada iteración, las expectativas, varianzas y covarianzas de y se aproximan utilizando las estimaciones de y de la iteración anterior en la expresión

Esto continúa hasta la convergencia de y .

Modelo lineal generalizado

La distribución CMP básica analizada anteriormente también se ha utilizado como base para un modelo lineal generalizado (GLM) utilizando una formulación bayesiana. Se ha desarrollado un GLM de doble enlace basado en la distribución CMP, [10] y este modelo se ha utilizado para evaluar datos de accidentes de tráfico. [11] [12] El GLM CMP desarrollado por Guikema y Coffelt (2008) se basa en una reformulación de la distribución CMP anterior, reemplazando con . La parte integral de es entonces la moda de la distribución. Se ha utilizado un enfoque de estimación bayesiana completa con muestreo MCMC implementado en WinBugs con anteriores no informativos para los parámetros de regresión. [10] [11] Este enfoque es computacionalmente costoso, pero produce las distribuciones posteriores completas para los parámetros de regresión y permite incorporar conocimiento experto mediante el uso de anteriores informativos.

Se ha desarrollado una formulación GLM clásica para una regresión CMP que generaliza la regresión de Poisson y la regresión logística . [13] Esto aprovecha las propiedades de la familia exponencial de la distribución CMP para obtener una estimación elegante del modelo (a través de la máxima verosimilitud ), inferencia, diagnóstico e interpretación. Este enfoque requiere sustancialmente menos tiempo computacional que el enfoque bayesiano, a costa de no permitir que se incorpore conocimiento experto al modelo. [13] Además, produce errores estándar para los parámetros de regresión (a través de la matriz de información de Fisher) en comparación con las distribuciones posteriores completas obtenibles a través de la formulación bayesiana. También proporciona una prueba estadística para el nivel de dispersión en comparación con un modelo de Poisson. Hay disponible un código para ajustar una regresión CMP, probar la dispersión y evaluar el ajuste. [14]

Los dos marcos GLM desarrollados para la distribución CMP amplían significativamente la utilidad de esta distribución para problemas de análisis de datos.

Referencias

  1. ^ "Regresión de Conway–Maxwell–Poisson". Soporte SAS . SAS Institute, Inc . Consultado el 2 de marzo de 2015 .
  2. ^ abcdef Shmueli G., Minka T., Kadane JB, Borle S. y Boatwright, PB "Una distribución útil para ajustar datos discretos: resurgimiento de la distribución Conway-Maxwell-Poisson". Journal of the Royal Statistical Society : Serie C (Estadística aplicada) 54.1 (2005): 127–142.[1]
  3. ^ Conway, RW; Maxwell, WL (1962), "Un modelo de colas con tasas de servicio dependientes del estado", Journal of Industrial Engineering , 12 : 132–136
  4. ^ Boatwright, P., Borle, S. y Kadane, JB "Un modelo de la distribución conjunta de la cantidad y el momento de la compra". Journal of the American Statistical Association 98 (2003): 564–572.
  5. ^ Li B., Zhang H., Jiao H. "Algunas caracterizaciones y propiedades de las variables aleatorias COM-Poisson". Comunicaciones en estadística : teoría y métodos, (2019).[2]
  6. ^ abc Nadarajah, S. "Formulaciones de momentos útiles y CDF para la distribución COM-Poisson". Statistical Papers 50 (2009): 617–622.
  7. ^ abcdefghij Daly, F. y Gaunt, RE "La distribución de Conway–Maxwell–Poisson: teoría distribucional y aproximación". ALEA Revista Latinoamericana de Probabilidad y Estadística Matemática 13 (2016): 635–658.
  8. ^ abc Gaunt, RE, Iyengar, S., Olde Daalhuis, AB y Simsek, B. "Una expansión asintótica para la constante normalizadora de la distribución de Conway–Maxwell–Poisson". Aparecerá en Anales del Instituto de Matemáticas Estadísticas (2017+) DOI 10.1007/s10463-017-0629-6
  9. ^ Zhang H., Tan K., Li B. "Distribución binomial COM-negativa: modelado de sobredispersión y datos de recuento ultraelevados con ceros inflados". Fronteras de las matemáticas en China, 2018, 13(4): 967–998.[3]
  10. ^ ab Guikema, SD y JP Coffelt (2008) "Un modelo de regresión de datos de recuento flexible para el análisis de riesgos", Análisis de riesgos , 28 (1), 213–223. doi :10.1111/j.1539-6924.2008.01014.x
  11. ^ ab Lord, D., SD Guikema y SR Geedipally (2008) "Aplicación del modelo lineal generalizado de Conway-Maxwell-Poisson para analizar accidentes automovilísticos", Accident Analysis & Prevention , 40 (3), 1123–1134. doi :10.1016/j.aap.2007.12.003
  12. ^ Lord, D., SR Geedipally y SD Guikema (2010) "Extensión de la aplicación de los modelos Conway-Maxwell-Poisson: análisis de datos de accidentes de tráfico que muestran subdispersión", Risk Analysis , 30 (8), 1268-1276. doi :10.1111/j.1539-6924.2010.01417.x
  13. ^ ab Sellers, KS y Shmueli, G. (2010), "Un modelo de regresión flexible para datos de recuento", Annals of Applied Statistics , 4 (2), 943–961
  14. ^ Código para modelado COM_Poisson, Universidad de Georgetown.

Enlaces externos