Distribución de ermitas

En teoría de probabilidad y estadística , la distribución de Hermite , llamada así en honor a Charles Hermite , es una distribución de probabilidad discreta utilizada para modelar datos de recuento con más de un parámetro. Esta distribución es flexible en términos de su capacidad para permitir una sobredispersión moderada en los datos.

Los autores Kemp y Kemp ^[1] la han llamado "distribución de Hermite" por el hecho de que su función de probabilidad y la función generadora de momentos se pueden expresar en términos de coeficientes de polinomios de Hermite (modificados) .

Historia

La distribución apareció por primera vez en el artículo Aplicaciones de las matemáticas a los problemas médicos , ^[2] de Anderson Gray McKendrick en 1926. En este trabajo el autor explica varios métodos matemáticos que se pueden aplicar a la investigación médica. En uno de estos métodos consideró la distribución de Poisson bivariada y demostró que la distribución de la suma de dos variables de Poisson correlacionadas sigue una distribución que luego se conocería como distribución de Hermite.

Como aplicación práctica, McKendrick consideró la distribución de recuentos de bacterias en los leucocitos . Utilizando el método de momentos ajustó los datos con la distribución de Hermite y encontró el modelo más satisfactorio que ajustarlo con una distribución de Poisson .

La distribución fue introducida y publicada formalmente por CD Kemp y Adrienne W. Kemp en 1965 en su obra Algunas propiedades de la distribución 'Hermite' . El trabajo se centra en las propiedades de esta distribución, por ejemplo, una condición necesaria sobre los parámetros y sus estimadores de máxima verosimilitud (MLE), el análisis de la función generadora de probabilidad (PGF) y cómo se puede expresar en términos de los coeficientes de ( modificado) Polinomios de Hermite . Un ejemplo que han utilizado en esta publicación es la distribución de recuentos de bacterias en leucocitos que utilizó McKendrick pero Kemp y Kemp estimaron el modelo utilizando el método de máxima verosimilitud .

La distribución de Hermite es un caso especial de distribución de Poisson compuesta discreta con solo dos parámetros. ^[3]^[4]

Los mismos autores publicaron en 1966 el artículo Una derivación alternativa de la distribución de Hermite . ^[5] En este trabajo se estableció que la distribución de Hermite se puede obtener formalmente combinando una distribución de Poisson con una distribución normal .

En 1971, YC Patel ^[6] realizó un estudio comparativo de varios procedimientos de estimación para la distribución de Hermite en su tesis doctoral. Incluyó estimadores de máxima verosimilitud, momento, estimadores de frecuencia media y cero y el método de puntos pares.

En 1974, Gupta y Jain ^[7] investigaron una forma generalizada de distribución de Hermite.

Definición

Función de probabilidad

Sean X ₁ y X ₂ dos variables de Poisson independientes con parámetros a ₁ y a ₂ . La distribución de probabilidad de la variable aleatoria Y = X ₁ + 2 X ₂ es la distribución de Hermite con parámetros a ₁ y a ₂ y la función de masa de probabilidad viene dada por ^[8]

p_{n}=P(Y=n)=e^{-(a_{1}+a_{2})}\sum _{j=0}^{\lfloor n/2\rfloor }{ \frac {a_{1}^{n-2j}a_{2}^{j}}{(n-2j)!j!}}

dónde

norte = 0, 1, 2, ...
un ₁ , un ₂ ≥ 0.
( norte - 2 j )! yj ! son los factoriales de ( n − 2 j ) y j , respectivamente.
${\textstyle \lfloor n/2\rfloor }$ es la parte entera de n /2.

La función generadora de probabilidad de la masa de probabilidad es, ^[8]

G_{Y}(s)=\sum _{n=0}^{\infty }p_{n}s^{n}=\exp(a_{1}(s-1)+a_{2}(s^{2}-1))

Notación

Cuando una variable aleatoria Y = X ₁ + 2 X ₂ se distribuye mediante una distribución de Hermite, donde X ₁ y X ₂ son dos variables de Poisson independientes con parámetros a ₁ y a ₂ , escribimos

Y\ \sim \operatorname {Herm} (a_{1},a_{2})\,

Propiedades

Funciones generadoras de momentos y acumuladores.

La función generadora de momentos de una variable aleatoria X se define como el valor esperado de e ^t , en función del parámetro real t . Para una distribución de Hermite con parámetros X ₁ y X ₂ , la función generadora de momento existe y es igual a

M(t)=G(e^{t})=\exp(a_{1}(e^{t}-1)+a_{2}(e^{2t}-1))

La función generadora acumulativa es el logaritmo de la función generadora de momentos y es igual a ^[4]

K(t)=\log(M(t))=a_{1}(e^{t}-1)+a_{2}(e^{2t}-1)

Si consideramos el coeficiente de ( it ) ^r r ! en la expansión de K ( t ) obtenemos el r -acumulante

k_{n}=a_{1}+2^{n}a_{2}

Por lo tanto, la media y los tres momentos siguientes son

Oblicuidad

La asimetría es el tercer momento centrado alrededor de la media dividida por la potencia 3/2 de la desviación estándar , y para la distribución de Hermite es, ^[4]

\gamma _{1}={\frac {\mu _{3}}{\mu _{2}^{3/2}}}={\frac {a_{1}+8a_{2}}{(a_{1}+4a_{2})^{3/2}}}

Siempre , por lo que la masa de la distribución se concentra hacia la izquierda. $\gamma _{1}>0$

Curtosis

La curtosis es el cuarto momento centrado alrededor de la media, dividido por el cuadrado de la varianza , y para la distribución de Hermite es, ^[4]

\beta _{2}={\frac {\mu _{4}}{\mu _{2}^{2}}}={\frac {a_{1}+16a_{2}+3(a_{1}+4a_{2})^{2}}{(a_{1}+4a_{2})^{2}}}={\frac {a_{1}+16a_{2}}{(a_{1}+4a_{2})^{2}}}+3

El exceso de curtosis es solo una corrección para hacer que la curtosis de la distribución normal sea igual a cero, y es la siguiente:

\gamma _{2}={\frac {\mu _{4}}{\mu _{2}^{2}}}-3={\frac {a_{1}+16a_{2}}{(a_{1}+4a_{2})^{2}}}

Siempre , o la distribución tiene un pico alto y agudo alrededor de las colas medias y más gordas. $\beta _{2}>3$ $\gamma _{2}>0$

Función característica

En una distribución discreta, la función característica de cualquier variable aleatoria de valor real se define como el valor esperado de , donde i es la unidad imaginaria y t ∈ R $e^{itX}$

\phi (t)=E[e^{itX}]=\sum _{j=0}^{\infty }e^{ijt}P[X=j]

Esta función está relacionada con la función generadora de momentos a través de . Por lo tanto, para esta distribución la función característica es, ^[1] $\phi _{x}(t)=M_{X}(it)$

\phi _{x}(t)=\exp(a_{1}(e^{it}-1)+a_{2}(e^{2it}-1))

Función de distribución acumulativa

La función de distribución acumulativa es, ^[1]

{\begin{aligned}F(x;a_{1},a_{2})&=P(X\leq x)\\&=\exp(-(a_{1}+a_{2}))\sum _{i=0}^{\lfloor x\rfloor }\sum _{j=0}^{[i/2]}{\frac {a_{1}^{i-2j}a_{2}^{j}}{(i-2j)!j!}}\end{aligned}}

Otras propiedades

Esta distribución puede tener cualquier número de modos . Como ejemplo, la distribución ajustada para los datos de McKendrick ^[2] tiene parámetros estimados de , . Por tanto, las primeras cinco probabilidades estimadas son 0,899, 0,012, 0,084, 0,001, 0,004. ${\hat {a}}_{1}=0.0135$ ${\hat {a}}_{2}=0.0932$

Esta distribución está cerrada bajo suma o cerrada bajo convolución. ^[9] Al igual que la distribución de Poisson , la distribución de Hermite tiene esta propiedad. Dadas dos variables aleatorias distribuidas por Hermite y , entonces Y = X ₁ + X ₂ sigue una distribución de Hermite, . $X_{1}\sim \operatorname {Herm} (a_{1},a_{2})$ $X_{2}\sim \operatorname {Herm} (b_{1},b_{2})$ $Y\sim \operatorname {Herm} (a_{1}+b_{1},a_{2}+b_{2})$
Esta distribución permite una sobredispersión moderada , por lo que se puede utilizar cuando los datos tienen esta propiedad. ^[9] Una variable aleatoria tiene sobredispersión, o está sobredispersada con respecto a la distribución de Poisson, cuando su varianza es mayor que su valor esperado. La distribución de Hermite permite una sobredispersión moderada porque el coeficiente de dispersión está siempre entre 1 y 2,

d={\frac {\operatorname {Var} (Y)}{\operatorname {E} (Y)}}={\frac {a_{1}+4a_{2}}{a_{1}+2a_{2}}}=1+{\frac {2a_{2}}{a_{1}+2a_{2}}}

Estimación de parámetros

Método de momentos

La media y la varianza de la distribución de Hermite son y , respectivamente. Entonces tenemos estas dos ecuaciones, $\mu =a_{1}+2a_{2}$ $\sigma ^{2}=a_{1}+4a_{2}$

{\begin{cases}{\bar {x}}=a_{1}+2a_{2}\\\sigma ^{2}=a_{1}+4a_{2}\end{cases}}

Resolviendo estas dos ecuaciones obtenemos los estimadores de momento y de a ₁ y a ₂ . ^[6] ${\hat {a_{1}}}$ ${\hat {a_{2}}}$

{\hat {a_{1}}}=2{\bar {x}}-\sigma ^{2}

{\hat {a_{2}}}={\frac {\sigma ^{2}-{\hat {x}}}{2}}

Dado que a ₁ y a ₂ son positivos, el estimador y son admisibles (≥ 0) sólo si, . ${\hat {a_{1}}}$ ${\hat {a_{2}}}$ ${\bar {x}}<\sigma ^{2}<2{\bar {x}}$

Máxima verosimilitud

Dada una muestra X ₁ , ..., X _m son variables aleatorias independientes, cada una con una distribución de Hermite, deseamos estimar el valor de los parámetros y . Sabemos que la media y la varianza de la distribución son y , respectivamente. Usando estas dos ecuaciones, ${\hat {a_{1}}}$ ${\hat {a_{2}}}$ $\mu =a_{1}+2a_{2}$ $\sigma ^{2}=a_{1}+4a_{2}$

{\begin{cases}a_{1}=\mu (2-d)\\[4pt]a_{2}={\dfrac {\mu (d-1)}{2}}\end{cases}}

Podemos parametrizar la función de probabilidad mediante μ y d.

P(X=x)=\exp \left(-\left(\mu (2-d)+{\frac {\mu (d-1)}{2}}\right)\right)\sum _{j=0}^{[x/2]}{\frac {(\mu (2-d))^{x-2j}\left({\frac {\mu (d-1)}{2}}\right)^{j}}{(x-2j)!j!}}

Por tanto, la función de probabilidad logarítmica es, ^[9]

{\begin{aligned}{\mathcal {L}}(x_{1},\ldots ,x_{m};\mu ,d)&=\log({\mathcal {L}}(x_{1},\ldots ,x_{m};\mu ,d))\\&=m\mu \left(-1+{\frac {d-1}{2}}\right)+\log(\mu (2-d))\sum _{i=1}^{m}x_{i}+\sum _{i=1}^{m}\log(q_{i}(\theta ))\end{aligned}}

dónde

$q_{i}(\theta )=\sum _{j=0}^{[x_{i}/2]}{\frac {\theta ^{j}}{(x_{i}-2j)!j!}}$
$\theta ={\frac {d-1}{2\mu (2-d)^{2}}}$

A partir de la función de probabilidad logarítmica, las ecuaciones de probabilidad son, ^[9]

{\frac {\partial l}{\partial \mu }}=m\left(-1+{\frac {d-1}{2}}\right)+{\frac {1}{\mu }}\sum _{i=1}^{m}x_{i}-{\frac {d-1}{2\mu ^{2}(2-d)^{2}}}\sum _{i=1}^{m}{\frac {q_{i}^{'}(\theta )}{q_{i}(\theta )}}

{\frac {\partial l}{\partial d}}=m{\frac {\mu }{2}}-{\frac {\sum _{i=1}^{m}x_{i}}{2-d}}-{\frac {d}{2\mu (2-d)^{3}}}\sum _{i=1}^{m}\sum _{i=1}^{m}{\frac {q_{i}^{'}(\theta )}{q_{i}(\theta )}}

Cálculos sencillos muestran que, ^[9]

$\mu ={\bar {x}}$
Y d se puede encontrar resolviendo,

\sum _{i=1}^{m}{\frac {q_{i}^{'}({\tilde {\theta }})}{q_{i}({\tilde {\theta }})}}=m({\bar {x}}(2-d))^{2}

dónde ${\tilde {\theta }}={\frac {d-1}{2{\bar {x}}(2-d)^{2}}}$

Se puede demostrar que la función log-verosimilitud es estrictamente cóncava en el dominio de los parámetros. En consecuencia, el MLE es único.

La ecuación de probabilidad no siempre tiene una solución como muestra la siguiente proposición,

Proposición: ^[9] Sea X ₁ , ..., X _m provenir de una distribución de Hermite generalizada con n fijo . Entonces los MLE de los parámetros son y si solo si , donde indica el momento factorial empírico de orden 2. ${\hat {\mu }}$ ${\tilde {d}}$ $m^{(2)}/{\bar {x}}^{2}>1$ $m^{(2)}=\sum _{i=1}^{n}x_{i}(x_{i}-1)/n$

Observación 1: La condición es equivalente a dónde está el índice de dispersión empírico $m^{(2)}/{\bar {x}}^{2}>1$ ${\tilde {d}}>1$ ${\tilde {d}}=\sigma ^{2}/{\bar {x}}$
Observación 2: Si no se cumple la condición, entonces los MLE de los parámetros son y , es decir, los datos se ajustan utilizando la distribución de Poisson. ${\hat {\mu }}={\bar {x}}$ ${\tilde {d}}=1$

Frecuencia cero y estimadores de media.

Una elección habitual para distribuciones discretas es la frecuencia relativa cero del conjunto de datos, que se equipara a la probabilidad de cero bajo la distribución supuesta. Observando eso y . Siguiendo el ejemplo de YC Patel (1976), el sistema de ecuaciones resultante, $f_{0}=\exp(-(a_{1}+a_{2}))$ $\mu =a_{1}+2a_{2}$

{\begin{cases}{\bar {x}}=a_{1}+2a_{2}\\f_{0}=\exp(-(a_{1}+a_{2}))\end{cases}}

Obtenemos la frecuencia cero y el estimador medio a ₁ de y a ₂ de , ^[6] ${\hat {a_{1}}}$ ${\hat {a_{2}}}$

{\hat {a_{1}}}=-({\bar {x}}+2\log(f_{0}))

{\hat {a_{2}}}={\bar {x}}+\log(f_{0})

donde , es la frecuencia relativa cero, n > 0 $f_{0}={\frac {n_{0}}{n}}$

Se puede ver que para distribuciones con alta probabilidad de 0, la eficiencia es alta.

Para valores admisibles de y , debemos tener ${\hat {a_{1}}}$ ${\hat {a_{2}}}$

-\log \left({\frac {n_{0}}{n}}\right)<{\bar {x}}<-2\log \left({\frac {n_{0}}{n}}\right)

Probando el supuesto de Poisson

Cuando se utiliza la distribución de Hermite para modelar una muestra de datos, es importante comprobar si la distribución de Poisson es suficiente para ajustar los datos. Siguiendo la función de masa de probabilidad parametrizada utilizada para calcular el estimador de máxima verosimilitud, es importante corroborar la siguiente hipótesis,

{\begin{cases}H_{0}:d=1\\H_{1}:d>1\end{cases}}

Prueba de razón de verosimilitud

El estadístico de prueba de razón de verosimilitud ^[9] para la distribución de Hermite es,

W=2({\mathcal {L}}(X;{\hat {\mu }},{\hat {d}})-{\mathcal {L}}(X;{\hat {\mu }},1))

¿Dónde está la función de probabilidad logarítmica? Como d = 1 pertenece al límite del dominio de parámetros, bajo la hipótesis nula, W no tiene una distribución asintótica como se esperaba. Se puede establecer que la distribución asintótica de W es una mezcla 50:50 de la constante 0 y . Los puntos porcentuales α de la cola superior para esta mezcla son los mismos que los 2 puntos porcentuales de la cola superior para a ; por ejemplo, para α = 0,01, 0,05 y 0,10 son 5,41189, 2,70554 y 1,64237. ${\mathcal {L}}()$ $\chi _{1}^{2}$ $\chi _{1}^{2}$ $\chi _{1}^{2}$

La "score" o prueba del multiplicador de Lagrange

La estadística de puntuación es, ^[9]

S_{2}=2m\left[{\frac {m^{(2)}-{\bar {x}}^{2}}{2{\bar {x}}}}\right]^{2}={\frac {m({\tilde {d}}-1)^{2}}{2}}

donde m es el número de observaciones.

La distribución asintótica del estadístico de la prueba de puntuación bajo la hipótesis nula es una distribución. Puede ser conveniente utilizar una versión firmada de la prueba de puntuación, es decir, siguiendo asintóticamente una normal estándar. $\chi _{1}^{2}$ $\operatorname {sgn} (m^{(2)}-{\bar {x}}^{2}){\sqrt {S}}$

Ver también

Referencias

^ abc Kemp, CD; Kemp, AW (1965). "Algunas propiedades de la distribución" Hermite "". Biometrika . 52 (3–4): 381–394. doi :10.1093/biomet/52.3-4.381.
^ ab McKendrick, AG (1926). "Aplicaciones de las matemáticas a problemas médicos". Actas de la Sociedad Matemática de Edimburgo . 44 : 98-130. doi : 10.1017/s0013091500034428 .
^ Huiming, Zhang; Yunxiao Liu; Bo Li (2014). "Notas sobre el modelo de Poisson compuesto discreto con aplicaciones a la teoría del riesgo". Seguros: Matemáticas y Economía . 59 : 325–336. doi :10.1016/j.insmatheco.2014.09.012.
^ abcd Johnson, NL, Kemp, AW y Kotz, S. (2005) Distribuciones discretas univariadas, tercera edición, Wiley, ISBN 978-0-471-27246-5 .
^ Kemp, ADRIENNE W.; CD de Kemp (1966). "Una derivación alternativa de la distribución de Hermite". Biometrika . 53 (3–4): 627–628. doi :10.1093/biomet/53.3-4.627.
^ abc Patel, YC (1976). "Estimación de puntos pares y estimación de momentos en distribución de Hermite". Biometría . 32 (4): 865–873. doi :10.2307/2529270. JSTOR 2529270.
^ Gupta, RP; Jainista, GC (1974). "Una distribución generalizada de Hermite y sus propiedades". Revista SIAM de Matemática Aplicada . 27 (2): 359–363. doi :10.1137/0127027. JSTOR 2100572.
^ ab Kotz, Samuel (1982-1989). Enciclopedia de ciencias estadísticas . Juan Wiley. ISBN 978-0471055525.
^ abcdefgh Puig, P. (2003). "Caracterización de modelos discretos aditivamente cerrados mediante una propiedad de sus estimadores de máxima verosimilitud, con una aplicación a distribuciones generalizadas de Hermite". Revista de la Asociación Estadounidense de Estadística . 98 (463): 687–692. doi :10.1198/016214503000000594. JSTOR 30045296. S2CID 120484966.