Distribución de Hermite

En teoría de probabilidad y estadística , la distribución de Hermite , llamada así por Charles Hermite , es una distribución de probabilidad discreta que se utiliza para modelar datos de recuento con más de un parámetro. Esta distribución es flexible en términos de su capacidad para permitir una sobredispersión moderada en los datos.

Los autores Kemp y Kemp ^[1] la han llamado "distribución de Hermite" debido al hecho de que su función de probabilidad y la función generadora de momentos pueden expresarse en términos de los coeficientes de polinomios de Hermite (modificados) .

Historia

La distribución apareció por primera vez en el artículo Aplicaciones de las matemáticas a los problemas médicos , ^[2] de Anderson Gray McKendrick en 1926. En este trabajo, el autor explica varios métodos matemáticos que se pueden aplicar a la investigación médica. En uno de estos métodos, consideró la distribución de Poisson bivariada y demostró que la distribución de la suma de dos variables de Poisson correlacionadas sigue una distribución que más tarde se conocería como distribución de Hermite.

Como aplicación práctica, McKendrick consideró la distribución de recuentos de bacterias en leucocitos . Utilizando el método de momentos, ajustó los datos a la distribución de Hermite y encontró que el modelo era más satisfactorio que ajustarlo a una distribución de Poisson .

La distribución fue introducida y publicada formalmente por CD Kemp y Adrienne W. Kemp en 1965 en su trabajo Algunas propiedades de la distribución "Hermite" . El trabajo se centra en las propiedades de esta distribución, por ejemplo, una condición necesaria en los parámetros y sus estimadores de máxima verosimilitud (MLE), el análisis de la función generadora de probabilidad (PGF) y cómo se puede expresar en términos de los coeficientes de los polinomios de Hermite (modificados) . Un ejemplo que han utilizado en esta publicación es la distribución de recuentos de bacterias en leucocitos que utilizó McKendrick, pero Kemp y Kemp estiman el modelo utilizando el método de máxima verosimilitud .

La distribución de Hermite es un caso especial de distribución de Poisson compuesta discreta con solo dos parámetros. ^[3]^[4]

Los mismos autores publicaron en 1966 el artículo An alternative Derivation of the Hermite Distribution . ^[5] En este trabajo establecieron que la distribución de Hermite puede obtenerse formalmente combinando una distribución de Poisson con una distribución normal .

En 1971, YC Patel ^[6] realizó un estudio comparativo de varios procedimientos de estimación para la distribución de Hermite en su tesis doctoral. Incluía estimadores de máxima verosimilitud, estimadores de momento, estimadores de frecuencia media y cero y el método de puntos pares.

En 1974, Gupta y Jain ^[7] realizaron una investigación sobre una forma generalizada de distribución de Hermite.

Definición

Función de masa de probabilidad

Sean X ₁ y X ₂ dos variables de Poisson independientes con parámetros a ₁ y a ₂ . La distribución de probabilidad de la variable aleatoria Y = X ₁ + 2 X ₂ es la distribución de Hermite con parámetros a ₁ y a ₂ y la función de masa de probabilidad está dada por ^[8]

p_{n}=P(Y=n)=e^{-(a_{1}+a_{2})}\sum _{j=0}^{\lfloor n/2\rfloor }{\frac {a_{1}^{n-2j}a_{2}^{j}}{(n-2j)!j!}}

dónde

n = 0, 1, 2, ...
un ₁ , un ₂ ≥ 0.
( n − 2 j )! y j ! son los factoriales de ( n − 2 j ) y j , respectivamente.
${\textstyle \lpiso n/2\rpiso}$ es la parte entera de n /2.

La función generadora de probabilidad de la masa de probabilidad es, ^[8]

G_{Y}(s)=\sum _{n=0}^{\infty }p_{n}s^{n}=\exp(a_{1}(s-1)+a_{2}(s^{2}-1))

Notación

Cuando una variable aleatoria Y = X ₁ + 2 X ₂ se distribuye según una distribución de Hermite, donde X ₁ y X ₂ son dos variables de Poisson independientes con parámetros a ₁ y a ₂ , escribimos

Y\ \sim \operatorname {Herm} (a_{1},a_{2})\,

Propiedades

Funciones generadoras de momentos y cumulantes

La función generadora de momentos de una variable aleatoria X se define como el valor esperado de e ^t , en función del parámetro real t . Para una distribución de Hermite con parámetros X ₁ y X ₂ , la función generadora de momentos existe y es igual a

M(t)=G(e^{t})=\exp(a_{1}(e^{t}-1)+a_{2}(e^{2t}-1))

La función generadora cumulante es el logaritmo de la función generadora de momentos y es igual a ^[4]

K(t)=\log(M(t))=a_{1}(e^{t}-1)+a_{2}(e^{2t}-1)

Si consideramos el coeficiente de ( it ) ^r r ! en la expansión de K ( t ) obtenemos el r -cumulante

k_{n}=a_{1}+2^{n}a_{2}

Por lo tanto, el punto medio y los tres momentos siguientes son

Oblicuidad

La asimetría es el tercer momento centrado alrededor de la media dividido por la potencia 3/2 de la desviación estándar , y para la distribución de Hermite es, ^[4]

\gamma _{1}={\frac {\mu _{3}}{\mu _{2}^{3/2}}}={\frac {a_{1}+8a_{2}}{(a_{1}+4a_{2})^{3/2}}}

Siempre , por lo que la masa de la distribución se concentra en la izquierda. $\gamma _{1}>0$

Curtosis

La curtosis es el cuarto momento centrado alrededor de la media, dividido por el cuadrado de la varianza , y para la distribución de Hermite es, ^[4]

\beta _{2}={\frac {\mu _{4}}{\mu _{2}^{2}}}={\frac {a_{1}+16a_{2}+3(a_{1}+4a_{2})^{2}}{(a_{1}+4a_{2})^{2}}}={\frac {a_{1}+16a_{2}}{(a_{1}+4a_{2})^{2}}}+3

El exceso de curtosis es simplemente una corrección para hacer que la curtosis de la distribución normal sea igual a cero, y es la siguiente:

\gamma _{2}={\frac {\mu _{4}}{\mu _{2}^{2}}}-3={\frac {a_{1}+16a_{2}}{(a_{1}+4a_{2})^{2}}}

Siempre , o la distribución tiene un pico agudo alto alrededor de la media y colas más gordas. $\beta _{2}>3$ $\gamma _{2}>0$

Función característica

En una distribución discreta, la función característica de cualquier variable aleatoria de valor real se define como el valor esperado de , donde i es la unidad imaginaria y t ∈ R $e^{itX}$

\phi (t)=E[e^{itX}]=\sum _{j=0}^{\infty }e^{ijt}P[X=j]

Esta función está relacionada con la función generadora de momentos mediante . Por lo tanto, para esta distribución la función característica es, ^[1] $\phi _{x}(t)=M_{X}(it)$

\phi _{x}(t)=\exp(a_{1}(e^{it}-1)+a_{2}(e^{2it}-1))

Función de distribución acumulativa

La función de distribución acumulativa es, ^[1]

{\begin{aligned}F(x;a_{1},a_{2})&=P(X\leq x)\\&=\exp(-(a_{1}+a_{2}))\sum _{i=0}^{\lfloor x\rfloor }\sum _{j=0}^{[i/2]}{\frac {a_{1}^{i-2j}a_{2}^{j}}{(i-2j)!j!}}\end{aligned}}

Otras propiedades

Esta distribución puede tener cualquier número de modas . Como ejemplo, la distribución ajustada para los datos de McKendrick ^[2] tiene parámetros estimados de , . Por lo tanto, las primeras cinco probabilidades estimadas son 0,899, 0,012, 0,084, 0,001, 0,004. ${\hat {a}}_{1}=0.0135$ ${\hat {a}}_{2}=0.0932$

Esta distribución es cerrada bajo adición o cerrada bajo convoluciones. ^[9] Al igual que la distribución de Poisson , la distribución de Hermite tiene esta propiedad. Dadas dos variables aleatorias distribuidas según Hermite y , entonces Y = X ₁ + X ₂ sigue una distribución de Hermite, . $X_{1}\sim \operatorname {Herm} (a_{1},a_{2})$ $X_{2}\sim \operatorname {Herm} (b_{1},b_{2})$ $Y\sim \operatorname {Herm} (a_{1}+b_{1},a_{2}+b_{2})$
Esta distribución permite una sobredispersión moderada , por lo que puede utilizarse cuando los datos tienen esta propiedad. ^[9] Una variable aleatoria tiene sobredispersión, o está sobredispersada con respecto a la distribución de Poisson, cuando su varianza es mayor que su valor esperado. La distribución de Hermite permite una sobredispersión moderada porque el coeficiente de dispersión siempre está entre 1 y 2,

d={\frac {\operatorname {Var} (Y)}{\operatorname {E} (Y)}}={\frac {a_{1}+4a_{2}}{a_{1}+2a_{2}}}=1+{\frac {2a_{2}}{a_{1}+2a_{2}}}

Estimación de parámetros

Método de momentos

La media y la varianza de la distribución de Hermite son y , respectivamente. Por lo tanto, tenemos estas dos ecuaciones, $\mu =a_{1}+2a_{2}$ $\sigma ^{2}=a_{1}+4a_{2}$

{\begin{cases}{\bar {x}}=a_{1}+2a_{2}\\\sigma ^{2}=a_{1}+4a_{2}\end{cases}}

Resolviendo estas dos ecuaciones obtenemos los estimadores de momento y de a ₁ y a ₂ . ^[6] ${\hat {a_{1}}}$ ${\hat {a_{2}}}$

{\hat {a_{1}}}=2{\bar {x}}-\sigma ^{2}

{\hat {a_{2}}}={\frac {\sigma ^{2}-{\hat {x}}}{2}}

Dado que tanto un ₁ como un ₂ son positivos, el estimador y son admisibles (≥ 0) sólo si, . ${\hat {a_{1}}}$ ${\hat {a_{2}}}$ ${\bar {x}}<\sigma ^{2}<2{\bar {x}}$

Máxima verosimilitud

Dada una muestra X ₁ , ..., X _m son variables aleatorias independientes, cada una con una distribución de Hermite, deseamos estimar el valor de los parámetros y . Sabemos que la media y la varianza de la distribución son y , respectivamente. Usando estas dos ecuaciones, ${\hat {a_{1}}}$ ${\hat {a_{2}}}$ $\mu =a_{1}+2a_{2}$ $\sigma ^{2}=a_{1}+4a_{2}$

{\begin{cases}a_{1}=\mu (2-d)\\[4pt]a_{2}={\dfrac {\mu (d-1)}{2}}\end{cases}}

Podemos parametrizar la función de probabilidad mediante μ y d

P(X=x)=\exp \left(-\left(\mu (2-d)+{\frac {\mu (d-1)}{2}}\right)\right)\sum _{j=0}^{[x/2]}{\frac {(\mu (2-d))^{x-2j}\left({\frac {\mu (d-1)}{2}}\right)^{j}}{(x-2j)!j!}}

Por lo tanto, la función de log-verosimilitud es, ^[9]

{\begin{aligned}{\mathcal {L}}(x_{1},\ldots ,x_{m};\mu ,d)&=\log({\mathcal {L}}(x_{1},\ldots ,x_{m};\mu ,d))\\&=m\mu \left(-1+{\frac {d-1}{2}}\right)+\log(\mu (2-d))\sum _{i=1}^{m}x_{i}+\sum _{i=1}^{m}\log(q_{i}(\theta ))\end{aligned}}

dónde

$q_{i}(\theta )=\sum _{j=0}^{[x_{i}/2]}{\frac {\theta ^{j}}{(x_{i}-2j)!j!}}$
$\theta ={\frac {d-1}{2\mu (2-d)^{2}}}$

A partir de la función de verosimilitud logarítmica, las ecuaciones de verosimilitud son, ^[9]

{\frac {\partial l}{\partial \mu }}=m\left(-1+{\frac {d-1}{2}}\right)+{\frac {1}{\mu }}\sum _{i=1}^{m}x_{i}-{\frac {d-1}{2\mu ^{2}(2-d)^{2}}}\sum _{i=1}^{m}{\frac {q_{i}^{'}(\theta )}{q_{i}(\theta )}}

{\frac {\partial l}{\partial d}}=m{\frac {\mu }{2}}-{\frac {\sum _{i=1}^{m}x_{i}}{2-d}}-{\frac {d}{2\mu (2-d)^{3}}}\sum _{i=1}^{m}\sum _{i=1}^{m}{\frac {q_{i}^{'}(\theta )}{q_{i}(\theta )}}

Cálculos sencillos muestran que, ^[9]

$\mu ={\bar {x}}$
Y d se puede encontrar resolviendo,

\sum _{i=1}^{m}{\frac {q_{i}^{'}({\tilde {\theta }})}{q_{i}({\tilde {\theta }})}}=m({\bar {x}}(2-d))^{2}

dónde ${\tilde {\theta }}={\frac {d-1}{2{\bar {x}}(2-d)^{2}}}$

Se puede demostrar que la función de verosimilitud logarítmica es estrictamente cóncava en el dominio de los parámetros. En consecuencia, la MLE es única.

La ecuación de probabilidad no siempre tiene solución como lo muestra la siguiente proposición,

Proposición: ^[9] Sea X ₁ , ..., X _m proveniente de una distribución Hermite generalizada con n fijo . Entonces los MLE de los parámetros son y si solo si , donde indica el momento factorial empírico de orden 2. ${\hat {\mu }}$ ${\tilde {d}}$ $m^{(2)}/{\bar {x}}^{2}>1$ $m^{(2)}=\sum _{i=1}^{n}x_{i}(x_{i}-1)/n$

Observación 1: La condición es equivalente a donde es el índice de dispersión empírica $m^{(2)}/{\bar {x}}^{2}>1$ ${\tilde {d}}>1$ ${\tilde {d}}=\sigma ^{2}/{\bar {x}}$
Observación 2: Si la condición no se cumple, entonces los MLE de los parámetros son y , es decir, los datos se ajustan utilizando la distribución de Poisson. ${\hat {\mu }}={\bar {x}}$ ${\tilde {d}}=1$

Estimadores de frecuencia cero y media

Una opción habitual para distribuciones discretas es la frecuencia relativa cero del conjunto de datos, que se equipara a la probabilidad de cero en la distribución supuesta. Observando que y . Siguiendo el ejemplo de YC Patel (1976), el sistema de ecuaciones resultante, $f_{0}=\exp(-(a_{1}+a_{2}))$ $\mu =a_{1}+2a_{2}$

{\begin{cases}{\bar {x}}=a_{1}+2a_{2}\\f_{0}=\exp(-(a_{1}+a_{2}))\end{cases}}

Obtenemos la frecuencia cero y el estimador medio a ₁ de y a ₂ de , ^[6] ${\hat {a_{1}}}$ ${\hat {a_{2}}}$

{\hat {a_{1}}}=-({\bar {x}}+2\log(f_{0}))

{\hat {a_{2}}}={\bar {x}}+\log(f_{0})

donde , es la frecuencia relativa cero, n > 0 $f_{0}={\frac {n_{0}}{n}}$

Se puede observar que para distribuciones con una alta probabilidad en 0, la eficiencia es alta.

Para valores admisibles de y , debemos tener ${\hat {a_{1}}}$ ${\hat {a_{2}}}$

-\log \left({\frac {n_{0}}{n}}\right)<{\bar {x}}<-2\log \left({\frac {n_{0}}{n}}\right)

Prueba del supuesto de Poisson

Cuando se utiliza la distribución de Hermite para modelar una muestra de datos, es importante verificar si la distribución de Poisson es suficiente para ajustar los datos. Siguiendo la función de masa de probabilidad parametrizada utilizada para calcular el estimador de máxima verosimilitud, es importante corroborar la siguiente hipótesis:

{\begin{cases}H_{0}:d=1\\H_{1}:d>1\end{cases}}

Prueba de razón de verosimilitud

La estadística de prueba de razón de verosimilitud ^[9] para la distribución de Hermite es,

W=2({\mathcal {L}}(X;{\hat {\mu }},{\hat {d}})-{\mathcal {L}}(X;{\hat {\mu }},1))

Donde es la función de verosimilitud logarítmica. Como d = 1 pertenece al límite del dominio de parámetros, bajo la hipótesis nula, W no tiene una distribución asintótica como se esperaba. Se puede establecer que la distribución asintótica de W es una mezcla 50:50 de la constante 0 y la . Los puntos porcentuales de cola superior de α para esta mezcla son los mismos que los puntos porcentuales de cola superior de 2α para a ; por ejemplo, para α = 0,01, 0,05 y 0,10 son 5,41189, 2,70554 y 1,64237. ${\mathcal {L}}()$ $\chi _{1}^{2}$ $\chi _{1}^{2}$ $\chi _{1}^{2}$

La prueba del "puntaje" o multiplicador de Lagrange

La estadística de puntuación es ^[9]

S_{2}=2m\left[{\frac {m^{(2)}-{\bar {x}}^{2}}{2{\bar {x}}}}\right]^{2}={\frac {m({\tilde {d}}-1)^{2}}{2}}

donde m es el número de observaciones.

La distribución asintótica del estadístico de la prueba de puntuación bajo la hipótesis nula es una distribución. Puede ser conveniente utilizar una versión con signo de la prueba de puntuación, es decir, , que sigue asintóticamente una normal estándar. $\chi _{1}^{2}$ $\operatorname {sgn} (m^{(2)}-{\bar {x}}^{2}){\sqrt {S}}$

Véase también

Referencias

^ abc Kemp, CD; Kemp, AW (1965). "Algunas propiedades de la distribución "Hermite"". Biometrika . 52 (3–4): 381–394. doi :10.1093/biomet/52.3-4.381.
^ ab McKendrick, AG (1926). "Aplicaciones de las matemáticas a los problemas médicos". Actas de la Sociedad Matemática de Edimburgo . 44 : 98–130. doi : 10.1017/s0013091500034428 .
^ Huiming, Zhang; Yunxiao Liu; Bo Li (2014). "Notas sobre el modelo de Poisson compuesto discreto con aplicaciones a la teoría del riesgo". Seguros: Matemáticas y Economía . 59 : 325–336. doi :10.1016/j.insmatheco.2014.09.012.
^ abcd Johnson, NL, Kemp, AW y Kotz, S. (2005) Distribuciones discretas univariadas, tercera edición, Wiley, ISBN 978-0-471-27246-5 .
^ Kemp, ADRIENNE W.; Kemp CD (1966). "Una derivación alternativa de la distribución de Hermite". Biometrika . 53 (3–4): 627–628. doi :10.1093/biomet/53.3-4.627.
^ abc Patel, YC (1976). "Estimación de puntos pares y estimación de momentos en la distribución de Hermite". Biometrics . 32 (4): 865–873. doi :10.2307/2529270. JSTOR 2529270.
^ Gupta, RP; Jain, GC (1974). "Una distribución Hermite generalizada y sus propiedades". Revista SIAM de Matemáticas Aplicadas . 27 (2): 359–363. doi :10.1137/0127027. JSTOR 2100572.
^ ab Kotz, Samuel (1982–1989). Enciclopedia de ciencias estadísticas . John Wiley. ISBN 978-0471055525.
^ abcdefgh Puig, P. (2003). "Caracterización de modelos discretos cerrados aditivamente mediante una propiedad de sus estimadores de máxima verosimilitud, con una aplicación a distribuciones Hermite generalizadas". Journal of the American Statistical Association . 98 (463): 687–692. doi :10.1198/016214503000000594. JSTOR 30045296. S2CID 120484966.