Distribución de Tweedie

En probabilidad y estadística , las distribuciones Tweedie son una familia de distribuciones de probabilidad que incluyen las distribuciones normal , gamma y gaussiana inversa puramente continuas , la distribución de Poisson escalada puramente discreta y la clase de distribuciones Poisson-gamma compuestas que tienen masa positiva en cero, pero que por lo demás son continuas. ^[1] Las distribuciones Tweedie son un caso especial de modelos de dispersión exponencial y a menudo se utilizan como distribuciones para modelos lineales generalizados . ^[2]

Las distribuciones de Tweedie fueron nombradas por Bent Jørgensen en ^[3] en honor a Maurice Tweedie ^[4] , un estadístico y físico médico de la Universidad de Liverpool , Reino Unido, quien presentó el primer estudio exhaustivo de estas distribuciones en 1982 cuando se celebró la conferencia ^[1] . Casi al mismo tiempo, Bar-Lev y Enis publicaron sobre el mismo tema. ^[5]^[6]

Definiciones

Las distribuciones de Tweedie (reproductivas) se definen como una subfamilia de modelos de dispersión exponencial (ED) (reproductivos), con una relación media - varianza especial. Una variable aleatoria Y se distribuye según Tweedie Tw _p (μ, σ ² ) , si tiene media , parámetro de dispersión positivo y donde se denomina parámetro de potencia de Tweedie. La distribución de probabilidad P _θ_,_σ_² en los conjuntos medibles A , viene dada por para alguna medida σ-finita ν _λ . Esta representación utiliza el parámetro canónico θ de un modelo de dispersión exponencial y una función cumulante donde utilizamos , o equivalentemente . $Y\sim \mathrm {ED} (\mu ,\sigma ^{2})$ $\mu =\operatorname {E} (Y)$ $\sigma ^{2}$ $\operatorname {Var} (Y)=\sigma ^{2}\,\mu ^{p},$ $p\in \mathbf {R}$ $P_{\theta ,\sigma ^{2}}(Y\in A)=\int _{A}\exp \left({\frac {\theta \cdot z-\kappa _{p}(\theta )}{\sigma ^{2}}}\right)\cdot \nu _{\lambda }\,(dz),$ $\kappa _{p}(\theta )={\begin{cases}{\frac {\alpha -1}{\alpha }}\left({\frac {\theta }{\alpha -1}}\right)^{\alpha },&{\text{para }}p\neq 1,2\\-\log(-\theta ),&{\text{para }}p=2\\e^{\theta },&{\text{para }}p=1\end{cases}}$ $\alpha ={\frac {p-2}{p-1}}$ $p={\frac {\alpha -2}{\alpha -1}}$

Propiedades

Modelos aditivos de dispersión exponencial

Los modelos que acabamos de describir están en forma reproductiva. Un modelo de dispersión exponencial tiene siempre una dual: la forma aditiva. Si Y es reproductiva, entonces con está en forma aditiva ED ^* ( θ , λ ), para Tweedie Tw ^*_p (μ,λ) . Los modelos aditivos tienen la propiedad de que la distribución de la suma de variables aleatorias independientes, para las cuales Z _i ~ ED ^* ( θ , λ _i ) con θ fijo y varios λ son miembros de la familia de distribuciones con el mismo θ , $Z=\lambda Y$ $\lambda ={\frac {1}{\sigma ^{2}}}$ $Z_{+}=Z_{1}+\cdots +Z_{n},$ $Z_{+}\sim \operatorname {ED} ^{*}(\theta ,\lambda _{1}+\cdots +\lambda _{n}).$

Modelos de dispersión exponencial reproductiva

Existe una segunda clase de modelos de dispersión exponencial designados por la variable aleatoria donde σ ² = 1/ λ , conocidos como modelos de dispersión exponencial reproductivos. Tienen la propiedad de que para n variables aleatorias independientes Y _i ~ ED( μ , σ ² / w _i ), con factores de ponderación w _i y un promedio ponderado de las variables da, $Y=Z/\lambda \sim \operatorname {ED} (\mu ,\sigma ^{2}),$ $w=\sum _ {i=1}^{n}w_ {i},$ $w^{-1}\sum _{i=1}^{n}w_{i}Y_{i}\sim \operatorname {ED} (\mu ,\sigma ^{2}/w).$

Para los modelos reproductivos, el promedio ponderado de las variables aleatorias independientes con μ y σ ² fijos y varios valores para w _i es un miembro de la familia de distribuciones con el mismo μ y σ ² .

Los modelos de dispersión exponencial de Tweedie son tanto aditivos como reproductivos; por lo tanto, tenemos la transformación de dualidad $Y\mapsto Z=Y/\sigma ^{2}.$

Invariancia de escala

Una tercera propiedad de los modelos Tweedie es que son invariantes de escala : para un modelo de dispersión exponencial reproductivo Tw _p (μ, σ ² ) y cualquier constante positiva c tenemos la propiedad de cierre bajo transformación de escala, $c\nombre_operador {Tw} _{p}(\mu ,\sigma ^{2})=\nombre_operador {Tw} _{p}(c\mu ,c^{2-p}\sigma ^{2}).$

La función de variación de potencia de Tweedie

Para definir la función de varianza para los modelos de dispersión exponencial, utilizamos la función de mapeo del valor medio, la relación entre el parámetro canónico θ y la media μ . Se define mediante la función con función acumulativa . La función de varianza V ( μ ) se construye a partir de la función de mapeo del valor medio, $\tau (\theta )=\kappa ^{\prime }(\theta )=\mu .$ $\kappa (\theta )$ $V(\mu )=\tau ^{\prime }[\tau ^{-1}(\mu )].$

Aquí el exponente negativo en τ ⁻¹ ( μ ) denota una función inversa en lugar de una recíproca. La media y la varianza de una variable aleatoria aditiva son entonces $E(Z) = λμ$ y $var(Z) = λV (μ)$ .

La invariancia de escala implica que la función de varianza obedece a la relación $V (μ) = μ p$ . ^[2]

La desviación Tweedie

La desviación unitaria de una distribución Tweedie reproductiva está dada por $d(y,\mu )={\begin{cases}(y-\mu )^{2},&{\text{para }}p=0\\2(y\log(y/\mu )+\mu -y),&{\text{para }}p=1\\2(\log(\mu /y)+y/\mu -1),&{\text{para }}p=2\\2\left({\frac {\max(y,0)^{2-p}}{(1-p)(2-p)}}-{\frac {y\mu ^{1-p}}{1-p}}+{\frac {\mu ^{2-p}}{2-p}}\right),&{\text{de lo contrario}}\end{cases}}$

Funciones generadoras de cumulantes de Tweedie

Las propiedades de los modelos de dispersión exponencial nos dan dos ecuaciones diferenciales . ^[2] La primera relaciona entre sí la función de valor medio y la función de varianza, ${\frac {\parcial \tau ^{-1}(\mu )}{\parcial \mu }}={\frac {1}{V(\mu )}}.$

El segundo muestra cómo se relaciona el mapeo del valor medio con la función cumulante , ${\frac {\parcial \kappa (\theta )}{\parcial \theta }}=\tau (\theta ).$

Estas ecuaciones se pueden resolver para obtener la función cumulante para diferentes casos de los modelos Tweedie. A partir de la función cumulante se puede obtener una función generadora de cumulantes (CGF). La CGF aditiva se especifica generalmente mediante la ecuación y la CGF reproductiva mediante donde s es la variable de la función generadora. $K^{*}(s)=\log[\operatorname {E} (e^{sZ})]=\lambda [\kappa (\theta +s)-\kappa (\theta )],$ $K(s)=\log[\operatorname {E} (e^{sY})]=\lambda [\kappa (\theta +s/\lambda )-\kappa (\theta )],$

Para los modelos aditivos Tweedie, los CGF toman la forma, y para los modelos reproductivos, $K_{p}^{*}(s;\theta ,\lambda )={\begin{casos}\lambda \kappa _ {p}(\theta )[(1+s/\theta )^{ \alpha }-1]&\quad p\neq 1,2,\\-\lambda \log(1+s/\theta )&\quad p=2,\\\lambda e^{\theta }(e ^{s}-1)&\quad p=1,\end{casos}}$ $K_{p}(s;\theta ,\lambda )={\begin{cases}\lambda \kappa _{p}(\theta )\left\{\left[1+s/(\theta \lambda )\right]^{\alpha }-1\right\}&\quad p\neq 1,2,\\[1ex]-\lambda \log[1+s/(\theta \lambda )]&\quad p=2,\\[1ex]\lambda e^{\theta }\left(e^{s/\lambda }-1\right)&\quad p=1.\end{cases}}$

Los modelos Tweedie aditivos y reproductivos se denotan convencionalmente mediante los símbolos Tw ^*_p ( θ , λ ) y Tw _p ( θ , σ ² ), respectivamente.

La primera y la segunda derivadas de los CGF, con s = 0, dan como resultado la media y la varianza, respectivamente. Por lo tanto, se puede confirmar que para los modelos aditivos la varianza se relaciona con la media mediante la ley de potencia, $\mathrm {var} (Z)\propto \mathrm {E} (Z)^{p}.$

El teorema de convergencia de Tweedie

Los modelos de dispersión exponencial de Tweedie son fundamentales en la teoría estadística como consecuencia de sus papeles como focos de convergencia para una amplia gama de procesos estadísticos. Jørgensen et al demostraron un teorema que especifica el comportamiento asintótico de las funciones de varianza conocido como el teorema de convergencia de Tweedie . ^[7] Este teorema, en términos técnicos, se enuncia así: ^[2] La función de varianza unitaria es regular de orden p en cero (o infinito) siempre que $V (μ) ~ c 0 μ p$ para μ a medida que se acerca a cero (o infinito) para todos los valores reales de p y c ₀ > 0. Entonces, para una función de varianza unitaria regular de orden p en cero o infinito y para para cualquier , y tenemos como o , respectivamente, donde la convergencia es a través de valores de c tales que cμ está en el dominio de θ y c ^p⁻² / σ ² está en el dominio de λ . El modelo debe ser infinitamente divisible a medida que c ²⁻^p se acerca al infinito. ^[2] $p\notin (0,1),$ $\mu >0$ $\sigma ^{2}>0$ $c^{-1}\operatorname {ED} (c\mu ,\sigma ^{2}c^{2-p})\rightarrow Tw_{p}(\mu ,c_{0}\sigma ^{2})$ $c\downarrow 0$ $c\rightarrow \infty$

En términos no técnicos, este teorema implica que cualquier modelo de dispersión exponencial que manifieste asintóticamente una ley de potencia de varianza a media debe tener una función de varianza que se encuentre dentro del dominio de atracción de un modelo Tweedie. Casi todas las funciones de distribución con funciones generadoras de cumulantes finitos califican como modelos de dispersión exponencial y la mayoría de los modelos de dispersión exponencial manifiestan funciones de varianza de esta forma. Por lo tanto, muchas distribuciones de probabilidad tienen funciones de varianza que expresan este comportamiento asintótico, y las distribuciones Tweedie se convierten en focos de convergencia para una amplia gama de tipos de datos. ^[8]

Distribuciones relacionadas

Las distribuciones Tweedie incluyen una serie de distribuciones conocidas y también algunas inusuales, cada una de las cuales se especifica mediante el dominio del parámetro de índice. Tenemos la

distribución extremadamente estable, p < 0,
distribución normal , p = 0,
Distribución de Poisson , p = 1,
distribución compuesta de Poisson-gamma , 1 < p < 2,
distribución gamma , p = 2,
distribuciones estables positivas , 2 < p < 3,
Distribución gaussiana inversa , p = 3,
distribuciones estables positivas, p > 3, y
distribuciones estables extremas, p = $\infty$ .

Para 0 < p < 1 no existe ningún modelo Tweedie. Nótese que todas las distribuciones estables en realidad son generadas por distribuciones estables .

Ocurrencia y aplicaciones

Los modelos de Tweedie y la ley de potencia de Taylor

La ley de Taylor es una ley empírica en ecología que relaciona la varianza del número de individuos de una especie por unidad de área de hábitat con la media correspondiente mediante una relación de ley de potencia . ^[9] Para el recuento de población Y con media μ y varianza var( Y ), la ley de Taylor se escribe, donde a y p son ambas constantes positivas. Desde que LR Taylor describió esta ley en 1961, se han ofrecido muchas explicaciones diferentes para explicarla, que van desde el comportamiento animal, ^[9] un modelo de caminata aleatoria , ^[10] un modelo estocástico de nacimiento, muerte, inmigración y emigración , ^{[11] hasta una consecuencia de}la mecánica estadística de equilibrio y no equilibrio . ^[12] No existe consenso en cuanto a una explicación para este modelo. $\operatorname {var} (Y)=a\mu ^{p},$

Dado que la ley de Taylor es matemáticamente idéntica a la ley de potencia de varianza a media que caracteriza a los modelos de Tweedie, parecía razonable utilizar estos modelos y el teorema de convergencia de Tweedie para explicar la agrupación observada de animales y plantas asociada con la ley de Taylor. ^[13]^[14] La mayoría de los valores observados para el exponente de la ley de potencia p han caído en el intervalo (1,2) y, por lo tanto, la distribución compuesta de Poisson-gamma de Tweedie parecería aplicable. La comparación de la función de distribución empírica con la distribución compuesta de Poisson-gamma teórica ha proporcionado un medio para verificar la consistencia de esta hipótesis. ^[13]

Mientras que los modelos convencionales de la ley de Taylor han tendido a implicar supuestos ad hoc sobre comportamiento animal o dinámica de poblaciones , el teorema de convergencia de Tweedie implicaría que la ley de Taylor resulta de un efecto de convergencia matemática general, de forma muy similar a cómo el teorema del límite central rige el comportamiento de convergencia de ciertos tipos de datos aleatorios. De hecho, cualquier modelo matemático, aproximación o simulación que esté diseñado para producir la ley de Taylor (sobre la base de este teorema) debe converger a la forma de los modelos de Tweedie. ^[8]

Convergencia de Tweedie y 1/Fruido

El ruido rosa , o ruido 1/ f , se refiere a un patrón de ruido caracterizado por una relación de ley de potencia entre sus intensidades S ( f ) a diferentes frecuencias f , donde el exponente adimensional γ ∈ [0,1]. Se encuentra dentro de un número diverso de procesos naturales. ^[15] Existen muchas explicaciones diferentes para el ruido 1/ f , una hipótesis ampliamente aceptada se basa en la criticidad autoorganizada donde se piensa que los sistemas dinámicos cercanos a un punto crítico manifiestan un comportamiento espacial y/o temporal invariante de escala . $S(f)\propto {\frac {1}{f^{\gamma }}},$

En esta subsección se describirá una conexión matemática entre el ruido 1/ f y la ley de potencia de varianza a media de Tweedie. Para comenzar, primero debemos introducir procesos autosimilares : para la secuencia de números con desviaciones medias de varianza y función de autocorrelación con retardo k , si la autocorrelación de esta secuencia tiene el comportamiento de largo alcance cuando k $\to\infty$ y donde L ( k ) es una función que varía lentamente en valores grandes de k , esta secuencia se denomina proceso autosimilar. ^[16] $Y=(Y_{i}:i=0,1,2,\ldots ,N)$ ${\widehat {\mu }}=\operatorname {E} (Y_{i}),$ $y_{i}=Y_{i}-{\widehat {\mu }},$ ${\widehat {\sigma }}^{2}=\operatorname {E} (y_{i}^{2}),$ $r(k)={\frac {\operatorname {E} (y_{i},y_{i+k})}{\operatorname {E} (y_{i}^{2})}}$ $r(k)\sim k^{-d}L(k)$

El método de expansión de bins se puede utilizar para analizar procesos de autosimilitud. Consideremos un conjunto de bins de igual tamaño que no se superponen y que divide la secuencia original de N elementos en grupos de m segmentos de igual tamaño ( N/m es un número entero) de modo que se puedan definir nuevas secuencias reproductivas, basadas en los valores medios: $Y_{i}^{(m)}=\left(Y_{im-m+1}+\cdots +Y_{im}\right)/m.$

La varianza determinada a partir de esta secuencia se escalará a medida que cambie el tamaño del contenedor, de modo que si y solo si la autocorrelación tiene la forma límite ^[17] $\operatorname {var} [Y^{(m)}]={\widehat {\sigma }}^{2}m^{-d}$ $\lim _{k\to \infty }r(k)/k^{-d}=(2-d)(1-d)/2.$

También se puede construir un conjunto de secuencias aditivas correspondientes basadas en los contenedores en expansión, $Z_{i}^{(m)}=mY_{i}^{(m)},$ $Z_{i}^{(m)}=(Y_{im-m+1}+\cdots +Y_{im}).$

Siempre que la función de autocorrelación exhiba el mismo comportamiento, las secuencias aditivas obedecerán la relación $\operatorname {var} [Z_{i}^{(m)}]=m^{2}\operatorname {var} [Y^{(m)}]=\left({\frac {{\widehat {\sigma }}^{2}}{{\widehat {\mu }}^{2-d}}}\right)\operatorname {E} [Z_{i}^{(m)}]^{2-d}$

Dado que y son constantes, esta relación constituye una ley de potencia de varianza a media, con p = 2 - d . ^[8]^[18] ${\widehat {\mu }}$ ${\widehat {\sigma }}^{2}$

La relación bicondicional anterior entre la ley de potencia de varianza a media y la función de autocorrelación de la ley de potencia, y el teorema de Wiener-Khinchin ^[19] implican que cualquier secuencia que exhiba una ley de potencia de varianza a media por el método de expansión de bins también manifestará ruido 1/ f , y viceversa. Además, el teorema de convergencia de Tweedie, en virtud de su efecto de tipo límite central de generar distribuciones que manifiestan funciones de potencia de varianza a media, también generará procesos que manifiestan ruido 1/ f . ^[8] El teorema de convergencia de Tweedie proporciona así una explicación alternativa para el origen del ruido 1/ f , basada en su efecto de tipo límite central.

Así como el teorema del límite central requiere que ciertos tipos de procesos aleatorios tengan como foco de su convergencia la distribución gaussiana y por lo tanto expresen ruido blanco , el teorema de convergencia de Tweedie requiere que ciertos procesos no gaussianos tengan como foco de convergencia las distribuciones de Tweedie que expresan ruido 1/ f . ^[8]

Los modelos Tweedie y la multifractalidad

A partir de las propiedades de los procesos autosimilares, el exponente de la ley de potencia p = 2 - d está relacionado con el exponente de Hurst H y la dimensión fractal D por ^[17] $D=2-H=2-p/2.$

Una secuencia de datos unidimensional de datos autosimilares puede demostrar una ley de potencia de varianza a media con variaciones locales en el valor de p y, por lo tanto, en el valor de D . Cuando las estructuras fractales manifiestan variaciones locales en la dimensión fractal, se dice que son multifractales . Los ejemplos de secuencias de datos que exhiben variaciones locales en p como esta incluyen las desviaciones de valores propios de los conjuntos ortogonales y unitarios gaussianos . ^[8] La distribución de Poisson-gamma compuesta de Tweedie ha servido para modelar la multifractalidad basada en variaciones locales en el exponente de Tweedie α . En consecuencia, junto con la variación de α , el teorema de convergencia de Tweedie puede considerarse como un factor en la génesis de dichos multifractales.

Se ha descubierto que la variación de α obedece a la distribución asimétrica de Laplace en ciertos casos. ^[20] Se ha demostrado que esta distribución es miembro de la familia de modelos geométricos de Tweedie, ^[21] que se manifiestan como distribuciones limitantes en un teorema de convergencia para modelos de dispersión geométrica.

Flujo sanguíneo en órganos regionales

El flujo sanguíneo de los órganos regionales se ha evaluado tradicionalmente mediante la inyección de microesferas de polietileno radiomarcadas en la circulación arterial de los animales, de un tamaño tal que quedan atrapadas dentro de la microcirculación de los órganos. El órgano que se va a evaluar se divide entonces en cubos de igual tamaño y la cantidad de radiomarcado dentro de cada cubo se evalúa mediante recuento de centelleo líquido y se registra. La cantidad de radiactividad dentro de cada cubo se toma para reflejar el flujo sanguíneo a través de esa muestra en el momento de la inyección. Es posible evaluar cubos adyacentes de un órgano para determinar de forma aditiva el flujo sanguíneo a través de regiones más grandes. A través del trabajo de JB Bassingthwaighte y otros, se ha derivado una ley de potencia empírica entre la dispersión relativa del flujo sanguíneo de muestras de tejido ( RD = desviación estándar/media) de masa m en relación con muestras de tamaño de referencia: ^[22] $RD(m)=RD(m_{\text{ref}})\left({\frac {m}{m_{\text{ref}}}}\right)^{1-D_{s}}$

Este exponente de la ley de potencia D _s se ha denominado dimensión fractal. Se puede demostrar que la ley de potencia de Bassingthwaighte se relaciona directamente con la ley de potencia de varianza a media. Por lo tanto, el flujo sanguíneo de los órganos regionales se puede modelar mediante la distribución Poisson-gamma compuesta de Tweedie., ^[23] En este modelo, se podría considerar que la muestra de tejido contiene un número aleatorio (Poisson) distribuido de sitios de atrapamiento, cada uno con un flujo sanguíneo distribuido en gamma . Se ha observado que el flujo sanguíneo a este nivel de la microcirculación obedece a una distribución gamma, ^[24] lo que respalda esta hipótesis.

Metástasis del cáncer

El " ensayo experimental de metástasis de cáncer" ^[25] tiene cierta similitud con el método anterior para medir el flujo sanguíneo regional. A grupos de ratones singénicos y de la misma edad se les administran inyecciones intravenosas de alícuotas de igual tamaño de suspensiones de células cancerosas clonadas y luego, después de un período de tiempo determinado, se les extirpan los pulmones y se enumera el número de metástasis de cáncer dentro de cada par de pulmones. Si a otros grupos de ratones se les inyectan clones de células cancerosas diferentes , entonces el número de metástasis por grupo diferirá de acuerdo con los potenciales metastásicos de los clones. Se ha reconocido desde hace tiempo que puede haber una variación intraclonal considerable en el número de metástasis por ratón a pesar de los mejores intentos por mantener uniformes las condiciones experimentales dentro de cada grupo clonal. ^[25] Esta variación es mayor de lo que se esperaría sobre la base de una distribución de Poisson del número de metástasis por ratón en cada clon y cuando se trazó la varianza del número de metástasis por ratón contra la media correspondiente se encontró una ley de potencia. ^[26]

Se encontró que la ley de potencia de varianza a media para las metástasis también era válida para las metástasis murinas espontáneas ^[27] y para las series de casos de metástasis humanas. ^[28] Dado que la metástasis hematógena ocurre en relación directa con el flujo sanguíneo regional ^[29] y los estudios videomicroscópicos indican que el paso y atrapamiento de células cancerosas dentro de la circulación parece análogo a los experimentos con microesferas ^[30], parecía plausible proponer que la variación en los números de metástasis hematógenas podría reflejar heterogeneidad en el flujo sanguíneo de órganos regionales. ^[31] El modelo de flujo sanguíneo se basó en la distribución Poisson-gamma compuesta de Tweedie, una distribución que rige una variable aleatoria continua. Por esa razón, en el modelo de metástasis se asumió que el flujo sanguíneo estaba regido por esa distribución y que el número de metástasis regionales ocurría como un proceso de Poisson para el cual la intensidad era directamente proporcional al flujo sanguíneo. Esto condujo a la descripción de la distribución binomial negativa de Poisson (PNB) como un equivalente discreto a la distribución Poisson-gamma compuesta de Tweedie. La función generadora de probabilidad para la distribución PNB es $G(s)=\exp \left[\lambda {\frac {\alpha -1}{\alpha }}\left({\frac {\theta }{\alpha -1}}\right)^{\alpha }\left\{\left(1-{\frac {1}{\theta }}+{\frac {s}{\theta }}\right)^{\alpha }-1\right\}\right]$

La relación entre la media y la varianza de la distribución de PNB es, entonces , la que, en el rango de muchos ensayos experimentales de metástasis, sería indistinguible de la ley de potencia de varianza a media. Sin embargo, para datos dispersos, esta relación discreta de varianza a media se comportaría más como la de una distribución de Poisson donde la varianza es igual a la media. $\operatorname {var} (Y)=a\operatorname {E} (Y)^{b}+\operatorname {E} (Y),$

Estructura genómica y evolución

La densidad local de polimorfismos de nucleótido único (SNP) dentro del genoma humano , así como la de los genes , parece agruparse de acuerdo con la ley de potencia de varianza a media y la distribución de Poisson-gamma compuesta de Tweedie. ^[32]^[33] En el caso de los SNP, su densidad observada refleja las técnicas de evaluación, la disponibilidad de secuencias genómicas para el análisis y la heterocigosidad de los nucleótidos . ^[34] Los dos primeros factores reflejan errores de determinación inherentes a los métodos de recolección, el último factor refleja una propiedad intrínseca del genoma.

En el modelo coalescente de genética de poblaciones, cada locus genético tiene su propia historia única. Dentro de la evolución de una población a partir de algunas especies, algunos loci genéticos podrían presumiblemente remontarse a un ancestro común relativamente reciente , mientras que otros loci podrían tener genealogías más antiguas . Los segmentos genómicos más antiguos habrían tenido más tiempo para acumular SNP y experimentar recombinación . RR Hudson ha propuesto un modelo en el que la recombinación podría causar variación en el tiempo hasta el ancestro reciente más común para diferentes segmentos genómicos. ^[35] Una alta tasa de recombinación podría hacer que un cromosoma contenga una gran cantidad de segmentos pequeños con genealogías menos correlacionadas.

Suponiendo una tasa de mutación de fondo constante, el número de SNP por segmento genómico se acumularía proporcionalmente al tiempo hasta el ancestro común más reciente. La teoría genética de poblaciones actual indicaría que estos tiempos tendrían una distribución gamma , en promedio. ^[36] La distribución Poisson-gamma compuesta de Tweedie sugeriría un modelo por el cual el mapa de SNP constaría de múltiples segmentos genómicos pequeños con el número medio de SNP por segmento distribuido gamma según el modelo de Hudson.

La distribución de genes dentro del genoma humano también demostró una ley de potencia de varianza a media, cuando se utilizó el método de expansión de bins para determinar las varianzas y medias correspondientes. ^[33] De manera similar, se encontró que el número de genes por bin enumerativo obedecía a una distribución de Poisson-gamma compuesta de Tweedie. Esta distribución de probabilidad se consideró compatible con dos modelos biológicos diferentes: el modelo de microarreglo donde el número de genes por unidad de longitud genómica se determinaba por la suma de un número aleatorio de segmentos genómicos más pequeños derivados por rotura aleatoria y reconstrucción de protocromosomas. Se supondría que estos segmentos más pequeños llevan en promedio un número de genes distribuidos en gamma.

En el modelo alternativo de agrupación de genes , los genes se distribuirían aleatoriamente dentro de los protocromosomas. A lo largo de grandes escalas de tiempo evolutivas se producirían duplicaciones en tándem , mutaciones, inserciones, deleciones y reordenamientos que podrían afectar a los genes a través de un proceso estocástico de nacimiento, muerte e inmigración para producir la distribución de Poisson-gamma compuesta de Tweedie.

Ambos mecanismos implicarían procesos evolutivos neutrales que darían lugar a una agrupación regional de genes.

Teoría de matrices aleatorias

El conjunto unitario gaussiano (GUE) consiste en matrices hermíticas complejas que son invariantes bajo transformaciones unitarias , mientras que el conjunto ortogonal gaussiano (GOE) consiste en matrices simétricas reales invariantes bajo transformaciones ortogonales . Los valores propios ordenados E _n de estas matrices aleatorias obedecen a la distribución semicircular de Wigner : Para una matriz N × N, la densidad promedio para valores propios de tamaño E será como E $\to \infty$ . La integración de la regla semicircular proporciona el número de valores propios en promedio menor que E. ${\bar {\rho }}(E)={\begin{cases}{\sqrt {2N-E^{2}}}/\pi &\quad \left\vert E\right\vert <{\sqrt {2N}}\\0&\quad \left\vert E\right\vert >{\sqrt {2N}}\end{cases}}$ ${\bar {\eta }}(E)={\frac {1}{2\pi }}\left[E{\sqrt {2N-E^{2}}}+2N\arcsin \left({\frac {E}{\sqrt {2N}}}\right)+\pi N\right].$

Los valores propios clasificados se pueden desplegar o renormalizar con la ecuación $e_{n}={\bar {\eta }}(E)=\int _{-\infty }^{E_{n}}\,dE'{\bar {\rho }}(E').$

Esto elimina la tendencia de la secuencia de la parte fluctuante. Si observamos el valor absoluto de la diferencia entre el número acumulado real y esperado de valores propios, obtenemos una secuencia de fluctuaciones de valores propios que, utilizando el método de expansión de bins, revela una ley de potencia de varianza a media. ^[8] Las fluctuaciones de valores propios tanto del GUE como del GOE manifiestan esta ley de potencia con exponentes de la ley de potencia que oscilan entre 1 y 2, y manifiestan de manera similar espectros de ruido 1/ f . Estas fluctuaciones de valores propios también corresponden a la distribución Poisson-gamma compuesta de Tweedie y exhiben multifractalidad. ^[8] $\left|{\bar {D}}_{n}\right|=\left|n-{\bar {\eta }}(E_{n})\right|$

La distribución denúmeros primos

La segunda función de Chebyshev ψ ( x ) está dada por, donde la suma se extiende sobre todas las potencias primos que no excedan x , x recorre los números reales positivos, y es la función de von Mangoldt . La función ψ ( x ) está relacionada con la función de conteo de primos π ( x ), y como tal proporciona información con respecto a la distribución de números primos entre los números reales. Es asintótica a x , una afirmación equivalente al teorema de los números primos y también se puede demostrar que está relacionada con los ceros de la función zeta de Riemann ubicada en la franja crítica ρ , donde la parte real del cero zeta ρ está entre 0 y 1. Entonces ψ expresado para x mayor que uno se puede escribir: donde $\psi (x)=\sum _{{\widehat {p\,}}^{k}\leq x}\log {\widehat {p\,}}=\sum _{n\leq x}\Lambda (n)$ ${\widehat {p\,}}^{k}$ $\Lambda (n)$ $\psi _{0}(x)=x-\sum _{\rho }{\frac {x^{\rho }}{\rho }}-\ln 2\pi -{\frac {1}{2}}\ln(1-x^{-2})$ $\psi _{0}(x)=\lim _{\varepsilon \rightarrow 0}{\frac {\psi (x-\varepsilon )+\psi (x+\varepsilon )}{2}}.$

La hipótesis de Riemann establece que todos los ceros no triviales de la función zeta de Riemann tienen una parte real de 1 ⁄ 2 . Estos ceros de la función zeta están relacionados con la distribución de los números primos . Schoenfeld^[37] ha demostrado que si la hipótesis de Riemann es verdadera, entonces para todos los . Si analizamos las desviaciones de Chebyshev Δ( n ) en los números enteros n utilizando el método de expansión de bins y graficamos la varianza versus la media, se puede demostrar una ley de potencia de varianza a media. ^[^{cita requerida}^] Además, estas desviaciones corresponden a la distribución Poisson-gamma compuesta de Tweedie y exhiben ruido 1/ f . $\Delta (x)=\left\vert \psi (x)-x\right\vert <{\sqrt {x}}\log ^{2}(x)/(8\pi )$ $x>73.2$

Otras aplicaciones

Las aplicaciones de las distribuciones Tweedie incluyen:

estudios actuariales ^[38]^[39]^[40]^[41]^[42]^[43]^[44]
análisis de ensayos ^[45]^[46]
análisis de supervivencia ^[47]^[48]^[49]
ecología ^[13]
Análisis del consumo de alcohol en adolescentes británicos ^[50]
Aplicaciones médicas ^[51]
Economía de la salud ^[52]
meteorología y climatología ^[51]^[53]
pesca ^[54]
Función de Mertens ^[55]
criticidad autoorganizada ^[56]

Referencias

^ ab Tweedie, MCK (1984). "Un índice que distingue entre algunas familias exponenciales importantes". En Ghosh, JK; Roy, J (eds.). Estadística: aplicaciones y nuevas direcciones . Actas de la Conferencia Internacional del Jubileo de Oro del Instituto Estadístico de la India. Calcuta: Instituto Estadístico de la India. págs. 579–604. MR 0786162.
^ abcde Jørgensen, Bent (1997). La teoría de los modelos de dispersión . Chapman & Hall. ISBN 978-0412997112.
^ Jørgensen, B (1987). "Modelos de dispersión exponencial". Revista de la Royal Statistical Society, Serie B . 49 (2): 127–162. JSTOR 2345415.
^ Smith, CAB (1997). "Obituario: Maurice Charles Kenneth Tweedie, 1919–96". Revista de la Royal Statistical Society, Serie A . 160 (1): 151–154. doi : 10.1111/1467-985X.00052 .
^ Bar-Lev, SK; Enis, P. (1985). "Reproducibilidad en la familia exponencial de un parámetro". Metrika . 32 (1): 391–394. doi :10.1007/BF01897827.
^ Bar-Lev, Shall.K.; Enis, Peter (1986). "Reproducibilidad y familias exponenciales naturales con funciones de varianza de potencia". Anales de estadística . 14 (4): 1507–1522. doi : 10.1214/aos/1176350173 .
^ Jørgensen, B; Martínez, JR; Tsao, M (1994). "Comportamiento asintótico de la función de varianza". Scandinavian Journal of Statistics . 21 : 223–243.
^ abcdefgh Kendal, WS; Jørgensen, B. (2011). "Convergencia de Tweedie: una base matemática para la ley de potencia de Taylor, ruido 1/f y multifractalidad". Physical Review E . 84 (6): 066120. Bibcode :2011PhRvE..84f6120K. doi :10.1103/PhysRevE.84.066120. PMID 22304168.
^ ab Taylor, LR (1961). "Agregación, varianza y media". Nature . 189 (4766): 732–735. Código Bibliográfico :1961Natur.189..732T. doi :10.1038/189732a0. S2CID 4263093.
^ Hanski, I (1980). "Patrones espaciales y movimientos en escarabajos coprófagos". Oikos . 34 (3): 293–310. Bibcode :1980Oikos..34..293H. doi :10.2307/3544289. JSTOR 3544289.
^ Anderson, RD; Crawley, GM; Hassell, M (1982). "Variabilidad en la abundancia de especies animales y vegetales". Nature . 296 (5854): 245–248. Bibcode :1982Natur.296..245A. doi :10.1038/296245a0. S2CID 4272853.
^ Fronczak, A; Fronczak, P (2010). "Orígenes de la ley de potencia de Taylor para el escalamiento de fluctuaciones en sistemas complejos". Phys Rev E . 81 (6): 066112. arXiv : 0909.1896 . Código Bibliográfico :2010PhRvE..81f6112F. doi :10.1103/physreve.81.066112. PMID 20866483. S2CID 17435198.
^ abc Kendal, WS (2002). "Agregación espacial del escarabajo de la patata de Colorado descrita mediante un modelo de dispersión exponencial". Ecological Modelling . 151 (2–3): 261–269. doi :10.1016/s0304-3800(01)00494-x.
^ Kendal, WS (2004). "La ley de potencia ecológica de Taylor como consecuencia de modelos de dispersión exponencial invariantes a escala". Ecol Complex . 1 (3): 193–209. doi :10.1016/j.ecocom.2004.05.001.
^ Dutta, P; Horn, PM (1981). "Fluctuaciones de baja frecuencia en sólidos: ruido 1/ f ". Rev Mod Phys . 53 (3): 497–516. Bibcode :1981RvMP...53..497D. doi :10.1103/revmodphys.53.497.
^ Leland, WE; Taqqu, MS; Willinger, W; Wilson, DV (1994). "Sobre la naturaleza autosimilar del tráfico Ethernet (versión extendida)". Transacciones IEEE/ACM sobre redes . 2 : 1–15. doi :10.1109/90.282603. S2CID 6011907.
^ ab Tsybakov, B; Georganas, ND (1997). "Sobre el tráfico autosimilar en colas ATM: definiciones, límite de probabilidad de desbordamiento y distribución de retardo de celda". IEEE/ACM Transactions on Networking . 5 (3): 397–409. CiteSeerX 10.1.1.53.5040 . doi :10.1109/90.611104. S2CID 2205855.
^ Kendal, WS (2007). "Las correlaciones invariantes de escala entre genes y SNP en el cromosoma 1 humano revelan mecanismos evolutivos potenciales". J Theor Biol . 245 (2): 329–340. Bibcode :2007JThBi.245..329K. doi :10.1016/j.jtbi.2006.10.010. PMID 17137602.
^ McQuarrie DA (1976) Mecánica estadística [Harper & Row]
^ Kendal, WS (2014). "Multifractalidad atribuida a efectos de convergencia dual límite central". Physica A . 401 : 22–33. Bibcode :2014PhyA..401...22K. doi :10.1016/j.physa.2014.01.022.
^ Jørgensen, B; Kokonendji, CC (2011). "Modelos de dispersión para sumas geométricas". Braz J Probab Stat . 25 (3): 263–293. doi : 10.1214/10-bjps136 .
^ Bassingthwaighte, JB (1989). "Naturaleza fractal de la heterogeneidad del flujo sanguíneo miocárdico regional". Circ Res . 65 (3): 578–590. doi :10.1161/01.res.65.3.578. PMC 3361973 . PMID 2766485.
^ Kendal, WS (2001). "Un modelo estocástico para la heterogeneidad autosimilar del flujo sanguíneo en órganos regionales". Proc Natl Acad Sci USA . 98 (3): 837–841. Bibcode :2001PNAS...98..837K. doi : 10.1073/pnas.98.3.837 . PMC 14670 . PMID 11158557.
^ Honig, CR; Feldstein, ML; Frierson, JL (1977). "Longitudes capilares, anastomosis y tiempos de tránsito capilar estimados en el músculo esquelético". Am J Physiol Heart Circ Physiol . 233 (1): H122–H129. doi :10.1152/ajpheart.1977.233.1.h122. PMID 879328.
^ ab Fidler, IJ; Kripke, M (1977). "La metástasis es el resultado de células variantes preexistentes dentro de un tumor maligno". Science . 197 (4306): 893–895. Bibcode :1977Sci...197..893F. doi :10.1126/science.887927. PMID 887927.
^ Kendal, WS; Frost, P (1987). "Metástasis experimental: una nueva aplicación de la función de potencia de varianza a media". J Natl Cancer Inst . 79 (5): 1113–1115. doi :10.1093/jnci/79.5.1113. PMID 3479636.
^ Kendal, WS (1999). "La agrupación de metástasis pulmonares murinas refleja una falta de uniformidad fractal en el flujo sanguíneo pulmonar regional". Invasion and Metastasis . 18 (5–6): 285–296. doi :10.1159/000024521. PMID 10729773. S2CID 46835513.
^ Kendal, WS; Lagerwaard, FJ; Agboola, O (2000). "Caracterización de la distribución de frecuencias de las metástasis hematógenas humanas: evidencia de agrupamiento y una función de varianza de potencia". Clin Exp Metastasis . 18 (3): 219–229. doi :10.1023/A:1006737100797. PMID 11315095. S2CID 25261069.
^ Weiss, L; Bronk, J; Pickren, JW; Lane, WW (1981). "Patrones metastásicos y flujo sanguíneo arterial en órganos diana". Invasión y metástasis . 1 (2): 126–135. PMID 7188382.
^ Chambers, AF; Groom, AC; MacDonald, IC (2002). "Diseminación y crecimiento de células cancerosas en sitios metastásicos". Nature Reviews Cancer . 2 (8): 563–572. doi :10.1038/nrc865. PMID 12154349. S2CID 135169.
^ Kendal, WS (2002). "Una distribución de frecuencias para el número de metástasis orgánicas hematógenas". Invasion and Metastasis . 1 (2): 126–135. Bibcode :2002JThBi.217..203K. doi :10.1006/jtbi.2002.3021. PMID 12202114.
^ Kendal, WS (2003). "Un modelo de dispersión exponencial para la distribución de polimorfismos de nucleótido único humanos". Mol Biol Evol . 20 (4): 579–590. doi : 10.1093/molbev/msg057 . PMID 12679541.
^ ab Kendal, WS (2004). "Una agrupación invariante de escala de genes en el cromosoma humano 7". BMC Evol Biol . 4 : 3. doi : 10.1186/1471-2148-4-3 . PMC 373443 . PMID 15040817.
^ Sachidanandam, R; Weissman, D; Schmidt, SC; et al. (2001). "Un mapa de la variación del genoma humano que contiene 1,42 millones de polimorfismos de un solo nucleótido". Nature . 409 (6822): 928–933. Bibcode :2001Natur.409..928S. doi : 10.1038/35057149 . PMID 11237013.
^ Hudson, RR (1991). "Genealogías genéticas y el proceso coalescente". Oxford Surveys in Evolutionary Biology . 7 : 1–44.
^ Tavare, S; Balding, DJ; Griffiths, RC; Donnelly, P (1997). "Inferir tiempos de coalescencia a partir de datos de secuencias de ADN". Genética . 145 (2): 505–518. doi :10.1093/genetics/145.2.505. PMC 1207814 . PMID 9071603.
^ Schoenfeld, J (1976). "Límites más precisos para las funciones de Chebyshev θ(x) y ψ(x). II". Matemáticas de la computación . 30 (134): 337–360. doi : 10.1090/s0025-5718-1976-0457374-x .
^ Haberman, S.; Renshaw, AE (1996). "Modelos lineales generalizados y ciencia actuarial". The Statistician . 45 (4): 407–436. doi :10.2307/2988543. JSTOR 2988543.
^ Renshaw, AE 1994. Modelado del proceso de reclamaciones en presencia de covariables. Boletín ASTIN 24: 265–286.
^ Jørgensen, B.; Paes; Souza, MC (1994). "Ajuste del modelo de Poisson compuesto de Tweedie a los datos de reclamaciones de seguros". Scand. Actuar. J. 1 : 69–93. CiteSeerX 10.1.1.329.9259 . doi :10.1080/03461238.1994.10413930.
^ Haberman, S., y Renshaw, AE 1998. Aplicaciones actuariales de modelos lineales generalizados. En Statistics in Finance, DJ Hand y SD Jacka (eds), Arnold, Londres.
^ Mildenhall, SJ 1999. Una relación sistemática entre el sesgo mínimo y los modelos lineales generalizados. 1999 Actas de la Casualty Actuarial Society 86: 393–487.
^ Murphy, KP, Brockman, MJ y Lee, PKW (2000). Uso de modelos lineales generalizados para construir sistemas de precios dinámicos. Casualty Actuarial Forum, invierno de 2000.
^ Smyth, GK; Jørgensen, B. (2002). "Ajuste del modelo de Poisson compuesto de Tweedie a los datos de reclamaciones de seguros: modelado de dispersión" (PDF) . Boletín ASTIN . 32 : 143–157. doi : 10.2143/ast.32.1.1020 .
^ Davidian, M (1990). "Estimación de funciones de varianza en ensayos con posible replicación desigual y datos no normales". Biometrika . 77 : 43–54. doi :10.1093/biomet/77.1.43.
^ Davidian, M. ; Carroll, RJ; Smith, W. (1988). "Funciones de varianza y concentración mínima detectable en ensayos". Biometrika . 75 (3): 549–556. doi :10.1093/biomet/75.3.549.
^ Aalen, OO (1992). "Modelado de la heterogeneidad en el análisis de supervivencia mediante la distribución compuesta de Poisson". Ann. Appl. Probab . 2 (4): 951–972. doi : 10.1214/aoap/1177005583 .
^ Hougaard, P.; Harvald, B.; Holm, NV (1992). "Medición de las similitudes entre las vidas de gemelos daneses adultos nacidos entre 1881 y 1930". Journal of the American Statistical Association . 87 (417): 17–24. doi :10.1080/01621459.1992.10475170.
^ Hougaard, P (1986). "Modelos de supervivencia para poblaciones heterogéneas derivadas de distribuciones estables". Biometrika . 73 (2): 387–396. doi :10.1093/biomet/73.2.387.
^ Gilchrist, R. y Drinkwater, D. 1999. Ajuste de modelos Tweedie a datos con probabilidad de respuestas cero. Actas del 14.º Taller internacional sobre modelado estadístico, Graz, págs. 207-214.
^ ab Smyth, GK 1996. Análisis de regresión de datos de cantidad con ceros exactos. Actas del segundo taller Australia-Japón sobre modelos estocásticos en ingeniería, tecnología y gestión. Centro de Gestión Tecnológica, Universidad de Queensland, 572–580.
^ Kurz, Christoph F. (2017). "Distribuciones Tweedie para ajustar datos semicontinuos de costos de utilización de atención médica". BMC Medical Research Methodology . 17 (171): 171. doi : 10.1186/s12874-017-0445-y . PMC 5735804 . PMID 29258428.
^ Hasan, MM; Dunn, PK (2010). "Dos distribuciones Tweedie que son casi óptimas para modelar las precipitaciones mensuales en Australia". Revista Internacional de Climatología . 31 (9): 1389–1397. doi :10.1002/joc.2162. S2CID 140135793.
^ Candy, SG (2004). "Modelación de datos de captura y esfuerzo utilizando modelos lineales generalizados, la distribución Tweedie, efectos aleatorios de los buques y efectos aleatorios de estrato por año". CCAMLR Science . 11 : 59–80.
^ Kendal, WS; Jørgensen, B (2011). "Ley de potencia de Taylor y escala de fluctuación explicada por una convergencia de tipo límite central". Phys. Rev. E . 83 (6): 066115. Bibcode :2011PhRvE..83f6115K. doi :10.1103/physreve.83.066115. PMID 21797449.
^ Kendal, WS (2015). "Criticidad autoorganizada atribuida a un efecto de convergencia de tipo límite central". Physica A . 421 : 141–150. Código Bibliográfico :2015PhyA..421..141K. doi :10.1016/j.physa.2014.11.035.

Lectura adicional

Dunn, PK; Smyth, GK (2018). Modelos lineales generalizados con ejemplos en R. Nueva York: Springer. doi :10.1007/978-1-4419-0118-7. ISBN . 978-1-4419-0118-7.El capítulo 12 trata sobre las distribuciones y modelos Tweedie.
Kaas, R. (2005). "Distribución de Poisson compuesta y modelos lineales generales: distribución de Tweedie". En Actas del Foro de contacto "3rd Actuarial and Financial Mathematics Day" , páginas 3-12. Bruselas: Real Academia Flamenca de Bélgica para las Ciencias y las Artes.
Tweedie, MCK (1956). "Algunas propiedades estadísticas de distribuciones gaussianas inversas". Virginia J. Sci . Nueva serie. 7 : 160–165.