Distribución de tweedie

En probabilidad y estadística , las distribuciones de Tweedie son una familia de distribuciones de probabilidad que incluyen las distribuciones normal puramente continua , gamma y gaussiana inversa , la distribución de Poisson escalada puramente discreta y la clase de distribuciones compuestas de Poisson-gamma que tienen masa positiva en cero. pero por lo demás son continuos. ^[1] Las distribuciones Tweedie son un caso especial de modelos de dispersión exponencial y se utilizan a menudo como distribuciones para modelos lineales generalizados . ^[2]

Las distribuciones Tweedie fueron nombradas por Bent Jørgensen ^[3] en honor a Maurice Tweedie , estadístico y físico médico de la Universidad de Liverpool , Reino Unido, quien presentó el primer estudio exhaustivo de estas distribuciones en 1984. ^[1]^[4]^[2]

Definiciones

Las distribuciones (reproductivas) de Tweedie se definen como una subfamilia de modelos de dispersión exponencial (ED) (reproductivas), con una relación especial entre media y varianza . Una variable aleatoria Y tiene distribución Tweedie Tw _p (μ, σ ² ) , si tiene media , parámetro de dispersión positivo y $Y\sim \mathrm {ED} (\mu ,\sigma ^{2})$ $\mu =\operatorname {E} (Y)$ $\sigma ^{2}$

\operatorname {Var} (Y)=\sigma ^{2}\,\mu ^{p},

donde se llama parámetro de potencia Tweedie. La distribución de probabilidad P _θ,σ_² en los conjuntos mensurables A , está dada por $p\in \mathbf {R}$

P_{\theta ,\sigma ^{2}}(Y\in A)=\int _{A}\exp \left({\frac {\theta \cdot z-\kappa _{p}( \theta )}{\sigma ^{2}}}\right)\cdot \nu _{\lambda }\,(dz),

para alguna medida σ-finita ν _λ . Esta representación utiliza el parámetro canónico θ de un modelo de dispersión exponencial y una función acumulativa.

\kappa _ {p}(\theta )={\begin{casos}{\frac {\alpha -1}{\alpha }}\left({\frac {\theta }{\alpha -1} }\right)^{\alpha },&{\text{para }}p\neq 1,2\\-\log(-\theta ),&{\text{para }}p=2\\e^ {\theta },&{\text{para }}p=1\end{casos}}

donde usamos , o equivalente . $\alpha ={\frac {p-2}{p-1}}$ $p={\frac {\alpha -2}{\alpha -1}}$

Propiedades

Modelos aditivos de dispersión exponencial

Los modelos que acabamos de describir están en forma reproductiva. Un modelo de dispersión exponencial siempre tiene una forma dual: la forma aditiva. Si Y es reproductivo, entonces con está en la forma aditiva ED ^* ( θ , λ ), para Tweedie Tw ^*_p (μ, λ) . Los modelos aditivos tienen la propiedad de que la distribución de la suma de variables aleatorias independientes, $Z=\lambda Y$ $\lambda ={\frac {1}{\sigma ^{2}}}$

Z_{+}=Z_{1}+\cdots +Z_{n},

para los cuales Z _i ~ ED ^* ( θ , λ _i ) con θ fijo y varios λ son miembros de la familia de distribuciones con el mismo θ ,

Z_{+}\sim \operatorname {ED} ^{*}(\theta,\lambda _ {1}+\cdots +\lambda _ {n}).

Modelos de dispersión exponencial reproductiva.

Existe una segunda clase de modelos de dispersión exponencial designados por la variable aleatoria

Y=Z/\lambda \sim \operatorname {ED} (\mu ,\sigma ^{2}),

donde σ ² = 1/ λ , conocidos como modelos de dispersión exponencial reproductiva. Tienen la propiedad de que para n variables aleatorias independientes Y _i ~ ED( μ , σ ² / w _i ), con factores de ponderación wi _y

w=\sum _ {i=1}^{n}w_ {i},

un promedio ponderado de las variables da,

w^{-1}\sum _{i=1}^{n}w_{i}Y_{i}\sim \operatorname {ED} (\mu ,\sigma ^{2}/w).

Para los modelos reproductivos, el promedio ponderado de variables aleatorias independientes con μ y σ ² fijos y varios valores para wi es un miembro de la familia de distribuciones con los _mismos μ y σ ² .

Los modelos de dispersión exponencial de Tweedie son aditivos y reproductivos; tenemos así la transformación de la dualidad

Y\mapsto Z=Y/\sigma ^{2}.

Invariancia de escala

Una tercera propiedad de los modelos Tweedie es que son invariantes de escala : para un modelo de dispersión exponencial reproductiva Tw _p (μ, σ ² ) y cualquier constante positiva c tenemos la propiedad de cierre bajo transformación de escala,

c\operatorname {Tw} _{p}(\mu ,\sigma ^{2})=\operatorname {Tw} _{p}(c\mu ,c^{2-p}\sigma ^{ 2}).

La función de variación de potencia de Tweedie

Para definir la función de varianza para modelos de dispersión exponencial utilizamos el mapeo del valor medio, la relación entre el parámetro canónico θ y la media μ . Está definido por la función.

\tau (\theta )=\kappa ^{\prime }(\theta )=\mu .

con función acumulativa . La función de varianza V ( μ ) se construye a partir del mapeo del valor medio, $\kappa (\theta)$

V(\mu )=\tau ^{\prime }[\tau ^{-1}(\mu )].

Aquí el exponente negativo en τ ⁻¹ ( μ ) denota una función inversa en lugar de recíproca. La media y la varianza de una variable aleatoria aditiva son entonces E( Z ) = λμ y var( Z ) = λV ( μ ).

La invariancia de escala implica que la función de varianza obedece a la relación V ( μ ) = μ ^p . ^[2]

La desviación del Tweedie

La desviación unitaria de una distribución reproductiva de Tweedie está dada por

d(y,\mu )={\begin{casos}(y-\mu )^{2},&{\text{para }}p=0\\2(y\log(y/\ mu )+\mu -y),&{\text{para }}p=1\\2(\log(\mu /y)+y/\mu -1),&{\text{para }}p =2\\2\left({\frac {\max(y,0)^{2-p}}{(1-p)(2-p)}}-{\frac {y\mu ^{1 -p}}{1-p}}+{\frac {\mu ^{2-p}}{2-p}}\right),&{\text{else}}\end{cases}}

Las funciones generadoras acumulativas de Tweedie.

Las propiedades de los modelos de dispersión exponencial nos dan dos ecuaciones diferenciales . ^[2] El primero relaciona el mapeo del valor medio y la función de varianza entre sí,

{\frac {\partial \tau ^{-1}(\mu )}{\partial \mu }}={\frac {1}{V(\mu )}}.

El segundo muestra cómo se relaciona el mapeo del valor medio con la función acumulativa ,

{\frac {\partial \kappa (\theta )}{\partial \theta }}=\tau (\theta ).

Estas ecuaciones se pueden resolver para obtener la función acumulativa para diferentes casos de los modelos de Tweedie. A continuación se puede obtener una función generadora acumulativa (CGF) a partir de la función acumulativa. El CGF aditivo generalmente se especifica mediante la ecuación

K^{*}(s)=\log[\operatorname {E} (e^{sZ})]=\lambda [\kappa (\theta +s)-\kappa (\theta )],

y el CGF reproductivo por

K(s)=\log[\operatorname {E} (e^{sY})]=\lambda [\kappa (\theta +s/\lambda )-\kappa (\theta )],

donde s es la variable de la función generadora.

Para los modelos aditivos Tweedie, los CGF toman la forma,

K_{p}^{*}(s;\theta ,\lambda )={\begin{casos}\lambda \kappa _ {p}(\theta )[(1+s/\theta )^{ \alpha }-1]&\quad p\neq 1,2,\\-\lambda \log(1+s/\theta )&\quad p=2,\\\lambda e^{\theta }(e ^{s}-1)&\quad p=1,\end{casos}}

y para los modelos reproductivos,

K_{p}(s;\theta ,\lambda )={\begin{casos}\lambda \kappa _{p}(\theta )\left\{[1+s/(\theta \lambda ) ]^{\alpha }-1\right\}&\quad p\neq 1,2,\\-\lambda \log[1+s/(\theta \lambda )]&\quad p=2,\\ \lambda e^{\theta }(e^{s/\lambda }-1)&\quad p=1.\end{casos}}

Los modelos Tweedie aditivo y reproductivo se denotan convencionalmente con los símbolos Tw ^*_p ( θ , λ ) y Tw _p ( θ , σ ² ), respectivamente.

La primera y segunda derivada de los CGF, con s = 0, producen la media y la varianza, respectivamente. Por tanto, se puede confirmar que para los modelos aditivos la varianza se relaciona con la media según la ley de potencia,

\mathrm {var} (Z)\propto \mathrm {E} (Z)^{p}.

El teorema de convergencia de Tweedie

Los modelos de dispersión exponencial de Tweedie son fundamentales en la teoría estadística debido a su papel como focos de convergencia para una amplia gama de procesos estadísticos. Jørgensen et al demostraron un teorema que especifica el comportamiento asintótico de funciones de varianza conocido como teorema de convergencia de Tweedie . ^[5] Este teorema, en términos técnicos, se expresa así: ^[2] La función de varianza unitaria es regular de orden p en cero (o infinito) siempre que V ( μ ) ~ c ₀μ ^p para μ cuando se acerca a cero ( o infinito) para todos los valores reales de p y c ₀ > 0. Entonces, para una función de varianza unitaria regular de orden p en cero o infinito y para

p\notin (0,1),

para cualquiera , y tenemos $\mu >0$ $\sigma ^{2}>0$

c^{-1}\operatorname {ED} (c\mu ,\sigma ^{2}c^{2-p})\rightarrow Tw_{p}(\mu ,c_{0}\sigma ^{2})

como o , respectivamente, donde la convergencia es a través de valores de c tales que cμ está en el dominio de θ y c ^p⁻² / σ ² está en el dominio de λ . El modelo debe ser infinitamente divisible cuando c ²⁻^p tiende a infinito. ^[2] $c\downarrow 0$ $c\rightarrow \infty$

En términos no técnicos, este teorema implica que cualquier modelo de dispersión exponencial que manifieste asintóticamente una ley de potencia de varianza a media debe tener una función de varianza que entre en el dominio de atracción de un modelo de Tweedie. Casi todas las funciones de distribución con funciones generadoras de acumuladores finitos califican como modelos de dispersión exponencial y la mayoría de los modelos de dispersión exponencial manifiestan funciones de varianza de esta forma. Por tanto, muchas distribuciones de probabilidad tienen funciones de varianza que expresan este comportamiento asintótico, y las distribuciones de Tweedie se convierten en focos de convergencia para una amplia gama de tipos de datos. ^[6]

Distribuciones relacionadas

Las distribuciones Tweedie incluyen varias distribuciones familiares, así como algunas inusuales, cada una de las cuales está especificada por el dominio del parámetro de índice. tenemos el

distribución extremadamente estable, p < 0,
distribución normal , p = 0,
Distribución de Poisson , p = 1,
Distribución compuesta de Poisson-gamma , 1 < p < 2,
distribución gamma , p = 2,
distribuciones estables positivas , 2 < p < 3,
Distribución gaussiana inversa , p = 3,
distribuciones estables positivas, p > 3, y
distribuciones extremadamente estables, p = $\infty$ .

Para 0 < p < 1 no existe ningún modelo Tweedie. Tenga en cuenta que todas las distribuciones estables significan realmente generadas por distribuciones estables .

Ocurrencia y aplicaciones

Los modelos Tweedie y la ley potencial de Taylor.

La ley de Taylor es una ley empírica en ecología que relaciona la varianza del número de individuos de una especie por unidad de área de hábitat con la media correspondiente mediante una relación de ley de potencia . ^[7] Para el recuento de población Y con media µ y varianza var( Y ), se escribe la ley de Taylor,

\operatorname {var} (Y)=a\mu ^{p},

donde a y p son constantes positivas. Desde que LR Taylor describió esta ley en 1961, se han ofrecido muchas explicaciones diferentes para explicarla, que van desde el comportamiento animal, ^[7] un modelo de caminata aleatoria , ^[8] un modelo estocástico de nacimiento, muerte, inmigración y emigración , ^[9] hasta una consecuencia de la mecánica estadística de equilibrio y no equilibrio . ^[10] No existe consenso sobre una explicación para este modelo.

Dado que la ley de Taylor es matemáticamente idéntica a la ley de varianza a potencia media que caracteriza a los modelos de Tweedie, parecía razonable utilizar estos modelos y el teorema de convergencia de Tweedie para explicar la agrupación observada de animales y plantas asociada con la ley de Taylor. ^[11]^[12] La mayoría de los valores observados para el exponente de la ley de potencia p han caído en el intervalo (1,2), por lo que la distribución Poisson-gamma compuesta de Tweedie parecería aplicable. La comparación de la función de distribución empírica con la distribución teórica compuesta de Poisson-gamma ha proporcionado un medio para verificar la coherencia de esta hipótesis. ^[11]

Mientras que los modelos convencionales para la ley de Taylor han tendido a involucrar supuestos ad hoc sobre el comportamiento animal o la dinámica poblacional , el teorema de convergencia de Tweedie implicaría que la ley de Taylor resulta de un efecto de convergencia matemático general, de manera muy similar a como el teorema del límite central gobierna el comportamiento de convergencia de ciertos tipos de animales. datos aleatorios. De hecho, cualquier modelo matemático, aproximación o simulación diseñada para obtener la ley de Taylor (sobre la base de este teorema) debe converger a la forma de los modelos de Tweedie. ^[6]

Convergencia Tweedie y ruido 1/ f

El ruido rosa , o ruido 1/ f , se refiere a un patrón de ruido caracterizado por una relación de ley de potencia entre sus intensidades S ( f ) a diferentes frecuencias f .

S(f)\propto {\frac {1}{f^{\gamma }}},

donde el exponente adimensional γ ∈ [0,1]. Se encuentra dentro de una diversa cantidad de procesos naturales. ^[13] Existen muchas explicaciones diferentes para el ruido 1/ f ; una hipótesis ampliamente aceptada se basa en la criticidad autoorganizada donde se cree que los sistemas dinámicos cercanos a un punto crítico manifiestan un comportamiento espacial y/o temporal invariante de escala .

En esta subsección se describirá una conexión matemática entre el ruido 1/ f y la ley de potencia media de la varianza de Tweedie. Para comenzar, primero debemos introducir procesos autosemejantes : para la secuencia de números

Y=(Y_{i}:i=0,1,2,\ldots ,N)

con media

{\widehat {\mu }}=\operatorname {E} (Y_{i}),

desviaciones

y_{i}=Y_{i}-{\widehat {\mu }},

diferencia

{\widehat {\sigma }}^{2}=\operatorname {E} (y_{i}^{2}),

y función de autocorrelación

r(k)={\frac {\operatorname {E} (y_{i},y_{i+k})}{\operatorname {E} (y_{i}^{2})}}

con retraso k , si la autocorrelación de esta secuencia tiene el comportamiento de largo alcance

r(k)\sim k^{-d}L(k)

como k $\to\infty$ y donde L ( k ) es una función que varía lentamente en valores grandes de k , esta secuencia se denomina proceso autosemejante. ^[14]

El método de expansión de contenedores se puede utilizar para analizar procesos autosemejantes. Considere un conjunto de contenedores no superpuestos de igual tamaño que divide la secuencia original de N elementos en grupos de m segmentos de igual tamaño ( N/m es un número entero) de modo que se puedan definir nuevas secuencias reproductivas, basadas en los valores medios:

Y_{i}^{(m)}=(Y_{im-m+1}+\cdots +Y_{im})/m.

La variación determinada a partir de esta secuencia aumentará a medida que cambie el tamaño del contenedor, de modo que

\operatorname {var} [Y^{(m)}]={\widehat {\sigma }}^{2}m^{-d}

si y sólo si la autocorrelación tiene la forma limitante ^[15]

\lim _{k\to \infty }r(k)/k^{-d}=(2-d)(1-d)/2.

También se puede construir un conjunto de secuencias aditivas correspondientes.

Z_{i}^{(m)}=mY_{i}^{(m)},

basado en los contenedores en expansión,

Z_{i}^{(m)}=(Y_{im-m+1}+\cdots +Y_{im}).

Siempre que la función de autocorrelación muestre el mismo comportamiento, las secuencias aditivas obedecerán la relación

\operatorname {var} [Z_{i}^{(m)}]=m^{2}\operatorname {var} [Y^{(m)}]=\left({\frac {{\widehat {\sigma }}^{2}}{{\widehat {\mu }}^{2-d}}}\right)\operatorname {E} [Z_{i}^{(m)}]^{2-d}

Dado que y son constantes, esta relación constituye una ley de potencia de varianza a media, con p = 2 - d . ^[6]^[16] ${\widehat {\mu }}$ ${\widehat {\sigma }}^{2}$

La relación bicondicional anterior entre la ley de potencia de varianza a media y la función de autocorrelación de la ley de potencia, y el teorema de Wiener-Khinchin ^[17] implica que cualquier secuencia que exhiba una ley de potencia de varianza a media mediante el método de expansión de contenedores también ruido manifiesto 1/ f , y viceversa. Además, el teorema de convergencia de Tweedie, en virtud de su efecto límite central de generar distribuciones que manifiestan funciones de potencia de varianza a media, también generará procesos que manifiestan ruido 1/ f . ^[6] El teorema de convergencia de Tweedie proporciona así una explicación alternativa para el origen del ruido 1/ f , basándose en su efecto límite central.

Así como el teorema del límite central requiere que ciertos tipos de procesos aleatorios tengan como foco de convergencia la distribución gaussiana y así expresen ruido blanco , el teorema de convergencia de Tweedie requiere que ciertos procesos no gaussianos tengan como foco de convergencia las distribuciones de Tweedie que expresar ruido 1/ f . ^[6]

Los modelos Tweedie y la multifractalidad.

A partir de las propiedades de los procesos autosemejantes, el exponente de la ley de potencia p = 2 - d está relacionado con el exponente de Hurst H y la dimensión fractal D por ^[15]

D=2-H=2-p/2.

Una secuencia de datos unidimensionales de datos autosemejantes puede demostrar una ley de potencia de varianza a media con variaciones locales en el valor de p y, por tanto, en el valor de D. Cuando las estructuras fractales manifiestan variaciones locales en la dimensión fractal, se dice que son multifractales . Ejemplos de secuencias de datos que exhiben variaciones locales en p como esta incluyen las desviaciones de valores propios de los conjuntos unitarios y ortogonales gaussianos . ^[6] La distribución de Poisson-gamma del compuesto de Tweedie ha servido para modelar la multifractalidad basándose en variaciones locales en el exponente de Tweedie α . En consecuencia, junto con la variación de α , se puede considerar que el teorema de convergencia de Tweedie tiene un papel en la génesis de tales multifractales.

Se ha descubierto que la variación de α obedece a la distribución asimétrica de Laplace en ciertos casos. ^[18] Se ha demostrado que esta distribución es un miembro de la familia de modelos geométricos de Tweedie, ^[19] que se manifiestan como distribuciones limitantes en un teorema de convergencia para modelos de dispersión geométrica.

Flujo sanguíneo de órganos regionales

El flujo sanguíneo de los órganos regionales se ha evaluado tradicionalmente mediante la inyección de microesferas de polietileno marcadas radiactivamente en la circulación arterial de los animales, de un tamaño que quedan atrapadas dentro de la microcirculación de los órganos. Luego, el órgano que se va a evaluar se divide en cubos del mismo tamaño y la cantidad de radiomarcador dentro de cada cubo se evalúa mediante recuento de centelleo líquido y se registra. La cantidad de radiactividad dentro de cada cubo se toma para reflejar el flujo sanguíneo a través de esa muestra en el momento de la inyección. Es posible evaluar cubos adyacentes de un órgano para determinar de forma aditiva el flujo sanguíneo a través de regiones más grandes. A través del trabajo de JB Bassingthwaighte y otros se ha derivado una ley de potencia empírica entre la dispersión relativa del flujo sanguíneo de muestras de tejido ( RD = desviación estándar/media) de masa m en relación con muestras de tamaño de referencia: ^[20]

RD(m)=RD(m_{\text{ref}})\left({\frac {m}{m_{\text{ref}}}}\right)^{1-D_{s}}

Este exponente de la ley potencial D _s se ha denominado dimensión fractal. Se puede demostrar que la ley de potencia de Bassingthwaighte se relaciona directamente con la ley de potencia de varianza a media. Por lo tanto, el flujo sanguíneo de los órganos regionales se puede modelar mediante la distribución de Poisson-gamma del compuesto de Tweedie. ^[21] En este modelo, se podría considerar que la muestra de tejido contiene un número distribuido aleatorio (Poisson) de sitios de atrapamiento, cada uno con un flujo sanguíneo distribuido gamma . Se ha observado que el flujo sanguíneo en este nivel microcirculatorio obedece a una distribución gamma, ^[22] lo que respalda esta hipótesis.

Metástasis del cáncer

El " ensayo experimental de metástasis del cáncer" ^[23] tiene cierta semejanza con el método anterior para medir el flujo sanguíneo regional. A grupos de ratones singénicos y de la misma edad se les administran inyecciones intravenosas de alícuotas del mismo tamaño de suspensiones de células cancerosas clonadas y luego, después de un período de tiempo determinado, se les extirpan los pulmones y se enumera el número de metástasis cancerosas dentro de cada par de pulmones. Si a otros grupos de ratones se les inyectan diferentes clones de células cancerosas , entonces el número de metástasis por grupo diferirá de acuerdo con los potenciales metastásicos de los clones. Desde hace tiempo se reconoce que puede haber una variación intraclonal considerable en el número de metástasis por ratón a pesar de los mejores intentos por mantener uniformes las condiciones experimentales dentro de cada grupo clonal. ^[23] Esta variación es mayor de lo que se esperaría sobre la base de una distribución de Poisson del número de metástasis por ratón en cada clon y cuando la varianza del número de metástasis por ratón se representó frente a la media correspondiente se encontró una ley de potencia. ^[24]

Se encontró que la ley de potencia de varianza a media para las metástasis también es válida para las metástasis murinas espontáneas ^[25] y para series de casos de metástasis humanas. ^[26] Dado que la metástasis hematógena ocurre en relación directa con el flujo sanguíneo regional ^[27] y los estudios videomicroscópicos indican que el paso y atrapamiento de células cancerosas dentro de la circulación parece análogo a los experimentos con microesferas ^[28] , parecía plausible proponer que la variación en El número de metástasis hematógenas podría reflejar la heterogeneidad en el flujo sanguíneo de los órganos regionales. ^[29] El modelo de flujo sanguíneo se basó en la distribución Poisson-gamma del compuesto de Tweedie, una distribución que rige una variable aleatoria continua. Por esa razón, en el modelo de metástasis se asumió que el flujo sanguíneo estaba gobernado por esa distribución y que el número de metástasis regionales se producía como un proceso de Poisson cuya intensidad era directamente proporcional al flujo sanguíneo. Esto llevó a la descripción de la distribución binomial negativa de Poisson (PNB) como un equivalente discreto de la distribución Poisson-gamma compuesta de Tweedie. La función generadora de probabilidad para la distribución PNB es

G(s)=\exp \left[\lambda {\frac {\alpha -1}{\alpha }}\left({\frac {\theta }{\alpha -1}}\right)^{\alpha }\left\{\left(1-{\frac {1}{\theta }}+{\frac {s}{\theta }}\right)^{\alpha }-1\right\}\right]

La relación entre la media y la varianza de la distribución PNB es entonces

\operatorname {var} (Y)=a\operatorname {E} (Y)^{b}+\operatorname {E} (Y),

que, en el rango de muchos ensayos experimentales de metástasis, sería indistinguible de la ley de potencia de varianza a media. Sin embargo, para datos escasos, esta relación discreta de varianza a media se comportaría más como la de una distribución de Poisson donde la varianza iguala a la media.

Estructura genómica y evolución.

La densidad local de polimorfismos de un solo nucleótido (SNP) dentro del genoma humano , así como la de los genes , parece agruparse de acuerdo con la ley de potencia de varianza a media y la distribución de Poisson-gamma del compuesto Tweedie. ^[30]^[31] En el caso de los SNP, su densidad observada refleja las técnicas de evaluación, la disponibilidad de secuencias genómicas para el análisis y la heterocigosidad de los nucleótidos . ^[32] Los dos primeros factores reflejan errores de verificación inherentes a los métodos de recolección; el último factor refleja una propiedad intrínseca del genoma.

En el modelo coalescente de genética de poblaciones, cada locus genético tiene su propia historia única. Dentro de la evolución de una población de algunas especies, es de suponer que algunos loci genéticos podrían remontarse a un ancestro común relativamente reciente , mientras que otros loci podrían tener genealogías más antiguas . Los segmentos genómicos más antiguos habrían tenido más tiempo para acumular SNP y experimentar recombinación . RR Hudson ha propuesto un modelo en el que la recombinación podría provocar una variación en el tiempo hasta el ancestro reciente más común para diferentes segmentos genómicos. ^[33] Una alta tasa de recombinación podría causar que un cromosoma contenga una gran cantidad de segmentos pequeños con genealogías menos correlacionadas.

Suponiendo una tasa de mutación de fondo constante, el número de SNP por segmento genómico se acumularía proporcionalmente al tiempo hasta el ancestro común más reciente. La teoría genética de poblaciones actual indicaría que estos tiempos estarían distribuidos gamma , en promedio. ^[34] La distribución Poisson-gamma del compuesto Tweedie sugeriría un modelo mediante el cual el mapa de SNP consistiría en múltiples segmentos genómicos pequeños y el número medio de SNP por segmento estaría distribuido gamma según el modelo de Hudson.

La distribución de genes dentro del genoma humano también demostró una ley de potencia de varianza a media, cuando se utilizó el método de expansión de contenedores para determinar las varianzas y medias correspondientes. ^[31] De manera similar, se encontró que el número de genes por contenedor enumerativo obedece a una distribución de Poisson-gamma del compuesto Tweedie. Esta distribución de probabilidad se consideró compatible con dos modelos biológicos diferentes: el modelo de microdisposición en el que el número de genes por unidad de longitud genómica se determinaba mediante la suma de un número aleatorio de segmentos genómicos más pequeños derivados de la rotura aleatoria y la reconstrucción de protocormosomas. Se supondría que estos segmentos más pequeños portan en promedio un número de genes distribuidos gamma.

En el modelo alternativo de agrupación de genes , los genes se distribuirían aleatoriamente dentro de los protocromosomas. En grandes escalas de tiempo evolutivas se producirían duplicaciones , mutaciones, inserciones, eliminaciones y reordenamientos en tándem que podrían afectar los genes a través de un proceso estocástico de nacimiento, muerte e inmigración para producir la distribución de Poisson-gamma del compuesto Tweedie.

Ambos mecanismos implicarían procesos evolutivos neutrales que darían como resultado una agrupación regional de genes.

Teoría de matrices aleatorias

El conjunto unitario gaussiano (GUE) consta de matrices hermitianas complejas que son invariantes bajo transformaciones unitarias , mientras que el conjunto ortogonal gaussiano (GOE) consta de matrices simétricas reales invariantes bajo transformaciones ortogonales . Los valores propios clasificados E _n de estas matrices aleatorias obedecen a la distribución semicircular de Wigner : para una matriz N × N , la densidad promedio para los valores propios de tamaño E será

{\bar {\rho }}(E)={\begin{cases}{\sqrt {2N-E^{2}}}/\pi &\quad \left\vert E\right\vert <{\sqrt {2N}}\\0&\quad \left\vert E\right\vert >{\sqrt {2N}}\end{cases}}

como mi $\to \infty$ . La integración de la regla semicircular proporciona un número de valores propios en promedio menor que E ,

{\bar {\eta }}(E)={\frac {1}{2\pi }}\left[E{\sqrt {2N-E^{2}}}+2N\arcsin \left({\frac {E}{\sqrt {2N}}}\right)+\pi N\right].

Los valores propios clasificados se pueden desplegar o renormalizar con la ecuación

e_{n}={\bar {\eta }}(E)=\int \limits _{-\infty }^{E_{n}}\,dE^{\prime }{\bar {\rho }}(E^{\prime }).

Esto elimina la tendencia de la secuencia de la parte fluctuante. Si observamos el valor absoluto de la diferencia entre el número acumulado real y esperado de valores propios

\left|{\bar {D}}_{n}\right|=\left|n-{\bar {\eta }}(E_{n})\right|

obtenemos una secuencia de fluctuaciones de valores propios que, utilizando el método de expansión de contenedores, revela una ley de potencia de varianza a media. ^[6] Las fluctuaciones de valores propios tanto del GUE como del GOE manifiestan esta ley de potencia con exponentes de ley de potencia que oscilan entre 1 y 2, y de manera similar manifiestan espectros de ruido 1/ f . Estas fluctuaciones de valores propios también corresponden a la distribución de Poisson-gamma del compuesto de Tweedie y exhiben multifractalidad. ^[6]

La distribución de los números primos.

La segunda función de Chebyshev ψ ( x ) viene dada por,

\psi (x)=\sum _{{\widehat {p\,}}^{k}\leq x}\log {\widehat {p\,}}=\sum _{n\leq x}\Lambda (n)

donde la suma se extiende sobre todas las potencias primas que no exceden x , x recorre los números reales positivos y es la función de von Mangoldt . La función ψ ( x ) está relacionada con la función de conteo de primos π ( x ) y, como tal, proporciona información con respecto a la distribución de números primos entre los números reales. Es asintótico a x , enunciado equivalente al teorema de los números primos y también se puede demostrar que está relacionado con los ceros de la función zeta de Riemann ubicada en la franja crítica ρ , donde la parte real del cero zeta ρ está entre 0 y 1. Entonces ψ expresada para x mayor que uno se puede escribir: ${\widehat {p\,}}^{k}$ $\Lambda (n)$

\psi _{0}(x)=x-\sum _{\rho }{\frac {x^{\rho }}{\rho }}-\ln 2\pi -{\frac {1}{2}}\ln(1-x^{-2})

dónde

\psi _{0}(x)=\lim _{\varepsilon \rightarrow 0}{\frac {\psi (x-\varepsilon )+\psi (x+\varepsilon )}{2}}.

La hipótesis de Riemann establece que todos los ceros no triviales de la función zeta de Riemann tienen parte real ½. Estos ceros de función zeta están relacionados con la distribución de números primos . Schoenfeld^[35] ha demostrado que si la hipótesis de Riemann es cierta entonces

\Delta (x)=\left\vert \psi (x)-x\right\vert <{\sqrt {x}}\log ^{2}(x)/(8\pi )

para todos . Si analizamos las desviaciones de Chebyshev Δ ( n ) en los números enteros n usando el método de expansión de contenedores y trazamos la varianza versus la media, se puede demostrar una ley de varianza a la potencia media. ^[^{cita necesaria}^] Además, estas desviaciones corresponden a la distribución Poisson-gamma del compuesto Tweedie y exhiben ruido 1/ f . $x>73.2$

Otras aplicaciones

Las aplicaciones de las distribuciones Tweedie incluyen:

estudios actuariales ^[36]^[37]^[38]^[39]^[40]^[41]^[42]
análisis de ensayo ^[43]^[44]
análisis de supervivencia ^[45]^[46]^[47]
ecología ^[11]
análisis del consumo de alcohol en adolescentes británicos ^[48]
aplicaciones médicas ^[49]
economía de la salud ^[50]
meteorología y climatología ^[49]^[51]
pesca ^[52]
Función de Mertens ^[53]
criticidad autoorganizada ^[54]

Referencias

^ ab Tweedie, MCK (1984). "Un índice que distingue entre algunas familias exponenciales importantes". En Ghosh, JK; Roy, J (eds.). Estadísticas: aplicaciones y nuevos rumbos . Actas de la Conferencia Internacional del Jubileo de Oro del Instituto de Estadística de la India. Calcuta: Instituto de Estadística de la India. págs. 579–604. SEÑOR 0786162.
^ abcdef Jørgensen, doblado (1997). La teoría de los modelos de dispersión . Chapman y Hall. ISBN 978-0412997112.
^ Jorgensen, B (1987). "Modelos de dispersión exponencial". Revista de la Royal Statistical Society, Serie B. 49 (2): 127–162. JSTOR 2345415.
^ Smith, CAB (1997). "Obituario: Maurice Charles Kenneth Tweedie, 1919-1996". Revista de la Royal Statistical Society, Serie A. 160 (1): 151-154. doi : 10.1111/1467-985X.00052 .
^ Jorgensen, B; Martínez, JR; Tsao, M (1994). "Comportamiento asintótico de la función de varianza". Revista escandinava de estadística . 21 : 223–243.
^ abcdefgh Kendal, WS; Jørgensen, B. (2011). "Convergencia Tweedie: una base matemática para la ley de potencia de Taylor, el ruido 1/f y la multifractalidad". Revisión física E. 84 (6): 066120. Código bibliográfico : 2011PhRvE..84f6120K. doi : 10.1103/PhysRevE.84.066120. PMID 22304168.
^ ab Taylor, LR (1961). "Agregación, varianza y media". Naturaleza . 189 (4766): 732–735. Código Bib :1961Natur.189..732T. doi :10.1038/189732a0. S2CID 4263093.
^ Hanski, yo (1980). "Patrones espaciales y movimientos en escarabajos coprófagos". Oikos . 34 (3): 293–310. Código bibliográfico : 1980Oikos..34..293H. doi :10.2307/3544289. JSTOR 3544289.
^ Anderson, RD; Crawley, gerente general; Hassell, M (1982). "Variabilidad en la abundancia de especies animales y vegetales". Naturaleza . 296 (5854): 245–248. Código Bib :1982Natur.296..245A. doi :10.1038/296245a0. S2CID 4272853.
^ Fronczak, A; Fronczak, P (2010). "Orígenes de la ley de potencia de Taylor para el escalado de fluctuaciones en sistemas complejos". Phys Rev E. 81 (6): 066112. arXiv : 0909.1896 . Código bibliográfico : 2010PhRvE..81f6112F. doi :10.1103/physreve.81.066112. PMID 20866483. S2CID 17435198.
^ abc Kendal, WS (2002). "Agregación espacial del escarabajo de la patata de Colorado descrita mediante un modelo de dispersión exponencial". Modelización Ecológica . 151 (2–3): 261–269. doi :10.1016/s0304-3800(01)00494-x.
^ Kendal, WS (2004). "La ley de potencia ecológica de Taylor como consecuencia de modelos de dispersión exponencial invariantes de escala". Complejo Ecológico . 1 (3): 193–209. doi :10.1016/j.ecocom.2004.05.001.
^ Dutta, P; Cuerno, PM (1981). "Fluctuaciones de baja frecuencia en sólidos: ruido 1/ f ". Rev Mod Física . 53 (3): 497–516. Código bibliográfico : 1981RvMP...53..497D. doi :10.1103/revmodphys.53.497.
^ Leland, NOSOTROS; Taqqu, MS; Willinger, W; Wilson, DV (1994). "Sobre la naturaleza autosemejante del tráfico Ethernet (versión extendida)". Transacciones IEEE/ACM en redes . 2 : 1–15. doi : 10.1109/90.282603. S2CID 6011907.
^ ab Tsybakov, B; Georganas, Dakota del Norte (1997). "Sobre el tráfico autosimilar en colas de cajeros automáticos: definiciones, límite de probabilidad de desbordamiento y distribución del retardo de celda". Transacciones IEEE/ACM en redes . 5 (3): 397–409. CiteSeerX 10.1.1.53.5040 . doi : 10.1109/90.611104. S2CID 2205855.
^ Kendal, WS (2007). "Las correlaciones invariantes de escala entre genes y SNP en el cromosoma 1 humano revelan posibles mecanismos evolutivos". J Theor Biol . 245 (2): 329–340. Código Bib : 2007JThBi.245..329K. doi :10.1016/j.jtbi.2006.10.010. PMID 17137602.
^ McQuarrie DA (1976) Mecánica estadística [Harper & Row]
^ Kendal, WS (2014). "Multifractalidad atribuida a efectos duales de convergencia límite-mentira central". Física A. 401 : 22–33. Código Bib : 2014PhyA..401...22K. doi :10.1016/j.physa.2014.01.022.
^ Jorgensen, B; Kokonendji, CC (2011). "Modelos de dispersión para sumas geométricas". Estadísticas de Braz J Probab . 25 (3): 263–293. doi : 10.1214/10-bjps136 .
^ Bassingthwaighte, JB (1989). "Naturaleza fractal de la heterogeneidad del flujo sanguíneo regional del miocardio". Res. circular . 65 (3): 578–590. doi :10.1161/01.res.65.3.578. PMC 3361973 . PMID 2766485.
^ Kendal, WS (2001). "Un modelo estocástico para la heterogeneidad autosemejante del flujo sanguíneo de órganos regionales". Proc Natl Acad Sci Estados Unidos . 98 (3): 837–841. Código Bib : 2001PNAS...98..837K. doi : 10.1073/pnas.98.3.837 . PMC 14670 . PMID 11158557.
^ Honig, CR; Feldstein, ML; Frierson, JL (1977). "Longitudes de los capilares, anastomosis y tiempos estimados de tránsito capilar en el músculo esquelético". Soy J Physiol Heart Circ Physiol . 233 (1): H122-H129. doi :10.1152/ajpheart.1977.233.1.h122. PMID 879328.
^ ab Fidler, IJ; Kripke, M (1977). "La metástasis es el resultado de células variantes preexistentes dentro de un tumor maligno". Ciencia . 197 (4306): 893–895. Código Bib : 1977 Ciencia... 197.. 893F. doi : 10.1126/ciencia.887927. PMID 887927.
^ Kendal, WS; Escarcha, P (1987). "Metástasis experimental: una nueva aplicación de la función de potencia de varianza a media". J Natl Cancer Inst . 79 (5): 1113-1115. doi :10.1093/jnci/79.5.1113. PMID 3479636.
^ Kendal, WS (1999). "La agrupación de metástasis pulmonares murinas refleja una falta de uniformidad fractal en el flujo sanguíneo pulmonar regional". Invasión y Metástasis . 18 (5–6): 285–296. doi :10.1159/000024521. PMID 10729773. S2CID 46835513.
^ Kendal, WS; Lagerwaard, FJ; Agboola, O (2000). "Caracterización de la distribución de frecuencia de metástasis hematógenas humanas: evidencia de agrupamiento y una función de variación de potencia". Metástasis Clin Exp . 18 (3): 219–229. doi :10.1023/A:1006737100797. PMID 11315095. S2CID 25261069.
^ Weiss, L; Bronk, J; Pickren, JW; Carril, WW (1981). "Patrones metastásicos y flujo sanguíneo arterial de órganos diana". Invasión y Metástasis . 1 (2): 126-135. PMID 7188382.
^ Cámaras, AF; Novio, AC; MacDonald, IC (2002). "Difusión y crecimiento de células cancerosas en sitios metastásicos". La naturaleza revisa el cáncer . 2 (8): 563–572. doi :10.1038/nrc865. PMID 12154349. S2CID 135169.
^ Kendal, WS (2002). "Una distribución de frecuencia para el número de metástasis en órganos hematógenos". Invasión y Metástasis . 1 (2): 126-135. Código Bib : 2002JThBi.217..203K. doi :10.1006/jtbi.2002.3021. PMID 12202114.
^ Kendal, WS (2003). "Un modelo de dispersión exponencial para la distribución de polimorfismos de un solo nucleótido humano". Mol Biol Evol . 20 (4): 579–590. doi : 10.1093/molbev/msg057 . PMID 12679541.
^ ab Kendal, WS (2004). "Una agrupación de genes de escala invariante en el cromosoma 7 humano". BMC Evol Biol . 4 : 3. doi : 10.1186/1471-2148-4-3 . PMC 373443 . PMID 15040817.
^ Sachidanandam, R; Weissman, D; Schmidt, Carolina del Sur; et al. (2001). "Un mapa de la variación del genoma humano que contiene 1,42 millones de polimorfismos de un solo nucleótido". Naturaleza . 409 (6822): 928–933. Código Bib :2001Natur.409..928S. doi : 10.1038/35057149 . PMID 11237013.
^ Hudson, RR (1991). "Genealogías genéticas y proceso de coalescencia". Encuestas de Oxford sobre biología evolutiva . 7 : 1–44.
^ Tavare, S; Calvicie, DJ; Griffiths, RC; Donnelly, P (1997). "Inferir tiempos de fusión a partir de datos de secuencia de ADN". Genética . 145 (2): 505–518. doi :10.1093/genética/145.2.505. PMC 1207814 . PMID 9071603.
^ Schoenfeld, J (1976). "Límites más definidos para las funciones de Chebyshev θ (x) y ψ (x). II". Matemáticas de la Computación . 30 (134): 337–360. doi : 10.1090/s0025-5718-1976-0457374-x .
^ Haberman, S.; Renshaw, AE (1996). "Modelos lineales generalizados y ciencia actuarial". El estadístico . 45 (4): 407–436. doi :10.2307/2988543. JSTOR 2988543.
^ Renshaw, AE 1994. Modelado del proceso de reclamaciones en presencia de covariables. Boletín ASTIN 24: 265–286.
^ Jorgensen, B.; Paés; Souza, MC (1994). "Ajustar el modelo compuesto de Poisson de Tweedie a los datos de reclamaciones de seguros". Escanear. Actuador. J. 1 : 69–93. CiteSeerX 10.1.1.329.9259 . doi :10.1080/03461238.1994.10413930.
^ Haberman, S. y Renshaw, AE 1998. Aplicaciones actuariales de modelos lineales generalizados. En Statistics in Finance, DJ Hand y SD Jacka (eds), Arnold, Londres.
^ Mildenhall, SJ 1999. Una relación sistemática entre sesgo mínimo y modelos lineales generalizados. 1999 Actas de la Sociedad Actuarial de Accidentes 86: 393–487.
^ Murphy, KP, Brockman, MJ y Lee, PKW (2000). Uso de modelos lineales generalizados para construir sistemas de precios dinámicos. Foro actuarial de siniestros, invierno de 2000.
^ Smyth, GK; Jorgensen, B. (2002). "Ajustar el modelo compuesto de Poisson de Tweedie a los datos de reclamaciones de seguros: modelado de dispersión" (PDF) . Boletín ASTIN . 32 : 143-157. doi : 10.2143/ast.32.1.1020 .
^ Davidiano, M (1990). "Estimación de funciones de varianza en ensayos con posible replicación desigual y datos anormales". Biometrika . 77 : 43–54. doi :10.1093/biomet/77.1.43.
^ Davidiano, M .; Carroll, RJ; Smith, W. (1988). "Funciones de varianza y concentración mínima detectable en ensayos". Biometrika . 75 (3): 549–556. doi :10.1093/biomet/75.3.549.
^ Aalen, OO (1992). "Modelado de heterogeneidad en el análisis de supervivencia mediante la distribución compuesta de Poisson". Ana. Aplica. Probablemente . 2 (4): 951–972. doi : 10.1214/aoap/1177005583 .
^ Hougaard, P.; Harvald, B.; Holm, Nevada (1992). "Midiendo las similitudes entre las vidas de los gemelos daneses adultos nacidos entre 1881 y 1930". Revista de la Asociación Estadounidense de Estadística . 87 (417): 17–24. doi :10.1080/01621459.1992.10475170.
^ Hougaard, P (1986). "Modelos de supervivencia para poblaciones heterogéneas derivados de distribuciones estables". Biometrika . 73 (2): 387–396. doi :10.1093/biomet/73.2.387.
^ Gilchrist, R. y Drinkwater, D. 1999. Ajuste de modelos Tweedie a datos con probabilidad de respuestas cero. Actas del 14º Taller internacional sobre modelos estadísticos, Graz, págs. 207-214.
^ ab Smyth, GK 1996. Análisis de regresión de datos cuantitativos con ceros exactos. Actas del segundo taller entre Australia y Japón sobre modelos estocásticos en ingeniería, tecnología y gestión. Centro de Gestión Tecnológica, Universidad de Queensland, 572–580.
^ Kurz, Christoph F. (2017). "Distribuciones Tweedie para ajustar datos semicontinuos de costos de utilización de atención médica". Metodología de la investigación médica del BMC . 17 (171): 171. doi : 10.1186/s12874-017-0445-y . PMC 5735804 . PMID 29258428.
^ Hasán, MM; Dunn, PK (2010). "Dos distribuciones de Tweedie que son casi óptimas para modelar las precipitaciones mensuales en Australia". Revista Internacional de Climatología . 31 (9): 1389-1397. doi :10.1002/joc.2162. S2CID 140135793.
^ Dulces, SG (2004). "Modelado de datos de captura y esfuerzo utilizando modelos lineales generalizados, la distribución Tweedie, efectos aleatorios de buque y efectos aleatorios de estrato por año". Ciencia de la CCRVMA . 11 : 59–80.
^ Kendal, WS; Jorgensen, B (2011). "La ley de potencia de Taylor y la escala de fluctuación se explican por una convergencia similar a un límite central". Física. Rev. E. 83 (6): 066115. Código bibliográfico : 2011PhRvE..83f6115K. doi :10.1103/physreve.83.066115. PMID 21797449.
^ Kendal, WS (2015). "Criticidad autoorganizada atribuida a un efecto de convergencia tipo límite central". Física A. 421 : 141-150. Código Bib : 2015PhyA..421..141K. doi :10.1016/j.physa.2014.11.035.

Otras lecturas

Dunn, PK; Smyth, GK (2018). Modelos lineales generalizados con ejemplos en R. Nueva York: Springer. doi :10.1007/978-1-4419-0118-7. ISBN 978-1-4419-0118-7.El capítulo 12 trata sobre las distribuciones y modelos de Tweedie.
Kaas, R. (2005). "Distribución compuesta de Poisson y GLM - Distribución de Tweedie". En Actas del Foro de Contacto "Tercer Día de las Matemáticas Actuariales y Financieras" , páginas 3-12. Bruselas: Real Academia Flamenca de Bélgica para las Ciencias y las Artes.
Tweedie, MCK (1956). "Algunas propiedades estadísticas de las distribuciones gaussianas inversas". Virginia J. Ciencias . Series nuevas. 7 : 160–165.