En probabilidad y estadística , las distribuciones Tweedie son una familia de distribuciones de probabilidad que incluyen las distribuciones normal , gamma y gaussiana inversa puramente continuas , la distribución de Poisson escalada puramente discreta y la clase de distribuciones Poisson-gamma compuestas que tienen masa positiva en cero, pero que por lo demás son continuas. [1] Las distribuciones Tweedie son un caso especial de modelos de dispersión exponencial y a menudo se utilizan como distribuciones para modelos lineales generalizados . [2]
Las distribuciones de Tweedie fueron nombradas por Bent Jørgensen en [3] en honor a Maurice Tweedie , [4] estadístico y físico médico de la Universidad de Liverpool , Reino Unido, quien presentó el primer estudio exhaustivo de estas distribuciones en 1982 cuando se celebró la conferencia [1] . Casi al mismo tiempo, Bar-Lev y Enis publicaron sobre el mismo tema. [5] [6]
Las distribuciones de Tweedie (reproductivas) se definen como una subfamilia de modelos de dispersión exponencial (ED) (reproductivos), con una relación media - varianza especial. Una variable aleatoria Y se distribuye según Tweedie Tw p (μ, σ 2 ) , si tiene media , parámetro de dispersión positivo y donde se denomina parámetro de potencia de Tweedie. La distribución de probabilidad P θ , σ 2 en los conjuntos medibles A , viene dada por para alguna medida σ-finita ν λ . Esta representación utiliza el parámetro canónico θ de un modelo de dispersión exponencial y una función cumulante donde utilizamos , o equivalentemente .
Los modelos que acabamos de describir están en forma reproductiva. Un modelo de dispersión exponencial tiene siempre una dual: la forma aditiva. Si Y es reproductiva, entonces con está en forma aditiva ED * ( θ , λ ), para Tweedie Tw * p (μ,λ) . Los modelos aditivos tienen la propiedad de que la distribución de la suma de variables aleatorias independientes, para las cuales Z i ~ ED * ( θ , λ i ) con θ fijo y varios λ son miembros de la familia de distribuciones con el mismo θ ,
Existe una segunda clase de modelos de dispersión exponencial designados por la variable aleatoria donde σ 2 = 1/ λ , conocidos como modelos de dispersión exponencial reproductivos. Tienen la propiedad de que para n variables aleatorias independientes Y i ~ ED( μ , σ 2 / w i ), con factores de ponderación w i y un promedio ponderado de las variables da,
Para los modelos reproductivos, el promedio ponderado de las variables aleatorias independientes con μ y σ 2 fijos y varios valores para w i es un miembro de la familia de distribuciones con el mismo μ y σ 2 .
Los modelos de dispersión exponencial de Tweedie son tanto aditivos como reproductivos; por lo tanto, tenemos la transformación de dualidad
Una tercera propiedad de los modelos Tweedie es que son invariantes de escala : para un modelo de dispersión exponencial reproductivo Tw p (μ, σ 2 ) y cualquier constante positiva c tenemos la propiedad de cierre bajo transformación de escala,
Para definir la función de varianza para los modelos de dispersión exponencial, utilizamos la función de mapeo del valor medio, la relación entre el parámetro canónico θ y la media μ . Se define mediante la función con función acumulativa . La función de varianza V ( μ ) se construye a partir de la función de mapeo del valor medio,
Aquí el exponente negativo en τ −1 ( μ ) denota una función inversa en lugar de una recíproca. La media y la varianza de una variable aleatoria aditiva son entonces E( Z ) = λμ y var( Z ) = λV ( μ ) .
La invariancia de escala implica que la función de varianza obedece a la relación V ( μ ) = μ p . [2]
La desviación unitaria de una distribución Tweedie reproductiva está dada por
Las propiedades de los modelos de dispersión exponencial nos dan dos ecuaciones diferenciales . [2] La primera relaciona entre sí la función de valor medio y la función de varianza,
El segundo muestra cómo se relaciona el mapeo del valor medio con la función cumulante ,
Estas ecuaciones se pueden resolver para obtener la función cumulante para diferentes casos de los modelos Tweedie. A partir de la función cumulante se puede obtener una función generadora de cumulantes (CGF). La CGF aditiva se especifica generalmente mediante la ecuación y la CGF reproductiva mediante donde s es la variable de la función generadora.
Para los modelos aditivos Tweedie, los CGF toman la forma, y para los modelos reproductivos,
Los modelos Tweedie aditivos y reproductivos se denotan convencionalmente mediante los símbolos Tw * p ( θ , λ ) y Tw p ( θ , σ 2 ), respectivamente.
La primera y segunda derivadas de los CGF, con s = 0, dan como resultado la media y la varianza, respectivamente. Por lo tanto, se puede confirmar que para los modelos aditivos la varianza se relaciona con la media mediante la ley de potencia,
Los modelos de dispersión exponencial de Tweedie son fundamentales en la teoría estadística como consecuencia de sus papeles como focos de convergencia para una amplia gama de procesos estadísticos. Jørgensen et al demostraron un teorema que especifica el comportamiento asintótico de las funciones de varianza conocido como el teorema de convergencia de Tweedie . [7] Este teorema, en términos técnicos, se enuncia así: [2] La función de varianza unitaria es regular de orden p en cero (o infinito) siempre que V ( μ ) ~ c 0 μ p para μ a medida que se acerca a cero (o infinito) para todos los valores reales de p y c 0 > 0. Entonces, para una función de varianza unitaria regular de orden p en cero o infinito y para para cualquier , y tenemos como o , respectivamente, donde la convergencia es a través de valores de c tales que cμ está en el dominio de θ y c p −2 / σ 2 está en el dominio de λ . El modelo debe ser infinitamente divisible a medida que c 2− p se acerca al infinito. [2]
En términos no técnicos, este teorema implica que cualquier modelo de dispersión exponencial que manifieste asintóticamente una ley de potencia de varianza a media debe tener una función de varianza que se encuentre dentro del dominio de atracción de un modelo Tweedie. Casi todas las funciones de distribución con funciones generadoras de cumulantes finitos califican como modelos de dispersión exponencial y la mayoría de los modelos de dispersión exponencial manifiestan funciones de varianza de esta forma. Por lo tanto, muchas distribuciones de probabilidad tienen funciones de varianza que expresan este comportamiento asintótico, y las distribuciones Tweedie se convierten en focos de convergencia para una amplia gama de tipos de datos. [8]
Las distribuciones Tweedie incluyen una serie de distribuciones conocidas, así como algunas inusuales, cada una de las cuales se especifica mediante el dominio del parámetro de índice. Tenemos la
Para 0 < p < 1 no existe ningún modelo Tweedie. Nótese que todas las distribuciones estables en realidad son generadas por distribuciones estables .
La ley de Taylor es una ley empírica en ecología que relaciona la varianza del número de individuos de una especie por unidad de área de hábitat con la media correspondiente mediante una relación de ley de potencia . [9] Para el recuento de población Y con media μ y varianza var( Y ), la ley de Taylor se escribe, donde a y p son ambas constantes positivas. Desde que LR Taylor describió esta ley en 1961, se han ofrecido muchas explicaciones diferentes para explicarla, que van desde el comportamiento animal, [9] un modelo de caminata aleatoria , [10] un modelo estocástico de nacimiento, muerte, inmigración y emigración , [11] hasta una consecuencia de la mecánica estadística de equilibrio y no equilibrio . [12] No existe consenso en cuanto a una explicación para este modelo.
Dado que la ley de Taylor es matemáticamente idéntica a la ley de potencia de varianza a media que caracteriza a los modelos de Tweedie, parecía razonable utilizar estos modelos y el teorema de convergencia de Tweedie para explicar la agrupación observada de animales y plantas asociada con la ley de Taylor. [13] [14] La mayoría de los valores observados para el exponente de la ley de potencia p han caído en el intervalo (1,2) y, por lo tanto, la distribución compuesta de Poisson-gamma de Tweedie parecería aplicable. La comparación de la función de distribución empírica con la distribución compuesta de Poisson-gamma teórica ha proporcionado un medio para verificar la consistencia de esta hipótesis. [13]
Mientras que los modelos convencionales de la ley de Taylor han tendido a implicar supuestos ad hoc sobre comportamiento animal o dinámica de poblaciones , el teorema de convergencia de Tweedie implicaría que la ley de Taylor resulta de un efecto de convergencia matemática general, de forma muy similar a cómo el teorema del límite central rige el comportamiento de convergencia de ciertos tipos de datos aleatorios. De hecho, cualquier modelo matemático, aproximación o simulación que esté diseñado para producir la ley de Taylor (sobre la base de este teorema) debe converger a la forma de los modelos de Tweedie. [8]
El ruido rosa , o ruido 1/ f , se refiere a un patrón de ruido caracterizado por una relación de ley de potencia entre sus intensidades S ( f ) a diferentes frecuencias f , donde el exponente adimensional γ ∈ [0,1]. Se encuentra dentro de un número diverso de procesos naturales. [15] Existen muchas explicaciones diferentes para el ruido 1/ f , una hipótesis ampliamente aceptada se basa en la criticidad autoorganizada donde se piensa que los sistemas dinámicos cercanos a un punto crítico manifiestan un comportamiento espacial y/o temporal invariante de escala .
En esta subsección se describirá una conexión matemática entre el ruido 1/ f y la ley de potencia de varianza a media de Tweedie. Para comenzar, primero debemos introducir procesos autosimilares : para la secuencia de números con desviaciones medias de varianza y función de autocorrelación con retardo k , si la autocorrelación de esta secuencia tiene el comportamiento de largo alcance cuando k →∞ y donde L ( k ) es una función que varía lentamente en valores grandes de k , esta secuencia se denomina proceso autosimilar. [16]
El método de expansión de bins se puede utilizar para analizar procesos de autosimilitud. Consideremos un conjunto de bins de igual tamaño que no se superponen y que divide la secuencia original de N elementos en grupos de m segmentos de igual tamaño ( N/m es un número entero) de modo que se puedan definir nuevas secuencias reproductivas, basadas en los valores medios:
La varianza determinada a partir de esta secuencia se escalará a medida que cambie el tamaño del contenedor, de modo que si y solo si la autocorrelación tiene la forma límite [17]
También se puede construir un conjunto de secuencias aditivas correspondientes basadas en los contenedores en expansión,
Siempre que la función de autocorrelación exhiba el mismo comportamiento, las secuencias aditivas obedecerán la relación
Dado que y son constantes, esta relación constituye una ley de potencia de varianza a media, con p = 2 - d . [8] [18]
La relación bicondicional anterior entre la ley de potencia de varianza a media y la función de autocorrelación de la ley de potencia, y el teorema de Wiener-Khinchin [19] implican que cualquier secuencia que exhiba una ley de potencia de varianza a media por el método de expansión de bins también manifestará ruido 1/ f , y viceversa. Además, el teorema de convergencia de Tweedie, en virtud de su efecto de tipo límite central de generar distribuciones que manifiestan funciones de potencia de varianza a media, también generará procesos que manifiestan ruido 1/ f . [8] El teorema de convergencia de Tweedie proporciona así una explicación alternativa para el origen del ruido 1/ f , basada en su efecto de tipo límite central.
Así como el teorema del límite central requiere que ciertos tipos de procesos aleatorios tengan como foco de su convergencia la distribución gaussiana y por lo tanto expresen ruido blanco , el teorema de convergencia de Tweedie requiere que ciertos procesos no gaussianos tengan como foco de convergencia las distribuciones de Tweedie que expresan ruido 1/ f . [8]
A partir de las propiedades de los procesos autosimilares, el exponente de la ley de potencia p = 2 - d está relacionado con el exponente de Hurst H y la dimensión fractal D por [17]
Una secuencia de datos unidimensional de datos autosimilares puede demostrar una ley de potencia de varianza a media con variaciones locales en el valor de p y, por lo tanto, en el valor de D . Cuando las estructuras fractales manifiestan variaciones locales en la dimensión fractal, se dice que son multifractales . Los ejemplos de secuencias de datos que exhiben variaciones locales en p como esta incluyen las desviaciones de valores propios de los conjuntos ortogonales y unitarios gaussianos . [8] La distribución de Poisson-gamma compuesta de Tweedie ha servido para modelar la multifractalidad basada en variaciones locales en el exponente de Tweedie α . En consecuencia, junto con la variación de α , el teorema de convergencia de Tweedie puede considerarse como un factor en la génesis de dichos multifractales.
Se ha descubierto que la variación de α obedece a la distribución asimétrica de Laplace en ciertos casos. [20] Se ha demostrado que esta distribución es miembro de la familia de modelos geométricos de Tweedie, [21] que se manifiestan como distribuciones limitantes en un teorema de convergencia para modelos de dispersión geométrica.
El flujo sanguíneo de los órganos regionales se ha evaluado tradicionalmente mediante la inyección de microesferas de polietileno radiomarcadas en la circulación arterial de los animales, de un tamaño tal que quedan atrapadas dentro de la microcirculación de los órganos. El órgano que se va a evaluar se divide entonces en cubos de igual tamaño y la cantidad de radiomarcado dentro de cada cubo se evalúa mediante recuento de centelleo líquido y se registra. La cantidad de radiactividad dentro de cada cubo se toma para reflejar el flujo sanguíneo a través de esa muestra en el momento de la inyección. Es posible evaluar cubos adyacentes de un órgano para determinar de forma aditiva el flujo sanguíneo a través de regiones más grandes. A través del trabajo de JB Bassingthwaighte y otros se ha derivado una ley de potencia empírica entre la dispersión relativa del flujo sanguíneo de muestras de tejido ( RD = desviación estándar/media) de masa m en relación con muestras de tamaño de referencia: [22]
Este exponente de la ley de potencia D s se ha denominado dimensión fractal. Se puede demostrar que la ley de potencia de Bassingthwaighte se relaciona directamente con la ley de potencia de varianza a media. Por lo tanto, el flujo sanguíneo de los órganos regionales se puede modelar mediante la distribución Poisson-gamma compuesta de Tweedie., [23] En este modelo, se podría considerar que la muestra de tejido contiene un número aleatorio (Poisson) distribuido de sitios de atrapamiento, cada uno con un flujo sanguíneo distribuido en gamma . Se ha observado que el flujo sanguíneo a este nivel de la microcirculación obedece a una distribución gamma, [24] lo que respalda esta hipótesis.
El " ensayo experimental de metástasis de cáncer" [25] tiene cierta similitud con el método anterior para medir el flujo sanguíneo regional. A grupos de ratones singénicos y de la misma edad se les administran inyecciones intravenosas de alícuotas de igual tamaño de suspensiones de células cancerosas clonadas y luego, después de un período de tiempo determinado, se les extirpan los pulmones y se enumera el número de metástasis de cáncer dentro de cada par de pulmones. Si a otros grupos de ratones se les inyectan clones de células cancerosas diferentes , entonces el número de metástasis por grupo diferirá de acuerdo con los potenciales metastásicos de los clones. Se ha reconocido desde hace tiempo que puede haber una variación intraclonal considerable en el número de metástasis por ratón a pesar de los mejores intentos por mantener uniformes las condiciones experimentales dentro de cada grupo clonal. [25] Esta variación es mayor de lo que se esperaría sobre la base de una distribución de Poisson del número de metástasis por ratón en cada clon y cuando se trazó la varianza del número de metástasis por ratón contra la media correspondiente se encontró una ley de potencia. [26]
Se encontró que la ley de potencia de varianza a media para las metástasis también era válida para las metástasis murinas espontáneas [27] y para las series de casos de metástasis humanas. [28] Dado que la metástasis hematógena ocurre en relación directa con el flujo sanguíneo regional [29] y los estudios videomicroscópicos indican que el paso y atrapamiento de células cancerosas dentro de la circulación parece análogo a los experimentos con microesferas [30], parecía plausible proponer que la variación en los números de metástasis hematógenas podría reflejar heterogeneidad en el flujo sanguíneo de órganos regionales. [31] El modelo de flujo sanguíneo se basó en la distribución Poisson-gamma compuesta de Tweedie, una distribución que rige una variable aleatoria continua. Por esa razón, en el modelo de metástasis se asumió que el flujo sanguíneo estaba regido por esa distribución y que el número de metástasis regionales ocurría como un proceso de Poisson para el cual la intensidad era directamente proporcional al flujo sanguíneo. Esto condujo a la descripción de la distribución binomial negativa de Poisson (PNB) como un equivalente discreto a la distribución Poisson-gamma compuesta de Tweedie. La función generadora de probabilidad para la distribución PNB es
La relación entre la media y la varianza de la distribución de PNB es, entonces , la que, en el rango de muchos ensayos experimentales de metástasis, sería indistinguible de la ley de potencia de varianza a media. Sin embargo, para datos dispersos, esta relación discreta de varianza a media se comportaría más como la de una distribución de Poisson donde la varianza es igual a la media.
La densidad local de polimorfismos de nucleótido único (SNP) dentro del genoma humano , así como la de los genes , parece agruparse de acuerdo con la ley de potencia de varianza a media y la distribución de Poisson-gamma compuesta de Tweedie. [32] [33] En el caso de los SNP, su densidad observada refleja las técnicas de evaluación, la disponibilidad de secuencias genómicas para el análisis y la heterocigosidad de los nucleótidos . [34] Los dos primeros factores reflejan errores de determinación inherentes a los métodos de recolección, el último factor refleja una propiedad intrínseca del genoma.
En el modelo coalescente de genética de poblaciones, cada locus genético tiene su propia historia única. Dentro de la evolución de una población a partir de algunas especies, algunos loci genéticos podrían presumiblemente remontarse a un ancestro común relativamente reciente , mientras que otros loci podrían tener genealogías más antiguas . Los segmentos genómicos más antiguos habrían tenido más tiempo para acumular SNP y experimentar recombinación . RR Hudson ha propuesto un modelo en el que la recombinación podría causar variación en el tiempo hasta el ancestro reciente más común para diferentes segmentos genómicos. [35] Una alta tasa de recombinación podría hacer que un cromosoma contenga una gran cantidad de segmentos pequeños con genealogías menos correlacionadas.
Suponiendo una tasa de mutación de fondo constante, el número de SNP por segmento genómico se acumularía proporcionalmente al tiempo hasta el ancestro común más reciente. La teoría genética de poblaciones actual indicaría que estos tiempos tendrían una distribución gamma , en promedio. [36] La distribución Poisson-gamma compuesta de Tweedie sugeriría un modelo por el cual el mapa de SNP constaría de múltiples segmentos genómicos pequeños con el número medio de SNP por segmento distribuido gamma según el modelo de Hudson.
La distribución de genes dentro del genoma humano también demostró una ley de potencia de varianza a media, cuando se utilizó el método de expansión de bins para determinar las varianzas y medias correspondientes. [33] De manera similar, se encontró que el número de genes por bin enumerativo obedecía a una distribución de Poisson-gamma compuesta de Tweedie. Esta distribución de probabilidad se consideró compatible con dos modelos biológicos diferentes: el modelo de microarreglo donde el número de genes por unidad de longitud genómica se determinaba por la suma de un número aleatorio de segmentos genómicos más pequeños derivados por rotura aleatoria y reconstrucción de protocromosomas. Se supondría que estos segmentos más pequeños llevan en promedio un número de genes distribuidos en gamma.
En el modelo alternativo de agrupación de genes , los genes se distribuirían aleatoriamente dentro de los protocromosomas. A lo largo de grandes escalas de tiempo evolutivas se producirían duplicaciones en tándem , mutaciones, inserciones, deleciones y reordenamientos que podrían afectar a los genes a través de un proceso estocástico de nacimiento, muerte e inmigración para producir la distribución de Poisson-gamma compuesta de Tweedie.
Ambos mecanismos implicarían procesos evolutivos neutrales que darían lugar a una agrupación regional de genes.
El conjunto unitario gaussiano (GUE) consiste en matrices hermíticas complejas que son invariantes bajo transformaciones unitarias mientras que el conjunto ortogonal gaussiano (GOE) consiste en matrices simétricas reales invariantes bajo transformaciones ortogonales . Los valores propios ordenados E n de estas matrices aleatorias obedecen a la distribución semicircular de Wigner : Para una matriz N × N la densidad promedio para valores propios de tamaño E será como E → ∞ . La integración de la regla semicircular proporciona el número de valores propios en promedio menor que E ,
Los valores propios clasificados se pueden desplegar o renormalizar con la ecuación
Esto elimina la tendencia de la secuencia de la parte fluctuante. Si observamos el valor absoluto de la diferencia entre el número acumulado real y esperado de valores propios, obtenemos una secuencia de fluctuaciones de valores propios que, utilizando el método de expansión de bins, revela una ley de potencia de varianza a media. [8] Las fluctuaciones de valores propios tanto del GUE como del GOE manifiestan esta ley de potencia con exponentes de la ley de potencia que oscilan entre 1 y 2, y manifiestan de manera similar espectros de ruido 1/ f . Estas fluctuaciones de valores propios también corresponden a la distribución Poisson-gamma compuesta de Tweedie y exhiben multifractalidad. [8]
La segunda función de Chebyshev ψ ( x ) está dada por, donde la suma se extiende sobre todas las potencias primos que no excedan x , x recorre los números reales positivos, y es la función de von Mangoldt . La función ψ ( x ) está relacionada con la función de conteo de primos π ( x ), y como tal proporciona información con respecto a la distribución de números primos entre los números reales. Es asintótica a x , una afirmación equivalente al teorema de los números primos y también se puede demostrar que está relacionada con los ceros de la función zeta de Riemann ubicada en la franja crítica ρ , donde la parte real del cero zeta ρ está entre 0 y 1. Entonces ψ expresado para x mayor que uno se puede escribir: donde
La hipótesis de Riemann establece que todos los ceros no triviales de la función zeta de Riemann tienen una parte real 1 ⁄ 2 . Estos ceros de la función zeta están relacionados con la distribución de los números primos . Schoenfeld [37] ha demostrado que si la hipótesis de Riemann es verdadera, entonces para todos los . Si analizamos las desviaciones de Chebyshev Δ( n ) en los números enteros n utilizando el método de expansión de bins y graficamos la varianza versus la media, se puede demostrar una ley de potencia de varianza a media. [ cita requerida ] Además, estas desviaciones corresponden a la distribución Poisson-gamma compuesta de Tweedie y exhiben ruido 1/ f .
Las aplicaciones de las distribuciones Tweedie incluyen: