En probabilidad y estadística , las distribuciones de Tweedie son una familia de distribuciones de probabilidad que incluyen las distribuciones normal puramente continua , gamma y gaussiana inversa , la distribución de Poisson escalada puramente discreta y la clase de distribuciones compuestas de Poisson-gamma que tienen masa positiva en cero. pero por lo demás son continuos. [1] Las distribuciones Tweedie son un caso especial de modelos de dispersión exponencial y se utilizan a menudo como distribuciones para modelos lineales generalizados . [2]
Las distribuciones Tweedie fueron nombradas por Bent Jørgensen [3] en honor a Maurice Tweedie , estadístico y físico médico de la Universidad de Liverpool , Reino Unido, quien presentó el primer estudio exhaustivo de estas distribuciones en 1984. [1] [4] [2]
Las distribuciones (reproductivas) de Tweedie se definen como una subfamilia de modelos de dispersión exponencial (ED) (reproductivas), con una relación especial entre media y varianza . Una variable aleatoria Y tiene distribución Tweedie Tw p (μ, σ 2 ) , si tiene media , parámetro de dispersión positivo y
donde se llama parámetro de potencia Tweedie. La distribución de probabilidad P θ,σ 2 en los conjuntos mensurables A , está dada por
para alguna medida σ-finita ν λ . Esta representación utiliza el parámetro canónico θ de un modelo de dispersión exponencial y una función acumulativa.
donde usamos , o equivalente .
Los modelos que acabamos de describir están en forma reproductiva. Un modelo de dispersión exponencial siempre tiene una forma dual: la forma aditiva. Si Y es reproductivo, entonces con está en la forma aditiva ED * ( θ , λ ), para Tweedie Tw * p (μ, λ) . Los modelos aditivos tienen la propiedad de que la distribución de la suma de variables aleatorias independientes,
para los cuales Z i ~ ED * ( θ , λ i ) con θ fijo y varios λ son miembros de la familia de distribuciones con el mismo θ ,
Existe una segunda clase de modelos de dispersión exponencial designados por la variable aleatoria
donde σ 2 = 1/ λ , conocidos como modelos de dispersión exponencial reproductiva. Tienen la propiedad de que para n variables aleatorias independientes Y i ~ ED( μ , σ 2 / w i ), con factores de ponderación wi y
un promedio ponderado de las variables da,
Para los modelos reproductivos, el promedio ponderado de variables aleatorias independientes con μ y σ 2 fijos y varios valores para wi es un miembro de la familia de distribuciones con los mismos μ y σ 2 .
Los modelos de dispersión exponencial de Tweedie son aditivos y reproductivos; tenemos así la transformación de la dualidad
Una tercera propiedad de los modelos Tweedie es que son invariantes de escala : para un modelo de dispersión exponencial reproductiva Tw p (μ, σ 2 ) y cualquier constante positiva c tenemos la propiedad de cierre bajo transformación de escala,
Para definir la función de varianza para modelos de dispersión exponencial utilizamos el mapeo del valor medio, la relación entre el parámetro canónico θ y la media μ . Está definido por la función.
con función acumulativa . La función de varianza V ( μ ) se construye a partir del mapeo del valor medio,
Aquí el exponente negativo en τ −1 ( μ ) denota una función inversa en lugar de recíproca. La media y la varianza de una variable aleatoria aditiva son entonces E( Z ) = λμ y var( Z ) = λV ( μ ).
La invariancia de escala implica que la función de varianza obedece a la relación V ( μ ) = μ p . [2]
La desviación unitaria de una distribución reproductiva de Tweedie está dada por
Las propiedades de los modelos de dispersión exponencial nos dan dos ecuaciones diferenciales . [2] El primero relaciona el mapeo del valor medio y la función de varianza entre sí,
El segundo muestra cómo se relaciona el mapeo del valor medio con la función acumulativa ,
Estas ecuaciones se pueden resolver para obtener la función acumulativa para diferentes casos de los modelos de Tweedie. A continuación se puede obtener una función generadora acumulativa (CGF) a partir de la función acumulativa. El CGF aditivo generalmente se especifica mediante la ecuación
y el CGF reproductivo por
donde s es la variable de la función generadora.
Para los modelos aditivos Tweedie, los CGF toman la forma,
y para los modelos reproductivos,
Los modelos Tweedie aditivo y reproductivo se denotan convencionalmente con los símbolos Tw * p ( θ , λ ) y Tw p ( θ , σ 2 ), respectivamente.
La primera y segunda derivada de los CGF, con s = 0, producen la media y la varianza, respectivamente. Por tanto, se puede confirmar que para los modelos aditivos la varianza se relaciona con la media según la ley de potencia,
Los modelos de dispersión exponencial de Tweedie son fundamentales en la teoría estadística debido a su papel como focos de convergencia para una amplia gama de procesos estadísticos. Jørgensen et al demostraron un teorema que especifica el comportamiento asintótico de funciones de varianza conocido como teorema de convergencia de Tweedie . [5] Este teorema, en términos técnicos, se expresa así: [2] La función de varianza unitaria es regular de orden p en cero (o infinito) siempre que V ( μ ) ~ c 0 μ p para μ cuando se acerca a cero ( o infinito) para todos los valores reales de p y c 0 > 0. Entonces, para una función de varianza unitaria regular de orden p en cero o infinito y para
para cualquiera , y tenemos
como o , respectivamente, donde la convergencia es a través de valores de c tales que cμ está en el dominio de θ y c p −2 / σ 2 está en el dominio de λ . El modelo debe ser infinitamente divisible cuando c 2− p tiende a infinito. [2]
En términos no técnicos, este teorema implica que cualquier modelo de dispersión exponencial que manifieste asintóticamente una ley de potencia de varianza a media debe tener una función de varianza que entre en el dominio de atracción de un modelo de Tweedie. Casi todas las funciones de distribución con funciones generadoras de acumuladores finitos califican como modelos de dispersión exponencial y la mayoría de los modelos de dispersión exponencial manifiestan funciones de varianza de esta forma. Por tanto, muchas distribuciones de probabilidad tienen funciones de varianza que expresan este comportamiento asintótico, y las distribuciones de Tweedie se convierten en focos de convergencia para una amplia gama de tipos de datos. [6]
Las distribuciones Tweedie incluyen varias distribuciones familiares, así como algunas inusuales, cada una de las cuales está especificada por el dominio del parámetro de índice. tenemos el
Para 0 < p < 1 no existe ningún modelo Tweedie. Tenga en cuenta que todas las distribuciones estables significan realmente generadas por distribuciones estables .
La ley de Taylor es una ley empírica en ecología que relaciona la varianza del número de individuos de una especie por unidad de área de hábitat con la media correspondiente mediante una relación de ley de potencia . [7] Para el recuento de población Y con media µ y varianza var( Y ), se escribe la ley de Taylor,
donde a y p son constantes positivas. Desde que LR Taylor describió esta ley en 1961, se han ofrecido muchas explicaciones diferentes para explicarla, que van desde el comportamiento animal, [7] un modelo de caminata aleatoria , [8] un modelo estocástico de nacimiento, muerte, inmigración y emigración , [9] hasta una consecuencia de la mecánica estadística de equilibrio y no equilibrio . [10] No existe consenso sobre una explicación para este modelo.
Dado que la ley de Taylor es matemáticamente idéntica a la ley de varianza a potencia media que caracteriza a los modelos de Tweedie, parecía razonable utilizar estos modelos y el teorema de convergencia de Tweedie para explicar la agrupación observada de animales y plantas asociada con la ley de Taylor. [11] [12] La mayoría de los valores observados para el exponente de la ley de potencia p han caído en el intervalo (1,2), por lo que la distribución Poisson-gamma compuesta de Tweedie parecería aplicable. La comparación de la función de distribución empírica con la distribución teórica compuesta de Poisson-gamma ha proporcionado un medio para verificar la coherencia de esta hipótesis. [11]
Mientras que los modelos convencionales para la ley de Taylor han tendido a involucrar supuestos ad hoc sobre el comportamiento animal o la dinámica poblacional , el teorema de convergencia de Tweedie implicaría que la ley de Taylor resulta de un efecto de convergencia matemático general, de manera muy similar a como el teorema del límite central gobierna el comportamiento de convergencia de ciertos tipos de animales. datos aleatorios. De hecho, cualquier modelo matemático, aproximación o simulación diseñada para obtener la ley de Taylor (sobre la base de este teorema) debe converger a la forma de los modelos de Tweedie. [6]
El ruido rosa , o ruido 1/ f , se refiere a un patrón de ruido caracterizado por una relación de ley de potencia entre sus intensidades S ( f ) a diferentes frecuencias f .
donde el exponente adimensional γ ∈ [0,1]. Se encuentra dentro de una diversa cantidad de procesos naturales. [13] Existen muchas explicaciones diferentes para el ruido 1/ f ; una hipótesis ampliamente aceptada se basa en la criticidad autoorganizada donde se cree que los sistemas dinámicos cercanos a un punto crítico manifiestan un comportamiento espacial y/o temporal invariante de escala .
En esta subsección se describirá una conexión matemática entre el ruido 1/ f y la ley de potencia media de la varianza de Tweedie. Para comenzar, primero debemos introducir procesos autosemejantes : para la secuencia de números
con media
desviaciones
diferencia
y función de autocorrelación
con retraso k , si la autocorrelación de esta secuencia tiene el comportamiento de largo alcance
como k →∞ y donde L ( k ) es una función que varía lentamente en valores grandes de k , esta secuencia se denomina proceso autosemejante. [14]
El método de expansión de contenedores se puede utilizar para analizar procesos autosemejantes. Considere un conjunto de contenedores no superpuestos de igual tamaño que divide la secuencia original de N elementos en grupos de m segmentos de igual tamaño ( N/m es un número entero) de modo que se puedan definir nuevas secuencias reproductivas, basadas en los valores medios:
La variación determinada a partir de esta secuencia aumentará a medida que cambie el tamaño del contenedor, de modo que
si y sólo si la autocorrelación tiene la forma limitante [15]
También se puede construir un conjunto de secuencias aditivas correspondientes.
basado en los contenedores en expansión,
Siempre que la función de autocorrelación muestre el mismo comportamiento, las secuencias aditivas obedecerán la relación
Dado que y son constantes, esta relación constituye una ley de potencia de varianza a media, con p = 2 - d . [6] [16]
La relación bicondicional anterior entre la ley de potencia de varianza a media y la función de autocorrelación de la ley de potencia, y el teorema de Wiener-Khinchin [17] implica que cualquier secuencia que exhiba una ley de potencia de varianza a media mediante el método de expansión de contenedores también ruido manifiesto 1/ f , y viceversa. Además, el teorema de convergencia de Tweedie, en virtud de su efecto límite central de generar distribuciones que manifiestan funciones de potencia de varianza a media, también generará procesos que manifiestan ruido 1/ f . [6] El teorema de convergencia de Tweedie proporciona así una explicación alternativa para el origen del ruido 1/ f , basándose en su efecto límite central.
Así como el teorema del límite central requiere que ciertos tipos de procesos aleatorios tengan como foco de convergencia la distribución gaussiana y así expresen ruido blanco , el teorema de convergencia de Tweedie requiere que ciertos procesos no gaussianos tengan como foco de convergencia las distribuciones de Tweedie que expresar ruido 1/ f . [6]
A partir de las propiedades de los procesos autosemejantes, el exponente de la ley de potencia p = 2 - d está relacionado con el exponente de Hurst H y la dimensión fractal D por [15]
Una secuencia de datos unidimensionales de datos autosemejantes puede demostrar una ley de potencia de varianza a media con variaciones locales en el valor de p y, por tanto, en el valor de D. Cuando las estructuras fractales manifiestan variaciones locales en la dimensión fractal, se dice que son multifractales . Ejemplos de secuencias de datos que exhiben variaciones locales en p como esta incluyen las desviaciones de valores propios de los conjuntos unitarios y ortogonales gaussianos . [6] La distribución de Poisson-gamma del compuesto de Tweedie ha servido para modelar la multifractalidad basándose en variaciones locales en el exponente de Tweedie α . En consecuencia, junto con la variación de α , se puede considerar que el teorema de convergencia de Tweedie tiene un papel en la génesis de tales multifractales.
Se ha descubierto que la variación de α obedece a la distribución asimétrica de Laplace en ciertos casos. [18] Se ha demostrado que esta distribución es un miembro de la familia de modelos geométricos de Tweedie, [19] que se manifiestan como distribuciones limitantes en un teorema de convergencia para modelos de dispersión geométrica.
El flujo sanguíneo de los órganos regionales se ha evaluado tradicionalmente mediante la inyección de microesferas de polietileno marcadas radiactivamente en la circulación arterial de los animales, de un tamaño que quedan atrapadas dentro de la microcirculación de los órganos. Luego, el órgano que se va a evaluar se divide en cubos del mismo tamaño y la cantidad de radiomarcador dentro de cada cubo se evalúa mediante recuento de centelleo líquido y se registra. La cantidad de radiactividad dentro de cada cubo se toma para reflejar el flujo sanguíneo a través de esa muestra en el momento de la inyección. Es posible evaluar cubos adyacentes de un órgano para determinar de forma aditiva el flujo sanguíneo a través de regiones más grandes. A través del trabajo de JB Bassingthwaighte y otros se ha derivado una ley de potencia empírica entre la dispersión relativa del flujo sanguíneo de muestras de tejido ( RD = desviación estándar/media) de masa m en relación con muestras de tamaño de referencia: [20]
Este exponente de la ley potencial D s se ha denominado dimensión fractal. Se puede demostrar que la ley de potencia de Bassingthwaighte se relaciona directamente con la ley de potencia de varianza a media. Por lo tanto, el flujo sanguíneo de los órganos regionales se puede modelar mediante la distribución de Poisson-gamma del compuesto de Tweedie. [21] En este modelo, se podría considerar que la muestra de tejido contiene un número distribuido aleatorio (Poisson) de sitios de atrapamiento, cada uno con un flujo sanguíneo distribuido gamma . Se ha observado que el flujo sanguíneo en este nivel microcirculatorio obedece a una distribución gamma, [22] lo que respalda esta hipótesis.
El " ensayo experimental de metástasis del cáncer" [23] tiene cierta semejanza con el método anterior para medir el flujo sanguíneo regional. A grupos de ratones singénicos y de la misma edad se les administran inyecciones intravenosas de alícuotas del mismo tamaño de suspensiones de células cancerosas clonadas y luego, después de un período de tiempo determinado, se les extirpan los pulmones y se enumera el número de metástasis cancerosas dentro de cada par de pulmones. Si a otros grupos de ratones se les inyectan diferentes clones de células cancerosas , entonces el número de metástasis por grupo diferirá de acuerdo con los potenciales metastásicos de los clones. Desde hace tiempo se reconoce que puede haber una variación intraclonal considerable en el número de metástasis por ratón a pesar de los mejores intentos por mantener uniformes las condiciones experimentales dentro de cada grupo clonal. [23] Esta variación es mayor de lo que se esperaría sobre la base de una distribución de Poisson del número de metástasis por ratón en cada clon y cuando la varianza del número de metástasis por ratón se representó frente a la media correspondiente se encontró una ley de potencia. [24]
Se encontró que la ley de potencia de varianza a media para las metástasis también es válida para las metástasis murinas espontáneas [25] y para series de casos de metástasis humanas. [26] Dado que la metástasis hematógena ocurre en relación directa con el flujo sanguíneo regional [27] y los estudios videomicroscópicos indican que el paso y atrapamiento de células cancerosas dentro de la circulación parece análogo a los experimentos con microesferas [28] , parecía plausible proponer que la variación en El número de metástasis hematógenas podría reflejar la heterogeneidad en el flujo sanguíneo de los órganos regionales. [29] El modelo de flujo sanguíneo se basó en la distribución Poisson-gamma del compuesto de Tweedie, una distribución que rige una variable aleatoria continua. Por esa razón, en el modelo de metástasis se asumió que el flujo sanguíneo estaba gobernado por esa distribución y que el número de metástasis regionales se producía como un proceso de Poisson cuya intensidad era directamente proporcional al flujo sanguíneo. Esto llevó a la descripción de la distribución binomial negativa de Poisson (PNB) como un equivalente discreto de la distribución Poisson-gamma compuesta de Tweedie. La función generadora de probabilidad para la distribución PNB es
La relación entre la media y la varianza de la distribución PNB es entonces
que, en el rango de muchos ensayos experimentales de metástasis, sería indistinguible de la ley de potencia de varianza a media. Sin embargo, para datos escasos, esta relación discreta de varianza a media se comportaría más como la de una distribución de Poisson donde la varianza iguala a la media.
La densidad local de polimorfismos de un solo nucleótido (SNP) dentro del genoma humano , así como la de los genes , parece agruparse de acuerdo con la ley de potencia de varianza a media y la distribución de Poisson-gamma del compuesto Tweedie. [30] [31] En el caso de los SNP, su densidad observada refleja las técnicas de evaluación, la disponibilidad de secuencias genómicas para el análisis y la heterocigosidad de los nucleótidos . [32] Los dos primeros factores reflejan errores de verificación inherentes a los métodos de recolección; el último factor refleja una propiedad intrínseca del genoma.
En el modelo coalescente de genética de poblaciones, cada locus genético tiene su propia historia única. Dentro de la evolución de una población de algunas especies, es de suponer que algunos loci genéticos podrían remontarse a un ancestro común relativamente reciente , mientras que otros loci podrían tener genealogías más antiguas . Los segmentos genómicos más antiguos habrían tenido más tiempo para acumular SNP y experimentar recombinación . RR Hudson ha propuesto un modelo en el que la recombinación podría provocar una variación en el tiempo hasta el ancestro reciente más común para diferentes segmentos genómicos. [33] Una alta tasa de recombinación podría causar que un cromosoma contenga una gran cantidad de segmentos pequeños con genealogías menos correlacionadas.
Suponiendo una tasa de mutación de fondo constante, el número de SNP por segmento genómico se acumularía proporcionalmente al tiempo hasta el ancestro común más reciente. La teoría genética de poblaciones actual indicaría que estos tiempos estarían distribuidos gamma , en promedio. [34] La distribución Poisson-gamma del compuesto Tweedie sugeriría un modelo mediante el cual el mapa de SNP consistiría en múltiples segmentos genómicos pequeños y el número medio de SNP por segmento estaría distribuido gamma según el modelo de Hudson.
La distribución de genes dentro del genoma humano también demostró una ley de potencia de varianza a media, cuando se utilizó el método de expansión de contenedores para determinar las varianzas y medias correspondientes. [31] De manera similar, se encontró que el número de genes por contenedor enumerativo obedece a una distribución de Poisson-gamma del compuesto Tweedie. Esta distribución de probabilidad se consideró compatible con dos modelos biológicos diferentes: el modelo de microdisposición en el que el número de genes por unidad de longitud genómica se determinaba mediante la suma de un número aleatorio de segmentos genómicos más pequeños derivados de la rotura aleatoria y la reconstrucción de protocormosomas. Se supondría que estos segmentos más pequeños portan en promedio un número de genes distribuidos gamma.
En el modelo alternativo de agrupación de genes , los genes se distribuirían aleatoriamente dentro de los protocromosomas. En grandes escalas de tiempo evolutivas se producirían duplicaciones , mutaciones, inserciones, eliminaciones y reordenamientos en tándem que podrían afectar los genes a través de un proceso estocástico de nacimiento, muerte e inmigración para producir la distribución de Poisson-gamma del compuesto Tweedie.
Ambos mecanismos implicarían procesos evolutivos neutrales que darían como resultado una agrupación regional de genes.
El conjunto unitario gaussiano (GUE) consta de matrices hermitianas complejas que son invariantes bajo transformaciones unitarias , mientras que el conjunto ortogonal gaussiano (GOE) consta de matrices simétricas reales invariantes bajo transformaciones ortogonales . Los valores propios clasificados E n de estas matrices aleatorias obedecen a la distribución semicircular de Wigner : para una matriz N × N , la densidad promedio para los valores propios de tamaño E será
como mi → ∞ . La integración de la regla semicircular proporciona un número de valores propios en promedio menor que E ,
Los valores propios clasificados se pueden desplegar o renormalizar con la ecuación
Esto elimina la tendencia de la secuencia de la parte fluctuante. Si observamos el valor absoluto de la diferencia entre el número acumulado real y esperado de valores propios
obtenemos una secuencia de fluctuaciones de valores propios que, utilizando el método de expansión de contenedores, revela una ley de potencia de varianza a media. [6] Las fluctuaciones de valores propios tanto del GUE como del GOE manifiestan esta ley de potencia con exponentes de ley de potencia que oscilan entre 1 y 2, y de manera similar manifiestan espectros de ruido 1/ f . Estas fluctuaciones de valores propios también corresponden a la distribución de Poisson-gamma del compuesto de Tweedie y exhiben multifractalidad. [6]
La segunda función de Chebyshev ψ ( x ) viene dada por,
donde la suma se extiende sobre todas las potencias primas que no exceden x , x recorre los números reales positivos y es la función de von Mangoldt . La función ψ ( x ) está relacionada con la función de conteo de primos π ( x ) y, como tal, proporciona información con respecto a la distribución de números primos entre los números reales. Es asintótico a x , enunciado equivalente al teorema de los números primos y también se puede demostrar que está relacionado con los ceros de la función zeta de Riemann ubicada en la franja crítica ρ , donde la parte real del cero zeta ρ está entre 0 y 1. Entonces ψ expresada para x mayor que uno se puede escribir:
dónde
La hipótesis de Riemann establece que todos los ceros no triviales de la función zeta de Riemann tienen parte real ½. Estos ceros de función zeta están relacionados con la distribución de números primos . Schoenfeld [35] ha demostrado que si la hipótesis de Riemann es cierta entonces
para todos . Si analizamos las desviaciones de Chebyshev Δ ( n ) en los números enteros n usando el método de expansión de contenedores y trazamos la varianza versus la media, se puede demostrar una ley de varianza a la potencia media. [ cita necesaria ] Además, estas desviaciones corresponden a la distribución Poisson-gamma del compuesto Tweedie y exhiben ruido 1/ f .
Las aplicaciones de las distribuciones Tweedie incluyen: