La ley de potencia de Taylor es una ley empírica en ecología que relaciona la varianza del número de individuos de una especie por unidad de área de hábitat con la media correspondiente mediante una relación de ley de potencia . [1] Lleva el nombre del ecologista que lo propuso por primera vez en 1961, Lionel Roy Taylor (1924-2007). [2] El nombre original de Taylor para esta relación era ley de la media. [1] El nombre ley de Taylor fue acuñado por Southwood en 1966. [2]
Esta ley se definió originalmente para los sistemas ecológicos, específicamente para evaluar la agrupación espacial de organismos. Para un recuento de población con media y varianza , se escribe la ley de Taylor
donde a y b son constantes positivas. Taylor propuso esta relación en 1961, sugiriendo que el exponente b se considere un índice de agregación específico de la especie. [1] Esta ley de potencia ha sido confirmada posteriormente para muchos cientos de especies. [3] [4]
La ley de Taylor también se ha aplicado para evaluar los cambios de las distribuciones de población que dependen del tiempo. [3] También se ha demostrado una variación relacionada con las leyes de potencia media en varios sistemas no ecológicos:
El primer uso de un gráfico doble log-log fue por Reynolds en 1879 en aerodinámica térmica. [17] Pareto utilizó un gráfico similar para estudiar la proporción de una población y sus ingresos. [18]
El término varianza fue acuñado por Fisher en 1918. [19]
Pearson [20] en 1921 propuso la ecuación (también estudiada por Neyman [21] )
Smith en 1938, mientras estudiaba el rendimiento de los cultivos, propuso una relación similar a la de Taylor. [22] Esta relación fue
donde V x es la varianza del rendimiento para parcelas de x unidades, V 1 es la varianza del rendimiento por unidad de área y x es el tamaño de las parcelas. La pendiente ( b ) es el índice de heterogeneidad. El valor de b en esta relación se encuentra entre 0 y 1. Cuando los rendimientos están altamente correlacionados, b tiende a 0; cuando no están correlacionados b tiende a 1.
Bliss [23] en 1941, Fracker y Brischle [24] en 1941 y Hayman & Lowe [25] en 1961 también describieron lo que ahora se conoce como ley de Taylor, pero en el contexto de datos de especies individuales.
El artículo de Taylor de 1961 utilizó datos de 24 artículos, publicados entre 1936 y 1960, que consideraban una variedad de entornos biológicos: lesiones virales , macrozooplancton , gusanos y sínfilos en el suelo , insectos en el suelo, en plantas y en el aire, ácaros en las hojas. , garrapatas en ovejas y peces en el mar .; [1] el valor b estaba entre 1 y 3. Taylor propuso la ley de potencia como una característica general de la distribución espacial de estas especies. También propuso una hipótesis mecanicista para explicar esta ley.
Los intentos iniciales de explicar la distribución espacial de los animales se basaron en enfoques como los modelos estocásticos de población de Bartlett y la distribución binomial negativa que podría resultar de los procesos de nacimiento-muerte . [26] La explicación de Taylor se basó en la suposición de un comportamiento migratorio y congregatorio equilibrado de los animales. [1] Su hipótesis era inicialmente cualitativa, pero a medida que evolucionó se volvió semicuantitativa y estaba respaldada por simulaciones. [27]
Se han propuesto muchas hipótesis alternativas para la ley de potencias. Hanski propuso un modelo de paseo aleatorio, modulado por el presunto efecto multiplicativo de la reproducción. [28] El modelo de Hanski predijo que el exponente de la ley de potencia se vería obligado a oscilar cerca del valor de 2, lo que parecía inconsistente con muchos valores informados. [3] [4]
Anderson et al formularon un modelo estocástico simple de nacimiento, muerte, inmigración y emigración que arrojó una función de varianza cuadrática. [29] Como respuesta a este modelo, Taylor argumentó que tal proceso de Markov predeciría que el exponente de la ley de potencia variaría considerablemente entre observaciones replicadas, y que tal variabilidad no se había observado. [30]
Kemp revisó una serie de modelos estocásticos discretos basados en las distribuciones binomial negativa, Neyman tipo A y Polya-Aeppli que, con un ajuste adecuado de los parámetros, podrían producir una variación de la ley de potencia media. [31] Kemp, sin embargo, no explicó las parametrizaciones de sus modelos en términos mecanicistas. Siguieron otros modelos relativamente abstractos para la ley de Taylor. [6] [32]
Se plantearon preocupaciones estadísticas con respecto a la ley de Taylor, basadas en la dificultad con los datos reales para distinguir entre la ley de Taylor y otras funciones de varianza de la media, así como la inexactitud de los métodos de regresión estándar. [33] [34]
La ley de Taylor se ha aplicado a datos de series temporales y Perry demostró, mediante simulaciones, que la teoría del caos podría dar como resultado la ley de Taylor. [35]
La ley de Taylor se ha aplicado a la distribución espacial de plantas [36] y poblaciones bacterianas [37]. Al igual que con las observaciones del virus de la necrosis del tabaco mencionadas anteriormente, estas observaciones no fueron consistentes con el modelo de comportamiento animal de Taylor.
Se había aplicado una variación de la función de potencia media a sistemas no ecológicos, bajo la rúbrica de la ley de Taylor. Para una explicación más general del rango de manifestaciones de la ley de potencia, se ha propuesto una hipótesis basada en las distribuciones de Tweedie , [38] una familia de modelos probabilísticos que expresan una relación de función de potencia inherente entre la varianza y la media. [11] [13] [39]
Se han propuesto varias hipótesis alternativas para la ley de potencia. Hanski propuso un modelo de paseo aleatorio, modulado por el presunto efecto multiplicativo de la reproducción. [28] El modelo de Hanski predijo que el exponente de la ley de potencia se vería obligado a oscilar cerca del valor de 2, lo que parecía inconsistente con muchos valores informados. [3] [4] Anderson et al formularon un modelo estocástico simple de nacimiento, muerte, inmigración y emigración que arrojó una función de varianza cuadrática. [29] El modelo de crecimiento de Lewontin Cohen . [40] es otra explicación propuesta. Se planteó la posibilidad de que las observaciones de una ley potencial pudieran reflejar más un artefacto matemático que un proceso mecanicista. [41] Sin embargo, la variación en los exponentes de la Ley de Taylor aplicada a las poblaciones ecológicas no puede explicarse ni predecirse basándose únicamente en motivos estadísticos. [42] La investigación ha demostrado que la variación dentro de los exponentes de la ley de Taylor para la comunidad de peces del Mar del Norte varía con el entorno externo, lo que sugiere que los procesos ecológicos determinan al menos parcialmente la forma de la ley de Taylor. [43]
En la literatura de física, la ley de Taylor se conoce como escala de fluctuación . Eisler et al , en un intento adicional de encontrar una explicación general para la escala de fluctuación, propusieron un proceso al que llamaron falta de homogeneidad del impacto en el que eventos frecuentes se asocian con impactos más grandes. [44] Sin embargo, en el apéndice B del artículo de Eisler, los autores señalaron que las ecuaciones para la falta de homogeneidad del impacto arrojaron las mismas relaciones matemáticas que las encontradas con las distribuciones de Tweedie.
Otro grupo de físicos, Fronczak y Fronczak, derivó la ley de potencia de Taylor para la escala de fluctuación a partir de principios de física estadística de equilibrio y no equilibrio . [45] Su derivación se basó en suposiciones de cantidades físicas como energía libre y un campo externo que causó la agrupación de organismos biológicos. Sin embargo, aún no se ha logrado una demostración experimental directa de estas cantidades físicas postuladas en relación con la agregación de animales o plantas. Poco después, se presentó un análisis del modelo de Fronczak y Fronczak que mostraba que sus ecuaciones conducían directamente a las distribuciones de Tweedie, un hallazgo que sugería que Fronczak y Fronczak posiblemente habían proporcionado una derivación de entropía máxima de estas distribuciones. [14]
Se ha demostrado que la ley de Taylor se cumple para números primos que no exceden un número real dado. [46] Se ha demostrado que este resultado se mantiene para los primeros 11 millones de números primos. Si la conjetura de los primos gemelos de Hardy-Littlewood es cierta, entonces esta ley también se cumple para los primos gemelos.
Aproximadamente en la época en que Taylor fundamentaba sus observaciones ecológicas, MCK Tweedie , un estadístico y físico médico británico, estaba investigando una familia de modelos probabilísticos que ahora se conocen como distribuciones de Tweedie . [47] [48] Como se mencionó anteriormente, todas estas distribuciones se caracterizan por una varianza para significar una ley de potencia matemáticamente idéntica a la ley de Taylor.
La distribución de Tweedie más aplicable a las observaciones ecológicas es la distribución compuesta de Poisson-gamma , que representa la suma de N variables aleatorias independientes e idénticamente distribuidas con una distribución gamma donde N es una variable aleatoria distribuida de acuerdo con una distribución de Poisson. En la forma aditiva su función generadora acumulativa (CGF) es:
donde κ b ( θ ) es la función acumulativa,
el exponente del tweedie
s es la variable de la función generadora, y θ y λ son los parámetros canónicos y de índice, respectivamente. [38]
Estos dos últimos parámetros son análogos a los parámetros de escala y forma utilizados en la teoría de la probabilidad. Los cumulantes de esta distribución pueden determinarse mediante diferenciaciones sucesivas del CGF y luego sustituyendo s=0 en las ecuaciones resultantes. El primer y segundo cumulantes son la media y la varianza, respectivamente, y por lo tanto el compuesto Poisson-gamma CGF produce la ley de Taylor con la constante de proporcionalidad.
La función de distribución acumulativa compuesta de Poisson-gamma se ha verificado para datos ecológicos limitados mediante la comparación de la función de distribución teórica con la función de distribución empírica. [39] Varios otros sistemas, que demuestran varianza de las leyes de potencia media relacionadas con la ley de Taylor, se han probado de manera similar para la distribución compuesta de Poisson-gamma. [12] [13] [14] [16]
La principal justificación de la hipótesis de Tweedie reside en las propiedades de convergencia matemática de las distribuciones de Tweedie. [13] El teorema de convergencia de Tweedie requiere que las distribuciones de Tweedie actúen como focos de convergencia para una amplia gama de procesos estadísticos. [49] Como consecuencia de este teorema de convergencia, los procesos basados en la suma de múltiples pequeños saltos independientes tenderán a expresar la ley de Taylor y obedecerán una distribución de Tweedie. Un teorema de límite para variables independientes e idénticamente distribuidas, como el teorema de convergencia de Tweedie, podría entonces considerarse fundamental en relación con los modelos de población ad hoc , o los modelos propuestos sobre la base de simulación o aproximación. [14] [16]
Esta hipótesis sigue siendo controvertida; Los ecólogos parecen preferir enfoques de dinámica de población más convencionales , a pesar de que la distribución de Poisson compuesta de Tweedie puede aplicarse directamente a los mecanismos de dinámica de población. [6]
Una dificultad con la hipótesis de Tweedie es que el valor de b no oscila entre 0 y 1. Los valores de b < 1 son raros pero se han informado. [50]
En simbolos
donde s i 2 es la varianza de la densidad de la i -ésima muestra, m i es la densidad media de la i -ésima muestra y a y b son constantes.
En forma logarítmica
El exponente de la ley de Taylor es invariante de escala: si la unidad de medida se cambia en un factor constante , el exponente ( ) permanece sin cambios.
Para ver esto, sea y = cx . Entonces
La ley de Taylor expresada en la variable original ( x ) es
y en la variable reescalada ( y ) es
Por lo tanto, sigue siendo proporcional a (aunque la constante de proporcionalidad haya cambiado).
Se ha demostrado que la ley de Taylor es la única relación entre la media y la varianza que es invariante de escala. [51]
Rayner ha propuesto un refinamiento en la estimación de la pendiente b . [52]
donde es el coeficiente de correlación del momento de Pearson entre y , es la razón de las varianzas muestrales en y y es la razón de los errores en y .
La regresión de mínimos cuadrados ordinaria supone que φ = ∞. Esto tiende a subestimar el valor de b porque las estimaciones de ambos y están sujetas a error.
Ferris et al propusieron una extensión de la ley de Taylor cuando se toman múltiples muestras [53]
donde s 2 y m son la varianza y la media respectivamente, b , cyd son constantes y n es el número de muestras tomadas. Hasta la fecha, no se ha verificado que esta extensión propuesta sea tan aplicable como la versión original de la ley de Taylor.
Hanski ha propuesto una extensión de esta ley para muestras pequeñas. [54] Para muestras pequeñas, la variación de Poisson ( P ), la variación que puede atribuirse a la variación muestral, puede ser significativa. Sea S la varianza total y V la varianza biológica (real). Entonces
Suponiendo la validez de la ley de Taylor, tenemos
Como en la distribución de Poisson la media es igual a la varianza, tenemos
esto nos da
Esto se parece mucho a la sugerencia original de Barlett.
Los valores de pendiente ( b ) significativamente > 1 indican agrupación de los organismos.
En datos distribuidos por Poisson , b = 1. [30] Si la población sigue una distribución lognormal o gamma , entonces b = 2.
Para las poblaciones que experimentan una variabilidad ambiental per cápita constante, la regresión de log(varianza) versus log(abundancia media) debe tener una línea con b = 2.
La mayoría de las poblaciones estudiadas tienen b < 2 (generalmente 1,5 a 1,6), pero se han informado valores de 2. [55] Ocasionalmente se han informado casos con b > 2. [3] Los valores de b inferiores a 1 son poco comunes, pero también se han informado ( b = 0,93 ). [50]
Se ha sugerido que el exponente de la ley ( b ) es proporcional a la asimetría de la distribución subyacente. [56] Esta propuesta ha sido criticada: parece indicado realizar trabajos adicionales. [57] [58]
El origen de la pendiente ( b ) en esta regresión aún no está claro. Se han propuesto dos hipótesis para explicarlo. Se sugiere que b surge del comportamiento de la especie y es una constante para esa especie. La alternativa sugiere que depende de la población muestreada. A pesar del considerable número de estudios realizados sobre esta ley (más de 1.000), esta cuestión sigue abierta.
Se sabe que tanto a como b están sujetos a cambios debido a la dispersión, la mortalidad y el tamaño de la unidad de muestra específicos de la edad. [59]
Esta ley puede no ajustarse bien si los valores son pequeños. Por esta razón, Hanski ha propuesto una extensión de la ley de Taylor que mejora el ajuste de la ley de Taylor a bajas densidades. [54]
Se ha propuesto una forma de ley de Taylor aplicable a datos binarios en grupos (eq, cuadrantes). [60] En una distribución binomial, la varianza teórica es
donde (var bin ) es la varianza binomial, n es el tamaño de la muestra por grupo y p es la proporción de individuos con un rasgo (como una enfermedad), una estimación de la probabilidad de que un individuo tenga ese rasgo.
Una dificultad con los datos binarios es que la media y la varianza, en general, tienen una relación particular: a medida que la proporción media de individuos infectados aumenta por encima de 0,5, la varianza disminuye.
Ahora se sabe que la varianza observada (var obs ) cambia como una función de potencia de (var bin ). [60]
Hughes y Madden observaron que si la distribución es de Poisson, la media y la varianza son iguales. [60] Como este claramente no es el caso en muchas muestras de proporciones observadas, en su lugar asumieron una distribución binomial. Reemplazaron la media en la ley de Taylor con la varianza binomial y luego compararon esta varianza teórica con la varianza observada. Para datos binomiales, demostraron que var obs = var bin con sobredispersión, var obs > var bin .
En símbolos, la modificación de Hughes y Madden a la ley de Tyalor fue
En forma logarítmica esta relación es
Esta última versión se conoce como ley de potencia binaria.
Un paso clave en la derivación de la ley de potencia binaria por Hughes y Madden fue la observación hecha por Patil y Stiteler [61] de que la relación varianza-media utilizada para evaluar la sobredispersión de recuentos ilimitados en una sola muestra es en realidad la relación de dos varianzas: la varianza observada y la varianza teórica para una distribución aleatoria. Para recuentos ilimitados, la distribución aleatoria es la de Poisson. Por tanto, la ley de potencia de Taylor para una colección de muestras puede considerarse como una relación entre la varianza observada y la varianza de Poisson.
En términos más generales, Madden y Hughes [60] consideraron la ley de potencia como la relación entre dos varianzas, la varianza observada y la varianza teórica para una distribución aleatoria. Con datos binarios, la distribución aleatoria es binomial (no la de Poisson). Por tanto, la ley de potencia de Taylor y la ley de potencia binaria son dos casos especiales de relaciones de ley de potencia general para heterogeneidad.
Cuando a y b son iguales a 1, entonces se sugiere un patrón espacial aleatorio de pequeña escala y se describe mejor mediante la distribución binomial. Cuando b = 1 y a > 1, hay sobredispersión (agregación a pequeña escala). Cuando b es > 1, el grado de agregación varía con p . Turechek et al [62] han demostrado que la ley de potencia binaria describe numerosos conjuntos de datos en fitopatología. En general, b es mayor que 1 y menor que 2.
El ajuste de esta ley ha sido probado mediante simulaciones. [63] Estos resultados sugieren que, en lugar de una única línea de regresión para el conjunto de datos, una regresión segmentaria puede ser un mejor modelo para distribuciones genuinamente aleatorias. Sin embargo, esta segmentación sólo ocurre para distancias de dispersión de muy corto alcance y tamaños de cuadrantes grandes. [62] La ruptura en la línea ocurre sólo en p muy cerca de 0.
Se ha propuesto una ampliación de esta ley. [64] La forma original de esta ley es simétrica pero puede extenderse a una forma asimétrica. [64] Utilizando simulaciones, la forma simétrica se ajusta a los datos cuando existe una correlación positiva del estado de enfermedad de los vecinos. Cuando existe una correlación negativa entre la probabilidad de que los vecinos estén infectados, la versión asimétrica se ajusta mejor a los datos.
Debido a la omnipresencia de la ley de Taylor en biología, se le han encontrado diversos usos, algunos de los cuales se enumeran aquí.
Se ha recomendado con base en estudios de simulación [65] en aplicaciones que prueban la validez de la ley de Taylor a una muestra de datos que:
(1) el número total de organismos estudiados debe ser > 15
(2) el número mínimo de grupos de organismos estudiados debe ser > 5
(3) la densidad de los organismos debe variar en al menos 2 órdenes de magnitud dentro de la muestra
Es común suponer (al menos inicialmente) que una población está distribuida aleatoriamente en el medio ambiente. Si una población se distribuye aleatoriamente, entonces la media ( m ) y la varianza ( s 2 ) de la población son iguales y la proporción de muestras que contienen al menos un individuo ( p ) es
Cuando se compara una especie con un patrón agrupado con otra que está distribuida aleatoriamente con densidades generales iguales, p será menor para las especies que tienen el patrón de distribución agrupado. Por el contrario, al comparar una especie distribuida uniformemente y otra distribuida aleatoriamente pero con densidades generales iguales, p será mayor para la población distribuida aleatoriamente. Esto se puede probar gráficamente trazando p contra m .
Wilson y Room desarrollaron un modelo binomial que incorpora la ley de Taylor. [66] La relación básica es
donde el tronco se lleva a la base e .
Al incorporar la ley de Taylor, esta relación se convierte en
El parámetro de dispersión común ( k ) de la distribución binomial negativa es
donde es la media muestral y la varianza. [67] Si 1/ k es > 0 la población se considera agregada; 1 / k = 0 ( s 2 = m ) se considera que la población está distribuida aleatoriamente (Poisson) y si 1 / k es < 0, se considera que la población está distribuida uniformemente. No se puede hacer ningún comentario sobre la distribución si k = 0.
Wilson y Room, suponiendo que la ley de Taylor aplicada a la población, dieron un estimador alternativo para k : [66]
donde a y b son las constantes de la ley de Taylor.
Jones [68] utilizando la estimación de k anterior junto con la relación que Wilson y Room desarrollaron para la probabilidad de encontrar una muestra que tenga al menos un individuo [66]
derivó un estimador para la probabilidad de que una muestra contenga x individuos por unidad de muestreo. La fórmula de Jones es
donde P ( x ) es la probabilidad de encontrar x individuos por unidad de muestreo, k se estima a partir de la ecuación de Wilon y Room y m es la media muestral. La probabilidad de encontrar cero individuos P ( 0 ) se estima con la distribución binomial negativa
Jones también da intervalos de confianza para estas probabilidades.
donde CI es el intervalo de confianza, t es el valor crítico tomado de la distribución t y N es el tamaño total de la muestra.
Katz propuso una familia de distribuciones (la familia Katz) con 2 parámetros ( w 1 , w 2 ). [69] Esta familia de distribuciones incluye las distribuciones de Bernoulli , Geométrica , Pascal y Poisson como casos especiales. La media y la varianza de una distribución de Katz son
donde m es la media y s 2 es la varianza de la muestra. Los parámetros se pueden estimar por el método de momentos del que tenemos
Para una distribución de Poisson w 2 = 0 y w 1 = λ el parámetro de la distribución de Possion. Esta familia de distribuciones también se conoce a veces como familia de distribuciones Panjer.
La familia Katz está relacionada con la familia de distribuciones Sundt-Jewel: [70]
Los únicos miembros de la familia Sundt-Jewel son las distribuciones de series de Poisson, binomial, binomial negativa (Pascal), binomial negativa truncada extendida y logarítmica .
Si la población obedece a una distribución de Katz entonces los coeficientes de la ley de Taylor son
Katz también introdujo una prueba estadística [69]
donde J n es el estadístico de prueba, s 2 es la varianza de la muestra, m es la media de la muestra y n es el tamaño de la muestra. J n tiene una distribución normal asintótica con media cero y varianza unitaria. Si la muestra tiene distribución de Poisson J n = 0; los valores de J n < 0 y > 0 indican dispersión insuficiente y excesiva, respectivamente. La sobredispersión suele ser causada por una heterogeneidad latente: la presencia de múltiples subpoblaciones dentro de la población de la que se extrae la muestra.
Esta estadística está relacionada con la estadística de Neyman-Scott.
que se sabe que es asintóticamente normal y el estadístico chi-cuadrado condicional (prueba de dispersión de Poisson)
que se sabe que tiene una distribución asintótica de chi cuadrado con n - 1 grados de libertad cuando la población tiene una distribución de Poisson.
Si la población obedece la ley de Taylor entonces
Si se supone que se aplica la ley de Taylor, es posible determinar el tiempo medio hasta la extinción local. Este modelo supone un simple paseo aleatorio en el tiempo y la ausencia de una regulación demográfica dependiente de la densidad. [71]
Sea donde N t +1 y N t son los tamaños de población en el momento t + 1 y t respectivamente y r es el parámetro igual al aumento anual (disminución de la población). Entonces
¿Dónde está la varianza de ?
Sea una medida de la abundancia de especies (organismos por unidad de área). Entonces
donde T E es el tiempo medio hasta la extinción local.
La probabilidad de extinción en el tiempo t es
Si una población tiene una distribución lognormal, entonces la media armónica del tamaño de la población ( H ) está relacionada con la media aritmética ( m ) [72]
Dado que H debe ser > 0 para que la población persista, entonces reordenando tenemos
es el tamaño mínimo de población para que la especie persista.
El supuesto de una distribución lognormal parece aplicarse a aproximadamente la mitad de una muestra de 544 especies. [73], lo que sugiere que es al menos una suposición plausible.
El grado de precisión ( D ) se define como s / m donde s es la desviación estándar y m es la media. El grado de precisión se conoce como coeficiente de variación en otros contextos. En la investigación ecológica se recomienda que D esté en el rango del 10 al 25%. [74] El grado deseado de precisión es importante al estimar el tamaño de muestra requerido cuando un investigador desea probar si la ley de Taylor se aplica a los datos. El tamaño de muestra requerido se ha estimado para varias distribuciones simples, pero cuando la distribución de la población no se conoce o no se puede asumir, es posible que se necesiten fórmulas más complejas para determinar el tamaño de muestra requerido.
Cuando la población tiene distribución de Poisson, el tamaño de muestra ( n ) necesario es
donde t es el nivel crítico de la distribución t para el error tipo 1 con los grados de libertad con los que se calculó la media ( m ).
Si la población se distribuye como una distribución binomial negativa , entonces el tamaño de muestra requerido es
donde k es el parámetro de la distribución binomial negativa.
También se ha propuesto un estimador del tamaño de la muestra más general [75]
donde a y b se derivan de la ley de Taylor.
Southwood ha propuesto una alternativa [76]
donde n es el tamaño de muestra requerido, a y b son los coeficientes de la ley de Taylor y D es el grado de precisión deseado.
Karandinos propuso dos estimadores similares para n . [77] El primero fue modificado por Ruesink para incorporar la ley de Taylor. [78]
donde d es la relación entre la mitad del intervalo de confianza ( IC ) deseado y la media. En simbolos
El segundo estimador se utiliza en el muestreo binomial (presencia-ausencia). El tamaño de muestra deseado ( n ) es
donde d p es la relación entre la mitad del intervalo de confianza deseado y la proporción de unidades de muestra con individuos, p es la proporción de muestras que contienen individuos y q = 1 − p . En simbolos
Para el muestreo binario (presencia/ausencia), Schulthess et al modificaron la ecuación de Karandinos
donde N es el tamaño de muestra requerido, p es la proporción de unidades que contienen los organismos de interés, t es el nivel de significancia elegido y Dip es un parámetro derivado de la ley de Taylor. [79]
El análisis secuencial es un método de análisis estadístico en el que el tamaño de la muestra no se fija de antemano. En lugar de ello, las muestras se toman de acuerdo con una regla de parada predefinida . La ley de Taylor se ha utilizado para derivar varias reglas de detención.
Green derivó en 1970 una fórmula para la precisión fija en el muestreo en serie para probar la ley de Taylor. [80]
donde T es el total acumulado de la muestra, D es el nivel de precisión, n es el tamaño de la muestra y a y b se obtienen de la ley de Taylor.
Como ayuda para el control de plagas, Wilson et al desarrollaron una prueba que incorporaba un nivel umbral en el que se debían tomar medidas. [81] El tamaño de muestra requerido es
donde a y b son los coeficientes de Taylor, || es el valor absoluto , m es la media muestral, T es el nivel umbral y t es el nivel crítico de la distribución t. Los autores también proporcionaron una prueba similar para el muestreo binomial (presencia-ausencia).
donde p es la probabilidad de encontrar una muestra con plagas presentes y q = 1 − p .
Green derivó otra fórmula de muestreo para el muestreo secuencial basada en la ley de Taylor [82]
donde D es el grado de precisión, a y b son los coeficientes de la ley de Taylor, n es el tamaño de la muestra y T es el número total de individuos muestreados.
Serra et al han propuesto una regla de detención basada en la ley de Taylor. [83]
donde a y b son los parámetros de la ley de Taylor, D es el nivel de precisión deseado y T n es el tamaño total de la muestra.
Serra et al también propusieron una segunda regla de detención basada en la regresión de Iwoa.
donde α y β son los parámetros de la recta de regresión, D es el nivel de precisión deseado y T n es el tamaño total de la muestra.
Los autores recomendaron que D se estableciera en 0,1 para estudios de dinámica de poblaciones y D = 0,25 para control de plagas.
Se considera una buena práctica estimar al menos un análisis de agregación adicional (distinto de la ley de Taylor) porque el uso de un solo índice puede inducir a error. [84] Aunque se han propuesto varios otros métodos para detectar relaciones entre la varianza y la media en muestras biológicas, hasta la fecha ninguno ha alcanzado la popularidad de la ley de Taylor. El análisis más popular utilizado junto con la ley de Taylor es probablemente la prueba de regresión de parches de Iwao, pero todos los métodos enumerados aquí se han utilizado en la literatura.
Barlett en 1936 [85] y más tarde Iwao de forma independiente en 1968 [86] propusieron una relación alternativa entre la varianza y la media. En simbolos
donde s es la varianza en la i -ésima muestra y m i es la media de la i -ésima muestra
Cuando la población sigue una distribución binomial negativa , a = 1 y b = k (el exponente de la distribución binomial negativa).
En la mayoría de los estudios no se ha encontrado que esta formulación alternativa se ajuste tan bien como la ley de Taylor.
Nachman propuso una relación entre la densidad media y la proporción de muestras con recuentos cero: [87]
donde p 0 es la proporción de la muestra con recuentos cero, m es la densidad media, a es un parámetro de escala y b es un parámetro de dispersión. Si a = b = 1 la distribución es aleatoria. Esta relación generalmente se prueba en su forma logarítmica.
Allsop utilizó esta relación junto con la ley de Taylor para derivar una expresión para la proporción de unidades infestadas en una muestra [88]
dónde
donde D 2 es el grado de precisión deseado, z α/2 es el α/2 superior de la distribución normal, a y b son los coeficientes de la ley de Taylor, c y d son los coeficientes de Nachman, n es el tamaño de la muestra y N es el número de unidades infestadas.
El muestreo binario no es infrecuente en ecología. En 1958 Kono y Sugino derivaron una ecuación que relaciona la proporción de muestras sin individuos con la densidad media de las muestras. [89]
donde p 0 es la proporción de la muestra sin individuos, m es la densidad media de la muestra, a y b son constantes. Al igual que la ley de Taylor, se ha descubierto que esta ecuación se ajusta a una variedad de poblaciones, incluidas aquellas que obedecen la ley de Taylor. A diferencia de la distribución binomial negativa, este modelo es independiente de la densidad media.
La derivación de esta ecuación es sencilla. Sea p 0 la proporción de unidades vacías y supongamos que están distribuidas exponencialmente. Entonces
Tomando troncos dos veces y reorganizándolos, obtenemos la ecuación anterior. Este modelo es el mismo que el propuesto por Nachman.
La ventaja de este modelo es que no requiere contar a los individuos sino su presencia o ausencia. Es posible que en muchos casos no sea posible contar individuos, especialmente cuando el tema de estudio son los insectos.
La ecuación se derivó al examinar la relación entre la proporción P de una serie de colinas de arroz infestadas y la gravedad media de la infestación m . El modelo estudiado fue
donde a y b son constantes empíricas. Con base en este modelo, se derivaron las constantes a y b y se preparó una tabla que relaciona los valores de P y m.
Las estimaciones previstas de m a partir de esta ecuación están sujetas a sesgo [90] y se recomienda utilizar en su lugar la media ajustada ( m a ) [91]
donde var es la varianza de las medias unitarias de muestra m i y m es la media general.
Un ajuste alternativo a las estimaciones medias es [91]
donde MSE es el error cuadrático medio de la regresión.
Este modelo también se puede utilizar para estimar líneas de parada para muestreo enumerativo (secuencial). La varianza de las medias estimadas es [92]
dónde
donde MSE es el error cuadrático medio de la regresión, α y β son la constante y la pendiente de la regresión respectivamente, s β 2 es la varianza de la pendiente de la regresión, N es el número de puntos de la regresión, n es el número de unidades de muestra y p es el valor medio de p 0 en la regresión. Los parámetros a y b se estiman a partir de la ley de Taylor:
Hughes y Madden han propuesto probar una relación similar aplicable a observaciones binarias en conglomerados, donde cada conglomerado contiene de 0 a n individuos. [60]
donde a , byc son constantes, var obs es la varianza observada y p es la proporción de individuos con un rasgo (como una enfermedad), una estimación de la probabilidad de que un individuo tenga un rasgo. En forma logarítmica, esta relación es
En la mayoría de los casos, se supone que b = c , lo que lleva a un modelo simple
Esta relación ha sido sometida a pruebas menos exhaustivas que la ley de Taylor. Sin embargo, ha descrito con precisión más de 100 conjuntos de datos y no hay ejemplos publicados que indiquen que no funciona. [62]
Shiyomi et al. propusieron una variante de esta ecuación. ( [93] ) quien sugirió probar la regresión
donde var obs es la varianza, a y b son las constantes de la regresión, n aquí es el tamaño de la muestra (no la muestra por grupo) y p es la probabilidad de que una muestra contenga al menos un individuo.
También se ha propuesto un modelo binomial negativo. [94] El parámetro de dispersión ( k ) usando el método de los momentos es m 2 / ( s 2 – m ) y p i es la proporción de muestras con recuentos > 0. Los s 2 utilizados en el cálculo de k son los valores predichos por la ley de Taylor. p i se traza contra 1 − ( k ( k + m ) −1 ) k y el ajuste de los datos se inspecciona visualmente.
Perry y Taylor propusieron un estimador alternativo de k basado en la ley de Taylor. [95]
Se puede realizar una mejor estimación del parámetro de dispersión con el método de máxima verosimilitud . Para el binomio negativo se puede estimar a partir de la ecuación [67]
donde A x es el número total de muestras con más de x individuos, N es el número total de individuos, x es el número de individuos en una muestra, m es el número medio de individuos por muestra y k es el exponente. El valor de k debe estimarse numéricamente.
La bondad de ajuste de este modelo se puede probar de varias maneras, incluido el uso de la prueba de chi cuadrado. Como estas pueden estar sesgadas por muestras pequeñas, una alternativa es el estadístico U : la diferencia entre la varianza esperada bajo la distribución binomial negativa y la de la muestra. La varianza esperada de esta distribución es m + m 2 / k y
donde s 2 es la varianza muestral, m es la media muestral y k es el parámetro binomial negativo.
La varianza de U es [67]
donde p = m / k , q = 1 + p , R = p / q y N es el número total de individuos de la muestra. El valor esperado de U es 0. Para tamaños de muestra grandes, U se distribuye normalmente.
Nota: El binomio negativo es en realidad una familia de distribuciones definidas por la relación de la media con la varianza.
donde a y p son constantes. Cuando a = 0 esto define la distribución de Poisson. Con p = 1 y p = 2, la distribución se conoce como distribución NB1 y NB2 respectivamente.
Este modelo es una versión del propuesto anteriormente por Barlett.
El parámetro de dispersión ( k ) [67] es
donde m es la media muestral y s 2 es la varianza. Si k −1 es > 0 la población se considera agregada; k −1 = 0 la población se considera aleatoria; y si k −1 es < 0, se considera que la población está distribuida uniformemente.
Southwood ha recomendado hacer una regresión de k frente a la media y una constante [76]
donde k i y m i son el parámetro de dispersión y la media de la i-ésima muestra respectivamente para probar la existencia de un parámetro de dispersión común ( k c ). Un valor de pendiente ( b ) significativamente > 0 indica la dependencia de k de la densidad media.
Elliot propuso un método alternativo y sugirió representar gráficamente ( s 2 − m ) contra ( m 2 − s 2 / n ). [96] k c es igual a 1/pendiente de esta regresión.
Este coeficiente ( C ) se define como
Si se puede suponer que la población está distribuida de forma binomial negativa, entonces C = 100 (1/ k ) 0,5 donde k es el parámetro de dispersión de la distribución.
Este índice ( I c ) se define como [97]
La interpretación habitual de este índice es la siguiente: los valores de I c < 1, = 1, > 1 se consideran una distribución uniforme, una distribución aleatoria o una distribución agregada.
Como s 2 = Σ x 2 − (Σx) 2 , el índice también se puede escribir
Si se puede suponer que se cumple la ley de Taylor, entonces
El índice de apiñamiento medio de Lloyd ( IMC ) es el número promedio de otros puntos contenidos en la unidad de muestra que contiene un punto elegido al azar. [98]
donde m es la media muestral y s 2 es la varianza.
El índice de parcheo de Lloyd ( IP ) [98] es
Es una medida de la intensidad del patrón que no se ve afectada por el adelgazamiento (eliminación aleatoria de puntos). Este índice también fue propuesto por Pielou en 1988 y a veces también se le conoce con este nombre.
Debido a que es extremadamente difícil estimar la varianza de IP a partir de la fórmula misma, LLyod sugirió ajustar una distribución binomial negativa a los datos. Este método da un parámetro k
Entonces
donde es el error estándar del índice de parcheo, es la varianza del parámetro k y q es el número de cuadrantes muestreados.
Si la población obedece la ley de Taylor entonces
Iwao propuso una regresión irregular para probar la aglomeración [99] [100]
Dejar
Aquí está el índice de Lloyd de hacinamiento medio . [98] Realice una regresión de mínimos cuadrados ordinaria de m i contra y .
En esta regresión, el valor de la pendiente ( b ) es un indicador de agrupación: la pendiente = 1 si los datos están distribuidos por Poisson. La constante ( a ) es el número de individuos que comparten una unidad de hábitat con una densidad infinitesimal y puede ser < 0, 0 o > 0. Estos valores representan regularidad, aleatoriedad y agregación de poblaciones en patrones espaciales respectivamente. Se considera que un valor de a < 1 significa que la unidad básica de la distribución es un solo individuo.
Cuando el estadístico s 2 / m no es constante, se recomienda utilizar en su lugar la regresión del índice de Lloyd contra am + bm 2, donde a y b son constantes. [101]
El tamaño de la muestra ( n ) para un grado dado de precisión ( D ) para esta regresión viene dado por [101]
donde a es la constante en esta regresión, b es la pendiente, m es la media y t es el valor crítico de la distribución t.
Iwao ha propuesto una prueba de muestreo secuencial basada en esta regresión. [102] Los límites superior e inferior de esta prueba se basan en densidades críticas m c donde el control de una plaga requiere que se tomen medidas.
donde N u y N l son los límites superior e inferior respectivamente, a es la constante de la regresión, b es la pendiente e i es el número de muestras.
Kuno ha propuesto una prueba de parada secuencial alternativa también basada en esta regresión. [103]
donde T n es el tamaño total de la muestra, D es el grado de precisión, n es el número de unidades de muestra, a es la constante y b es la pendiente de la regresión, respectivamente.
La prueba de Kuno está sujeta a la condición de que n ≥ ( b − 1) / D 2
Parrella y Jones han propuesto una línea de parada alternativa pero relacionada [104]
donde a y b son los parámetros de la regresión, N es el número máximo de unidades muestreadas y n es el tamaño de muestra individual.
El índice de dispersión de Morisita ( I m ) es la probabilidad escalada de que dos puntos elegidos al azar de toda la población estén en la misma muestra. [105] Los valores más altos indican una distribución más agrupada.
Una formulación alternativa es
donde n es el tamaño total de la muestra, m es la media de la muestra y x son los valores individuales con la suma tomada de toda la muestra. También es igual a
donde IMC es el índice de hacinamiento de Lloyd. [98]
Este índice es relativamente independiente de la densidad de población, pero se ve afectado por el tamaño de la muestra. Los valores > 1 indican aglomeración; los valores <1 indican una uniformidad de distribución y un valor de 1 indica una muestra aleatoria.
Morisita demostró que la estadística [105]
se distribuye como una variable de chi cuadrado con n − 1 grados de libertad.
Se ha desarrollado una prueba de significancia alternativa para este índice para muestras grandes. [106]
donde m es la media muestral general, n es el número de unidades de muestra yz es la abscisa de la distribución normal . La importancia se prueba comparando el valor de z con los valores de la distribución normal .
Una función para su cálculo está disponible en el lenguaje estadístico R en el paquete vegano.
Tenga en cuenta que no debe confundirse con el índice de superposición de Morisita .
Smith-Gill desarrolló una estadística basada en el índice de Morisita que es independiente tanto del tamaño de la muestra como de la densidad de población y está limitada por −1 y +1. Esta estadística se calcula de la siguiente manera [107]
Primero determine el índice de Morisita ( I d ) de la forma habitual. Entonces sea k el número de unidades de las que se tomó la muestra de la población. Calcule los dos valores críticos.
donde χ 2 es el valor de chi cuadrado para n − 1 grados de libertad en los niveles de confianza del 97,5% y 2,5%.
Luego , el índice estandarizado ( I p ) se calcula a partir de una de las fórmulas siguientes.
Cuando I d ≥ M c > 1
Cuando M c > I d ≥ 1
Cuando 1 > I d ≥ M u
Cuando 1 > M u > I d
I p oscila entre +1 y −1 con intervalos de confianza del 95% de ±0,5. I p tiene el valor de 0 si el patrón es aleatorio; si el patrón es uniforme, I p < 0 y si el patrón muestra agregación, I p > 0.
El índice de agregación espacial de Southwood ( k ) se define como
donde m es la media de la muestra y m * es el índice de hacinamiento de Lloyd. [76]
El índice de dispersión de Fisher [108] [109] es
Este índice puede utilizarse para comprobar la sobredispersión de la población. Se recomienda que en aplicaciones n > 5 [110] y que el total de muestras dividido por el número de muestras sea > 3. En símbolos
donde x es un valor de muestra individual. La expectativa del índice es igual a n y se distribuye como la distribución chi-cuadrado con n − 1 grados de libertad cuando la población tiene una distribución de Poisson. [110] Es igual al parámetro de escala cuando la población obedece a la distribución gamma .
Puede aplicarse tanto a la población general como a las áreas individuales muestreadas individualmente. El uso de esta prueba en áreas de muestra individuales también debe incluir el uso de un factor de corrección de Bonferroni.
Si la población obedece la ley de Taylor entonces
El índice de tamaño de conglomerado ( ICS ) fue creado por David y Moore. [111] Bajo una distribución aleatoria (Poisson), se espera que ICS sea igual a 0. Los valores positivos indican una distribución agrupada; los valores negativos indican una distribución uniforme.
donde s 2 es la varianza y m es la media.
Si la población obedece la ley de Taylor
El ICS también es igual al estadístico de prueba de Katz dividido por ( n / 2) 1/2 donde n es el tamaño de la muestra. También está relacionado con el estadístico de la prueba de Clapham. A veces también se le conoce como índice de aglomeración.
El índice de Green ( IG ) es una modificación del índice de tamaño de conglomerado que es independiente del número de unidades de muestra. [112]
Este índice es igual a 0 si la distribución es aleatoria, 1 si está agregada al máximo y −1 / ( nm − 1 ) si es uniforme.
Actualmente no se conoce la distribución del índice de Green, por lo que ha sido difícil idear pruebas estadísticas para ello.
Si la población obedece la ley de Taylor
El muestreo binario (presencia/ausencia) se utiliza con frecuencia cuando es difícil obtener recuentos precisos. El índice de dispersión ( D ) se utiliza cuando la población de estudio se divide en una serie de muestras iguales (número de unidades = N : número de unidades por muestra = n : tamaño total de la población = n x N ). [113] La varianza teórica de una muestra de una población con distribución binomial es
donde s 2 es la varianza, n es el número de unidades muestreadas y p es la proporción media de unidades de muestreo con al menos un individuo presente. El índice de dispersión ( D ) se define como la relación entre la varianza observada y la varianza esperada. En simbolos
donde var obs es la varianza observada y var bin es la varianza esperada. La varianza esperada se calcula con la media general de la población. Se considera que los valores de D > 1 sugieren agregación. D ( n − 1 ) se distribuye como la variable chi cuadrado con n − 1 grados de libertad donde n es el número de unidades muestreadas.
Una prueba alternativa es la prueba C. [114]
donde D es el índice de dispersión, n es el número de unidades por muestra y N es el número de muestras. C se distribuye normalmente. Un valor estadísticamente significativo de C indica sobredispersión de la población.
D también está relacionado con la correlación intraclase ( ρ ) que se define como [115]
donde T es el número de organismos por muestra, p es la probabilidad de que el organismo tenga la propiedad buscada (enfermo, libre de plagas, etc. ) y xi es el número de organismos en la i- ésima unidad con esta propiedad. T debe ser el mismo para todas las unidades muestreadas. En este caso con n constante
Si los datos pueden ajustarse a una distribución beta-binomial, entonces [115]
donde θ es el parámetro de la distribución. [114]
Ma ha propuesto un parámetro ( m 0 ), la densidad crítica de agregación de población, para relacionar la densidad de población con la ley de Taylor. [116]
Se conocen varias pruebas estadísticas que pueden resultar útiles en las aplicaciones.
Una estadística relacionada sugerida por de Oliveria [117] es la diferencia entre la varianza y la media. [118] Si la población tiene una distribución de Poisson, entonces
donde t es el parámetro de Poisson, s 2 es la varianza, m es la media y n es el tamaño de la muestra. El valor esperado de s 2 - m es cero. Esta estadística se distribuye normalmente. [119]
Si el parámetro de Poisson en esta ecuación se estima poniendo t = m , después de una pequeña manipulación se puede escribir esta estadística
Esto es casi idéntico a la estadística de Katz con ( n - 1) reemplazando a n . Nuevamente, OT tiene una distribución normal con media 0 y varianza unitaria para n grande . Esta estadística es la misma que la estadística de Neyman-Scott.
De Oliveria en realidad sugirió que la varianza de s 2 - m era ( 1 - 2 t 1/2 + 3 t ) / n donde t es el parámetro de Poisson. Sugirió que t podría estimarse igualándolo a la media ( m ) de la muestra. Una investigación más detallada realizada por Bohning [118] mostró que esta estimación de la varianza era incorrecta. La corrección de Bohning se da en las ecuaciones anteriores.
En 1936, Clapham propuso utilizar la relación entre la varianza y la media como estadístico de prueba (la varianza relativa). [120] En símbolos
Para una distribución de Possion, esta relación es igual a 1. Para probar las desviaciones de este valor, propuso comparar su valor con la distribución de chi cuadrado con n grados de libertad, donde n es el número de unidades de muestra. Blackman [121] estudió más a fondo la distribución de esta estadística y observó que tenía una distribución aproximadamente normal con una media de 1 y una varianza ( V θ ) de
Bartlett [122] volvió a analizar la derivación de la varianza y la consideró
Para muestras grandes, estas dos fórmulas concuerdan aproximadamente. Esta prueba está relacionada con el estadístico J n de Katz posterior .
Si la población obedece la ley de Taylor entonces
También se ha publicado una mejora de esta prueba [123]. Estos autores observaron que la prueba original tiende a detectar sobredispersión en escalas más altas incluso cuando esto no estaba presente en los datos. Señalaron que el uso de la distribución multinomial puede ser más apropiado que el uso de una distribución de Poisson para dichos datos. El estadístico θ se distribuye
donde N es el número de unidades de muestra, n es el número total de muestras examinadas y xi son los valores de datos individuales.
La expectativa y la varianza de θ son
Para N grande , E( θ ) es aproximadamente 1 y
Si el número de individuos muestreados ( n ) es grande, esta estimación de la varianza concuerda con las derivadas anteriormente. Sin embargo, para muestras más pequeñas estas últimas estimaciones son más precisas y deberían utilizarse.
{{cite journal}}
: CS1 maint: multiple names: authors list (link){{cite journal}}
: CS1 maint: multiple names: authors list (link)Leyes de poder