La ley de potencia de Taylor es una ley empírica en ecología que relaciona la varianza del número de individuos de una especie por unidad de área de hábitat con la media correspondiente mediante una relación de ley de potencia . [1] Recibe su nombre en honor al ecólogo que la propuso por primera vez en 1961, Lionel Roy Taylor (1924-2007). [2] El nombre original de Taylor para esta relación era ley de la media. [1] El nombre de ley de Taylor fue acuñado por Southwood en 1966. [2]
Esta ley se definió originalmente para sistemas ecológicos, específicamente para evaluar la agrupación espacial de organismos. Para un recuento de población con media y varianza , la ley de Taylor se escribe
donde a y b son ambas constantes positivas. Taylor propuso esta relación en 1961, sugiriendo que el exponente b se considere un índice específico de agregación de especies. [1] Esta ley de potencia ha sido confirmada posteriormente para muchos cientos de especies. [3] [4]
La ley de Taylor también se ha aplicado para evaluar los cambios dependientes del tiempo en las distribuciones de población. [3] También se han demostrado leyes de varianza relacionada con la potencia media en varios sistemas no ecológicos:
El primer uso de un gráfico logarítmico doble fue realizado por Reynolds en 1879 sobre aerodinámica térmica. [17] Pareto utilizó un gráfico similar para estudiar la proporción de una población y sus ingresos. [18]
El término varianza fue acuñado por Fisher en 1918. [19]
Pearson [20] en 1921 propuso la ecuación (también estudiada por Neyman [21] )
En 1938, Smith, al estudiar el rendimiento de los cultivos, propuso una relación similar a la de Taylor. [22] Esta relación fue
donde V x es la varianza del rendimiento para parcelas de x unidades, V 1 es la varianza del rendimiento por unidad de área y x es el tamaño de las parcelas. La pendiente ( b ) es el índice de heterogeneidad. El valor de b en esta relación se encuentra entre 0 y 1. Cuando los rendimientos están altamente correlacionados, b tiende a 0; cuando no están correlacionados, b tiende a 1.
Bliss [23] en 1941, Fracker y Brischle [24] en 1941 y Hayman y Lowe [25] en 1961 también describieron lo que ahora se conoce como la ley de Taylor, pero en el contexto de datos de especies individuales.
El artículo de Taylor de 1961 utilizó datos de 24 artículos, publicados entre 1936 y 1960, que consideraron una variedad de entornos biológicos: lesiones de virus , macrozooplancton , gusanos y sínfilos en el suelo , insectos en el suelo, en plantas y en el aire, ácaros en hojas , garrapatas en ovejas y peces en el mar . [1] El valor b se encontraba entre 1 y 3. Taylor propuso la ley de potencia como una característica general de la distribución espacial de estas especies. También propuso una hipótesis mecanicista para explicar esta ley.
Los intentos iniciales de explicar la distribución espacial de los animales se habían basado en enfoques como los modelos estocásticos de población de Bartlett y la distribución binomial negativa que podría resultar de los procesos de nacimiento-muerte . [26] La explicación de Taylor se basó en el supuesto de un comportamiento migratorio y congregatorio equilibrado de los animales. [1] Su hipótesis fue inicialmente cualitativa, pero a medida que evolucionó se volvió semicuantitativa y fue apoyada por simulaciones. [27]
Se han propuesto muchas hipótesis alternativas para la ley de potencia. Hanski propuso un modelo de paseo aleatorio, modulado por el supuesto efecto multiplicativo de la reproducción. [28] El modelo de Hanski predijo que el exponente de la ley de potencia estaría limitado a un rango cercano al valor 2, lo que parecía inconsistente con muchos valores reportados. [3] [4]
Anderson et al. formularon un modelo estocástico simple de nacimiento, muerte, inmigración y emigración que produjo una función de varianza cuadrática. [29] Como respuesta a este modelo, Taylor argumentó que un proceso de Markov de este tipo predeciría que el exponente de la ley de potencia variaría considerablemente entre observaciones replicadas, y que dicha variabilidad no se había observado. [30]
Kemp revisó una serie de modelos estocásticos discretos basados en la distribución binomial negativa, la distribución Neyman tipo A y la distribución Polya–Aeppli que, con un ajuste adecuado de los parámetros, podrían producir una variación de la ley de potencia media. [31] Sin embargo, Kemp no explicó las parametrizaciones de sus modelos en términos mecanicistas. A continuación, se presentaron otros modelos relativamente abstractos para la ley de Taylor. [6] [32]
Se plantearon preocupaciones estadísticas con respecto a la ley de Taylor, basadas en la dificultad con los datos reales para distinguir entre la ley de Taylor y otras funciones de varianza a media, así como la inexactitud de los métodos de regresión estándar. [33] [34]
La ley de Taylor se ha aplicado a datos de series temporales y Perry demostró, mediante simulaciones, que la teoría del caos podría producir la ley de Taylor. [35]
La ley de Taylor se ha aplicado a la distribución espacial de plantas [36] y poblaciones bacterianas [37]. Al igual que con las observaciones del virus de la necrosis del tabaco mencionadas anteriormente, estas observaciones no fueron consistentes con el modelo de comportamiento animal de Taylor.
Se ha aplicado una función de potencia de varianza a media a sistemas no ecológicos, bajo el lema de la ley de Taylor. Se ha propuesto una explicación más general para el rango de manifestaciones de la ley de potencia, una hipótesis basada en las distribuciones de Tweedie [38], una familia de modelos probabilísticos que expresan una relación de función de potencia inherente entre la varianza y la media. [11] [13] [39]
Se han propuesto varias hipótesis alternativas para la ley de potencia. Hanski propuso un modelo de paseo aleatorio, modulado por el supuesto efecto multiplicativo de la reproducción. [28] El modelo de Hanski predijo que el exponente de la ley de potencia estaría restringido a un rango cercano al valor de 2, lo que parecía inconsistente con muchos valores informados. [3] [4] Anderson et al. formularon un modelo estocástico simple de nacimiento, muerte, inmigración y emigración que produjo una función de varianza cuadrática. [29] El modelo de crecimiento de Lewontin Cohen . [40] es otra explicación propuesta. Se planteó la posibilidad de que las observaciones de una ley de potencia pudieran reflejar más un artefacto matemático que un proceso mecanicista. [41] Sin embargo, la variación en los exponentes de la Ley de Taylor aplicada a poblaciones ecológicas no se puede explicar ni predecir basándose únicamente en motivos estadísticos. [42] La investigación ha demostrado que la variación dentro de los exponentes de la Ley de Taylor para la comunidad de peces del Mar del Norte varía con el entorno externo, lo que sugiere que los procesos ecológicos determinan al menos parcialmente la forma de la Ley de Taylor. [43]
En la literatura de física, la ley de Taylor se ha denominado escala de fluctuación . Eisler et al. , en un intento adicional de encontrar una explicación general para la escala de fluctuación, propusieron un proceso que llamaron inhomogeneidad de impacto en el que los eventos frecuentes se asocian con impactos mayores. [44] Sin embargo, en el apéndice B del artículo de Eisler, los autores señalaron que las ecuaciones para la inhomogeneidad de impacto arrojaron las mismas relaciones matemáticas que las encontradas con las distribuciones de Tweedie.
Otro grupo de físicos, Fronczak y Fronczak, derivaron la ley de potencia de Taylor para el escalamiento de fluctuaciones a partir de principios de física estadística de equilibrio y no equilibrio . [45] Su derivación se basó en suposiciones de cantidades físicas como la energía libre y un campo externo que causaban la agrupación de organismos biológicos. Sin embargo, aún no se ha logrado una demostración experimental directa de estas cantidades físicas postuladas en relación con la agregación de animales o plantas. Poco después, se presentó un análisis del modelo de Fronczak y Fronczak que mostraba que sus ecuaciones conducían directamente a las distribuciones de Tweedie, un hallazgo que sugería que Fronczak y Fronczak posiblemente habían proporcionado una derivación de entropía máxima de estas distribuciones. [14]
Se ha demostrado que la ley de Taylor es válida para números primos que no superan un número real dado. [46] Se ha demostrado que este resultado es válido para los primeros 11 millones de primos. Si la conjetura de los primos gemelos de Hardy-Littlewood es cierta, entonces esta ley también es válida para los primos gemelos.
En la misma época en que Taylor estaba corroborando sus observaciones ecológicas, MCK Tweedie , un estadístico y físico médico británico, estaba investigando una familia de modelos probabilísticos que ahora se conocen como distribuciones de Tweedie . [47] [48] Como se mencionó anteriormente, todas estas distribuciones se caracterizan por una ley de potencia de varianza a media matemáticamente idéntica a la ley de Taylor.
La distribución Tweedie más aplicable a las observaciones ecológicas es la distribución Poisson-gamma compuesta , que representa la suma de N variables aleatorias independientes e idénticamente distribuidas con una distribución gamma, donde N es una variable aleatoria distribuida de acuerdo con una distribución Poisson. En la forma aditiva, su función generadora de cumulantes (CGF) es:
donde κ b ( θ ) es la función cumulante,
El exponente Tweedie
s es la variable de función generadora, y θ y λ son los parámetros canónicos y de índice, respectivamente. [38]
Estos dos últimos parámetros son análogos a los parámetros de escala y forma utilizados en la teoría de la probabilidad. Los cumulantes de esta distribución se pueden determinar mediante diferenciaciones sucesivas del CGF y luego sustituyendo s = 0 en las ecuaciones resultantes. Los primeros y segundos cumulantes son la media y la varianza, respectivamente, y por lo tanto el CGF compuesto de Poisson-gamma produce la ley de Taylor con la constante de proporcionalidad.
La función de distribución acumulativa compuesta de Poisson-gamma se ha verificado para datos ecológicos limitados mediante la comparación de la función de distribución teórica con la función de distribución empírica. [39] Se han probado de manera similar varios otros sistemas, que demuestran leyes de potencia de varianza a media relacionadas con la ley de Taylor, para la distribución compuesta de Poisson-gamma. [12] [13] [14] [16]
La principal justificación de la hipótesis de Tweedie se basa en las propiedades de convergencia matemática de las distribuciones de Tweedie. [13] El teorema de convergencia de Tweedie requiere que las distribuciones de Tweedie actúen como focos de convergencia para una amplia gama de procesos estadísticos. [49] Como consecuencia de este teorema de convergencia, los procesos basados en la suma de múltiples pequeños saltos independientes tenderán a expresar la ley de Taylor y obedecer una distribución de Tweedie. Un teorema límite para variables independientes e idénticamente distribuidas, como el teorema de convergencia de Tweedie, podría entonces considerarse fundamental en relación con los modelos de población ad hoc , o los modelos propuestos sobre la base de la simulación o la aproximación. [14] [16]
Esta hipótesis sigue siendo controvertida; los ecólogos parecen preferir los enfoques de dinámica de poblaciones más convencionales , a pesar del hecho de que la distribución de Poisson compuesta de Tweedie se puede aplicar directamente a los mecanismos de dinámica de poblaciones. [6]
Una dificultad con la hipótesis de Tweedie es que el valor de b no varía entre 0 y 1. Los valores de b < 1 son raros, pero se han informado. [50]
En simbolos
donde s i 2 es la varianza de la densidad de la i ésima muestra, m i es la densidad media de la i ésima muestra y a y b son constantes.
En forma logarítmica
El exponente de la ley de Taylor es invariante de escala: si la unidad de medida se cambia por un factor constante , el exponente ( ) permanece sin cambios.
Para comprobarlo, supongamos que y = cx . Entonces
La ley de Taylor expresada en la variable original ( x ) es
y en la variable reescalada ( y ) es
Por lo tanto, sigue siendo proporcional a (aunque la constante de proporcionalidad haya cambiado).
Se ha demostrado que la ley de Taylor es la única relación entre la media y la varianza que es invariante en la escala. [51]
Rayner propuso un refinamiento en la estimación de la pendiente b . [52]
donde es el coeficiente de correlación del momento de Pearson entre y , es la relación de las varianzas de muestra en y y es la relación de los errores en y .
La regresión de mínimos cuadrados ordinaria supone que φ = ∞. Esto tiende a subestimar el valor de b porque las estimaciones de ambos están sujetas a error.
Ferris et al. propusieron una extensión de la ley de Taylor cuando se toman múltiples muestras [53].
donde s 2 y m son la varianza y la media respectivamente, b , c y d son constantes y n es el número de muestras tomadas. Hasta la fecha, no se ha verificado que esta extensión propuesta sea tan aplicable como la versión original de la ley de Taylor.
Hanski ha propuesto una extensión de esta ley para muestras pequeñas. [54] Para muestras pequeñas, la variación de Poisson ( P ) -la variación que puede atribuirse a la variación de muestreo- puede ser significativa. Sea S la varianza total y sea V la varianza biológica (real). Entonces
Suponiendo la validez de la ley de Taylor, tenemos
Debido a que en la distribución de Poisson la media es igual a la varianza, tenemos
Esto nos da
Esto se parece mucho a la sugerencia original de Barlett.
Los valores de pendiente ( b ) significativamente > 1 indican agrupamiento de los organismos.
En datos distribuidos según Poisson , b = 1. [30] Si la población sigue una distribución lognormal o gamma , entonces b = 2.
Para las poblaciones que experimentan una variabilidad ambiental per cápita constante, la regresión de log(varianza) versus log(abundancia media) debe tener una línea con b = 2.
La mayoría de las poblaciones que se han estudiado tienen b < 2 (generalmente 1,5–1,6), pero se han reportado valores de 2. [55] Ocasionalmente se han reportado casos con b > 2. [3] Los valores b por debajo de 1 son poco comunes, pero también se han reportado ( b = 0,93). [50]
Se ha sugerido que el exponente de la ley ( b ) es proporcional a la asimetría de la distribución subyacente. [56] Esta propuesta ha sido criticada: parece que se necesita más investigación. [57] [58]
El origen de la pendiente ( b ) en esta regresión no está claro. Se han propuesto dos hipótesis para explicarlo. Una sugiere que b surge del comportamiento de la especie y es una constante para esa especie. La alternativa sugiere que depende de la población muestreada. A pesar del considerable número de estudios realizados sobre esta ley (más de 1000), esta cuestión sigue abierta.
Se sabe que tanto a como b están sujetos a cambios debido a la dispersión específica por edad, la mortalidad y el tamaño de la unidad de muestra. [59]
Esta ley puede no ser adecuada si los valores son pequeños. Por este motivo, Hanski propuso una extensión de la ley de Taylor que mejora el ajuste de la ley de Taylor a densidades bajas. [54]
Se ha propuesto una forma de la ley de Taylor aplicable a datos binarios en grupos (ecuaciones, cuadrantes). [60] En una distribución binomial, la varianza teórica es
donde (var bin ) es la varianza binomial, n es el tamaño de la muestra por conglomerado y p es la proporción de individuos con un rasgo (como una enfermedad), una estimación de la probabilidad de que un individuo tenga ese rasgo.
Una dificultad con los datos binarios es que la media y la varianza, en general, tienen una relación particular: a medida que la proporción media de individuos infectados aumenta por encima de 0,5, la varianza disminuye.
Ahora se sabe que la varianza observada (var obs ) cambia como una función de potencia de (var bin ). [60]
Hughes y Madden observaron que si la distribución es de Poisson, la media y la varianza son iguales. [60] Como claramente este no es el caso en muchas muestras de proporciones observadas, en su lugar asumieron una distribución binomial. Reemplazaron la media en la ley de Taylor con la varianza binomial y luego compararon esta varianza teórica con la varianza observada. Para los datos binomiales, demostraron que var obs = var bin con sobredispersión, var obs > var bin .
En símbolos, la modificación de Hughes y Madden a la ley de Tyalor fue
En forma logarítmica esta relación es
Esta última versión se conoce como ley de potencia binaria.
Un paso clave en la derivación de la ley de potencia binaria por Hughes y Madden fue la observación hecha por Patil y Stiteler [61] de que la relación entre la varianza y la media utilizada para evaluar la sobredispersión de recuentos ilimitados en una sola muestra es en realidad la relación de dos varianzas: la varianza observada y la varianza teórica para una distribución aleatoria. Para recuentos ilimitados, la distribución aleatoria es la de Poisson. Por lo tanto, la ley de potencia de Taylor para una colección de muestras puede considerarse como una relación entre la varianza observada y la varianza de Poisson.
En términos más generales, Madden y Hughes [60] consideraron la ley de potencia como la relación entre dos varianzas, la varianza observada y la varianza teórica para una distribución aleatoria. Con datos binarios, la distribución aleatoria es la binomial (no la de Poisson). Por lo tanto, la ley de potencia de Taylor y la ley de potencia binaria son dos casos especiales de relaciones de ley de potencia generales para la heterogeneidad.
Cuando a y b son iguales a 1, se sugiere un patrón espacial aleatorio de pequeña escala y se describe mejor mediante la distribución binomial. Cuando b = 1 y a > 1, hay sobredispersión (agregación de pequeña escala). Cuando b es > 1, el grado de agregación varía con p . Turechek et al [62] han demostrado que la ley de potencia binaria describe numerosos conjuntos de datos en patología vegetal. En general, b es mayor que 1 y menor que 2.
El ajuste de esta ley se ha probado mediante simulaciones. [63] Estos resultados sugieren que, en lugar de una única línea de regresión para el conjunto de datos, una regresión segmentaria puede ser un mejor modelo para distribuciones genuinamente aleatorias. Sin embargo, esta segmentación solo ocurre para distancias de dispersión de rango muy corto y tamaños de cuadrantes grandes. [62] La ruptura de la línea ocurre solo en p muy cerca de 0.
Se ha propuesto una extensión de esta ley. [64] La forma original de esta ley es simétrica, pero se puede extender a una forma asimétrica. [64] Mediante simulaciones, la forma simétrica se ajusta a los datos cuando existe una correlación positiva del estado de enfermedad de los vecinos. Cuando existe una correlación negativa entre la probabilidad de que los vecinos estén infectados, la versión asimétrica se ajusta mejor a los datos.
Debido a la aparición omnipresente de la ley de Taylor en biología, se le han encontrado diversos usos, algunos de los cuales se enumeran aquí.
Se ha recomendado, basándose en estudios de simulación [65] en aplicaciones que prueban la validez de la ley de Taylor para una muestra de datos, que:
(1) el número total de organismos estudiados debe ser > 15
(2) el número mínimo de grupos de organismos estudiados debe ser > 5
(3) la densidad de los organismos debe variar al menos en 2 órdenes de magnitud dentro de la muestra
Se supone comúnmente (al menos inicialmente) que una población está distribuida aleatoriamente en el entorno. Si una población está distribuida aleatoriamente, entonces la media ( m) y la varianza (s2 ) de la población son iguales y la proporción de muestras que contienen al menos un individuo ( p ) es
Cuando se compara una especie con un patrón agrupado con una que se distribuye aleatoriamente con densidades generales iguales, p será menor para la especie que tenga el patrón de distribución agrupado. Por el contrario, cuando se compara una especie distribuida de manera uniforme con una especie distribuida aleatoriamente pero con densidades generales iguales, p será mayor para la población distribuida aleatoriamente. Esto se puede comprobar gráficamente trazando p contra m .
Wilson y Room desarrollaron un modelo binomial que incorpora la ley de Taylor. [66] La relación básica es
donde se lleva el tronco a la base e .
Incorporando la ley de Taylor esta relación se convierte en
El parámetro de dispersión común ( k ) de la distribución binomial negativa es
donde es la media de la muestra y es la varianza. [67] Si 1 / k es > 0 la población se considera agregada; 1 / k = 0 ( s 2 = m ) la población se considera distribuida aleatoriamente (Poisson) y si 1 / k es < 0 la población se considera distribuida uniformemente. No se puede hacer ningún comentario sobre la distribución si k = 0.
Wilson y Room supusieron que la ley de Taylor se aplicaba a la población y obtuvieron un estimador alternativo para k : [66]
donde a y b son las constantes de la ley de Taylor.
Jones [68] utilizó la estimación de k anterior junto con la relación que Wilson y Room desarrollaron para la probabilidad de encontrar una muestra que tenga al menos un individuo [66].
Se derivó un estimador para la probabilidad de que una muestra contenga x individuos por unidad de muestreo. La fórmula de Jones es
donde P ( x ) es la probabilidad de encontrar x individuos por unidad de muestreo, k se estima a partir de la ecuación de Wilon y Room y m es la media de la muestra. La probabilidad de encontrar cero individuos P ( 0 ) se estima con la distribución binomial negativa
Jones también da intervalos de confianza para estas probabilidades.
donde CI es el intervalo de confianza, t es el valor crítico tomado de la distribución t y N es el tamaño total de la muestra.
Katz propuso una familia de distribuciones (la familia Katz) con 2 parámetros ( w 1 , w 2 ). [69] Esta familia de distribuciones incluye las distribuciones de Bernoulli , Geométrica , Pascal y Poisson como casos especiales. La media y la varianza de una distribución Katz son
donde m es la media y s2 es la varianza de la muestra. Los parámetros se pueden estimar mediante el método de momentos del cual tenemos
Para una distribución de Poisson, w 2 = 0 y w 1 = λ, el parámetro de la distribución de Poisson. Esta familia de distribuciones también se conoce a veces como la familia de distribuciones de Panjer.
La familia Katz está relacionada con la familia de distribuciones Sundt-Jewel: [70]
Los únicos miembros de la familia Sundt-Jewel son las distribuciones de series de Poisson, binomial, binomial negativa (Pascal), binomial negativa truncada extendida y logarítmica .
Si la población obedece a una distribución de Katz entonces los coeficientes de la ley de Taylor son
Katz también introdujo una prueba estadística [69]
donde J n es la estadística de prueba, s 2 es la varianza de la muestra, m es la media de la muestra y n es el tamaño de la muestra. J n se distribuye normalmente de forma asintótica con una media cero y una varianza unitaria. Si la muestra se distribuye según el método de Poisson, J n = 0; los valores de J n < 0 y > 0 indican subdispersión y sobredispersión respectivamente. La sobredispersión suele estar causada por heterogeneidad latente: la presencia de múltiples subpoblaciones dentro de la población de la que se extrae la muestra.
Esta estadística está relacionada con la estadística de Neyman–Scott
que se sabe que es asintóticamente normal y la estadística de chi-cuadrado condicional (prueba de dispersión de Poisson)
que se sabe que tiene una distribución chi cuadrado asintótica con n − 1 grados de libertad cuando la población se distribuye según Poisson.
Si la población obedece la ley de Taylor entonces
Si se supone que se aplica la ley de Taylor, es posible determinar el tiempo medio hasta la extinción local. Este modelo supone un recorrido aleatorio simple en el tiempo y la ausencia de regulación demográfica dependiente de la densidad. [71]
Sea donde N t +1 y N t son los tamaños de población en el tiempo t + 1 y t respectivamente y r es el parámetro igual al aumento anual (disminución de la población). Entonces
¿Dónde está la varianza de ?
Sea una medida de la abundancia de especies (organismos por unidad de área). Entonces
donde T E es el tiempo medio hasta la extinción local.
La probabilidad de extinción en el tiempo t es
Si una población se distribuye lognormalmente , entonces la media armónica del tamaño de la población ( H ) está relacionada con la media aritmética ( m ) [72]
Dado que H debe ser > 0 para que la población persista, entonces reordenando tenemos
es el tamaño mínimo de población para que la especie persista.
La suposición de una distribución lognormal parece aplicarse a aproximadamente la mitad de una muestra de 544 especies. [73] lo que sugiere que es al menos una suposición plausible.
El grado de precisión ( D ) se define como s / m , donde s es la desviación estándar y m es la media. El grado de precisión se conoce como coeficiente de variación en otros contextos. En la investigación ecológica, se recomienda que D esté en el rango de 10 a 25 %. [74] El grado de precisión deseado es importante para estimar el tamaño de muestra requerido cuando un investigador desea probar si la ley de Taylor se aplica a los datos. El tamaño de muestra requerido se ha estimado para varias distribuciones simples, pero cuando la distribución de la población no se conoce o no se puede suponer, pueden necesitarse fórmulas más complejas para determinar el tamaño de muestra requerido.
Cuando la población se distribuye según Poisson, el tamaño de muestra ( n ) necesario es
donde t es el nivel crítico de la distribución t para el error tipo 1 con los grados de libertad con los que se calculó la media ( m ).
Si la población se distribuye como una distribución binomial negativa , entonces el tamaño de muestra requerido es
donde k es el parámetro de la distribución binomial negativa.
También se ha propuesto un estimador de tamaño de muestra más general [75]
donde a y b se derivan de la ley de Taylor.
Southwood [76] ha propuesto una alternativa .
donde n es el tamaño de muestra requerido, a y b son los coeficientes de la ley de Taylor y D es el grado de precisión deseado.
Karandinos propuso dos estimadores similares para n . [77] El primero fue modificado por Ruesink para incorporar la ley de Taylor. [78]
donde d es la relación entre la mitad del intervalo de confianza ( IC ) deseado y la media. En símbolos
El segundo estimador se utiliza en el muestreo binomial (presencia-ausencia). El tamaño de muestra deseado ( n ) es
donde d p es la relación entre la mitad del intervalo de confianza deseado y la proporción de unidades de muestra con individuos, p es la proporción de muestras que contienen individuos y q = 1 − p . En símbolos
Para el muestreo binario (presencia/ausencia), Schulthess et al. modificaron la ecuación de Karandinos .
donde N es el tamaño de muestra requerido, p es la proporción de unidades que contienen los organismos de interés, t es el nivel de significancia elegido y D ip es un parámetro derivado de la ley de Taylor. [79]
El análisis secuencial es un método de análisis estadístico en el que el tamaño de la muestra no se fija de antemano, sino que las muestras se toman de acuerdo con una regla de detención predefinida . La ley de Taylor se ha utilizado para derivar una serie de reglas de detención.
En 1970, Green derivó una fórmula para obtener una precisión fija en el muestreo serial para probar la ley de Taylor. [80]
donde T es el total acumulado de la muestra, D es el nivel de precisión, n es el tamaño de la muestra y a y b se obtienen de la ley de Taylor.
Como ayuda para el control de plagas, Wilson et al. desarrollaron una prueba que incorporaba un nivel umbral en el que se debía tomar una acción. [81] El tamaño de muestra requerido es
donde a y b son los coeficientes de Taylor, || es el valor absoluto , m es la media de la muestra, T es el nivel umbral y t es el nivel crítico de la distribución t. Los autores también proporcionaron una prueba similar para el muestreo binomial (presencia-ausencia).
donde p es la probabilidad de encontrar una muestra con plagas presentes y q = 1 − p .
Green derivó otra fórmula de muestreo para el muestreo secuencial basada en la ley de Taylor [82].
donde D es el grado de precisión, a y b son los coeficientes de la ley de Taylor, n es el tamaño de la muestra y T es el número total de individuos muestreados.
Serra et al. han propuesto una regla de detención basada en la ley de Taylor. [83]
donde a y b son los parámetros de la ley de Taylor, D es el nivel de precisión deseado y T n es el tamaño total de la muestra.
Serra et al. también propusieron una segunda regla de detención basada en la regresión de Iwoa.
donde α y β son los parámetros de la línea de regresión, D es el nivel de precisión deseado y T n es el tamaño total de la muestra.
Los autores recomendaron que D se establezca en 0,1 para estudios de dinámica poblacional y D = 0,25 para control de plagas.
Se considera una buena práctica estimar al menos un análisis adicional de agregación (además de la ley de Taylor) porque el uso de un solo índice puede ser engañoso. [84] Aunque se han propuesto varios otros métodos para detectar relaciones entre la varianza y la media en muestras biológicas, hasta la fecha ninguno ha alcanzado la popularidad de la ley de Taylor. El análisis más popular utilizado junto con la ley de Taylor es probablemente la prueba de regresión de parches de Iwao, pero todos los métodos enumerados aquí se han utilizado en la literatura.
Barlett en 1936 [85] y posteriormente Iwao de forma independiente en 1968 [86] propusieron una relación alternativa entre la varianza y la media. En símbolos
donde s es la varianza en la i- ésima muestra y m i es la media de la i- ésima muestra
Cuando la población sigue una distribución binomial negativa , a = 1 y b = k (el exponente de la distribución binomial negativa).
En la mayoría de los estudios no se ha demostrado que esta formulación alternativa sea tan adecuada como la ley de Taylor.
Nachman propuso una relación entre la densidad media y la proporción de muestras con recuentos cero: [87]
donde p 0 es la proporción de la muestra con recuentos cero, m es la densidad media, a es un parámetro de escala y b es un parámetro de dispersión. Si a = b = 1 la distribución es aleatoria. Esta relación se suele comprobar en su forma logarítmica.
Allsop utilizó esta relación junto con la ley de Taylor para derivar una expresión para la proporción de unidades infestadas en una muestra [88].
dónde
donde D 2 es el grado de precisión deseado, z α/2 es el α/2 superior de la distribución normal, a y b son los coeficientes de la ley de Taylor, c y d son los coeficientes de Nachman, n es el tamaño de la muestra y N es el número de unidades infestadas.
El muestreo binario se utiliza con bastante frecuencia en ecología. En 1958, Kono y Sugino derivaron una ecuación que relaciona la proporción de muestras sin individuos con la densidad media de las muestras. [89]
donde p 0 es la proporción de la muestra sin individuos, m es la densidad media de la muestra, a y b son constantes. Al igual que la ley de Taylor, se ha comprobado que esta ecuación se ajusta a una variedad de poblaciones, incluidas las que obedecen a la ley de Taylor. A diferencia de la distribución binomial negativa, este modelo es independiente de la densidad media.
La derivación de esta ecuación es sencilla. Supongamos que la proporción de unidades vacías es p 0 y que se distribuyen exponencialmente.
Tomando los logaritmos dos veces y reordenándolos, obtenemos la ecuación anterior. Este modelo es el mismo que el propuesto por Nachman.
La ventaja de este modelo es que no requiere contar los individuos, sino su presencia o ausencia. El conteo de individuos puede no ser posible en muchos casos, especialmente cuando se estudian insectos.
La ecuación se derivó al examinar la relación entre la proporción P de una serie de montículos de arroz infestados y la gravedad media de la infestación m . El modelo estudiado fue
donde a y b son constantes empíricas. Con base en este modelo se derivaron las constantes a y b y se preparó una tabla que relaciona los valores de P y m
Las estimaciones previstas de m a partir de esta ecuación están sujetas a sesgo [90] y se recomienda utilizar en su lugar la media ajustada ( m a ) [91]
donde var es la varianza de las medias unitarias de muestra m i y m es la media general.
Un ajuste alternativo a las estimaciones medias es [91]
donde MSE es el error cuadrático medio de la regresión.
Este modelo también puede utilizarse para estimar líneas de parada para muestreo enumerativo (secuencial). La varianza de las medias estimadas es [92]
dónde
donde MSE es el error cuadrático medio de la regresión, α y β son la constante y la pendiente de la regresión respectivamente, s β 2 es la varianza de la pendiente de la regresión, N es el número de puntos en la regresión, n es el número de unidades de muestra y p es el valor medio de p 0 en la regresión. Los parámetros a y b se estiman a partir de la ley de Taylor:
Hughes y Madden han propuesto probar una relación similar aplicable a observaciones binarias en grupos, donde cada grupo contiene de 0 a n individuos. [60]
donde a , b y c son constantes, var obs es la varianza observada y p es la proporción de individuos con un rasgo (como una enfermedad), una estimación de la probabilidad de que un individuo tenga un rasgo. En forma logarítmica, esta relación es
En la mayoría de los casos, se supone que b = c , lo que conduce a un modelo simple
Esta relación ha sido sometida a pruebas menos exhaustivas que la ley de Taylor. Sin embargo, ha descrito con precisión más de 100 conjuntos de datos y no existen ejemplos publicados que indiquen que no funciona. [62]
Shiyomi et al. ( [93] ) propusieron una variante de esta ecuación y sugirieron probar la regresión
donde var obs es la varianza, a y b son las constantes de la regresión, n aquí es el tamaño de la muestra (no la muestra por conglomerado) y p es la probabilidad de que una muestra contenga al menos un individuo.
También se ha propuesto un modelo binomial negativo. [94] El parámetro de dispersión ( k ) utilizando el método de momentos es m 2 / ( s 2 – m ) y p i es la proporción de muestras con conteos > 0. Los s 2 utilizados en el cálculo de k son los valores predichos por la ley de Taylor. p i se grafica contra 1 − ( k ( k + m ) −1 ) k y el ajuste de los datos se inspecciona visualmente.
Perry y Taylor han propuesto un estimador alternativo de k basado en la ley de Taylor. [95]
Se puede realizar una mejor estimación del parámetro de dispersión con el método de máxima verosimilitud . Para la binomial negativa se puede estimar a partir de la ecuación [67]
donde A x es el número total de muestras con más de x individuos, N es el número total de individuos, x es el número de individuos en una muestra, m es el número medio de individuos por muestra y k es el exponente. El valor de k debe estimarse numéricamente.
La bondad de ajuste de este modelo se puede comprobar de varias maneras, incluida la prueba de chi cuadrado. Como estas pueden estar sesgadas por muestras pequeñas, una alternativa es la estadística U : la diferencia entre la varianza esperada bajo la distribución binomial negativa y la de la muestra. La varianza esperada de esta distribución es m + m 2 / k y
donde s 2 es la varianza de la muestra, m es la media de la muestra y k es el parámetro binomial negativo.
La varianza de U es [67]
donde p = m / k , q = 1 + p , R = p / q y N es el número total de individuos en la muestra. El valor esperado de U es 0. Para tamaños de muestra grandes, U se distribuye normalmente.
Nota: La binomial negativa es en realidad una familia de distribuciones definidas por la relación de la media con la varianza.
donde a y p son constantes. Cuando a = 0 se define la distribución de Poisson. Con p = 1 y p = 2, la distribución se conoce como distribución NB1 y NB2 respectivamente.
Este modelo es una versión del propuesto anteriormente por Barlett.
El parámetro de dispersión ( k ) [67] es
donde m es la media de la muestra y s 2 es la varianza. Si k −1 es > 0, se considera que la población está agregada; k −1 = 0, se considera que la población es aleatoria; y si k −1 es < 0, se considera que la población está distribuida uniformemente.
Southwood ha recomendado hacer una regresión de k contra la media y una constante [76]
donde k i y m i son el parámetro de dispersión y la media de la i-ésima muestra respectivamente para comprobar la existencia de un parámetro de dispersión común ( k c ). Un valor de pendiente ( b ) significativamente > 0 indica la dependencia de k de la densidad media.
Elliot propuso un método alternativo y sugirió graficar ( s 2 − m ) contra ( m 2 − s 2 / n ). [96] k c es igual a 1/pendiente de esta regresión.
Este coeficiente ( C ) se define como
Si se puede suponer que la población está distribuida en forma binomial negativa, entonces C = 100 (1/ k ) 0,5 donde k es el parámetro de dispersión de la distribución.
Este índice ( I c ) se define como [97]
La interpretación habitual de este índice es la siguiente: valores de I c < 1, = 1, > 1 se toman como una distribución uniforme, una distribución aleatoria o una distribución agregada.
Como s 2 = Σ x 2 − (Σx) 2 , el índice también se puede escribir
Si se puede suponer que se cumple la ley de Taylor, entonces
El índice de hacinamiento medio de Lloyd ( IMC ) es el número promedio de otros puntos contenidos en la unidad de muestra que contiene un punto elegido aleatoriamente. [98]
donde m es la media de la muestra y s2 es la varianza.
El índice de irregularidad de Lloyd ( IP ) [98] es
Se trata de una medida de la intensidad del patrón que no se ve afectada por el adelgazamiento (eliminación aleatoria de puntos). Este índice también fue propuesto por Pielou en 1988 y a veces también se lo conoce con este nombre.
Dado que es extremadamente difícil estimar la varianza de IP a partir de la fórmula misma, Lloyd sugirió ajustar una distribución binomial negativa a los datos. Este método proporciona un parámetro k
Entonces
donde es el error estándar del índice de irregularidad, es la varianza del parámetro k y q es el número de cuadrantes muestreados.
Si la población obedece la ley de Taylor entonces
Iwao propuso una regresión de irregularidades para probar la agrupación [99] [100]
Dejar
y i aquí es el índice de hacinamiento medio de Lloyd. [98] Realice una regresión de mínimos cuadrados ordinarios de m i contra y .
En esta regresión, el valor de la pendiente ( b ) es un indicador de agregación: la pendiente = 1 si los datos se distribuyen según el método de Poisson. La constante ( a ) es el número de individuos que comparten una unidad de hábitat a una densidad infinitesimal y puede ser < 0, 0 o > 0. Estos valores representan regularidad, aleatoriedad y agregación de poblaciones en patrones espaciales respectivamente. Un valor de a < 1 se considera que significa que la unidad básica de la distribución es un solo individuo.
Cuando la estadística s 2 / m no es constante, se ha recomendado utilizar en su lugar la regresión del índice de Lloyd contra am + bm 2 donde a y b son constantes. [101]
El tamaño de la muestra ( n ) para un grado dado de precisión ( D ) para esta regresión se da por [101]
donde a es la constante en esta regresión, b es la pendiente, m es la media y t es el valor crítico de la distribución t.
Iwao ha propuesto una prueba de muestreo secuencial basada en esta regresión. [102] Los límites superior e inferior de esta prueba se basan en densidades críticas m c donde el control de una plaga requiere que se tomen medidas.
donde N u y N l son los límites superior e inferior respectivamente, a es la constante de la regresión, b es la pendiente e i es el número de muestras.
Kuno ha propuesto una prueba de detención secuencial alternativa también basada en esta regresión. [103]
donde T n es el tamaño total de la muestra, D es el grado de precisión, n es el número de unidades de muestra, a es la constante y b es la pendiente de la regresión respectivamente.
La prueba de Kuno está sujeta a la condición de que n ≥ ( b − 1) / D 2
Parrella y Jones han propuesto una línea de parada alternativa pero relacionada [104]
donde a y b son los parámetros de la regresión, N es el número máximo de unidades muestreadas y n es el tamaño de la muestra individual.
El índice de dispersión de Masaaki Morisita ( Im ) es la probabilidad escalada de que dos puntos elegidos al azar de toda la población estén en la misma muestra. [105] Los valores más altos indican una distribución más agrupada.
Una formulación alternativa es
donde n es el tamaño total de la muestra, m es la media de la muestra y x son los valores individuales con la suma tomada sobre toda la muestra. También es igual a
donde IMC es el índice de hacinamiento de Lloyd. [98]
Este índice es relativamente independiente de la densidad de población, pero se ve afectado por el tamaño de la muestra. Los valores > 1 indican agrupamiento; los valores < 1 indican uniformidad de distribución y un valor de 1 indica una muestra aleatoria.
Morisita demostró que la estadística [105]
se distribuye como una variable chi cuadrado con n − 1 grados de libertad.
Se ha desarrollado una prueba de significación alternativa para este índice para muestras grandes. [106]
donde m es la media general de la muestra, n es el número de unidades de muestra y z es la abscisa de la distribución normal . La significancia se prueba comparando el valor de z con los valores de la distribución normal .
Una función para su cálculo está disponible en el lenguaje estadístico R en el paquete vegan.
Nota, no debe confundirse con el índice de superposición de Morisita .
Smith-Gill desarrolló una estadística basada en el índice de Morisita, que es independiente tanto del tamaño de la muestra como de la densidad de población y está limitada por −1 y +1. Esta estadística se calcula de la siguiente manera [107]
Primero determine el índice de Morisita ( I d ) de la manera habitual. Luego sea k el número de unidades de las que se tomó la muestra de la población. Calcule los dos valores críticos
donde χ 2 es el valor de chi cuadrado para n − 1 grados de libertad en los niveles de confianza del 97,5% y 2,5%.
Luego se calcula el índice estandarizado ( I p ) a partir de una de las fórmulas siguientes.
Cuando I d ≥ M c > 1
Cuando M c > I d ≥ 1
Cuando 1 > I d ≥ M u
Cuando 1 > M u > I d
El rango de I p oscila entre +1 y -1 con intervalos de confianza del 95 % de ±0,5. I p tiene el valor 0 si el patrón es aleatorio; si el patrón es uniforme, I p < 0 y si el patrón muestra agregación, I p > 0.
El índice de agregación espacial de Southwood ( k ) se define como
donde m es la media de la muestra y m * es el índice de hacinamiento de Lloyd. [76]
El índice de dispersión de Fisher [108] [109] es
Este índice se puede utilizar para comprobar la sobredispersión de la población. Se recomienda que en las aplicaciones n > 5 [110] y que el total de la muestra dividido por el número de muestras sea > 3. En símbolos
donde x es un valor de muestra individual. La expectativa del índice es igual a n y se distribuye como la distribución de chi-cuadrado con n − 1 grados de libertad cuando la población se distribuye según Poisson. [110] Es igual al parámetro de escala cuando la población obedece a la distribución gamma .
Puede aplicarse tanto a la población en general como a las áreas individuales muestreadas individualmente. El uso de esta prueba en las áreas de muestra individuales también debe incluir el uso de un factor de corrección de Bonferroni.
Si la población obedece la ley de Taylor entonces
El índice de tamaño de conglomerado ( ICS ) fue creado por David y Moore. [111] Bajo una distribución aleatoria (Poisson) , se espera que ICS sea igual a 0. Los valores positivos indican una distribución agrupada; los valores negativos indican una distribución uniforme.
donde s 2 es la varianza y m es la media.
Si la población obedece la ley de Taylor
El ICS también es igual al estadístico de prueba de Katz dividido por ( n / 2 ) 1/2 donde n es el tamaño de la muestra. También está relacionado con el estadístico de prueba de Clapham. A veces también se lo denomina índice de agrupamiento.
El índice de Green ( GI ) es una modificación del índice de tamaño del conglomerado que es independiente del número n de unidades de muestra. [112]
Este índice es igual a 0 si la distribución es aleatoria, 1 si está máximamente agregada y −1 / ( nm − 1 ) si es uniforme.
La distribución del índice de Green no se conoce actualmente, por lo que ha sido difícil diseñar pruebas estadísticas para ello.
Si la población obedece la ley de Taylor
El muestreo binario (presencia/ausencia) se utiliza con frecuencia cuando es difícil obtener recuentos precisos. El índice de dispersión ( D ) se utiliza cuando la población de estudio se divide en una serie de muestras iguales (número de unidades = N : número de unidades por muestra = n : tamaño total de la población = n x N ). [113] La varianza teórica de una muestra de una población con una distribución binomial es
donde s 2 es la varianza, n es el número de unidades muestreadas y p es la proporción media de unidades de muestreo con al menos un individuo presente. El índice de dispersión ( D ) se define como la relación entre la varianza observada y la varianza esperada. En símbolos
donde var obs es la varianza observada y var bin es la varianza esperada. La varianza esperada se calcula con la media general de la población. Se considera que los valores de D > 1 sugieren agregación. D ( n − 1 ) se distribuye como la variable chi cuadrado con n − 1 grados de libertad donde n es el número de unidades muestreadas.
Una prueba alternativa es la prueba C. [114]
donde D es el índice de dispersión, n es el número de unidades por muestra y N es el número de muestras. C se distribuye normalmente. Un valor estadísticamente significativo de C indica una sobredispersión de la población.
D también está relacionada con la correlación intraclase ( ρ ), que se define como [115]
donde T es el número de organismos por muestra, p es la probabilidad de que el organismo tenga la propiedad buscada (enfermo, libre de plagas, etc. ) y x i es el número de organismos en la i -ésima unidad con esta propiedad. T debe ser el mismo para todas las unidades muestreadas. En este caso, con n constante
Si los datos pueden ajustarse a una distribución beta-binomial entonces [115]
donde θ es el parámetro de la distribución. [114]
Ma ha propuesto un parámetro ( m 0 ) − la densidad crítica de agregación poblacional - para relacionar la densidad poblacional con la ley de Taylor. [116]
Se conocen varias pruebas estadísticas que pueden ser útiles en algunas aplicaciones.
Una estadística relacionada sugerida por de Oliveria [117] es la diferencia de la varianza y la media. [118] Si la población se distribuye según Poisson, entonces
donde t es el parámetro de Poisson, s 2 es la varianza, m es la media y n es el tamaño de la muestra. El valor esperado de s 2 - m es cero. Esta estadística se distribuye normalmente. [119]
Si el parámetro de Poisson en esta ecuación se estima poniendo t = m , después de una pequeña manipulación, esta estadística se puede escribir
Esto es casi idéntico al estadístico de Katz con ( n - 1 ) reemplazando n . Nuevamente, O T se distribuye normalmente con media 0 y varianza unitaria para n grande . Este estadístico es el mismo que el estadístico de Neyman-Scott.
De hecho, de Oliveria sugirió que la varianza de s 2 - m era ( 1 - 2 t 1/2 + 3 t ) / n donde t es el parámetro de Poisson. Sugirió que t podría estimarse al igualarlo a la media ( m ) de la muestra. Una investigación posterior de Bohning [118] mostró que esta estimación de la varianza era incorrecta. La corrección de Bohning se da en las ecuaciones anteriores.
En 1936, Clapham propuso utilizar la relación entre la varianza y la media como estadística de prueba (la varianza relativa). [120] En símbolos
Para una distribución de Possion, esta razón es igual a 1. Para comprobar las desviaciones de este valor, propuso probar su valor frente a la distribución de chi cuadrado con n grados de libertad, donde n es el número de unidades de muestra. La distribución de esta estadística fue estudiada más a fondo por Blackman [121], quien observó que se distribuía aproximadamente de manera normal con una media de 1 y una varianza ( V θ ) de
La derivación de la varianza fue reanalizada por Bartlett [122] quien la consideró como
Para muestras grandes, estas dos fórmulas concuerdan aproximadamente. Esta prueba está relacionada con la estadística J n de Katz .
Si la población obedece la ley de Taylor entonces
También se ha publicado un refinamiento de esta prueba [123]. Estos autores observaron que la prueba original tiende a detectar la sobredispersión a escalas más altas incluso cuando esta no estaba presente en los datos. Observaron que el uso de la distribución multinomial puede ser más apropiado que el uso de una distribución de Poisson para tales datos. La estadística θ se distribuye
donde N es el número de unidades de muestra, n es el número total de muestras examinadas y x i son los valores de datos individuales.
La expectativa y la varianza de θ son
Para N grande , E( θ ) es aproximadamente 1 y
Si el número de individuos muestreados ( n ) es grande, esta estimación de la varianza concuerda con las obtenidas anteriormente. Sin embargo, para muestras más pequeñas, estas últimas estimaciones son más precisas y deberían utilizarse.
{{cite journal}}
: CS1 maint: multiple names: authors list (link){{cite journal}}
: CS1 maint: multiple names: authors list (link)Leyes de potencia