stringtranslate.com

Índice de dispersión

En teoría de probabilidad y estadística , el índice de dispersión , [1] índice de dispersión , coeficiente de dispersión , varianza relativa o razón varianza-media ( VMR ), al igual que el coeficiente de variación , es una medida normalizada de la dispersión de una distribución de probabilidad : es una medida utilizada para cuantificar si un conjunto de ocurrencias observadas están agrupadas o dispersas en comparación con un modelo estadístico estándar.

Se define como la relación entre la varianza y la media ,

También se lo conoce como factor Fano , aunque este término a veces se reserva para datos en ventanas (la media y la varianza se calculan sobre una subpoblación), donde el índice de dispersión se utiliza en el caso especial en que la ventana es infinita. La ventana de datos se utiliza con frecuencia: el VMR se calcula con frecuencia sobre varios intervalos en el tiempo o pequeñas regiones en el espacio, que pueden llamarse "ventanas", y la estadística resultante se denomina factor Fano.

Solo se define cuando la media no es cero y generalmente solo se utiliza para estadísticas positivas, como datos de conteo o tiempo entre eventos, o cuando se supone que la distribución subyacente es la distribución exponencial o la distribución de Poisson .

Terminología

En este contexto, el conjunto de datos observados puede consistir en los momentos en que se producen eventos predefinidos, como terremotos en una región determinada de una magnitud determinada, o en las ubicaciones en el espacio geográfico de plantas de una especie determinada. Los detalles de tales ocurrencias se convierten primero en recuentos de la cantidad de eventos o ocurrencias en cada una de un conjunto de regiones temporales o espaciales de igual tamaño.

Lo anterior define un índice de dispersión para los recuentos . [2] Se aplica una definición diferente para un índice de dispersión para intervalos , [3] donde las cantidades tratadas son las longitudes de los intervalos de tiempo entre los eventos. El uso común es que "índice de dispersión" significa el índice de dispersión para los recuentos.

Interpretación

Algunas distribuciones, en particular la distribución de Poisson , tienen varianza y media iguales, lo que les da un VMR = 1. La distribución geométrica y la distribución binomial negativa tienen un VMR > 1, mientras que la distribución binomial tiene un VMR < 1 y la variable aleatoria constante tiene un VMR = 0. Esto produce la siguiente tabla:

Esto puede considerarse análogo a la clasificación de secciones cónicas por excentricidad ; consulte Cumulantes de distribuciones de probabilidad particulares para obtener más detalles.

La relevancia del índice de dispersión es que tiene un valor de 1 cuando la distribución de probabilidad del número de ocurrencias en un intervalo es una distribución de Poisson . Por lo tanto, la medida se puede utilizar para evaluar si los datos observados se pueden modelar utilizando un proceso de Poisson . Cuando el coeficiente de dispersión es menor que 1, se dice que un conjunto de datos está "subdisperso": esta condición puede relacionarse con patrones de ocurrencia que son más regulares que la aleatoriedad asociada con un proceso de Poisson. Por ejemplo, los eventos regulares y periódicos estarán subdispersos. Si el índice de dispersión es mayor que 1, se dice que un conjunto de datos está sobredisperso .

Se puede utilizar una estimación basada en muestras del índice de dispersión para construir una prueba de hipótesis estadística formal para la adecuación del modelo de que una serie de conteos sigue una distribución de Poisson. [4] [5] En términos de los conteos de intervalo, la sobredispersión corresponde a que haya más intervalos con conteos bajos y más intervalos con conteos altos, en comparación con una distribución de Poisson: en contraste, la subdispersión se caracteriza por que haya más intervalos con conteos cercanos al conteo medio, en comparación con una distribución de Poisson.

El VMR también es una buena medida del grado de aleatoriedad de un fenómeno determinado. Por ejemplo, esta técnica se utiliza habitualmente en la gestión de divisas.

Ejemplo

Para partículas que se difunden aleatoriamente ( movimiento browniano ), la distribución del número de partículas dentro de un volumen dado es poissoniana, es decir, VMR = 1. Por lo tanto, para evaluar si un patrón espacial dado (asumiendo que tiene una forma de medirlo) se debe puramente a la difusión o si está involucrada alguna interacción partícula-partícula: divida el espacio en parches, Cuadrados o Unidades de Muestra (SU), cuente el número de individuos en cada parche o SU y calcule el VMR. Los VMR significativamente mayores que 1 denotan una distribución agrupada, donde el paseo aleatorio no es suficiente para sofocar el potencial atractivo entre partículas.

Historia

El primero en discutir el uso de una prueba para detectar desviaciones de una distribución de Poisson o binomial parece haber sido Lexis en 1877. Una de las pruebas que desarrolló fue el índice de Lexis .

Este índice fue utilizado por primera vez en botánica por Clapham en 1936.

Hoel estudió los primeros cuatro momentos de su distribución. [6] Encontró que la aproximación a la estadística χ 2 es razonable si μ > 5.

Distribuciones sesgadas

Para distribuciones muy sesgadas, puede ser más apropiado utilizar una función de pérdida lineal, en lugar de una cuadrática. El coeficiente de dispersión análogo en este caso es la relación entre la desviación absoluta promedio de la mediana y la mediana de los datos, [7] o, en símbolos:

donde n es el tamaño de la muestra, m es la mediana de la muestra y la suma de toda la muestra. Iowa , Nueva York y Dakota del Sur utilizan este coeficiente de dispersión lineal para estimar los impuestos adeudados. [8] [9] [10]

Para una prueba de dos muestras en la que los tamaños de muestra son grandes, ambas muestras tienen la misma mediana y difieren en la dispersión alrededor de ella, un intervalo de confianza para el coeficiente de dispersión lineal está limitado inferiormente por

donde t j es la desviación absoluta media de la j -ésima muestra y z α es la longitud del intervalo de confianza para una distribución normal de confianza α (por ejemplo, para α = 0,05, z α = 1,96). [7]

Véase también

Proporciones similares

Notas

  1. ^ Cox y Lewis (1966)
  2. ^ Cox y Lewis (1966), pág. 72
  3. ^ Cox y Lewis (1966), pág. 71
  4. ^ Cox y Lewis (1966), pág. 158
  5. ^ Upton & Cook (2006), bajo el índice de dispersión
  6. ^ Hoel, PG (1943). "Sobre índices de dispersión". Anales de estadística matemática . 14 (2): 155–162. doi : 10.1214/aoms/1177731457 . JSTOR  2235818.
  7. ^ ab Bonett, director general; Seier, E (2006). "Intervalo de confianza para un coeficiente de dispersión en distribuciones no normales". Revista Biométrica . 48 (1): 144-148. doi :10.1002/bimj.200410148. PMID  16544819. S2CID  33665632.
  8. ^ "Definiciones de cálculo estadístico para tasaciones masivas" (PDF) . Iowa.gov . Archivado desde el original (PDF) el 11 de noviembre de 2010. Relación mediana: la relación que se encuentra a medio camino entre la relación más alta y la más baja cuando las relaciones individuales para una clase de bienes raíces se clasifican en orden ascendente o descendente. La relación mediana se utiliza con mayor frecuencia para determinar el nivel de tasación para una clase determinada de bienes raíces.
  9. ^ "Valoración de la vivienda en Nueva York: resultados de la encuesta sobre valor de mercado de 2010". Archivado desde el original el 6 de noviembre de 2012.
  10. ^ "Resumen del proceso de evaluación" (PDF) . state.sd.us . Departamento de Hacienda de Dakota del Sur - División de Impuestos Especiales y de Propiedad. Archivado desde el original (PDF) el 10 de mayo de 2009.

Referencias