En estadística , la sobredispersión es la presencia de una mayor variabilidad ( dispersión estadística ) en un conjunto de datos de lo que se esperaría basándose en un modelo estadístico dado .
Una tarea común en las estadísticas aplicadas es la elección de un modelo paramétrico que se ajuste a un conjunto dado de observaciones empíricas. Esto requiere una evaluación del ajuste del modelo elegido. Por lo general, es posible elegir los parámetros del modelo de tal manera que la media poblacional teórica del modelo sea aproximadamente igual a la media de la muestra . Sin embargo, especialmente para modelos simples con pocos parámetros, las predicciones teóricas pueden no coincidir con las observaciones empíricas para momentos más altos . Cuando la varianza observada es mayor que la varianza de un modelo teórico, se ha producido una sobredispersión . Por el contrario, una subdispersión significa que hubo menos variación en los datos de lo previsto. La sobredispersión es una característica muy común en el análisis de datos aplicados porque en la práctica, las poblaciones son frecuentemente heterogéneas (no uniformes) contrariamente a los supuestos implícitos en los modelos paramétricos simples ampliamente utilizados.
La sobredispersión se encuentra a menudo al ajustar modelos paramétricos muy simples, como los basados en la distribución de Poisson . La distribución de Poisson tiene un parámetro libre y no permite que la varianza se ajuste independientemente de la media. La elección de una distribución de la familia de Poisson a menudo está dictada por la naturaleza de los datos empíricos. Por ejemplo, el análisis de regresión de Poisson se utiliza comúnmente para modelar datos de recuento . Si la sobredispersión es una característica, un modelo alternativo con parámetros libres adicionales puede proporcionar un mejor ajuste. En el caso de los datos de recuento, se puede proponer en cambio un modelo de mezcla de Poisson como la distribución binomial negativa , en el que la media de la distribución de Poisson puede considerarse en sí misma como una variable aleatoria extraída, en este caso, de la distribución gamma , introduciendo así un parámetro libre adicional (nótese que la distribución binomial negativa resultante está completamente caracterizada por dos parámetros).
Como ejemplo más concreto, se ha observado que el número de niños nacidos en familias no se ajusta fielmente a una distribución binomial como podría esperarse. [1] En cambio, las proporciones de sexos de las familias parecen sesgarse hacia los niños o hacia las niñas (véase, por ejemplo, la hipótesis de Trivers-Willard para una posible explicación), es decir, hay más familias compuestas exclusivamente por niños, más familias compuestas exclusivamente por niñas y no suficientes familias cercanas a la proporción media de niños a niñas de 51:49 de la población de lo esperado a partir de una distribución binomial, y la varianza empírica resultante es mayor que la especificada por un modelo binomial.
En este caso, la distribución del modelo beta-binomial es un modelo alternativo popular y analíticamente manejable a la distribución binomial ya que proporciona un mejor ajuste a los datos observados. [2] Para capturar la heterogeneidad de las familias, se puede pensar que el parámetro de probabilidad del modelo binomial (por ejemplo, la probabilidad de ser un niño) es en sí mismo una variable aleatoria (es decir, modelo de efectos aleatorios ) extraída para cada familia de una distribución beta como la distribución de mezcla. La distribución compuesta resultante (beta-binomial) tiene un parámetro libre adicional.
Otro modelo común de sobredispersión (cuando algunas de las observaciones no son Bernoulli ) surge de la introducción de una variable aleatoria normal en un modelo logístico . Hay software ampliamente disponible para ajustar este tipo de modelo multinivel . En este caso, si la varianza de la variable normal es cero, el modelo se reduce a la regresión logística estándar (no dispersa) . Este modelo tiene un parámetro libre adicional, a saber, la varianza de la variable normal.
Con respecto a las variables aleatorias binomiales, el concepto de sobredispersión sólo tiene sentido si n>1 (es decir, la sobredispersión no tiene sentido para las variables aleatorias de Bernoulli).
Como la distribución normal (gaussiana) tiene la varianza como parámetro, cualquier dato con varianza finita (incluidos los datos finitos) se puede modelar con una distribución normal con la varianza exacta: la distribución normal es un modelo de dos parámetros, con media y varianza. Por lo tanto, en ausencia de un modelo subyacente, no existe la noción de que los datos estén sobredispersados en relación con el modelo normal, aunque el ajuste puede ser deficiente en otros aspectos (como los momentos superiores de asimetría , curtosis , etc.). Sin embargo, en el caso de que los datos se modelen mediante una distribución normal con una variación esperada, pueden estar sobredispersados o subdispersados en relación con esa predicción.
Por ejemplo, en una encuesta estadística , el margen de error (determinado por el tamaño de la muestra) predice el error de muestreo y, por lo tanto, la dispersión de los resultados en encuestas repetidas. Si uno realiza un metanálisis de encuestas repetidas de una población fija (digamos con un tamaño de muestra dado, por lo que el margen de error es el mismo), uno espera que los resultados caigan en una distribución normal con una desviación estándar igual al margen de error. Sin embargo, en presencia de heterogeneidad del estudio donde los estudios tienen diferentes sesgos de muestreo , la distribución es en cambio una distribución compuesta y estará sobredistribuida en relación con la distribución predicha. Por ejemplo, dadas encuestas de opinión repetidas , todas con un margen de error del 3%, si son realizadas por diferentes organizaciones de encuestas, uno espera que los resultados tengan una desviación estándar mayor que el 3%, debido al sesgo del encuestador de diferentes metodologías.
La sobredispersión y la subdispersión son términos que se han adoptado en diversas ramas de las ciencias biológicas . En parasitología , el término "sobredispersión" se utiliza generalmente tal como se define aquí, es decir, una distribución con una varianza mayor que la esperada.
Sin embargo, en algunas áreas de la ecología , se han transpuesto los significados, de modo que se considera que la sobredispersión significa más uniforme (menor varianza) de lo esperado. Esta confusión ha hecho que algunos ecólogos sugieran que los términos "agregado" o "contagioso" se utilizarían mejor en ecología en lugar de "sobredispersado". [3] Estas preferencias también se están introduciendo en la parasitología . [4] En general, esta sugerencia no ha sido atendida y la confusión persiste en la literatura.
Además, en demografía , la sobredispersión es a menudo evidente en el análisis de los datos del recuento de muertes, pero los demógrafos prefieren el término " heterogeneidad no observada ".