Ajuste de distribución de probabilidad

El ajuste de distribución de probabilidad o simplemente ajuste de distribución es el ajuste de una distribución de probabilidad a una serie de datos relativos a la medición repetida de un fenómeno variable. El objetivo del ajuste de distribución es predecir la probabilidad o pronosticar la frecuencia de ocurrencia de la magnitud del fenómeno en un intervalo determinado.

Existen muchas distribuciones de probabilidad (véase la lista de distribuciones de probabilidad ) de las cuales algunas pueden ajustarse mejor que otras a la frecuencia observada de los datos, dependiendo de las características del fenómeno y de la distribución. Se supone que la distribución que ofrece un ajuste más preciso conduce a buenas predicciones. Por lo tanto, al ajustar una distribución, es necesario seleccionar una distribución que se adapte bien a los datos.

Selección de distribución

La selección de la distribución apropiada depende de la presencia o ausencia de simetría del conjunto de datos con respecto a la tendencia central .

Distribuciones simétricas

Cuando los datos se distribuyen simétricamente alrededor de la media mientras que la frecuencia de ocurrencia de los datos más alejados de la media disminuye, se puede seleccionar, por ejemplo, la distribución normal , la distribución logística o la distribución t de Student . Las dos primeras son muy similares, mientras que la última, con un grado de libertad, tiene "colas más pesadas", lo que significa que los valores más alejados de la media ocurren con relativa mayor frecuencia (es decir, la curtosis es mayor). La distribución de Cauchy también es simétrica.

Distribuciones sesgadas hacia la derecha

Cuando los valores más grandes tienden a estar más alejados de la media que los valores más pequeños, se tiene una distribución sesgada hacia la derecha (es decir, hay sesgo positivo ), se puede seleccionar, por ejemplo, la distribución log-normal (es decir, los valores logarítmicos de los datos se distribuyen normalmente ), la distribución log-logística (es decir, los valores logarítmicos de los datos siguen una distribución logística ), la distribución de Gumbel , la distribución exponencial , la distribución de Pareto , la distribución de Weibull , la distribución de Burr o la distribución de Fréchet . Las últimas cuatro distribuciones están acotadas a la izquierda.

Distribuciones sesgadas hacia la izquierda

Cuando los valores más pequeños tienden a estar más alejados de la media que los valores más grandes, se tiene una distribución sesgada hacia la izquierda (es decir, hay sesgo negativo), se puede seleccionar, por ejemplo, la distribución normal cuadrada (es decir, la distribución normal aplicada al cuadrado de los valores de los datos), ^[1] la distribución Gumbel invertida (reflejada), ^[1] la distribución Dagum (distribución Burr reflejada) o la distribución Gompertz , que está limitada a la izquierda.

Técnicas de ajuste

Existen las siguientes técnicas de ajuste de distribución: ^[2]

Métodos paramétricos , mediante los cuales se calculan los parámetros de la distribución a partir de la serie de datos. ^[3] Los métodos paramétricos son:
- Método de momentos
- Estimación del espaciado máximo
- Método de los momentos L ^[4]
- Método de máxima verosimilitud ^[5]

Distribución acumulada de Gumbel ajustada a las precipitaciones máximas de un día de octubre en Surinam mediante el método de regresión con **banda de confianza** añadida utilizando cumfreq

Posición de trazado más análisis de regresión , utilizando una transformación de la función de distribución acumulativa de modo que se encuentre una relación lineal entre la probabilidad acumulativa y los valores de los datos, que también pueden necesitar ser transformados, dependiendo de la distribución de probabilidad seleccionada. En este método, la probabilidad acumulativa debe estimarse mediante la posición de trazado ^[6]

Generalización de distribuciones

Es habitual transformar los datos de forma logarítmica para ajustar las distribuciones simétricas (como la normal y la logística ) a los datos que obedecen a una distribución que está sesgada positivamente (es decir, sesgada hacia la derecha, con media > moda y con una cola derecha que es más larga que la cola izquierda), consulte la distribución lognormal y la distribución loglogística . Se puede lograr un efecto similar tomando la raíz cuadrada de los datos.

Para ajustar una distribución simétrica a datos que obedecen a una distribución sesgada negativamente (es decir, sesgada hacia la izquierda, con media < moda y con una cola derecha más corta que la cola izquierda), se podrían usar los valores al cuadrado de los datos para lograr el ajuste.

En términos más generales, se pueden elevar los datos a una potencia p para ajustar distribuciones simétricas a datos que obedecen a una distribución de cualquier asimetría, donde p < 1 cuando la asimetría es positiva y p > 1 cuando la asimetría es negativa. El valor óptimo de p se encuentra mediante un método numérico . El método numérico puede consistir en suponer un rango de valores p , luego aplicar el procedimiento de ajuste de distribución repetidamente para todos los valores p supuestos y, finalmente, seleccionar el valor de p para el cual la suma de los cuadrados de las desviaciones de las probabilidades calculadas a partir de las frecuencias medidas ( chi cuadrado ) es mínima, como se hace en CumFreq .

La generalización mejora la flexibilidad de las distribuciones de probabilidad y aumenta su aplicabilidad en el ajuste de distribuciones. ^[6]

La versatilidad de la generalización permite, por ejemplo, ajustar conjuntos de datos distribuidos de manera aproximadamente normal a un gran número de distribuciones de probabilidad diferentes, ^[7] mientras que las distribuciones sesgadas negativamente se pueden ajustar a distribuciones de Gumbel cuadradas normales y reflejadas. ^[8]

Inversión de asimetría

Las distribuciones sesgadas pueden invertirse (o reflejarse) sustituyendo en la expresión matemática la función de distribución acumulativa (F) por su complemento: F'=1-F, obteniéndose la función de distribución complementaria (también llamada función de supervivencia ) que da una imagen especular. De esta manera, una distribución sesgada a la derecha se transforma en una distribución sesgada a la izquierda y viceversa.

La técnica de inversión de asimetría aumenta el número de distribuciones de probabilidad disponibles para el ajuste de distribuciones y amplía las oportunidades de ajuste de distribuciones.

Desplazamiento de distribuciones

Algunas distribuciones de probabilidad, como la exponencial , no admiten valores de datos negativos ( X ). Sin embargo, cuando hay datos negativos, dichas distribuciones aún se pueden usar reemplazando X por Y = X - Xm , donde Xm es el valor mínimo de X . Este reemplazo representa un desplazamiento de la distribución de probabilidad en dirección positiva, es decir, hacia la derecha, porque Xm es negativo. Después de completar el ajuste de la distribución de Y , los valores de X correspondientes se encuentran a partir de X = Y + Xm , que representa un desplazamiento hacia atrás de la distribución en dirección negativa, es decir, hacia la izquierda.
La técnica de desplazamiento de la distribución aumenta la posibilidad de encontrar una distribución de probabilidad que se ajuste correctamente.

Distribuciones compuestas

Distribución compuesta (discontinua) con cinturón de confianza ^[9]

Existe la opción de utilizar dos distribuciones de probabilidad diferentes, una para el rango inferior de datos y otra para el superior, como por ejemplo la distribución de Laplace . Los rangos están separados por un punto de quiebre. El uso de tales distribuciones de probabilidad compuestas (discontinuas) puede ser oportuno cuando los datos del fenómeno estudiado se obtuvieron bajo dos conjuntos de condiciones diferentes. ^[6]

Incertidumbre de predicción

Análisis de incertidumbre con cinturones de confianza utilizando la distribución binomial ^[10]

Las predicciones de ocurrencia basadas en distribuciones de probabilidad ajustadas están sujetas a incertidumbre , que surge de las siguientes condiciones:

La verdadera distribución de probabilidad de los eventos puede desviarse de la distribución ajustada, ya que las series de datos observadas pueden no ser totalmente representativas de la probabilidad real de ocurrencia del fenómeno debido a un error aleatorio.
La ocurrencia de eventos en otra situación o en el futuro puede desviarse de la distribución ajustada ya que esta ocurrencia también puede estar sujeta a error aleatorio.
Un cambio en las condiciones ambientales puede provocar un cambio en la probabilidad de ocurrencia del fenómeno.

Variaciones de nueve curvas *de período de retorno* de muestras de 50 años a partir de un registro teórico de 1000 años (línea de base), datos de Benson ^[11]

Una estimación de la incertidumbre en el primer y segundo caso se puede obtener con la distribución de probabilidad binomial utilizando, por ejemplo, la probabilidad de excedencia Pe (es decir, la posibilidad de que el evento X sea mayor que un valor de referencia Xr de X ) y la probabilidad de no excedencia Pn (es decir, la posibilidad de que el evento X sea menor o igual que el valor de referencia Xr , esto también se llama probabilidad acumulada ). En este caso solo hay dos posibilidades: o hay excedencia o no hay excedencia. Esta dualidad es la razón por la que se aplica la distribución binomial.

Con la distribución binomial se puede obtener un intervalo de predicción . Dicho intervalo también estima el riesgo de falla, es decir, la probabilidad de que el evento predicho permanezca fuera del intervalo de confianza. El análisis de confianza o riesgo puede incluir el período de retorno T=1/Pe como se hace en hidrología .

DiferenciadeBayesianofunciones de probabilidad ajustadas

Se puede utilizar un enfoque bayesiano para ajustar un modelo que tenga una distribución previa para el parámetro . Cuando se tienen muestras extraídas independientemente de la distribución subyacente, se puede derivar la denominada distribución posterior . Esta distribución posterior se puede utilizar para actualizar la función de masa de probabilidad para una nueva muestra dadas las observaciones , se obtiene $P(x|\theta )$ $P(\theta )$ ${\estilo de visualización \theta}$ ${\estilo de visualización X}$ $P(\theta |X)$ ${\estilo de visualización x}$ ${\estilo de visualización X}$

$P_{\theta}(x|X):=\int d\theta \ P(x|\theta )\ P(\theta |X)$ .

También se puede determinar la varianza de la función de masa de probabilidad recién obtenida. La varianza de una función de masa de probabilidad bayesiana se puede definir como

$\sigma _{P_{\theta }(x|X)}^{2}:=\int d\theta \ \left[P(x|\theta )-P_{\theta }(x|X)\right]^{2}\ P(\theta |X)$ .

Esta expresión para la varianza se puede simplificar sustancialmente (suponiendo que las muestras se extraen de forma independiente). Definiendo la "función de masa de probabilidad propia" como

$P_{\theta }(x|\left\{X,x\right\})=\int d\theta \ P(x|\theta )\ P(\theta |\left\{X,x\right\})$ ,

se obtiene para la varianza ^[12]

$\sigma _{P_{\theta }(x|X)}^{2}=P_{\theta }(x|X)\left[P_{\theta }(x|\left\{X,x\right\})-P_{\theta }(x|X)\right]$ .

La expresión de varianza implica un ajuste adicional que incluye la muestra de interés. ${\estilo de visualización x}$

Histograma y densidad de probabilidad de un conjunto de datos que se ajusta a la distribución GEV

Bondad de ajuste

Al clasificar la bondad de ajuste de varias distribuciones, uno puede tener una idea de qué distribución es aceptable y cuál no.

Histograma y función de densidad

A partir de la función de distribución acumulativa (CDF) se puede derivar un histograma y la función de densidad de probabilidad (PDF).

Véase también

Referencias

^ Los histogramas de frecuencia sesgados hacia la izquierda (negativamente) se pueden ajustar a funciones de probabilidad de Gumbel cuadradas normales o reflejadas. En línea: [1]
^ Análisis de frecuencia y regresión . Capítulo 6 en: HPRitzema (ed., 1994), Principios y aplicaciones del drenaje , Publ. 16, págs. 175-224, Instituto Internacional de Recuperación y Mejora de Tierras (ILRI), Wageningen, Países Bajos. ISBN 9070754339. Descarga gratuita desde la página web [2] en el n.º 12, o directamente como PDF: [3]
^ H. Cramér, "Métodos matemáticos de estadística", Princeton Univ. Press (1946)
^ Hosking, JRM (1990). "L-moments: analysis and estimate of distributions using linear combinations of order statistics" (Momentos L: análisis y estimación de distribuciones utilizando combinaciones lineales de estadísticas de orden). Journal of the Royal Statistical Society, Serie B . 52 (1): 105–124. JSTOR 2345653.
^ Aldrich, John (1997). "RA Fisher y la creación de la máxima verosimilitud 1912-1922". Ciencia estadística . 12 (3): 162-176. doi : 10.1214/ss/1030037906 . MR 1617519.
^ abc Software para distribuciones de probabilidad generalizadas y compuestas. Revista internacional de métodos matemáticos y computacionales, 4, 1-9 [4] o [5]
^ Ejemplo de un conjunto de datos distribuidos de manera aproximadamente normal al que se puede ajustar una gran cantidad de distribuciones de probabilidad diferentes, [6]
^ Los histogramas de frecuencia sesgados hacia la izquierda (negativamente) se pueden ajustar a funciones de probabilidad de Gumbel cuadradas normales o reflejadas. [7]
^ Introducción a las distribuciones de probabilidad compuestas
^ Predicciones de frecuencia y sus límites de confianza binomiales. En: Comisión Internacional de Riego y Drenaje, Sesión Técnica Especial: Aspectos económicos del control de inundaciones y medidas no estructurales, Dubrovnik, Yugoslavia, 1988. En línea
^ Benson, MA 1960. Características de las curvas de frecuencia basadas en un registro teórico de 1000 años. En: T. Dalrymple (Ed.), Análisis de frecuencia de inundaciones. Documento sobre suministro de agua del Servicio Geológico de los Estados Unidos, 1543-A, págs. 51-71.
^ Pijlman; Linnartz (2023). "Varianza de la verosimilitud de los datos". Actas del SITB 2023 : 34.
^ Software para el ajuste de distribuciones de probabilidad