Ajuste de distribución de probabilidad

El ajuste de la distribución de probabilidad o simplemente el ajuste de la distribución es el ajuste de una distribución de probabilidad a una serie de datos relacionados con la medición repetida de un fenómeno variable. El objetivo del ajuste de la distribución es predecir la probabilidad o pronosticar la frecuencia de ocurrencia de la magnitud del fenómeno en un intervalo determinado.

Hay muchas distribuciones de probabilidad (ver lista de distribuciones de probabilidad ) de las cuales algunas pueden ajustarse más estrechamente a la frecuencia observada de los datos que otras, dependiendo de las características del fenómeno y de la distribución. Se supone que una distribución que se ajusta perfectamente conduce a buenas predicciones. Por lo tanto, al ajustar la distribución es necesario seleccionar una distribución que se adapte bien a los datos.

Selección de distribución

La selección de la distribución adecuada depende de la presencia o ausencia de simetría del conjunto de datos con respecto a la tendencia central .

Distribuciones simétricas

Cuando los datos se distribuyen simétricamente alrededor de la media mientras disminuye la frecuencia de aparición de datos más alejados de la media, se puede seleccionar, por ejemplo, la distribución normal , la distribución logística o la distribución t de Student . Los dos primeros son muy similares, mientras que el último, con un grado de libertad, tiene "colas más pesadas", lo que significa que los valores más alejados de la media ocurren relativamente más a menudo (es decir, la curtosis es mayor). La distribución de Cauchy también es simétrica.

Distribuciones sesgadas hacia la derecha

Cuando los valores más grandes tienden a estar más alejados de la media que los valores más pequeños, uno tiene una distribución asimétrica hacia la derecha (es decir, hay asimetría positiva ), se puede, por ejemplo, seleccionar la distribución log-normal (es decir, los valores logarítmicos de la media). los datos se distribuyen normalmente ), la distribución log-logística (es decir, los valores logarítmicos de los datos siguen una distribución logística ), la distribución Gumbel , la distribución exponencial , la distribución Pareto , la distribución Weibull , la distribución Burr o la distribución Fréchet . Las últimas cuatro distribuciones están delimitadas a la izquierda.

Distribuciones sesgadas hacia la izquierda

Cuando los valores más pequeños tienden a estar más alejados de la media que los valores más grandes, uno tiene una distribución sesgada hacia la izquierda (es decir, hay asimetría negativa), se puede, por ejemplo, seleccionar la distribución normal cuadrada (es decir, la distribución normal aplicada a el cuadrado de los valores de los datos), ^[1] la distribución Gumbel invertida (reflejada), ^[1] la distribución Dagum (distribución Burr reflejada) o la distribución Gompertz , que está limitada a la izquierda.

Técnicas de ajuste

Existen las siguientes técnicas de ajuste de distribución: ^[2]

Métodos paramétricos , mediante los cuales se calculan los parámetros de la distribución a partir de la serie de datos. ^[3] Los métodos paramétricos son:
- Método de momentos
- Estimación de espaciado máximo
- Método de momentos L ^[4]
- Método de máxima verosimilitud ^[5]

Distribución acumulada de Gumbel ajustada a las precipitaciones máximas de un día en octubre en Surinam mediante el método de regresión con **banda de confianza** adicional utilizando cumfreq

Trazar la posición más análisis de regresión , utilizando una transformación de la función de distribución acumulativa para que se encuentre una relación lineal entre la probabilidad acumulada y los valores de los datos, que también pueden necesitar ser transformados, dependiendo de la distribución de probabilidad seleccionada. En este método, la probabilidad acumulada debe estimarse mediante la posición de trazado ^[6]

Generalización de distribuciones.

Es habitual transformar los datos logarítmicamente para ajustar distribuciones simétricas (como la normal y la logística ) a datos que obedecen a una distribución que está sesgada positivamente (es decir, sesgada hacia la derecha, con media > moda y con una cola derecha que es más larga que la cola izquierda), ver distribución lognormal y distribución logística . Se puede lograr un efecto similar sacando la raíz cuadrada de los datos.

Para ajustar una distribución simétrica a datos que obedecen a una distribución sesgada negativamente (es decir, sesgada hacia la izquierda, con media < moda y con una cola derecha que es más corta que la cola izquierda), se podrían usar los valores al cuadrado de los datos para lograr el ajuste.

De manera más general, se pueden elevar los datos a una potencia p para ajustar distribuciones simétricas a datos que obedezcan a una distribución de cualquier asimetría, donde p < 1 cuando la asimetría es positiva y p > 1 cuando la asimetría es negativa. El valor óptimo de p debe encontrarse mediante un método numérico . El método numérico puede consistir en asumir un rango de valores de p , luego aplicar el procedimiento de ajuste de distribución repetidamente para todos los valores de p supuestos y finalmente seleccionar el valor de p para el cual se calcula la suma de los cuadrados de las desviaciones de las probabilidades calculadas de las frecuencias medidas ( chi squared ) es mínimo, como se hace en CumFreq .

La generalización mejora la flexibilidad de las distribuciones de probabilidad y aumenta su aplicabilidad en el ajuste de distribuciones. ^[6]

La versatilidad de la generalización hace posible, por ejemplo, ajustar conjuntos de datos distribuidos aproximadamente normalmente a un gran número de distribuciones de probabilidad diferentes, ^[7] mientras que las distribuciones sesgadas negativamente se pueden ajustar a distribuciones de Gumbel normales al cuadrado y reflejadas. ^[8]

Inversión de asimetría

Las distribuciones asimétricas se pueden invertir (o reflejar) reemplazando en la expresión matemática de la función de distribución acumulativa (F) por su complemento: F'=1-F, obteniendo la función de distribución complementaria (también llamada función de supervivencia ) que da una imagen especular. . De esta manera, una distribución sesgada hacia la derecha se transforma en una distribución sesgada hacia la izquierda y viceversa.

La técnica de inversión de asimetría aumenta el número de distribuciones de probabilidad disponibles para el ajuste de la distribución y amplía las oportunidades de ajuste de la distribución.

Cambio de distribuciones

Algunas distribuciones de probabilidad, como la exponencial , no admiten valores de datos negativos ( X ). Sin embargo, cuando hay datos negativos, tales distribuciones aún se pueden usar reemplazando X por Y = X - Xm , donde Xm es el valor mínimo de X. Este reemplazo representa un desplazamiento de la distribución de probabilidad en dirección positiva, es decir, hacia la derecha, porque Xm es negativo. Después de completar el ajuste de la distribución de Y , los valores X correspondientes se encuentran a partir de X = Y + Xm , lo que representa un desplazamiento hacia atrás de la distribución en dirección negativa, es decir, hacia la izquierda.
La técnica del cambio de distribución aumenta la posibilidad de encontrar una distribución de probabilidad que se ajuste adecuadamente.

Distribuciones compuestas

Distribución compuesta (discontinua) con cinturón de confianza ^[9]

Existe la opción de utilizar dos distribuciones de probabilidad diferentes, una para el rango de datos más bajo y otra para el rango más alto, como por ejemplo la distribución de Laplace . Los rangos están separados por un punto de interrupción. El uso de tales distribuciones de probabilidad compuestas (discontinuas) puede ser oportuno cuando los datos del fenómeno estudiado se obtuvieron bajo dos conjuntos de condiciones diferentes. ^[6]

Incertidumbre de la predicción

Análisis de incertidumbre con cinturones de confianza utilizando la distribución binomial ^[10]

Las predicciones de ocurrencia basadas en distribuciones de probabilidad ajustadas están sujetas a incertidumbre , que surge de las siguientes condiciones:

La verdadera distribución de probabilidad de los eventos puede desviarse de la distribución ajustada, ya que la serie de datos observados puede no ser totalmente representativa de la probabilidad real de ocurrencia del fenómeno debido a un error aleatorio.
La ocurrencia de eventos en otra situación o en el futuro puede desviarse de la distribución ajustada, ya que esta ocurrencia también puede estar sujeta a errores aleatorios.
Un cambio de las condiciones ambientales puede provocar un cambio en la probabilidad de ocurrencia del fenómeno.

Variaciones de nueve curvas *de período de retorno* de muestras de 50 años de un registro teórico de 1000 años (línea de base), datos de Benson ^[11]

Se puede obtener una estimación de la incertidumbre en el primer y segundo caso con la distribución de probabilidad binomial utilizando, por ejemplo, la probabilidad de superación Pe (es decir, la probabilidad de que el evento X sea mayor que un valor de referencia Xr de X ) y la probabilidad de que no se supere. -excedencia Pn (es decir, la probabilidad de que el evento X sea menor o igual que el valor de referencia Xr , esto también se llama probabilidad acumulada ). En este caso sólo hay dos posibilidades: o hay superación o no hay superación. Esta dualidad es la razón por la que es aplicable la distribución binomial.

Con la distribución binomial se puede obtener un intervalo de predicción . Dicho intervalo también estima el riesgo de fracaso, es decir, la probabilidad de que el evento previsto aún permanezca fuera del intervalo de confianza. El análisis de confianza o de riesgo puede incluir el período de retorno T=1/Pe como se hace en hidrología .

Varianza de funciones de probabilidad ajustadas bayesianas

Se puede utilizar un enfoque bayesiano para ajustar un modelo que tenga una distribución previa para el parámetro . Cuando se tienen muestras que se extraen independientemente de la distribución subyacente, se puede derivar la llamada distribución posterior . Este posterior se puede utilizar para actualizar la función de masa de probabilidad para una nueva muestra dadas las observaciones , se obtiene $P(x|\theta)$ $P(\theta)$ $\theta$ $X$ $P(\theta |X)$ $x$ $X$

$P_{\theta }(x|X):=\int d\theta \ P(x|\theta )\ P(\theta |X)$ .

También se puede determinar la varianza de la función de masa de probabilidad recién obtenida. La varianza de una función de masa de probabilidad bayesiana se puede definir como

$\sigma _{P_{\theta }(x|X)}^{2}:=\int d\theta \ \left[P(x|\theta )-P_{\theta }(x|X )\right]^{2}\ P(\theta |X)$ .

Esta expresión de la varianza se puede simplificar sustancialmente (suponiendo muestras extraídas de forma independiente). Definir la "función de masa de probabilidad propia" como

$P_{\theta }(x|\left\{X,x\right\})=\int d\theta \ P(x|\theta )\ P(\theta |\left\{X,x \bien\})$ ,

se obtiene por la varianza ^[12]

$\sigma _{P_{\theta }(x|X)}^{2}=P_{\theta }(x|X)\left[P_{\theta }(x|\left\{X, x\right\})-P_{\theta }(x|X)\right]$ .

La expresión de la varianza implica un ajuste adicional que incluye la muestra de interés. $x$

Histograma y densidad de probabilidad de un conjunto de datos que se ajusta a la distribución GEV

Bondad de ajuste

Al clasificar la bondad de ajuste de varias distribuciones se puede tener una idea de cuál distribución es aceptable y cuál no.

Histograma y función de densidad.

A partir de la función de distribución acumulativa (CDF), se puede derivar un histograma y la función de densidad de probabilidad (PDF).

Ver también

Referencias

^ ab Los histogramas de frecuencia sesgados hacia la izquierda (negativamente) se pueden ajustar a funciones de probabilidad de Gumbel normales o reflejadas al cuadrado. En línea: [1]
^ Análisis de frecuencia y regresión . Capítulo 6 en: HPRitzema (ed., 1994), Principios y aplicaciones de drenaje , Publ. 16, págs. 175–224, Instituto Internacional para la Recuperación y Mejora de Tierras (ILRI), Wageningen, Países Bajos. ISBN 9070754339 . Descarga gratuita desde la página web [2] bajo el nr. 12, o directamente como PDF: [3]
^ H. Cramér, "Métodos matemáticos de estadística", Universidad de Princeton. Prensa (1946)
^ Hosking, JRM (1990). "Momentos L: análisis y estimación de distribuciones mediante combinaciones lineales de estadísticas de orden". Revista de la Royal Statistical Society, Serie B. 52 (1): 105-124. JSTOR 2345653.
^ Aldrich, John (1997). "RA Fisher y la creación de la máxima verosimilitud 1912-1922". Ciencia estadística . 12 (3): 162-176. doi : 10.1214/ss/1030037906 . SEÑOR 1617519.
^ Software abc para distribuciones de probabilidad compuestas y generalizadas. Revista Internacional de Métodos Matemáticos y Computacionales, 4, 1-9 [4] o [5]
^ Ejemplo de un conjunto de datos distribuidos aproximadamente normalmente al que se puede ajustar una gran cantidad de distribuciones de probabilidad diferentes, [6]
^ Los histogramas de frecuencia sesgados hacia la izquierda (negativamente) se pueden ajustar a funciones de probabilidad de Gumbel normales al cuadrado o reflejadas. [7]
^ Introducción a las distribuciones de probabilidad compuestas
^ Predicciones de frecuencia y sus límites de confianza binomiales. En: Comisión Internacional de Riego y Drenaje, Sesión Técnica Especial: Aspectos económicos del control de inundaciones y medidas no estructurales, Dubrovnik, Yugoslavia, 1988. En línea
^ Benson, MA 1960. Características de las curvas de frecuencia basadas en un registro teórico de 1000 años. En: T.Dalrymple (Ed.), Análisis de frecuencia de inundaciones. Documento sobre suministro de agua del Servicio Geológico de EE. UU., 1543-A, págs.
^ Pijlman; Linnartz (2023). "Varianza de probabilidad de los datos". Actas SITB 2023 : 34.
^ Software para ajuste de distribución de probabilidad