En estadística y análisis de datos , el software de aplicación CumFreq es una herramienta para el análisis de frecuencia acumulativa de una sola variable y para el ajuste de distribuciones de probabilidad . [1]
Originalmente el método fue desarrollado para el análisis de mediciones hidrológicas de magnitudes que varían espacialmente (p. ej. conductividad hidráulica del suelo) y de magnitudes que varían en el tiempo (p. ej. lluvia, caudal de ríos ) para hallar sus periodos de retorno . Sin embargo, puede emplearse para muchos otros tipos de fenómenos, incluidos aquellos que contienen valores negativos .
CumFreq utiliza el enfoque de posición gráfica para estimar la frecuencia acumulada de cada una de las magnitudes observadas en una serie de datos de la variable. [2]
El programa informático permite determinar la distribución de probabilidad de mejor ajuste . Alternativamente, proporciona al usuario la opción de seleccionar la distribución de probabilidad que se va a ajustar. Se incluyen las siguientes distribuciones de probabilidad: normal , lognormal , logística , loglogística , exponencial , Cauchy , Fréchet , Gumbel , Pareto , Weibull , distribución de valores extremos generalizada , distribución de Laplace , distribución de Burr (Dagum reflejada), distribución de Dagum (Burr reflejada), distribución de Gompertz , distribución de Student y otras.
Otra característica de CumFreq es que brinda la opción de utilizar dos distribuciones de probabilidad diferentes, una para el rango inferior de datos y otra para el superior. Los rangos están separados por un punto de quiebre. El uso de tales distribuciones de probabilidad compuestas (discontinuas) puede ser útil cuando los datos del fenómeno estudiado se obtuvieron en diferentes condiciones. [3]
Durante la fase de entrada, el usuario puede seleccionar el número de intervalos necesarios para determinar el histograma . También puede definir un umbral para obtener una distribución truncada .
La sección de salida proporciona una calculadora para facilitar la interpolación y la extrapolación .
Además, ofrece la opción de ver el gráfico Q–Q en términos de frecuencias acumuladas calculadas y observadas.
ILRI [5] proporciona ejemplos de aplicación a magnitudes como el rendimiento de los cultivos , la profundidad del nivel freático , la salinidad del suelo , la conductividad hidráulica , las precipitaciones y el caudal de los ríos .
El programa puede producir generalizaciones de las distribuciones normales, logísticas y otras transformando los datos utilizando un exponente optimizado para obtener el mejor ajuste .
Esta característica no es común en otro software de ajuste de distribuciones que normalmente incluye solo una transformación logarítmica de datos obteniendo distribuciones como la lognormal y la loglogística .
La generalización de distribuciones simétricas (como la normal y la logística ) las hace aplicables a datos que obedecen a una distribución sesgada hacia la derecha (usando un exponente <1) así como a datos que obedecen a una distribución sesgada hacia la izquierda (usando un exponente >1). Esto mejora la versatilidad de las distribuciones simétricas.
Las distribuciones sesgadas se pueden reflejar mediante la inversión de la distribución (véase función de supervivencia o función de distribución complementaria ) para cambiar la asimetría de positiva a negativa y viceversa. Esto amplifica la cantidad de distribuciones aplicables y aumenta la posibilidad de encontrar una mejor opción. CumFreq aprovecha esa oportunidad.
Cuando hay datos negativos que no están respaldados por una distribución de probabilidad, el modelo realiza un cambio de distribución hacia el lado positivo mientras que, después del ajuste, la distribución se desplaza hacia atrás.
El software emplea la distribución binomial para determinar el cinturón de confianza de la función de distribución acumulativa correspondiente . [2]
La predicción del período de retorno , que es de interés en las series temporales , también se acompaña de un cinturón de confianza. La construcción de cinturones de confianza no se encuentra en la mayoría de los demás programas.
La figura de la derecha muestra la variación que puede ocurrir al obtener muestras de una variable que sigue una determinada distribución de probabilidad. Los datos fueron proporcionados por Benson. [6]
El cinturón de confianza alrededor de una curva de frecuencia acumulada experimental o de período de retorno da una impresión de la región en la que se puede encontrar la distribución real.
Además, aclara que la distribución de probabilidad de mejor ajuste encontrada experimentalmente puede desviarse de la distribución real.
Cumfreq produce una lista de distribuciones clasificadas por bondad de ajuste .
A partir de la función de distribución acumulativa (CDF) se puede derivar un histograma y la función de densidad de probabilidad (PDF).
El software ofrece la opción de utilizar una calculadora de distribución de probabilidad. La frecuencia acumulada y el período de retorno se proporcionan como una función del valor de los datos de entrada. Además, se muestran los intervalos de confianza. A la inversa, el valor se presenta al proporcionar la frecuencia acumulada o el período de retorno.