El análisis de frecuencia acumulada es el análisis de la frecuencia de ocurrencia de valores de un fenómeno menores que un valor de referencia. El fenómeno puede depender del tiempo o del espacio. La frecuencia acumulada también se denomina frecuencia de no excedencia .
El análisis de frecuencia acumulada se realiza para obtener información sobre la frecuencia con la que un determinado fenómeno (característica) se encuentra por debajo de un valor determinado. Esto puede ayudar a describir o explicar una situación en la que está involucrado el fenómeno, o a planificar intervenciones, por ejemplo, en la protección contra inundaciones. [1]
Esta técnica estadística se puede utilizar para determinar la probabilidad de que un fenómeno como una inundación vuelva a ocurrir en el futuro, en función de la frecuencia con la que ocurrió en el pasado. Se puede adaptar para tener en cuenta factores como el cambio climático, que provoca inviernos más húmedos y veranos más secos.
El análisis de frecuencia [2] es el análisis de la frecuencia con que ocurre un fenómeno observado en un rango determinado.
El análisis de frecuencia se aplica a un registro de longitud N de datos observados X 1 , X 2 , X 3 . . . X N sobre un fenómeno variable X . El registro puede depender del tiempo (por ejemplo, la lluvia medida en un punto) o del espacio (por ejemplo, el rendimiento de los cultivos en un área) o de otra manera.
La frecuencia acumulada M Xr de un valor de referencia Xr es la frecuencia con la que los valores observados X son menores o iguales a Xr .
La frecuencia acumulativa relativa Fc se puede calcular a partir de:
donde N es el número de datos
Brevemente esta expresión se puede resumir así:
Cuando Xr = X min , donde X min es el único valor mínimo observado, se encuentra que Fc = 1/ N , porque M = 1 . Por otro lado, cuando Xr = X max , donde X max es el único valor máximo observado, se encuentra que Fc = 1 , porque M = N . Por lo tanto, cuando Fc = 1 esto significa que Xr es un valor por el cual todos los datos son menores o iguales a Xr .
En porcentaje la ecuación se lee:
La probabilidad acumulada Pc de que X sea menor o igual que Xr se puede estimar de varias maneras sobre la base de la frecuencia acumulada M.
Una forma de hacerlo es utilizar la frecuencia acumulativa relativa Fc como estimación.
Otra forma es tener en cuenta la posibilidad de que en casos excepcionales X pueda asumir valores mayores que el máximo observado X max . Esto se puede hacer dividiendo la frecuencia acumulada M por N +1 en lugar de N . La estimación entonces se convierte en:
Existen también otras propuestas para el denominador (ver posiciones gráficas ).
La estimación de la probabilidad se hace más fácil al clasificar los datos.
Cuando los datos observados de X se organizan en orden ascendente ( X 1 ≤ X 2 ≤ X 3 ≤ ⋯ ≤ X N , el mínimo primero y el máximo último), y Ri es el número de rango de la observación Xi , donde el adfijo i indica el número de serie en el rango de datos ascendentes, entonces la probabilidad acumulada se puede estimar mediante:
Por otra parte, cuando los datos observados de X se ordenan en orden descendente , el máximo primero y el mínimo último, y Rj es el número de rango de la observación Xj , la probabilidad acumulada se puede estimar mediante:
Para presentar la distribución de frecuencia acumulada como una ecuación matemática continua en lugar de un conjunto discreto de datos, se puede intentar ajustar la distribución de frecuencia acumulada a una distribución de probabilidad acumulada conocida. [2] [3]
Si se tiene éxito, la ecuación conocida es suficiente para informar la distribución de frecuencia y no se requerirá una tabla de datos. Además, la ecuación ayuda a la interpolación y extrapolación. Sin embargo, se debe tener cuidado al extrapolar una distribución de frecuencia acumulada, porque esto puede ser una fuente de errores. Un posible error es que la distribución de frecuencia no siga la distribución de probabilidad seleccionada más allá del rango de los datos observados.
Cualquier ecuación que dé el valor 1 cuando se integra desde un límite inferior a un límite superior que concuerde bien con el rango de datos, se puede utilizar como distribución de probabilidad para el ajuste. En distribuciones de probabilidad se puede encontrar una muestra de distribuciones de probabilidad que se pueden utilizar .
Las distribuciones de probabilidad se pueden ajustar mediante varios métodos, [2] por ejemplo:
Aplicación de ambos tipos de métodos utilizando por ejemplo
A menudo se demuestra que varias distribuciones se ajustan bien a los datos y no producen resultados significativamente diferentes, mientras que las diferencias entre ellas pueden ser pequeñas en comparación con el ancho del intervalo de confianza. [2] Esto ilustra que puede ser difícil determinar qué distribución da mejores resultados. Por ejemplo, los conjuntos de datos distribuidos de manera aproximadamente normal se pueden ajustar a una gran cantidad de distribuciones de probabilidad diferentes. [4] mientras que las distribuciones sesgadas negativamente se pueden ajustar a distribuciones de Gumbel normales al cuadrado y reflejadas. [5]
A veces es posible ajustar un tipo de distribución de probabilidad a la parte inferior del rango de datos y otro tipo a la parte superior, separados por un punto de ruptura, con lo que se mejora el ajuste general.
La figura muestra un ejemplo de una introducción útil de dicha distribución discontinua para los datos de precipitaciones en el norte de Perú, donde el clima está sujeto al comportamiento de la corriente del Océano Pacífico El Niño . Cuando el Niño se extiende al sur de Ecuador y entra al océano a lo largo de la costa de Perú, el clima en el norte de Perú se vuelve tropical y húmedo. Cuando el Niño no llega a Perú, el clima es semiárido. Por esta razón, las precipitaciones más altas siguen una distribución de frecuencia diferente a las precipitaciones más bajas. [6]
Cuando se deriva una distribución de frecuencia acumulada a partir de un registro de datos, se puede cuestionar si se puede utilizar para predicciones. [7] Por ejemplo, dada una distribución de descargas fluviales para los años 1950-2000, ¿se puede utilizar esta distribución para predecir con qué frecuencia se superará una determinada descarga fluvial en los años 2000-50? La respuesta es sí, siempre que las condiciones ambientales no cambien. Si las condiciones ambientales cambian, como alteraciones en la infraestructura de la cuenca del río o en el patrón de precipitaciones debido a cambios climáticos, la predicción basada en el registro histórico está sujeta a un error sistemático . Incluso cuando no hay un error sistemático, puede haber un error aleatorio , porque por casualidad las descargas observadas durante 1950 − 2000 pueden haber sido mayores o menores de lo normal, mientras que, por otro lado, las descargas de 2000 a 2050 pueden ser por casualidad menores o mayores de lo normal. Las cuestiones en torno a esto se han explorado en el libro El cisne negro .
La teoría de la probabilidad puede ayudar a estimar el rango en el que puede estar el error aleatorio. En el caso de la frecuencia acumulada, solo hay dos posibilidades: se excede un cierto valor de referencia X o no se excede. La suma de la frecuencia de excedencia y la frecuencia acumulada es 1 o 100%. Por lo tanto, la distribución binomial puede utilizarse para estimar el rango del error aleatorio.
Según la teoría normal, la distribución binomial se puede aproximar y para una desviación estándar N grande, Sd se puede calcular de la siguiente manera:
donde Pc es la probabilidad acumulada y N es el número de datos. Se observa que la desviación estándar Sd se reduce a medida que aumenta el número de observaciones N.
La determinación del intervalo de confianza de Pc se hace mediante la prueba t de Student ( t ). El valor de t depende del número de datos y del nivel de confianza de la estimación del intervalo de confianza. Luego, los límites de confianza inferior ( L ) y superior ( U ) de Pc en una distribución simétrica se encuentran a partir de:
Esto se conoce como intervalo de Wald . [8] Sin embargo, la distribución binomial solo es simétrica alrededor de la media cuando Pc = 0,5 , pero se vuelve asimétrica y cada vez más sesgada cuando Pc se acerca a 0 o 1. Por lo tanto, por aproximación, Pc y 1− Pc se pueden utilizar como factores de peso en la asignación de t.Sd a L y U :
donde se puede observar que estas expresiones para Pc = 0.5 son las mismas que las anteriores.
La probabilidad acumulada Pc también se puede llamar probabilidad de no excedencia . La probabilidad de excedencia Pe (también llamada función de supervivencia ) se obtiene a partir de:
El periodo de retorno T se define como:
y indica el número esperado de observaciones que se deben realizar nuevamente para encontrar el valor de la variable en estudio mayor que el valor utilizado para T .
Los límites de confianza superior ( T U ) e inferior ( T L ) de los períodos de retorno se pueden encontrar respectivamente como:
Para valores extremos de la variable en estudio, U es cercano a 1 y pequeños cambios en U originan grandes cambios en T U . Por lo tanto, el período de retorno estimado de los valores extremos está sujeto a un gran error aleatorio. Además, los intervalos de confianza encontrados son válidos para una predicción a largo plazo. Para predicciones a un plazo más corto, los intervalos de confianza U − L y T U − T L pueden ser en realidad más amplios. Junto con la certeza limitada (menos del 100%) utilizada en la prueba t , esto explica por qué, por ejemplo, una precipitación de 100 años podría ocurrir dos veces en 10 años.
El concepto estricto de período de retorno sólo tiene sentido cuando se trata de un fenómeno dependiente del tiempo, como por ejemplo una precipitación puntual. El período de retorno corresponde entonces al tiempo de espera previsto hasta que se produzca de nuevo el excedente. El período de retorno tiene la misma dimensión que el tiempo para el que cada observación es representativa. Por ejemplo, cuando las observaciones se refieren a precipitaciones diarias, el período de retorno se expresa en días, y para las precipitaciones anuales, en años.
La figura muestra la variación que puede ocurrir al obtener muestras de una variable que sigue una determinada distribución de probabilidad. Los datos fueron proporcionados por Benson. [1]
El cinturón de confianza alrededor de una curva de frecuencia acumulada experimental o de período de retorno da una impresión de la región en la que se puede encontrar la distribución real.
Además, aclara que la distribución de probabilidad de mejor ajuste encontrada experimentalmente puede desviarse de la distribución real.
Los datos observados se pueden organizar en clases o grupos con número de serie k . Cada grupo tiene un límite inferior ( L k ) y un límite superior ( U k ). Cuando la clase ( k ) contiene m k datos y el número total de datos es N , entonces la frecuencia relativa de la clase o grupo se obtiene a partir de:
o brevemente:
o en porcentaje:
La presentación de todas las frecuencias de clase da como resultado una distribución de frecuencias o histograma . Los histogramas, incluso cuando se realizan a partir del mismo registro, son diferentes para distintos límites de clase.
El histograma también se puede derivar de la distribución de probabilidad acumulada ajustada:
Puede haber una diferencia entre Fg k y Pg k debido a las desviaciones de los datos observados de la distribución ajustada (ver figura azul).
A menudo se desea combinar el histograma con una función de densidad de probabilidad como se muestra en la imagen en blanco y negro.