El suavizado exponencial o media móvil exponencial (EMA) es una técnica empírica para suavizar datos de series temporales mediante la función de ventana exponencial . Mientras que en la media móvil simple las observaciones pasadas tienen la misma ponderación, las funciones exponenciales se utilizan para asignar ponderaciones exponencialmente decrecientes a lo largo del tiempo. Es un procedimiento fácil de aprender y aplicar para realizar algunas determinaciones basadas en suposiciones previas del usuario, como la estacionalidad. El suavizado exponencial se utiliza a menudo para el análisis de datos de series temporales.
El suavizado exponencial es una de las muchas funciones de ventana que se aplican comúnmente para suavizar datos en el procesamiento de señales , y que actúan como filtros de paso bajo para eliminar el ruido de alta frecuencia . Este método está precedido por el uso de funciones de ventana exponenciales recursivas de Poisson en convoluciones del siglo XIX, así como por el uso de promedios móviles recursivos de Kolmogorov y Zurbenko en sus estudios de turbulencia en la década de 1940.
La secuencia de datos sin procesar se representa a menudo como comenzando en el momento , y la salida del algoritmo de suavizado exponencial se escribe comúnmente como , que puede considerarse como una mejor estimación de cuál será el próximo valor de . Cuando la secuencia de observaciones comienza en el momento , la forma más simple de suavizado exponencial se da mediante las siguientes fórmulas: [1]
donde es el factor de suavizado , y . Si se sustituye en continuamente de modo que la fórmula de se exprese completamente en términos de , entonces se revelan factores de ponderación decrecientes exponencialmente en cada dato sin procesar , lo que muestra cómo se nombra el suavizado exponencial.
El suavizado exponencial simple no puede predecir lo que se observaría en función de los datos brutos hasta , mientras que el suavizado exponencial doble y el suavizado exponencial triple se pueden utilizar para la predicción debido a la presencia de como la secuencia de las mejores estimaciones de la tendencia lineal.
El uso de la función de ventana exponencial se atribuye por primera vez a Poisson [2] como una extensión de una técnica de análisis numérico del siglo XVII, y luego fue adoptada por la comunidad de procesamiento de señales en la década de 1940. Aquí, el suavizado exponencial es la aplicación de la función de ventana exponencial, o de Poisson . El suavizado exponencial fue sugerido por primera vez en la literatura estadística sin citar trabajos previos por Robert Goodell Brown en 1956, [3] y luego ampliado por Charles C. Holt en 1957. [4] La siguiente formulación, que es la que se usa comúnmente, se atribuye a Brown y se conoce como "suavizado exponencial simple de Brown". [5] Todos los métodos de Holt, Winters y Brown pueden verse como una aplicación simple del filtrado recursivo, encontrado por primera vez en la década de 1940 [2] para convertir filtros de respuesta de impulso finito (FIR) en filtros de respuesta de impulso infinito .
La forma más simple de suavizado exponencial viene dada por la siguiente fórmula:
donde es el factor de suavizado , y . En otras palabras, la estadística suavizada es un promedio ponderado simple de la observación actual y la estadística suavizada anterior . El suavizado exponencial simple se aplica fácilmente y produce una estadística suavizada tan pronto como hay dos observaciones disponibles. El término factor de suavizado aplicado aquí es algo inapropiado, ya que los valores más grandes de en realidad reducen el nivel de suavizado, y en el caso límite con = 1 la serie de salida de suavizado es solo la observación actual. Los valores cercanos a 1 tienen un efecto de suavizado menor y dan mayor peso a los cambios recientes en los datos, mientras que los valores más cercanos a 0 tienen un efecto de suavizado mayor y son menos sensibles a los cambios recientes. En el caso límite con = 0, la serie de salida es simplemente plana o constante como la observación al comienzo del proceso de suavizado .
No existe un procedimiento formalmente correcto para elegir . A veces se utiliza el criterio del estadístico para elegir un factor apropiado. Alternativamente, se puede utilizar una técnica estadística para optimizar el valor de . Por ejemplo, se puede utilizar el método de mínimos cuadrados para determinar el valor de para el cual se minimiza la suma de las cantidades. [6]
A diferencia de otros métodos de suavizado, como el promedio móvil simple, esta técnica no requiere que se realice un número mínimo de observaciones antes de comenzar a producir resultados. Sin embargo, en la práctica, no se logrará un "buen promedio" hasta que se hayan promediado varias muestras juntas; por ejemplo, una señal constante tardará aproximadamente etapas en alcanzar el 95% del valor real. Para reconstruir con precisión la señal original sin pérdida de información, también deben estar disponibles todas las etapas del promedio móvil exponencial, porque las muestras más antiguas decaen en peso exponencialmente. Esto contrasta con un promedio móvil simple, en el que se pueden omitir algunas muestras sin tanta pérdida de información debido a la ponderación constante de las muestras dentro del promedio. Si se omitirá un número conocido de muestras, también se puede ajustar un promedio ponderado para esto, dando el mismo peso a la nueva muestra y a todas las que se omitirán.
Esta forma simple de suavizado exponencial también se conoce como media móvil ponderada exponencialmente (EWMA). Técnicamente, también se puede clasificar como un modelo de media móvil integrada autorregresiva (ARIMA) (0,1,1) sin término constante. [7]
La constante de tiempo de una media móvil exponencial es el tiempo que tarda la respuesta suavizada de una función escalón unitario en alcanzar el valor de la señal original. La relación entre esta constante de tiempo, , y el factor de suavizado, , se da mediante la siguiente fórmula:
donde es el intervalo de tiempo de muestreo de la implementación de tiempo discreto. Si el tiempo de muestreo es rápido en comparación con la constante de tiempo ( ), entonces, al usar la expansión de Taylor de la función exponencial ,
Tenga en cuenta que en la definición anterior, (la salida inicial del algoritmo de suavizado exponencial) se inicializa a (los datos brutos iniciales o la observación). Debido a que el suavizado exponencial requiere que, en cada etapa, tengamos el pronóstico anterior , no es obvio cómo comenzar el método. Podríamos suponer que el pronóstico inicial es igual al valor inicial de la demanda; sin embargo, este enfoque tiene un serio inconveniente. El suavizado exponencial otorga un peso sustancial a las observaciones pasadas, por lo que el valor inicial de la demanda tendrá un efecto irrazonablemente grande en los pronósticos iniciales. Este problema se puede superar permitiendo que el proceso evolucione durante un número razonable de períodos (10 o más) y utilizando el promedio de la demanda durante esos períodos como pronóstico inicial. Hay muchas otras formas de establecer este valor inicial, pero es importante tener en cuenta que cuanto menor sea el valor de , más sensible será su pronóstico a la selección de este valor de suavizado inicial . [8] [9]
Para cada método de suavizado exponencial, también debemos elegir el valor de los parámetros de suavizado. Para el suavizado exponencial simple, solo hay un parámetro de suavizado ( α ), pero para los métodos que siguen, generalmente hay más de un parámetro de suavizado.
Existen casos en los que los parámetros de suavizado pueden elegirse de manera subjetiva: el pronosticador especifica el valor de los parámetros de suavizado basándose en la experiencia previa. Sin embargo, una forma más sólida y objetiva de obtener valores de los parámetros desconocidos incluidos en cualquier método de suavizado exponencial es estimarlos a partir de los datos observados.
Los parámetros desconocidos y los valores iniciales para cualquier método de suavizado exponencial se pueden estimar minimizando la suma de errores al cuadrado (SSE). Los errores se especifican como para (los errores de pronóstico dentro de la muestra de un paso por delante) donde y son una variable que se predecirá en y una variable como el resultado de la predicción en (basado en los datos anteriores o la predicción), respectivamente. Por lo tanto, encontramos los valores de los parámetros desconocidos y los valores iniciales que minimizan
A diferencia del caso de regresión (donde tenemos fórmulas para calcular directamente los coeficientes de regresión que minimizan el SSE), este implica un problema de minimización no lineal y necesitamos utilizar una herramienta de optimización para realizarlo.
El nombre "suavizado exponencial" se atribuye al uso de la función de ventana exponencial durante la convolución. Ya no se atribuye a Holt, Winters & Brown.
Mediante la sustitución directa de la ecuación definitoria por suavizado exponencial simple en sí misma encontramos que
En otras palabras, a medida que pasa el tiempo, la estadística suavizada se convierte en el promedio ponderado de un número cada vez mayor de observaciones pasadas , y los pesos asignados a las observaciones anteriores son proporcionales a los términos de la progresión geométrica.
Una progresión geométrica es la versión discreta de una función exponencial , por lo que de aquí se originó el nombre de este método de suavizado según la tradición estadística .
El suavizado exponencial y el promedio móvil tienen defectos similares en cuanto a la introducción de un desfase con respecto a los datos de entrada. Si bien esto se puede corregir desplazando el resultado a la mitad de la longitud de la ventana para un núcleo simétrico, como un promedio móvil o gaussiano, no está claro cuán apropiado sería esto para el suavizado exponencial. Ambos (promedio móvil con núcleos simétricos) también tienen aproximadamente la misma distribución de error de pronóstico cuando α = 2/( k + 1) donde k es el número de puntos de datos pasados considerando el promedio móvil. Se diferencian en que el suavizado exponencial tiene en cuenta todos los datos pasados, mientras que el promedio móvil solo tiene en cuenta k puntos de datos pasados. Computacionalmente hablando, también difieren en que el promedio móvil requiere que se mantengan los k puntos de datos pasados, o el punto de datos en el desfase k + 1 más el valor de pronóstico más reciente, mientras que el suavizado exponencial solo necesita que se mantenga el valor de pronóstico más reciente. [11]
En la literatura sobre procesamiento de señales , el uso de filtros no causales (simétricos) es común, y la función de ventana exponencial se usa ampliamente de esta manera, pero se utiliza una terminología diferente: el suavizado exponencial es equivalente a un filtro de respuesta de impulso infinito (IIR) de primer orden y el promedio móvil es equivalente a un filtro de respuesta de impulso finito con factores de ponderación iguales.
El suavizado exponencial simple no funciona bien cuando hay una tendencia en los datos. [1] En tales situaciones, se idearon varios métodos bajo el nombre de "suavizado exponencial doble" o "suavizado exponencial de segundo orden", que es la aplicación recursiva de un filtro exponencial dos veces, por lo que se denomina "suavizado exponencial doble". Esta nomenclatura es similar al suavizado exponencial cuádruple, que también hace referencia a su profundidad de recursión. [12] La idea básica detrás del suavizado exponencial doble es introducir un término para tener en cuenta la posibilidad de que una serie muestre algún tipo de tendencia. Este componente de pendiente se actualiza a través del suavizado exponencial.
Un método funciona de la siguiente manera: [13]
Nuevamente, la secuencia de observaciones de datos sin procesar está representada por , comenzando en el momento . Usamos para representar el valor suavizado para el momento , y es nuestra mejor estimación de la tendencia en el momento . La salida del algoritmo ahora se escribe como , una estimación del valor de en el momento basada en los datos sin procesar hasta el momento . La suavización exponencial doble se da mediante las fórmulas
y por
donde ( ) es el factor de suavizado de datos y ( ) es el factor de suavizado de tendencia .
Para pronosticar más allá se utiliza la siguiente aproximación:
Establecer el valor inicial es una cuestión de preferencia. Para algunos casos, existe una opción distinta a la mencionada anteriormente .
Téngase en cuenta que F 0 no está definido (no hay ninguna estimación para el tiempo 0) y, según la definición F 1 = s 0 + b 0 , que está bien definida, se pueden evaluar otros valores.
Un segundo método, denominado suavizado exponencial lineal de Brown (LES) o suavizado exponencial doble de Brown, funciona de la siguiente manera. [14]
donde a t , el nivel estimado en el momento t , y b t , la tendencia estimada en el momento t , se dan por
El suavizado exponencial triple aplica el suavizado exponencial tres veces, lo que se utiliza comúnmente cuando hay tres señales de alta frecuencia que deben eliminarse de una serie temporal en estudio. Existen diferentes tipos de estacionalidad: "multiplicativa" y "aditiva" por naturaleza, de manera similar a como la suma y la multiplicación son operaciones básicas en matemáticas.
Si cada mes de diciembre vendemos 10.000 apartamentos más que en noviembre, la estacionalidad es de naturaleza aditiva . Sin embargo, si vendemos un 10% más de apartamentos en los meses de verano que en los meses de invierno, la estacionalidad es de naturaleza multiplicativa . La estacionalidad multiplicativa se puede representar como un factor constante, no como una cantidad absoluta. [15]
El suavizado exponencial triple fue sugerido por primera vez por el estudiante de Holt, Peter Winters, en 1960 después de leer un libro de procesamiento de señales de la década de 1940 sobre suavizado exponencial. [16] La idea novedosa de Holt fue repetir el filtrado un número impar de veces mayor que 1 y menor que 5, lo que fue popular entre los académicos de épocas anteriores. [16] Si bien el filtrado recursivo se había utilizado anteriormente, se aplicó dos y cuatro veces para coincidir con la conjetura de Hadamard , mientras que la aplicación triple requirió más del doble de operaciones de convolución singular. El uso de una aplicación triple se considera una técnica de regla general , en lugar de una basada en fundamentos teóricos y, a menudo, los profesionales la han enfatizado demasiado. Supongamos que tenemos una secuencia de observaciones que comienza en el tiempo con un ciclo de cambio estacional de longitud .
El método calcula una línea de tendencia para los datos, así como índices estacionales que ponderan los valores en la línea de tendencia en función de dónde cae ese punto temporal en el ciclo de longitud .
Sea , el valor suavizado de la parte constante para el tiempo , es la secuencia de las mejores estimaciones de la tendencia lineal que se superponen a los cambios estacionales y es la secuencia de factores de corrección estacional. Deseamos estimar en cada momento mod en el ciclo que adoptan las observaciones. Como regla general, se necesita un mínimo de dos temporadas (o períodos) completos de datos históricos para inicializar un conjunto de factores estacionales.
La salida del algoritmo se escribe nuevamente como , una estimación del valor de en el momento en función de los datos brutos hasta el momento . La suavización exponencial triple con estacionalidad multiplicativa se da mediante las fórmulas [1]
donde ( ) es el factor de suavizado de datos , ( ) es el factor de suavizado de tendencia y ( ) es el factor de suavizado de cambio estacional .
La fórmula general para la estimación de la tendencia inicial es
Establecer las estimaciones iniciales para los índices estacionales es un poco más complicado. Si es el número de ciclos completos presente en sus datos, entonces
dónde
Tenga en cuenta que es el valor promedio del ciclo de sus datos.
Esto da como resultado
El suavizado exponencial triple con estacionalidad aditiva se da por