Suavizado exponencial

El suavizado exponencial o media móvil exponencial (EMA) es una técnica de regla general para suavizar datos de series de tiempo utilizando la función de ventana exponencial . Mientras que en la media móvil simple las observaciones pasadas se ponderan por igual, se utilizan funciones exponenciales para asignar ponderaciones exponencialmente decrecientes a lo largo del tiempo. Es un procedimiento fácil de aprender y aplicar para tomar alguna determinación basada en suposiciones previas del usuario, como la estacionalidad. El suavizado exponencial se utiliza a menudo para el análisis de datos de series temporales.

El suavizado exponencial es una de las muchas funciones de ventana que se aplican comúnmente para suavizar datos en el procesamiento de señales , actuando como filtros de paso bajo para eliminar el ruido de alta frecuencia . Este método está precedido por el uso de Poisson de funciones de ventana exponenciales recursivas en convoluciones del siglo XIX, así como por el uso de Kolmogorov y Zurbenko de promedios móviles recursivos de sus estudios de turbulencia en la década de 1940.

La secuencia de datos sin procesar a menudo se representa comenzando en el tiempo , y la salida del algoritmo de suavizado exponencial se escribe comúnmente como , que puede considerarse como la mejor estimación de cuál será el siguiente valor de. Cuando la secuencia de observaciones comienza en el tiempo , la forma más simple de suavizado exponencial viene dada por las fórmulas: ^[1] $\{x_{t}\}$ $t=0$ $\{s_{t}\}$ $x$ $t=0$

{\begin{aligned}s_{0}&=x_{0}\\s_{t}&=\alpha x_{t}+(1-\alpha )s_{t-1},\quad t >0\end{alineado}}

¿Dónde está el factor de suavizado y ? $\alpha$ $0<\alpha <1$

Suavizado exponencial básico (simple)

El uso de la función de ventana exponencial se atribuye por primera vez a Poisson ^[2] como una extensión de una técnica de análisis numérico del siglo XVII, y luego fue adoptada por la comunidad de procesamiento de señales en la década de 1940. Aquí, el suavizado exponencial es la aplicación de la función de ventana exponencial o de Poisson . El suavizado exponencial fue sugerido por primera vez en la literatura estadística sin citar trabajos anteriores de Robert Goodell Brown en 1956, ^[3] y luego ampliado por Charles C. Holt en 1957. ^[4] La siguiente formulación, que es la que se usa comúnmente, es atribuido a Brown y se conoce como "suavizado exponencial simple de Brown". ^[5] Todos los métodos de Holt, Winters y Brown pueden verse como una simple aplicación de filtrado recursivo, descubierto por primera vez en la década de 1940 ^[2] para convertir filtros de respuesta de impulso finita (FIR) en filtros de respuesta de impulso infinito .

La forma más simple de suavizamiento exponencial viene dada por la fórmula:

s_{t}=\alpha x_{t}+(1-\alpha )s_{t-1}=s_{t-1}+\alpha (x_{t}-s_{t-1}) .

¿Dónde está el factor de suavizado y ? En otras palabras, la estadística suavizada es un promedio ponderado simple de la observación actual y la estadística suavizada anterior . El suavizado exponencial simple se aplica fácilmente y produce una estadística suavizada tan pronto como hay dos observaciones disponibles. El término factor de suavizado aplicado aquí es algo inapropiado, ya que valores más grandes de en realidad reducen el nivel de suavizado y, en el caso límite con = 1, la serie de salida es solo la observación actual. Los valores cercanos a uno tienen un efecto de suavizado menor y dan mayor peso a los cambios recientes en los datos, mientras que los valores más cercanos a cero tienen un efecto de suavizado mayor y responden menos a los cambios recientes. $\alpha$ $0\leq \alpha \leq 1$ ${\ Displaystyle s_ {t}}$ $x_{t}$ $s_{t-1}$ $\alpha$ $\alpha$ $\alpha$ $\alpha$ $\alpha$

No existe un procedimiento formalmente correcto para elegir . A veces se utiliza el juicio del estadístico para elegir un factor apropiado. Alternativamente, se puede utilizar una técnica estadística para optimizar el valor de . Por ejemplo, el método de mínimos cuadrados podría usarse para determinar el valor de para el cual se minimiza la suma de las cantidades. ^[6] $\alpha$ $\alpha$ $\alpha$ $(s_{t}-x_{t+1})^{2}$

A diferencia de otros métodos de suavizado, como la media móvil simple, esta técnica no requiere realizar un número mínimo de observaciones antes de comenzar a producir resultados. Sin embargo, en la práctica no se logrará un "buen promedio" hasta que se hayan promediado varias muestras juntas; por ejemplo, una señal constante tardará aproximadamente etapas en alcanzar el 95% del valor real. Para reconstruir con precisión la señal original sin pérdida de información, todas las etapas de la media móvil exponencial también deben estar disponibles, porque las muestras más antiguas pierden peso exponencialmente. Esto contrasta con una media móvil simple, en la que algunas muestras se pueden omitir sin tanta pérdida de información debido a la ponderación constante de las muestras dentro de la media. Si se omitirá un número conocido de muestras, también se puede ajustar un promedio ponderado para esto, dando igual peso a la nueva muestra y a todas las que se omitirán. $3/\alpha$

Esta forma simple de suavizado exponencial también se conoce como promedio móvil ponderado exponencialmente (EWMA). Técnicamente, también se puede clasificar como un modelo de media móvil integrada autorregresiva (ARIMA) (0,1,1) sin término constante. ^[7]

Tiempo constante

La constante de tiempo de una media móvil exponencial es la cantidad de tiempo que tarda la respuesta suavizada de una función de paso unitario en alcanzar la señal original. La relación entre esta constante de tiempo, y el factor de suavizado, viene dada por la fórmula: $1-1/e\aproximadamente 63,2\,\%$ $\tau$ $\alpha$

\alpha =1-e^{-\Delta T/\tau }

, de este modo

\tau =-{\frac {\Delta T}{\ln(1-\alpha )}}

donde es el intervalo de tiempo de muestreo de la implementación de tiempo discreto. Si el tiempo de muestreo es rápido en comparación con la constante de tiempo ( ), entonces $\Delta T$ $\Delta T\ll \tau$

\alpha \approx {\frac {\Delta T}{\tau }}

Elegir el valor suavizado inicial

Tenga en cuenta que en la definición anterior, se está inicializando en . Debido a que el suavizamiento exponencial requiere que en cada etapa tengamos el pronóstico anterior, no es obvio cómo poner en marcha el método. Podríamos suponer que la previsión inicial es igual al valor inicial de la demanda; sin embargo, este enfoque tiene un serio inconveniente. El suavizamiento exponencial otorga un peso sustancial a las observaciones pasadas, por lo que el valor inicial de la demanda tendrá un efecto excesivamente grande en los pronósticos iniciales. Este problema puede superarse permitiendo que el proceso evolucione durante un número razonable de períodos (10 o más) y utilizando el promedio de la demanda durante esos períodos como pronóstico inicial. Hay muchas otras formas de establecer este valor inicial, pero es importante tener en cuenta que cuanto menor sea el valor de , más sensible será su pronóstico a la selección de este valor inicial más suave . ^[8]^[9] ${\ Displaystyle s_ {0}}$ $x_{0}$ $\alpha$ ${\ Displaystyle s_ {0}}$

Mejoramiento

Para cada método de suavizado exponencial también debemos elegir el valor de los parámetros de suavizado. Para el suavizado exponencial simple, sólo hay un parámetro de suavizado ( α ), pero para los métodos siguientes suele haber más de un parámetro de suavizado.

Hay casos en los que los parámetros de suavización pueden elegirse de manera subjetiva: el pronosticador especifica el valor de los parámetros de suavización basándose en experiencias previas. Sin embargo, una forma más sólida y objetiva de obtener valores para los parámetros desconocidos incluidos en cualquier método de suavizamiento exponencial es estimarlos a partir de los datos observados.

Los parámetros desconocidos y los valores iniciales para cualquier método de suavizado exponencial se pueden estimar minimizando la suma de errores cuadrados (SSE). Los errores se especifican como para (los errores de pronóstico de un paso adelante dentro de la muestra). Por lo tanto encontramos los valores de los parámetros desconocidos y los valores iniciales que minimizan $e_{t}=y_{t}-{\hat {y}}_{t\mid t-1}$ $t=1,\ldots,T$

{\text{SSE}}=\sum _ {t=1}^{T}(y_{t}-{\hat {y}}_{t\mid t-1})^{2} =\sum_{t=1}^{T}e_{t}^{2}

^[10]

A diferencia del caso de regresión (donde tenemos fórmulas para calcular directamente los coeficientes de regresión que minimizan el SSE), este implica un problema de minimización no lineal y necesitamos usar una herramienta de optimización para realizarlo.

Denominación "exponencial"

El nombre "suavizado exponencial" se atribuye al uso de la función de ventana exponencial durante la convolución. Ya no se atribuye a Holt, Winters & Brown.

Por sustitución directa de la ecuación que define el suavizado exponencial simple dentro de sí misma, encontramos que

{\begin{aligned}s_{t}&=\alpha x_{t}+(1-\alpha )s_{t-1}\\[3pt]&=\alpha x_{t}+\alpha (1-\alpha )x_{t-1}+(1-\alpha )^{2}s_{t-2}\\[3pt]&=\alpha \left[x_{t}+(1-\ alfa )x_{t-1}+(1-\alpha )^{2}x_{t-2}+(1-\alpha )^{3}x_{t-3}+\cdots +(1-\ alfa )^{t-1}x_{1}\right]+(1-\alpha )^{t}x_{0}.\end{aligned}}

En otras palabras, a medida que pasa el tiempo la estadística suavizada se convierte en el promedio ponderado de un número cada vez mayor de observaciones pasadas , y los pesos asignados a las observaciones anteriores son proporcionales a los términos de la progresión geométrica. ${\ Displaystyle s_ {t}}$ $s_{t-1},\ldots,s_{tn},\ldots$

1,(1-\alpha ),(1-\alpha )^{2},\ldots ,(1-\alpha )^{n},\ldots

Una progresión geométrica es la versión discreta de una función exponencial , por lo que aquí es donde se originó el nombre de este método de suavizado según la tradición estadística .

Comparación con la media móvil

El suavizado exponencial y la media móvil tienen defectos similares al introducir un retraso con respecto a los datos de entrada. Si bien esto se puede corregir desplazando el resultado a la mitad de la longitud de la ventana para un núcleo simétrico, como una media móvil o gaussiana, no está claro qué tan apropiado sería esto para el suavizado exponencial. También ambos tienen aproximadamente la misma distribución de error de pronóstico cuando α = 2/( k + 1). Se diferencian en que el suavizado exponencial tiene en cuenta todos los datos pasados, mientras que la media móvil sólo tiene en cuenta k puntos de datos pasados. Desde el punto de vista computacional, también difieren en que el promedio móvil requiere que se mantengan los k puntos de datos pasados, o el punto de datos en el rezago k + 1 más el valor de pronóstico más reciente, mientras que el suavizado exponencial solo necesita que se mantenga el valor de pronóstico más reciente. conservó. ^[11]

En la literatura sobre procesamiento de señales , el uso de filtros no causales (simétricos) es común, y la función de ventana exponencial se usa ampliamente de esta manera, pero se usa una terminología diferente: el suavizado exponencial es equivalente a un impulso infinito de primer orden. El filtro de respuesta (IIR) y la media móvil equivalen a un filtro de respuesta de impulso finito con factores de ponderación iguales.

Suavizado doble exponencial (Holt lineal)

El suavizado exponencial simple no funciona bien cuando hay una tendencia en los datos. ^[1] En tales situaciones, se idearon varios métodos bajo el nombre de "suavizamiento exponencial doble" o "suavizamiento exponencial de segundo orden", que es la aplicación recursiva de un filtro exponencial dos veces, por lo que se denomina "suavizamiento exponencial doble". Esta nomenclatura es similar al suavizado exponencial cuádruple, que también hace referencia a su profundidad de recursividad. ^[12] La idea básica detrás del suavizamiento exponencial doble es introducir un término para tener en cuenta la posibilidad de que una serie muestre algún tipo de tendencia. Este componente de pendiente se actualiza a su vez mediante un suavizado exponencial.

Un método funciona de la siguiente manera: ^[13]

Nuevamente, la secuencia de datos sin procesar de las observaciones está representada por , comenzando en el momento . Lo utilizamos para representar el valor suavizado en el tiempo y es nuestra mejor estimación de la tendencia en el momento . La salida del algoritmo ahora se escribe como una estimación del valor de at time basada en los datos sin procesar hasta time . El suavizado exponencial doble viene dado por las fórmulas $x_{t}$ $t=0$ ${\ Displaystyle s_ {t}}$ $t$ $b_{t}$ $t$ $F_{t+m}$ $x_{t+m}$ $m>0$ $t$

{\begin{aligned}s_{0}&=x_{0}\\b_{0}&=x_{1}-x_{0}\\\end{aligned}}

y por por $t>0$

{\begin{aligned}s_{t}&=\alpha x_{t}+(1-\alpha )(s_{t-1}+b_{t-1})\\b_{t}&=\beta (s_{t}-s_{t-1})+(1-\beta )b_{t-1}\\\end{aligned}}

donde ( ) es el factor de suavizado de datos y ( ) es el factor de suavizado de tendencias . $\alpha$ $0\leq \alpha \leq 1$ $\beta$ $0\leq \beta \leq 1$

Para pronosticar más allá viene dado por la aproximación: $x_{t}$

F_{t+m}=s_{t}+m\cdot b_{t}

Establecer el valor inicial es una cuestión de preferencia. Para algunos, existe una opción distinta a la mencionada anteriormente . $b$ ${\textstyle {\frac {x_{n}-x_{0}}{n}}}$ $n$

Tenga en cuenta que F ₀ no está definido (no hay estimación para el tiempo 0) y, de acuerdo con la definición F ₁ = s ₀ + b ₀ , que está bien definida, se pueden evaluar más valores.

Un segundo método, denominado suavizamiento exponencial lineal de Brown (LES) o suavizamiento exponencial doble de Brown, funciona de la siguiente manera. ^[14]

{\begin{aligned}s'_{0}&=x_{0}\\s''_{0}&=x_{0}\\s'_{t}&=\alpha x_{t}+(1-\alpha )s'_{t-1}\\s''_{t}&=\alpha s'_{t}+(1-\alpha )s''_{t-1}\\F_{t+m}&=a_{t}+mb_{t},\end{aligned}}

donde a _t , el nivel estimado en el momento t y b _t , la tendencia estimada en el momento t son:

{\begin{aligned}a_{t}&=2s'_{t}-s''_{t}\\[5pt]b_{t}&={\frac {\alpha }{1-\alpha }}(s'_{t}-s''_{t}).\end{aligned}}

Suavizado triple exponencial (Holt Winters)

El suavizado exponencial triple aplica el suavizado exponencial tres veces, que se usa comúnmente cuando hay tres señales de alta frecuencia que deben eliminarse de una serie de tiempo en estudio. Hay diferentes tipos de estacionalidad: de naturaleza "multiplicativa" y "aditiva", al igual que la suma y la multiplicación son operaciones básicas en matemáticas.

Si cada mes de diciembre vendemos 10.000 apartamentos más que en noviembre, la estacionalidad es de naturaleza aditiva . Sin embargo, si vendemos un 10% más de apartamentos en los meses de verano que en los meses de invierno, la estacionalidad es de naturaleza multiplicativa . La estacionalidad multiplicativa se puede representar como un factor constante, no como una cantidad absoluta.^[15]

El suavizado exponencial triple fue sugerido por primera vez por el estudiante de Holt, Peter Winters, en 1960 después de leer un libro de procesamiento de señales de la década de 1940 sobre suavizado exponencial. ^[16] La novedosa idea de Holt era repetir el filtrado un número impar de veces mayor que 1 y menor que 5, lo cual era popular entre los estudiosos de épocas anteriores. ^[16] Si bien el filtrado recursivo se había utilizado anteriormente, se aplicó dos y cuatro veces para coincidir con la conjetura de Hadamard , mientras que la aplicación triple requirió más del doble de operaciones de convolución singular. El uso de una aplicación triple se considera una técnica de regla general , más que una técnica basada en fundamentos teóricos y, a menudo, los profesionales la han enfatizado demasiado. - Supongamos que tenemos una secuencia de observaciones que comienza en el tiempo con un ciclo de cambio estacional de duración . $x_{t},$ $t=0$ $L$

El método calcula una línea de tendencia para los datos, así como índices estacionales que ponderan los valores en la línea de tendencia en función de dónde cae ese punto temporal en el ciclo de duración . $L$

Sea el valor suavizado de la parte constante para el tiempo , es la secuencia de mejores estimaciones de la tendencia lineal que se superponen a los cambios estacionales, y es la secuencia de factores de corrección estacionales. Deseamos estimar en cada momento el mod en el ciclo que asumen las observaciones. Como regla general, se necesita un mínimo de dos temporadas (o períodos) completos de datos históricos para inicializar un conjunto de factores estacionales. $s_{t}$ $t$ $b_{t}$ $c_{t}$ $c_{t}$ $t$ $L$ $2L$

La salida del algoritmo se escribe nuevamente como una estimación del valor de at time basada en los datos sin procesar hasta time . El suavizamiento exponencial triple con estacionalidad multiplicativa viene dado por las fórmulas ^[1] $F_{t+m}$ $x_{t+m}$ $t+m>0$ $t$

{\begin{aligned}s_{0}&=x_{0}\\[5pt]s_{t}&=\alpha {\frac {x_{t}}{c_{t-L}}}+(1-\alpha )(s_{t-1}+b_{t-1})\\[5pt]b_{t}&=\beta (s_{t}-s_{t-1})+(1-\beta )b_{t-1}\\[5pt]c_{t}&=\gamma {\frac {x_{t}}{s_{t}}}+(1-\gamma )c_{t-L}\\[5pt]F_{t+m}&=(s_{t}+mb_{t})c_{t-L+1+(m-1){\bmod {L}}},\end{aligned}}

donde ( ) es el factor de suavizado de datos , ( ) es el factor de suavizado de tendencias y ( ) es el factor de suavizado de cambios estacionales . $\alpha$ $0\leq \alpha \leq 1$ $\beta$ $0\leq \beta \leq 1$ $\gamma$ $0\leq \gamma \leq 1$

La fórmula general para la estimación de la tendencia inicial es: $b$

{\begin{aligned}b_{0}&={\frac {1}{L}}\left({\frac {x_{L+1}-x_{1}}{L}}+{\frac {x_{L+2}-x_{2}}{L}}+\cdots +{\frac {x_{L+L}-x_{L}}{L}}\right)\end{aligned}}

Establecer las estimaciones iniciales para los índices estacionales es un poco más complicado. Si es el número de ciclos completos presentes en sus datos, entonces: $c_{i}$ $i=1,2,\ldots ,L$ $N$

c_{i}={\frac {1}{N}}\sum _{j=1}^{N}{\frac {x_{L(j-1)+i}}{A_{j}}}\quad {\text{for }}i=1,2,\ldots ,L

dónde

A_{j}={\frac {\sum _{i=1}^{L}x_{L(j-1)+i}}{L}}\quad {\text{for }}j=1,2,\ldots ,N

Tenga en cuenta que es el valor promedio de en el ciclo de sus datos. $A_{j}$ $x$ $j^{\text{th}}$

El suavizamiento exponencial triple con estacionalidad aditiva viene dado por:

{\begin{aligned}s_{0}&=x_{0}\\s_{t}&=\alpha (x_{t}-c_{t-L})+(1-\alpha )(s_{t-1}+b_{t-1})\\b_{t}&=\beta (s_{t}-s_{t-1})+(1-\beta )b_{t-1}\\c_{t}&=\gamma (x_{t}-s_{t-1}-b_{t-1})+(1-\gamma )c_{t-L}\\F_{t+m}&=s_{t}+mb_{t}+c_{t-L+1+(m-1){\bmod {L}}},\end{aligned}}

Implementaciones en paquetes estadísticos.

R : la función HoltWinters en el paquete de estadísticas ^[17] y la función ets en el paquete de pronóstico ^[18] (una implementación más completa, que generalmente resulta en un mejor rendimiento ^[19] ).
Python : el módulo holtwinters del paquete statsmodels permite un suavizado exponencial simple, doble y triple.
IBM SPSS incluye Simple, Estacional simple, Tendencia lineal de Holt, Tendencia lineal de Brown, Tendencia amortiguada, Aditivo de Winters y Multiplicativo de Winters en el procedimiento de modelado de series temporales dentro de sus paquetes estadísticos Statistics y Modeler. La característica predeterminada del Modelador experto evalúa los siete modelos de suavizado exponencial y los modelos ARIMA con un rango de valores p , d y q estacionales y no estacionales , y selecciona el modelo con el estadístico de criterio de información bayesiano más bajo .
Estado : comando tssmooth ^[20]
LibreOffice 5.2 ^[21]
Microsoft Excel 2016 ^[22]

Ver también

Notas

^ abc "Manual electrónico de métodos estadísticos de NIST / SEMATECH". NIST . Consultado el 23 de mayo de 2010 .
^ ab Oppenheim, Alan V.; Schafer, Ronald W. (1975). Procesamiento de señales digitales . Prentice Hall . pag. 5.ISBN _ 0-13-214635-5.
^ Marrón, Robert G. (1956). Suavizado exponencial para predecir la demanda. Cambridge, Massachusetts: Arthur D. Little Inc. pág. 15.
^ Holt, Charles C. (1957). "Pronóstico de tendencias y estacionalidad mediante promedios ponderados exponencialmente". Memorando de la Oficina de Investigación Naval . 52 .reimpreso en Holt, Charles C. (enero-marzo de 2004). "Pronóstico de tendencias y estacionalidad mediante promedios ponderados exponencialmente". Revista internacional de previsión . 20 (1): 5–10. doi : 10.1016/j.ijforecast.2003.09.015.
^ Marrón, Robert Goodell (1963). Suavizado de pronóstico y predicción de series de tiempo discretas. Englewood Cliffs, Nueva Jersey: Prentice-Hall.
^ "Manual electrónico de métodos estadísticos de NIST/SEMATECH, 6.4.3.1. Suavizado exponencial único". NIST . Consultado el 5 de julio de 2017 .
^ Nau, Robert. "Modelos de suavizado exponencial y promedio" . Consultado el 26 de julio de 2010 .
^ "Análisis de producción y operaciones" Nahmias. 2009.
^ Čisar, P. y Čisar, SM (2011). "Métodos de optimización de las estadísticas de EWMA". Acta Polytechnica Hungarica , 8(5), 73–87. Página 78.
^ 7.1 Suavizado exponencial simple | Previsión: principios y práctica.
^ Nahmias, Steven (3 de marzo de 2008). Análisis de producción y operaciones (6ª ed.). ISBN 978-0-07-337785-8.^{[ página necesaria ]}
^ "Modelo: suavizado exponencial de segundo orden". SAP AG . Consultado el 23 de enero de 2013 .
^ "6.4.3.3. Suavizado doble exponencial". itl.nist.gov . Consultado el 25 de septiembre de 2011 .
^ "Modelos de suavizado exponencial y promedio". duque.edu . Consultado el 25 de septiembre de 2011 .
^ Kalehar, Prajakta S. "Pronóstico de series temporales utilizando el suavizado exponencial de Holt-Winters" (PDF) . Consultado el 23 de junio de 2014 .
^ ab Winters, PR (abril de 1960). "Previsión de ventas mediante medias móviles ponderadas exponencialmente". Ciencias de la gestión . 6 (3): 324–342. doi :10.1287/mnsc.6.3.324.
^ "R: Filtrado de Holt-Winters". stat.ethz.ch. _ Consultado el 5 de junio de 2016 .
^ "ets {forecast} | inside-R | Un sitio comunitario para R". inside-r.org . Archivado desde el original el 16 de julio de 2016 . Consultado el 5 de junio de 2016 .
^ "Comparación de HoltWinters() y ets()". Hyndsight . 29 de mayo de 2011 . Consultado el 5 de junio de 2016 .
^ tssmooth en el manual de Stata
^ "LibreOffice 5.2: Notas de la versión: Wiki de Document Foundation".
^ "Funciones de pronóstico de Excel 2016 | Estadísticas reales usando Excel".

enlaces externos

Apuntes de conferencias sobre suavizado exponencial (Robert Nau, Universidad de Duke)
Suavizado de datos por Jon McLoone, The Wolfram Demonstrations Project
El enfoque Holt-Winters para el suavizado exponencial: 50 años y va fuerte por Paul Goodwin (2010) Foresight: The International Journal of Applied Forecasting
Algoritmos para series temporales espaciadas desigualmente: medias móviles y otros operadores móviles por Andreas Eckner