stringtranslate.com

Estadística de Durbin-Watson

En estadística , la estadística de Durbin-Watson es una estadística de prueba utilizada para detectar la presencia de autocorrelación en el retardo 1 en los residuos (errores de predicción) de un análisis de regresión . Recibe su nombre en honor a James Durbin y Geoffrey Watson . La distribución de muestra pequeña de esta razón fue derivada por John von Neumann (von Neumann, 1941). Durbin y Watson (1950, 1951) aplicaron esta estadística a los residuos de regresiones de mínimos cuadrados y desarrollaron pruebas de límites para la hipótesis nula de que los errores no están correlacionados serialmente contra la alternativa de que siguen un proceso autorregresivo de primer orden . Nótese que la distribución de esta estadística de prueba no depende de los coeficientes de regresión estimados y la varianza de los errores. [1]

Una evaluación similar también se puede realizar con la prueba de Breusch-Godfrey y la prueba de Ljung-Box .

Cálculo e interpretación de la estadística de Durbin-Watson

Si el residuo dado por la estadística de prueba de Durbin-Watson es

donde es el número de observaciones. Para valores grandes , es aproximadamente igual a , donde es la autocorrelación muestral de los residuos en el retardo 1. [2] por lo tanto indica que no hay autocorrelación. El valor de siempre se encuentra entre y . Si la estadística de Durbin-Watson es sustancialmente menor que 2, hay evidencia de correlación serial positiva. Como regla general, si Durbin-Watson es menor que 1.0, puede haber motivo de alarma. Valores pequeños de indican que los términos de error sucesivos están correlacionados positivamente. Si , los términos de error sucesivos están correlacionados negativamente. En regresiones, esto puede implicar una subestimación del nivel de significancia estadística .

Para comprobar la autocorrelación positiva en el nivel de significancia , la estadística de prueba se compara con los valores críticos inferior y superior ( y ):

  • Si , hay evidencia estadística de que los términos de error están autocorrelacionados positivamente.
  • Si , no hay evidencia estadística de que los términos de error estén autocorrelacionados positivamente.
  • Si , la prueba no es concluyente.

La correlación serial positiva es una correlación serial en la que un error positivo en una observación aumenta las probabilidades de un error positivo en otra observación.

Para comprobar la autocorrelación negativa en el nivel de significancia , la estadística de prueba se compara con los valores críticos inferior y superior ( y ):

  • Si , hay evidencia estadística de que los términos de error están autocorrelacionados negativamente.
  • Si , no hay evidencia estadística de que los términos de error estén autocorrelacionados negativamente.
  • Si , la prueba no es concluyente.

La correlación serial negativa implica que un error positivo en una observación aumenta la probabilidad de un error negativo en otra observación y un error negativo en una observación aumenta las probabilidades de un error positivo en otra.

Los valores críticos, y , varían según el nivel de significancia ( ) y los grados de libertad de la ecuación de regresión. Su derivación es compleja: los estadísticos suelen obtenerlos de los apéndices de los textos estadísticos.

Si se conoce la matriz de diseño de la regresión, se pueden calcular valores críticos exactos para la distribución de bajo la hipótesis nula de que no hay correlación serial. Bajo la hipótesis nula se distribuye como

donde es el número de observaciones y es el número de variables de regresión; son variables aleatorias normales estándar independientes; y son los valores propios distintos de cero de donde es la matriz que transforma los residuos en la estadística, es decir . [3] Hay varios algoritmos computacionales disponibles para encontrar percentiles de esta distribución. [4]

Aunque la correlación serial no afecta la consistencia de los coeficientes de regresión estimados, sí afecta nuestra capacidad para realizar pruebas estadísticas válidas. En primer lugar, la estadística F para probar la significancia general de la regresión puede estar inflada bajo una correlación serial positiva porque el error cuadrático medio (MSE) tenderá a subestimar la varianza del error poblacional. En segundo lugar, la correlación serial positiva generalmente hace que los errores estándar de mínimos cuadrados ordinarios (OLS) para los coeficientes de regresión subestimen los errores estándar verdaderos. Como consecuencia, si hay una correlación serial positiva en la regresión, el análisis de regresión lineal estándar generalmente nos llevará a calcular errores estándar artificialmente pequeños para el coeficiente de regresión. Estos pequeños errores estándar harán que la estadística t estimada se infle, lo que sugiere significancia donde quizás no la haya. La estadística t inflada, a su vez, puede llevarnos a rechazar incorrectamente hipótesis nulas sobre valores poblacionales de los parámetros del modelo de regresión con mayor frecuencia de lo que lo haríamos si los errores estándar se estimaran correctamente.

Si la estadística de Durbin-Watson indica la presencia de correlación serial de los residuos, esto se puede remediar utilizando el procedimiento Cochrane-Orcutt .

La estadística de Durbin-Watson, aunque se muestra en muchos programas de análisis de regresión, no es aplicable en ciertas situaciones. Por ejemplo, cuando se incluyen variables dependientes rezagadas en las variables explicativas, no es adecuado utilizar esta prueba. Se deben utilizar la prueba h de Durbin (ver más abajo) o las pruebas de razón de verosimilitud, que son válidas en muestras grandes.

Estadística h de Durbin

La estadística de Durbin-Watson está sesgada en el caso de los modelos de promedio móvil autorregresivo , por lo que se subestima la autocorrelación. Sin embargo, para muestras grandes se puede calcular fácilmente la estadística h de distribución normal imparcial:

utilizando la estadística de Durbin–Watson d y la varianza estimada

del coeficiente de regresión de la variable dependiente rezagada, siempre que

Implementaciones en paquetes de estadísticas

  1. R : la dwtestfunción en el paquete lmtest durbinWatsonTest(o dwt para abreviar), la función en el paquete car y pdwtestpara pbnftestlos modelos de panel en el paquete plm. [5]
  2. MATLAB : la función dwtest en la caja de herramientas de estadísticas.
  3. Mathematica : la estadística Durbin–Watson ( d ) está incluida como una opción en la función LinearModelFit.
  4. SAS : es una salida estándar cuando se usa el modelo de procedimiento y es una opción (dw) cuando se usa el registro de procedimiento.
  5. EViews : se calcula automáticamente al utilizar la regresión OLS
  6. gretl : Se calcula automáticamente al utilizar la regresión OLS
  7. Stata : el comando estat dwatson, siguiendo regressen datos de series temporales. [6] También están disponibles la prueba LM de Engle para heterocedasticidad condicional autorregresiva (ARCH), una prueba para volatilidad dependiente del tiempo, la prueba de Breusch-Godfrey y la prueba alternativa de Durbin para correlación serial. Todas las pruebas (excepto -dwatson-) se realizan por separado para correlaciones seriales de orden superior. La prueba de Breusch-Godfrey y la prueba alternativa de Durbin también permiten regresores que no son estrictamente exógenos.
  8. Excel : aunque Microsoft Excel 2007 no tiene una función Durbin-Watson específica, la estadística d se puede calcular utilizando=SUMXMY2(x_array,y_array)/SUMSQ(array)
  9. Minitab : la opción para informar la estadística en la ventana Sesión se puede encontrar en el cuadro "Opciones" en Regresión y a través del cuadro "Resultados" en Regresión general.
  10. Python : se incluye una función durbin_watson en el paquete statsmodels ( statsmodels.stats.stattools.durbin_watson), pero las tablas estadísticas para valores críticos no están disponibles allí.
  11. SPSS : Incluido como opción en la función Regresión.
  12. Julia : la función DurbinWatsonTest está disponible en el paquete HypothesisTests . [7]

Véase también

Notas

  1. ^ Chatterjee, Samprit; Simonoff, Jeffrey (2013). Manual de análisis de regresión . John Wiley & Sons. ISBN 1118532813.
  2. ^ Gujarati (2003) pág. 469
  3. ^ Durbin, J.; Watson, GS (1971). "Prueba de correlación serial en regresión de mínimos cuadrados. III". Biometrika . 58 (1): 1–19. doi :10.2307/2334313.
  4. ^ Farebrother, RW (1980). "Algoritmo AS 153: procedimiento de Pan para las probabilidades de cola de la estadística de Durbin-Watson". Revista de la Royal Statistical Society, Serie C . 29 (2): 224–227.
  5. ^ Hateka, Neeraj R. (2010). "Pruebas para detectar la autocorrelación". Principios de econometría: una introducción (utilizando R) . SAGE Publications. pp. 379–82. ISBN 978-81-321-0660-9.
  6. ^ "regresión de series temporales de postestimación — Herramientas de postestimación para regresión con series temporales" (PDF) . Manual de Stata .
  7. ^ "Pruebas de series temporales". juliastats.org . Consultado el 4 de febrero de 2020 .

Referencias

Enlaces externos