Método generalizado de momentos

En econometría y estadística , el método generalizado de momentos ( GMM ) es un método genérico para estimar parámetros en modelos estadísticos . Generalmente se aplica en el contexto de modelos semiparamétricos , donde el parámetro de interés es de dimensión finita, mientras que la forma completa de la función de distribución de los datos puede no ser conocida y, por lo tanto, la estimación de máxima verosimilitud no es aplicable.

El método requiere que se especifique una cierta cantidad de condiciones de momento para el modelo. Estas condiciones de momento son funciones de los parámetros del modelo y de los datos, de modo que su expectativa es cero en los valores verdaderos de los parámetros. El método GMM luego minimiza una cierta norma de los promedios de muestra de las condiciones de momento y, por lo tanto, puede considerarse como un caso especial de estimación de distancia mínima . ^[1]

Se sabe que los estimadores GMM son consistentes , asintóticamente normales y más eficientes en la clase de todos los estimadores que no utilizan ninguna información adicional aparte de la contenida en las condiciones de momento. GMM fue defendido por Lars Peter Hansen en 1982 como una generalización del método de momentos , ^[2] introducido por Karl Pearson en 1894. Sin embargo, estos estimadores son matemáticamente equivalentes a aquellos basados en "condiciones de ortogonalidad" (Sargan, 1958, 1959) o "ecuaciones de estimación imparciales" (Huber, 1967; Wang et al., 1997).

Descripción

Supongamos que los datos disponibles consisten en T observaciones { Y _t } _t_{= 1,...,}_T , donde cada observación Y _t es una variable aleatoria multivariante n -dimensional . Suponemos que los datos provienen de un cierto modelo estadístico , definido hasta un parámetro desconocido θ ∈ Θ . El objetivo del problema de estimación es encontrar el valor "verdadero" de este parámetro, θ ₀ , o al menos una estimación razonablemente cercana.

Un supuesto general del GMM es que los datos Y _t se generan mediante un proceso estocástico ergódico débilmente estacionario . (El caso de las variables independientes e idénticamente distribuidas (iid) Y _t es un caso especial de esta condición).

Para aplicar el GMM, necesitamos tener "condiciones de momento", es decir, necesitamos conocer una función vectorial g ( Y , θ ) tal que

m(\theta _{0})\equiv \operatorname {E} [\,g(Y_{t},\theta _{0})\,]=0,

donde E denota expectativa e Y _t es una observación genérica. Además, la función m ( θ ) debe ser distinta de cero para θ ≠ θ ₀ , de lo contrario el parámetro θ no será identificado puntualmente .

La idea básica detrás del GMM es reemplazar el valor esperado teórico E[⋅] con su análogo empírico: el promedio de la muestra:

{\hat {m}}(\theta )\equiv {\frac {1}{T}}\sum _{t=1}^{T}g(Y_{t},\theta )

y luego minimizar la norma de esta expresión con respecto a θ . El valor minimizador de θ es nuestra estimación para θ ₀ .

Por la ley de los grandes números , para valores grandes de T , y por lo tanto esperamos que . El método generalizado de momentos busca un número que haga que t sea lo más cercano posible a cero. Matemáticamente, esto es equivalente a minimizar una cierta norma de (norma de m , denotada como || m ||, mide la distancia entre m y cero). Las propiedades del estimador resultante dependerán de la elección particular de la función norma y, por lo tanto, la teoría del GMM considera una familia completa de normas, definidas como $\scriptstyle {\hat {m}}(\theta )\,\approx \;\nombre del operador {E} [g(Y_{t},\theta )]\,=\,m(\theta )$ $\scriptstyle {\hat {m}}(\theta _{0})\;\approx \;m(\theta _{0})\;=\;0$ $\scriptstyle {\hat {\theta }}$ $\scriptstyle {\hat {m}}(\;\!{\hat {\theta }}\;\!)$ $\scriptstyle {\hat {m}}(\theta )$

\|{\hat {m}}(\theta )\|_{W}^{2}={\hat {m}}(\theta )^{\mathsf {T}}\,W{\hat {m}}(\theta ),

donde W es una matriz de ponderación definida positiva y denota transposición . En la práctica, la matriz de ponderación W se calcula en función del conjunto de datos disponible, que se denotará como . Por lo tanto, el estimador GMM se puede escribir como $m^{\mathsf {T}}$ $\scriptstyle {\sombrero {W}}$

{\hat {\theta }}=\operatorname {arg} \min _{\theta \in \Theta }{\bigg (}{\frac {1}{T}}\sum _{t=1}^{T}g(Y_{t},\theta ){\bigg )}^{\mathsf {T}}{\hat {W}}{\bigg (}{\frac {1}{T}}\sum _{t=1}^{T}g(Y_{t},\theta ){\bigg )}

En condiciones adecuadas, este estimador es consistente , asintóticamente normal y, con la elección correcta de la matriz de ponderación, también asintóticamente eficiente . $\scriptstyle {\sombrero {W}}$

Propiedades

Consistencia

La consistencia es una propiedad estadística de un estimador que establece que, teniendo un número suficiente de observaciones, el estimador convergerá en probabilidad al valor verdadero del parámetro:

{\hat {\theta }}{\xrightarrow {p}}\theta _{0}\ {\text{as}}\ T\to \infty .

Las condiciones suficientes para que un estimador GMM sea consistente son las siguientes:

${\hat {W}}_{T}{\xrightarrow {p}}W,$ donde W es una matriz semidefinida positiva ,
$\,W\operatorname {E} [\,g(Y_{t},\theta )\,]=0$ Sólo para $\,\theta =\theta _{0},$
El espacio de parámetros posibles es compacto , $\Theta \subconjunto \mathbb {R} ^{k}$
$\,g(Y,\theta )$ es continua en cada θ con probabilidad uno,
$\operatorname {E} [\,\textstyle \sup _{\theta \in \Theta }\lVert g(Y,\theta )\rVert \,]<\infty .$

La segunda condición (la llamada condición de identificación global ) suele ser especialmente difícil de verificar. Existen condiciones más simples, necesarias pero no suficientes, que pueden utilizarse para detectar problemas de no identificación:

Condición de orden . La dimensión de la función momento m(θ) debe ser al menos tan grande como la dimensión del vector de parámetros θ .
Identificación local . Si g(Y,θ) es continuamente diferenciable en un entorno de , entonces la matriz debe tener rango de columna completo . $\theta _{0}$ $W\operatorname {E} [\nabla _{\theta }g(Y_{t},\theta _{0})]$

En la práctica, los econometristas aplicados a menudo simplemente suponen que la identificación global es válida, sin probarlo realmente. ^[3]^{: 2127}

Normalidad asintótica

La normalidad asintótica es una propiedad útil, ya que nos permite construir bandas de confianza para el estimador y realizar diferentes pruebas. Antes de poder hacer una afirmación sobre la distribución asintótica del estimador GMM, necesitamos definir dos matrices auxiliares:

G=\operatorname {E} [\,\nabla _{\!\theta }\,g(Y_{t},\theta _{0})\,],\qquad \Omega =\operatorname {E} [\,g(Y_{t},\theta _{0})g(Y_{t},\theta _{0})^{\mathsf {T}}\,]

Entonces, en las condiciones 1 a 6 que se enumeran a continuación, el estimador GMM será asintóticamente normal con distribución límite :

${\sqrt {T}}{\big (}{\hat {\theta }}-\theta _{0}{\big )}\ {\xrightarrow {d}}\ {\mathcal {N}}{\big [}0,(G^{\mathsf {T}}WG)^{-1}G^{\mathsf {T}}W\Omega W^{\mathsf {T}}G(G^{\mathsf {T}}W^{\mathsf {T}}G)^{-1}{\big ]}.$

Condiciones:

${\hat {\theta }}$ es consistente (ver sección anterior),
El conjunto de parámetros posibles es compacto , $\Theta \subset \mathbb {R} ^{k}$
$\,g(Y,\theta )$ es continuamente diferenciable en algún entorno N de con probabilidad uno, $\theta _{0}$
$\operatorname {E} [\,\lVert g(Y_{t},\theta )\rVert ^{2}\,]<\infty ,$
$\operatorname {E} [\,\textstyle \sup _{\theta \in N}\lVert \nabla _{\theta }g(Y_{t},\theta )\rVert \,]<\infty ,$
La matriz no es singular. $G'WG$

Eficiencia relativa

Hasta ahora no hemos dicho nada sobre la elección de la matriz W , excepto que debe ser semidefinida positiva. De hecho, cualquier matriz de este tipo producirá un estimador GMM consistente y asintóticamente normal, la única diferencia estará en la varianza asintótica de ese estimador. Se puede demostrar que tomando

W\propto \ \Omega ^{-1}

dará como resultado el estimador más eficiente en la clase de todos los métodos (generalizados) de estimadores de momento. Solo un número infinito de condiciones ortogonales obtiene la varianza más pequeña, el límite de Cramér-Rao .

En este caso, la fórmula para la distribución asintótica del estimador GMM se simplifica a

{\sqrt {T}}{\big (}{\hat {\theta }}-\theta _{0}{\big )}\ {\xrightarrow {d}}\ {\mathcal {N}}{\big [}0,(G^{\mathsf {T}}\,\Omega ^{-1}G)^{-1}{\big ]}

La prueba de que dicha elección de matriz de ponderación es, en efecto, óptima a nivel local se suele adoptar con ligeras modificaciones al establecer la eficiencia de otros estimadores. Como regla general, una matriz de ponderación se acerca más a la optimalidad cuando se convierte en una expresión más cercana al límite de Cramér-Rao .

Implementación

Una dificultad con la implementación del método descrito es que no podemos tomar W = Ω ⁻¹ porque, por la definición de la matriz Ω, necesitamos saber el valor de θ ₀ para calcular esta matriz, y θ ₀ es precisamente la cantidad que no conocemos y que estamos tratando de estimar en primer lugar. En el caso de que Y _t sea iid, podemos estimar W como

{\hat {W}}_{T}({\hat {\theta }})={\bigg (}{\frac {1}{T}}\sum _{t=1}^{T}g(Y_{t},{\hat {\theta }})g(Y_{t},{\hat {\theta }})^{\mathsf {T}}{\bigg )}^{-1}.

Existen varios enfoques para abordar esta cuestión, siendo el primero el más popular:

GMM factible en dos pasos :
- Paso 1 : tome W = I (la matriz identidad ) o alguna otra matriz definida positiva y calcule la estimación preliminar del GMM . Este estimador es consistente para θ ₀ , aunque no eficiente. $\scriptstyle {\hat {\theta }}_{(1)}$
- Paso 2 : converge en probabilidad a Ω ⁻¹ y por lo tanto, si calculamos con esta matriz de ponderación, el estimador será asintóticamente eficiente . ${\hat {W}}_{T}({\hat {\theta }}_{(1)})$ $\scriptstyle {\hat {\theta }}$
GMM iterado . Básicamente, es el mismo procedimiento que el GMM de dos pasos, excepto que la matriz se recalcula varias veces. Es decir, la estimación obtenida en el paso 2 se utiliza para calcular la matriz de ponderación del paso 3, y así sucesivamente hasta que se cumple algún criterio de convergencia. ${\hat {W}}_{T}$
${\hat {\theta }}_{(i+1)}=\operatorname {arg} \min _{\theta \in \Theta }{\bigg (}{\frac {1}{T}}\sum _{t=1}^{T}g(Y_{t},\theta ){\bigg )}^{\mathsf {T}}{\hat {W}}_{T}({\hat {\theta }}_{(i)}){\bigg (}{\frac {1}{T}}\sum _{t=1}^{T}g(Y_{t},\theta ){\bigg )}$
Asintóticamente no se puede lograr ninguna mejora a través de tales iteraciones, aunque ciertos experimentos de Monte Carlo sugieren que las propiedades de muestra finita de este estimador son ligeramente mejores. ^{[ cita requerida ]}
Actualización continua del GMM (CUGMM o CUE). Estimaciones simultáneas con la estimación de la matriz de ponderación W : $\scriptstyle {\hat {\theta }}$
${\hat {\theta }}=\operatorname {arg} \min _{\theta \in \Theta }{\bigg (}{\frac {1}{T}}\sum _{t=1}^{T}g(Y_{t},\theta ){\bigg )}^{\mathsf {T}}{\hat {W}}_{T}(\theta ){\bigg (}{\frac {1}{T}}\sum _{t=1}^{T}g(Y_{t},\theta ){\bigg )}$
En los experimentos de Montecarlo, este método demostró un mejor desempeño que el GMM tradicional de dos pasos: el estimador tiene un sesgo mediano menor (aunque colas más gruesas) y la prueba J para sobreidentificar restricciones en muchos casos fue más confiable. ^[4]

Otro aspecto importante en la implementación del procedimiento de minimización es que se supone que la función debe buscar en el espacio de parámetros Θ (posiblemente de alta dimensión) y encontrar el valor de θ que minimiza la función objetivo. No existe una recomendación genérica para dicho procedimiento; es un tema en su propio campo, la optimización numérica .

Sargan-HansenYo-prueba

Cuando el número de condiciones de momento es mayor que la dimensión del vector de parámetros θ , se dice que el modelo está sobreidentificado . Sargan (1958) propuso pruebas para restricciones de sobreidentificación basadas en estimadores de variables instrumentales que se distribuyen en muestras grandes como variables de Chi-cuadrado con grados de libertad que dependen del número de restricciones de sobreidentificación. Posteriormente, Hansen (1982) aplicó esta prueba a la formulación matemáticamente equivalente de los estimadores GMM. Sin embargo, tenga en cuenta que dichas estadísticas pueden ser negativas en aplicaciones empíricas donde los modelos están mal especificados, y las pruebas de razón de verosimilitud pueden brindar información ya que los modelos se estiman bajo hipótesis nulas y alternativas (Bhargava y Sargan, 1983).

Conceptualmente, podemos comprobar si es lo suficientemente cercano a cero como para sugerir que el modelo se ajusta bien a los datos. El método GMM ha reemplazado entonces el problema de resolver la ecuación , que elige coincidir exactamente con las restricciones, por un cálculo de minimización. La minimización siempre se puede realizar incluso cuando no existe tal que . Esto es lo que hace la prueba J. La prueba J también se denomina prueba para sobreidentificar restricciones . ${\hat {m}}({\hat {\theta }})$ ${\hat {m}}(\theta )=0$ $\theta$ $\theta _{0}$ $m(\theta _{0})=0$

Formalmente consideramos dos hipótesis :

$H_{0}:\ m(\theta _{0})=0$ (la hipótesis nula de que el modelo es “válido”), y
$H_{1}:\ m(\theta )\neq 0,\ \forall \theta \in \Theta$ (la hipótesis alternativa de que el modelo es “inválido”; los datos no se acercan a cumplir las restricciones)

Según la hipótesis , la siguiente estadística denominada J se distribuye de forma asintótica mediante chi-cuadrado con k–l grados de libertad. Definamos J como: $H_{0}$

J\equiv T\cdot {\bigg (}{\frac {1}{T}}\sum _{t=1}^{T}g(Y_{t},{\hat {\theta }}){\bigg )}^{\mathsf {T}}{\hat {W}}_{T}{\bigg (}{\frac {1}{T}}\sum _{t=1}^{T}g(Y_{t},{\hat {\theta }}){\bigg )}\ {\xrightarrow {d}}\ \chi _{k-\ell }^{2}

bajo

H_{0},

donde es el estimador GMM del parámetro , k es el número de condiciones de momento (dimensión del vector g ), y l es el número de parámetros estimados (dimensión del vector θ ). La matriz debe converger en probabilidad a , la matriz de ponderación eficiente (nótese que anteriormente solo requeríamos que W fuera proporcional a para que el estimador fuera eficiente; sin embargo, para realizar la prueba J, W debe ser exactamente igual a , no simplemente proporcional). ${\hat {\theta }}$ $\theta _{0}$ ${\hat {W}}_{T}$ $\Omega ^{-1}$ $\Omega ^{-1}$ $\Omega ^{-1}$

Bajo la hipótesis alternativa , la estadística J es asintóticamente ilimitada: $H_{1}$

J\ {\xrightarrow {p}}\ \infty

bajo

H_{1}

Para realizar la prueba calculamos el valor de J a partir de los datos. Es un número no negativo. Lo comparamos con (por ejemplo) el cuartil 0,95 de la distribución: $\chi _{k-\ell }^{2}$

$H_{0}$ se rechaza con un nivel de confianza del 95% si $J>q_{0.95}^{\chi _{k-\ell }^{2}}$
$H_{0}$ No se puede rechazar con un nivel de confianza del 95% si $J<q_{0.95}^{\chi _{k-\ell }^{2}}$

Alcance

Muchas otras técnicas de estimación populares se pueden formular en términos de optimización GMM:

Los mínimos cuadrados ordinarios (MCO) son equivalentes al GMM con condiciones de momento:
$\operatorname {E} [\,x_{t}(y_{t}-x_{t}^{\mathsf {T}}\beta )\,]=0$
Mínimos cuadrados ponderados (WLS)
$\operatorname {E} [\,x_{t}(y_{t}-x_{t}^{\mathsf {T}}\beta )/\sigma ^{2}(x_{t})\,]=0$
Regresión de variables instrumentales (IV)
$\operatorname {E} [\,z_{t}(y_{t}-x_{t}^{\mathsf {T}}\beta )\,]=0$
Mínimos cuadrados no lineales (NLLS):
$\operatorname {E} [\,\nabla _{\!\beta }\,g(x_{t},\beta )\cdot (y_{t}-g(x_{t},\beta ))\,]=0$
Estimación de máxima verosimilitud (EMV):
$\operatorname {E} [\,\nabla _{\!\theta }\ln f(x_{t},\theta )\,]=0$

Una alternativa al GMM

En el método de momentos se describe una alternativa al método de momentos (MoM) original (no generalizado) y se proporcionan referencias a algunas aplicaciones y una lista de ventajas y desventajas teóricas en relación con el método tradicional. Este MoM tipo bayesiano (BL-MoM) es distinto de todos los métodos relacionados descritos anteriormente, que están incluidos en el GMM. ^[5]^[6] La literatura no contiene una comparación directa entre el GMM y el BL-MoM en aplicaciones específicas.

Implementaciones

Wikilibro de programación R, Método de momentos
R
Estado
E-Views (vistas electrónicas)
SAS
Gretl

Véase también

Referencias

^ Hayashi, Fumio (2000). Econometría. Princeton University Press. pág. 206. ISBN 0-691-01018-8.
^ Hansen, Lars Peter (1982). "Propiedades de muestras grandes de estimadores del método generalizado de momentos". Econometrica . 50 (4): 1029–1054. doi :10.2307/1912775. JSTOR 1912775.
^ Newey, W.; McFadden, D. (1994). "Estimación de muestras grandes y prueba de hipótesis". Handbook of Econometrics . Vol. 4. Elsevier Science. págs. 2111–2245. CiteSeerX 10.1.1.724.4480 . doi :10.1016/S1573-4412(05)80005-4. ISBN 9780444887665.
^ Hansen, Lars Peter; Heaton, John; Yaron, Amir (1996). "Propiedades de muestras finitas de algunos estimadores GMM alternativos" (PDF) . Journal of Business & Economic Statistics . 14 (3): 262–280. doi :10.1080/07350015.1996.10524656. hdl : 1721.1/47970 . JSTOR 1392442.
^ Armitage, Peter; Colton, Theodore, eds. (18 de febrero de 2005). Enciclopedia de bioestadística (1.ª ed.). Wiley. doi :10.1002/0470011815. ISBN 978-0-470-84907-1.
^ Godambe, VP, ed. (2002). Estimación de funciones . Serie de ciencias estadísticas de Oxford (edición repetida). Oxford: Clarendon Press. ISBN 978-0-19-852228-7.

Lectura adicional

Huber, P. (1967). El comportamiento de las estimaciones de máxima verosimilitud en condiciones no estándar. Actas del quinto simposio de Berkeley sobre estadística matemática y probabilidad 1, 221-233.

Newey W., McFadden D. (1994). Estimación de muestras grandes y prueba de hipótesis , en Handbook of Econometrics, cap. 36. Elsevier Science.

Imbens, Guido W. ; Spady, Richard H.; Johnson, Phillip (1998). "Enfoques teóricos de la información para la inferencia en modelos de condiciones de momento" (PDF) . Econometrica . 66 (2): 333–357. doi :10.2307/2998561. JSTOR 2998561.

Sargan, JD (1958). La estimación de relaciones económicas utilizando variables instrumentales. Econometrica, 26, 393-415.

Sargan, JD (1959). Estimación de relaciones con residuos autocorrelacionados mediante el uso de variables instrumentales. Journal of the Royal Statistical Society B, 21, 91-105.

Wang, CY, Wang, S. y Carroll, R. (1997). Estimación en muestreo basado en elección con error de medición y análisis bootstrap. Journal of Econometrics, 77, 65-86.

Bhargava, A., y Sargan, JD (1983). Estimación de efectos aleatorios dinámicos a partir de datos de panel que cubren períodos cortos de tiempo. Econometrica, 51, 6, 1635-1659.

Hayashi, Fumio (2000). Econometría . Princeton: Princeton University Press. ISBN 0-691-01018-8.
Hansen, Lars Peter (2002). "Método de momentos". En Smelser, NJ ; Bates, PB (eds.). Enciclopedia internacional de las ciencias sociales y del comportamiento . Oxford: Pergamon.
Hall, Alastair R. (2005). Método generalizado de momentos . Textos avanzados de econometría. Oxford University Press. ISBN 0-19-877520-2.
Faciane, Kirby Adam Jr. (2006). Estadísticas para finanzas empíricas y cuantitativas . Estadísticas para finanzas empíricas y cuantitativas. HC Baird. ISBN 0-9788208-9-4.
Números especiales de Journal of Business and Economic Statistics: vol. 14, no. 3 y vol. 20, no. 4.

Breve introducción al método generalizado de momentos