Método generalizado de momentos.

En econometría y estadística , el método generalizado de momentos ( GMM ) es un método genérico para estimar parámetros en modelos estadísticos . Por lo general, se aplica en el contexto de modelos semiparamétricos , donde el parámetro de interés es de dimensión finita, mientras que es posible que no se conozca la forma completa de la función de distribución de los datos y, por lo tanto, la estimación de máxima verosimilitud no es aplicable.

El método requiere que se especifique un cierto número de condiciones de momento para el modelo. Estas condiciones de momento son funciones de los parámetros del modelo y los datos, de modo que su expectativa es cero en los valores verdaderos de los parámetros. Luego, el método GMM minimiza una cierta norma de los promedios muestrales de las condiciones de momento y, por lo tanto, puede considerarse como un caso especial de estimación de distancia mínima . ^[1]

Se sabe que los estimadores GMM son consistentes , asintóticamente normales y más eficientes en la clase de todos los estimadores que no utilizan ninguna información adicional aparte de la contenida en las condiciones del momento. Los GMM fueron defendidos por Lars Peter Hansen en 1982 como una generalización del método de los momentos , ^[2] introducido por Karl Pearson en 1894. Sin embargo, estos estimadores son matemáticamente equivalentes a aquellos basados en "condiciones de ortogonalidad" (Sargan, 1958, 1959). o "ecuaciones de estimación insesgadas" (Huber, 1967; Wang et al., 1997).

Descripción

Supongamos que los datos disponibles constan de T observaciones { Y _t } _t_{= 1,...,}_T , donde cada observación Y _t es una variable aleatoria multivariada de n dimensiones . Suponemos que los datos provienen de un determinado modelo estadístico , definido hasta un parámetro desconocido θ ∈ Θ . El objetivo del problema de estimación es encontrar el valor “verdadero” de este parámetro, θ ₀ , o al menos una estimación razonablemente cercana.

Una suposición general de GMM es que los datos Yt _se generan mediante un proceso estocástico ergódico débilmente estacionario . (El caso de variables independientes e idénticamente distribuidas (iid) Y _t es un caso especial de esta condición.)

Para aplicar GMM, necesitamos tener "condiciones de momento", es decir, necesitamos conocer una función vectorial g ( Y , θ ) tal que

m(\theta _ {0})\equiv \operatorname {E} [\,g(Y_{t},\theta _ {0})\,]=0,

donde E denota expectativa e Y _t es una observación genérica. Además, la función m ( θ ) debe diferir de cero para θ ≠ θ ₀ ; de lo contrario, el parámetro θ no se identificará como punto .

La idea básica detrás de GMM es reemplazar el valor esperado teórico E[⋅] con su análogo empírico: promedio muestral:

{\hat {m}}(\theta )\equiv {\frac {1}{T}}\sum _ {t=1}^{T}g(Y_{t},\theta )

y luego minimizar la norma de esta expresión con respecto a θ . El valor minimizador de θ es nuestra estimación para θ ₀ .

Por la ley de los números grandes , para valores grandes de T , y por eso esperamos eso . El método generalizado de momentos busca un número que se acerque lo más posible a cero. Matemáticamente, esto equivale a minimizar una cierta norma de (la norma de m , denotada como || m ||, mide la distancia entre m y cero). Las propiedades del estimador resultante dependerán de la elección particular de la función norma y, por lo tanto, la teoría de GMM considera una familia completa de normas, definida como $\scriptstyle {\hat {m}}(\theta )\,\approx \;\operatorname {E} [g(Y_{t},\theta )]\,=\,m(\theta )$ $\scriptstyle {\hat {m}}(\theta _ {0})\;\approx \;m(\theta _ {0})\;=\;0$ $\scriptstyle {\sombrero {\theta }}$ $\scriptstyle {\hat {m}}(\;\!{\hat {\theta }}\;\!)$ $\scriptstyle {\hat {m}}(\theta)$

\|{\hat {m}}(\theta )\|_{W}^{2}={\hat {m}}(\theta )^{\mathsf {T}}\,W{ \hat {m}}(\theta),

donde W es una matriz de ponderación definida positiva y denota transposición . En la práctica, la matriz de ponderación W se calcula en función del conjunto de datos disponible, que se denotará como . Por tanto, el estimador GMM se puede escribir como $m^{\mathsf {T}}$ $\scriptstyle {\sombrero {W}}$

{\hat {\theta }}=\operatorname {arg} \min _{\theta \in \Theta }{\bigg (}{\frac {1}{T}}\sum _{t=1 }^{T}g(Y_{t},\theta ){\bigg )}^{\mathsf {T}}{\hat {W}}{\bigg (}{\frac {1}{T}} \sum _{t=1}^{T}g(Y_{t},\theta ){\bigg )}

En condiciones adecuadas, este estimador es consistente , asintóticamente normal y, con la elección correcta de la matriz de ponderación, también asintóticamente eficiente . $\scriptstyle {\sombrero {W}}$

Propiedades

Consistencia

La consistencia es una propiedad estadística de un estimador que establece que, teniendo un número suficiente de observaciones, el estimador convergerá en probabilidad al valor verdadero del parámetro:

{\hat {\theta }}{\xrightarrow {p}}\theta _{0}\ {\text{as}}\ T\to \infty .

Las condiciones suficientes para que un estimador GMM sea consistente son las siguientes:

${\sombrero {W}}_{T}{\xrightarrow {p}}W,$ donde W es una matriz semidefinida positiva ,
$\,W\operatorname {E} [\,g(Y_{t},\theta )\,]=0$ solo para $\,\theta =\theta _ {0},$
El espacio de posibles parámetros es compacto , $\Theta \subset \mathbb {R} ^{k}$
$\,g(Y,\theta )$ es continua en cada θ con probabilidad uno,
$\operatorname {E} [\,\textstyle \sup _{\theta \in \Theta }\lVert g(Y,\theta )\rVert \,]<\infty .$

La segunda condición (la llamada condición de identificación global ) suele ser especialmente difícil de verificar. Existen condiciones necesarias pero no suficientes más simples, que pueden usarse para detectar problemas de no identificación:

Condición del pedido . La dimensión de la función de momento m(θ) debe ser al menos tan grande como la dimensión del vector de parámetros θ .
Identificación local . Si g(Y,θ) es continuamente diferenciable en una vecindad de , entonces la matriz debe tener un rango de columna completo . $\theta _{0}$ $W\operatorname {E} [\nabla _{\theta }g(Y_{t},\theta _{0})]$

En la práctica, los econometristas aplicados a menudo simplemente suponen que la identificación global se cumple, sin llegar a demostrarlo. ^[3]^{: 2127}

Normalidad asintótica

La normalidad asintótica es una propiedad útil, ya que nos permite construir bandas de confianza para el estimador y realizar diferentes pruebas. Antes de que podamos hacer una afirmación sobre la distribución asintótica del estimador GMM, necesitamos definir dos matrices auxiliares:

G=\operatorname {E} [\,\nabla _{\!\theta }\,g(Y_{t},\theta _{0})\,],\qquad \Omega =\operatorname {E} [\,g(Y_{t},\theta _{0})g(Y_{t},\theta _{0})^{\mathsf {T}}\,]

Entonces, bajo las condiciones 1 a 6 que se enumeran a continuación, el estimador GMM será asintóticamente normal con una distribución límite :

${\sqrt {T}}{\big (}{\hat {\theta }}-\theta _{0}{\big )}\ {\xrightarrow {d}}\ {\mathcal {N}}{\big [}0,(G^{\mathsf {T}}WG)^{-1}G^{\mathsf {T}}W\Omega W^{\mathsf {T}}G(G^{\mathsf {T}}W^{\mathsf {T}}G)^{-1}{\big ]}.$

Condiciones:

${\hat {\theta }}$ es consistente (ver sección anterior),
El conjunto de posibles parámetros es compacto , $\Theta \subset \mathbb {R} ^{k}$
$\,g(Y,\theta )$ es continuamente diferenciable en alguna vecindad N de con probabilidad uno, $\theta _{0}$
$\operatorname {E} [\,\lVert g(Y_{t},\theta )\rVert ^{2}\,]<\infty ,$
$\operatorname {E} [\,\textstyle \sup _{\theta \in N}\lVert \nabla _{\theta }g(Y_{t},\theta )\rVert \,]<\infty ,$
la matriz es no singular. $G'WG$

Eficiencia relativa

Hasta ahora no hemos dicho nada sobre la elección de la matriz W , excepto que debe ser semidefinida positiva. De hecho, cualquier matriz de este tipo producirá un estimador GMM consistente y asintóticamente normal; la única diferencia estará en la varianza asintótica de ese estimador. Se puede demostrar que tomando

W\propto \ \Omega ^{-1}

dará como resultado el estimador más eficiente en la clase de todos los métodos (generalizados) de estimadores de momentos. Sólo un número infinito de condiciones ortogonales obtiene la varianza más pequeña, el límite de Cramér-Rao .

En este caso, la fórmula para la distribución asintótica del estimador GMM se simplifica a

{\sqrt {T}}{\big (}{\hat {\theta }}-\theta _{0}{\big )}\ {\xrightarrow {d}}\ {\mathcal {N}}{\big [}0,(G^{\mathsf {T}}\,\Omega ^{-1}G)^{-1}{\big ]}

La prueba de que dicha elección de matriz de ponderación es localmente óptima a menudo se adopta con ligeras modificaciones al establecer la eficiencia de otros estimadores. Como regla general, una matriz de ponderación se acerca cada vez más al óptimo cuando se convierte en una expresión más cercana al límite de Cramér-Rao .

Implementación

Una dificultad al implementar el método descrito es que no podemos tomar W = Ω ⁻¹ porque, según la definición de la matriz Ω, necesitamos conocer el valor de θ ₀ para calcular esta matriz, y θ ₀ es precisamente la cantidad que No lo sé y estoy tratando de estimar en primer lugar. En el caso de que Y _t sea iid, podemos estimar W como

{\hat {W}}_{T}({\hat {\theta }})={\bigg (}{\frac {1}{T}}\sum _{t=1}^{T}g(Y_{t},{\hat {\theta }})g(Y_{t},{\hat {\theta }})^{\mathsf {T}}{\bigg )}^{-1}.

Existen varios enfoques para abordar este problema, siendo el primero el más popular:

GMM factible de dos pasos :
- Paso 1 : Tome W = I (la matriz identidad ) o alguna otra matriz definida positiva y calcule la estimación preliminar del GMM . Este estimador es consistente para θ ₀ , aunque no eficiente. $\scriptstyle {\hat {\theta }}_{(1)}$
- Paso 2 : converge en probabilidad a Ω ⁻¹ y por tanto si calculamos con esta matriz de ponderación, el estimador será asintóticamente eficiente . ${\hat {W}}_{T}({\hat {\theta }}_{(1)})$ $\scriptstyle {\hat {\theta }}$
GMM iterado . Esencialmente el mismo procedimiento que el GMM de 2 pasos, excepto que la matriz se recalcula varias veces. Es decir, la estimación obtenida en el paso 2 se utiliza para calcular la matriz de ponderación para el paso 3, y así sucesivamente hasta que se cumpla algún criterio de convergencia. ${\hat {W}}_{T}$
${\hat {\theta }}_{(i+1)}=\operatorname {arg} \min _{\theta \in \Theta }{\bigg (}{\frac {1}{T}}\sum _{t=1}^{T}g(Y_{t},\theta ){\bigg )}^{\mathsf {T}}{\hat {W}}_{T}({\hat {\theta }}_{(i)}){\bigg (}{\frac {1}{T}}\sum _{t=1}^{T}g(Y_{t},\theta ){\bigg )}$
Asintóticamente no se puede lograr ninguna mejora mediante tales iteraciones, aunque ciertos experimentos de Monte-Carlo sugieren que las propiedades de este estimador para muestras finitas son ligeramente mejores. ^{[ cita necesaria ]}
Actualización continua de GMM (CUGMM o CUE). Estimaciones simultáneas con la estimación de la matriz de ponderación W : $\scriptstyle {\hat {\theta }}$
${\hat {\theta }}=\operatorname {arg} \min _{\theta \in \Theta }{\bigg (}{\frac {1}{T}}\sum _{t=1}^{T}g(Y_{t},\theta ){\bigg )}^{\mathsf {T}}{\hat {W}}_{T}(\theta ){\bigg (}{\frac {1}{T}}\sum _{t=1}^{T}g(Y_{t},\theta ){\bigg )}$
En los experimentos de Montecarlo, este método demostró un mejor rendimiento que el GMM tradicional de dos pasos: el estimador tiene un sesgo mediano más pequeño (aunque colas más gruesas), y la prueba J para sobreidentificar restricciones fue en muchos casos más confiable. ^[4]

Otra cuestión importante en la implementación del procedimiento de minimización es que se supone que la función busca a través del espacio de parámetros Θ (posiblemente de alta dimensión) y encuentra el valor de θ que minimiza la función objetivo. No existe una recomendación genérica para tal procedimiento, es un tema de su propio campo, la optimización numérica .

Prueba J de Sargan- Hansen

Cuando el número de condiciones de momento es mayor que la dimensión del vector de parámetros θ , se dice que el modelo está sobreidentificado . Sargan (1958) propuso pruebas para la sobreidentificación de restricciones basadas en estimadores de variables instrumentales que se distribuyen en grandes muestras como variables Chi-cuadrado con grados de libertad que dependen del número de sobreidentificación de restricciones. Posteriormente, Hansen (1982) aplicó esta prueba a la formulación matemáticamente equivalente de estimadores GMM. Tenga en cuenta, sin embargo, que tales estadísticas pueden ser negativas en aplicaciones empíricas donde los modelos están mal especificados, y las pruebas de razón de verosimilitud pueden arrojar información, ya que los modelos se estiman bajo hipótesis nulas y alternativas (Bhargava y Sargan, 1983).

Conceptualmente podemos comprobar si está lo suficientemente cerca de cero como para sugerir que el modelo se ajusta bien a los datos. El método GMM ha sustituido entonces el problema de resolver la ecuación , que elige hacer coincidir exactamente las restricciones, por un cálculo de minimización. La minimización siempre se puede realizar incluso cuando no existe tal que . Esto es lo que hace J-test. La prueba J también se denomina prueba de sobreidentificación de restricciones . ${\hat {m}}({\hat {\theta }})$ ${\hat {m}}(\theta )=0$ $\theta$ $\theta _{0}$ $m(\theta _{0})=0$

Formalmente consideramos dos hipótesis :

$H_{0}:\ m(\theta _{0})=0$ (la hipótesis nula de que el modelo es “válido”), y
$H_{1}:\ m(\theta )\neq 0,\ \forall \theta \in \Theta$ (la hipótesis alternativa de que el modelo es “inválido”; los datos no se acercan a cumplir las restricciones)

Según la hipótesis , el siguiente estadístico J tiene una distribución asintótica de chi-cuadrado con k – l grados de libertad. Defina J como: $H_{0}$

J\equiv T\cdot {\bigg (}{\frac {1}{T}}\sum _{t=1}^{T}g(Y_{t},{\hat {\theta }}){\bigg )}^{\mathsf {T}}{\hat {W}}_{T}{\bigg (}{\frac {1}{T}}\sum _{t=1}^{T}g(Y_{t},{\hat {\theta }}){\bigg )}\ {\xrightarrow {d}}\ \chi _{k-\ell }^{2}

bajo

H_{0},

donde es el estimador GMM del parámetro , k es el número de condiciones de momento (dimensión del vector g ) y l es el número de parámetros estimados (dimensión del vector θ ). La matriz debe converger en probabilidad a , la matriz de ponderación eficiente (tenga en cuenta que anteriormente solo requeríamos que W fuera proporcional a para que el estimador fuera eficiente; sin embargo, para realizar la prueba J, W debe ser exactamente igual a , no simplemente proporcional). ${\hat {\theta }}$ $\theta _{0}$ ${\hat {W}}_{T}$ $\Omega ^{-1}$ $\Omega ^{-1}$ $\Omega ^{-1}$

Bajo la hipótesis alternativa , el estadístico J es asintóticamente ilimitado: $H_{1}$

J\ {\xrightarrow {p}}\ \infty

bajo

H_{1}

Para realizar la prueba calculamos el valor de J a partir de los datos. Es un número no negativo. Lo comparamos con (por ejemplo) el cuantil 0,95 de la distribución: $\chi _{k-\ell }^{2}$

$H_{0}$ se rechaza con un nivel de confianza del 95% si $J>q_{0.95}^{\chi _{k-\ell }^{2}}$
$H_{0}$ No se puede rechazar con un nivel de confianza del 95% si $J<q_{0.95}^{\chi _{k-\ell }^{2}}$

Alcance

Se pueden formular muchas otras técnicas de estimación populares en términos de optimización de GMM:

Los mínimos cuadrados ordinarios (OLS) son equivalentes a GMM con condiciones de momento:
$\operatorname {E} [\,x_{t}(y_{t}-x_{t}^{\mathsf {T}}\beta )\,]=0$
Mínimos cuadrados ponderados (WLS)
$\operatorname {E} [\,x_{t}(y_{t}-x_{t}^{\mathsf {T}}\beta )/\sigma ^{2}(x_{t})\,]=0$
Regresión de variables instrumentales (IV)
$\operatorname {E} [\,z_{t}(y_{t}-x_{t}^{\mathsf {T}}\beta )\,]=0$
Mínimos cuadrados no lineales (NLLS):
$\operatorname {E} [\,\nabla _{\!\beta }\,g(x_{t},\beta )\cdot (y_{t}-g(x_{t},\beta ))\,]=0$
Estimación de máxima verosimilitud (MLE):
$\operatorname {E} [\,\nabla _{\!\theta }\ln f(x_{t},\theta )\,]=0$

Una alternativa al GMM

En método de momentos , se describe una alternativa al Método de Momentos (MoM) original (no generalizado), y se proporcionan referencias a algunas aplicaciones y una lista de ventajas y desventajas teóricas relativas al método tradicional. Este MoM tipo bayesiano (BL-MoM) es distinto de todos los métodos relacionados descritos anteriormente, que están incluidos en el GMM. ^[5]^[6] La literatura no contiene una comparación directa entre el GMM y el BL-MoM en aplicaciones específicas.

Implementaciones

Wikilibro de programación R, Método de los momentos
R
estado
Vistas electrónicas
SAS
gretel

Ver también

Referencias

^ Hayashi, Fumio (2000). Econometría. Prensa de la Universidad de Princeton. pag. 206.ISBN 0-691-01018-8.
^ Hansen, Lars Peter (1982). "Propiedades de muestras grandes de estimadores del método generalizado de momentos". Econométrica . 50 (4): 1029-1054. doi :10.2307/1912775. JSTOR 1912775.
^ Newey, W.; McFadden, D. (1994). "Estimación de muestras grandes y prueba de hipótesis". Manual de econometría . vol. 4. Ciencia de Elsevier. págs. 2111–2245. CiteSeerX 10.1.1.724.4480 . doi :10.1016/S1573-4412(05)80005-4. ISBN 9780444887665.
^ Hansen, Lars Peter; Heaton, Juan; Yarón, Amir (1996). "Propiedades de muestras finitas de algunos estimadores GMM alternativos" (PDF) . Revista de estadísticas económicas y empresariales . 14 (3): 262–280. doi :10.1080/07350015.1996.10524656. hdl : 1721.1/47970 . JSTOR 1392442.
^ Armitage, Pedro; Colton, Theodore, eds. (18 de febrero de 2005). Enciclopedia de bioestadística (1 ed.). Wiley. doi :10.1002/0470011815. ISBN 978-0-470-84907-1.
^ Godambe, vicepresidente, ed. (2002). Funciones de estimación . Serie de ciencia estadística de Oxford (Repr ed.). Oxford: Prensa de Clarendon. ISBN 978-0-19-852228-7.

Otras lecturas

Huber, P. (1967). El comportamiento de las estimaciones de máxima verosimilitud en condiciones no estándar. Actas del Quinto Simposio de Berkeley sobre Estadística Matemática y Probabilidad 1, 221-233.

Newey W., McFadden D. (1994). Estimación de muestras grandes y prueba de hipótesis , en Handbook of Econometrics, Capítulo 36. Ciencia Elsevier.

Imbens, Guido W .; Spady, Richard H.; Johnson, Phillip (1998). "Enfoques de la teoría de la información para la inferencia en modelos de condiciones de momento" (PDF) . Econométrica . 66 (2): 333–357. doi :10.2307/2998561. JSTOR 2998561.

Sargan, JD (1958). La estimación de relaciones económicas utilizando variables instrumentales. Econométrica, 26, 393-415.

Sargan, JD (1959). La estimación de relaciones con residuos autocorrelacionados mediante el uso de variables instrumentales. Revista de la Real Sociedad de Estadística B, 21, 91-105.

Wang, CY, Wang, S. y Carroll, R. (1997). Estimación en muestreo basado en elección con error de medición y análisis bootstrap. Revista de Econometría, 77, 65-86.

Bhargava, A. y Sargan, JD (1983). Estimación de efectos aleatorios dinámicos a partir de datos de panel que cubren períodos de tiempo cortos. Econométrica, 51, 6, 1635-1659.

Hayashi, Fumio (2000). Econometría . Princeton: Prensa de la Universidad de Princeton. ISBN 0-691-01018-8.
Hansen, Lars Peter (2002). "Método de los Momentos". En Smelser, Nueva Jersey ; Bates, PB (eds.). Enciclopedia Internacional de las Ciencias Sociales y del Comportamiento . Oxford: Pérgamo.
Salón, Alastair R. (2005). Método Generalizado de Momentos . Textos Avanzados en Econometría. Prensa de la Universidad de Oxford. ISBN 0-19-877520-2.
Faciane, Kirby Adam Jr. (2006). Estadística para Finanzas Empíricas y Cuantitativas . Estadística para Finanzas Empíricas y Cuantitativas. HC Baird. ISBN 0-9788208-9-4.
Números especiales de Journal of Business and Economic Statistics: vol. 14, núm. 3 y vol. 20, núm. 4.

Breve introducción al método generalizado de los momentos