Estimación de variables instrumentales

En estadística , econometría , epidemiología y disciplinas relacionadas, el método de variables instrumentales ( VI ) se utiliza para estimar relaciones causales cuando los experimentos controlados no son factibles o cuando un tratamiento no se administra con éxito a cada unidad en un experimento aleatorio. ^[1] Intuitivamente, las VI se utilizan cuando una variable explicativa de interés está correlacionada con el término de error (endógeno), en cuyo caso los mínimos cuadrados ordinarios y el ANOVA dan resultados sesgados . Un instrumento válido induce cambios en la variable explicativa (está correlacionado con la variable endógena) pero no tiene un efecto independiente sobre la variable dependiente y no está correlacionado con el término de error, lo que permite a un investigador descubrir el efecto causal de la variable explicativa sobre la variable dependiente.

Los métodos de variables instrumentales permiten una estimación consistente cuando las variables explicativas (covariables) están correlacionadas con los términos de error en un modelo de regresión . Dicha correlación puede ocurrir cuando:

los cambios en la variable dependiente cambian el valor de al menos una de las covariables (causalidad "inversa"),
existen variables omitidas que afectan tanto a las variables dependientes como a las explicativas, o
Las covariables están sujetas a errores de medición .

Las variables explicativas que presentan uno o más de estos problemas en el contexto de una regresión se denominan a veces endógenas . En esta situación, los mínimos cuadrados ordinarios producen estimaciones sesgadas e inconsistentes. ^[2] Sin embargo, si se dispone de un instrumento , aún se pueden obtener estimaciones consistentes. Un instrumento es una variable que no pertenece en sí misma a la ecuación explicativa, pero está correlacionada con las variables explicativas endógenas , condicionalmente en el valor de otras covariables.

En los modelos lineales, hay dos requisitos principales para utilizar IV:

El instrumento debe estar correlacionado con las variables explicativas endógenas, de manera condicional a las otras covariables. Si esta correlación es fuerte, se dice que el instrumento tiene una primera etapa fuerte . Una correlación débil puede proporcionar inferencias engañosas sobre las estimaciones de los parámetros y los errores estándar. ^[3]^[4]
El instrumento no puede correlacionarse con el término de error en la ecuación explicativa, de manera condicional a las otras covariables. En otras palabras, el instrumento no puede sufrir el mismo problema que la variable predictiva original. Si se cumple esta condición, se dice que el instrumento satisface la restricción de exclusión .

Ejemplo

De manera informal, al intentar estimar el efecto causal de alguna variable X ("covariable" o "variable explicativa") sobre otra Y ("variable dependiente"), un instrumento es una tercera variable Z que afecta a Y sólo a través de su efecto sobre X.

Por ejemplo, supongamos que un investigador desea estimar el efecto causal de fumar ( X ) sobre la salud general ( Y ). ^[5] La correlación entre fumar y salud no implica que fumar cause mala salud porque otras variables, como la depresión, pueden afectar tanto a la salud como al tabaquismo, o porque la salud puede afectar al tabaquismo. No es posible realizar experimentos controlados sobre el estado de tabaquismo en la población general. El investigador puede intentar estimar el efecto causal de fumar sobre la salud a partir de datos observacionales utilizando la tasa impositiva para los productos de tabaco ( Z ) como un instrumento para fumar. La tasa impositiva para los productos de tabaco es una opción razonable para un instrumento porque el investigador asume que solo puede correlacionarse con la salud a través de su efecto sobre el tabaquismo. Si el investigador luego encuentra que los impuestos al tabaco y el estado de salud están correlacionados, esto puede verse como evidencia de que fumar causa cambios en la salud.

Historia

El primer uso de una variable instrumental ocurrió en un libro de 1928 de Philip G. Wright , mejor conocido por su excelente descripción de la producción, transporte y venta de aceites vegetales y animales a principios de 1900 en los Estados Unidos. ^[6]^[7] En 1945, Olav Reiersøl aplicó el mismo enfoque en el contexto de modelos de errores en variables en su disertación, dando al método su nombre. ^[8]

Wright intentó determinar la oferta y la demanda de mantequilla utilizando datos de panel sobre precios y cantidades vendidas en Estados Unidos. La idea era que un análisis de regresión podía producir una curva de demanda o de oferta porque se forman por la trayectoria entre los precios y las cantidades demandadas u ofrecidas. El problema era que los datos de observación no formaban una curva de demanda o de oferta como tal, sino más bien una nube de observaciones puntuales que adoptaban formas diferentes en condiciones de mercado variables. Parecía que hacer deducciones a partir de los datos seguía siendo difícil.

El problema era que el precio afectaba tanto a la oferta como a la demanda, de modo que no era posible construir una función que describiera sólo una de las dos directamente a partir de los datos de observación. Wright concluyó correctamente que necesitaba una variable que se correlacionara con la demanda o la oferta, pero no con ambas, es decir, una variable instrumental.

Después de mucha deliberación, Wright decidió utilizar las precipitaciones regionales como variable instrumental: concluyó que las precipitaciones afectaban la producción de pasto y, por lo tanto, la producción de leche y, en última instancia, la oferta de mantequilla, pero no la demanda de mantequilla. De esta manera, pudo construir una ecuación de regresión con solo la variable instrumental del precio y la oferta. ^[9]

Judea Pearl dio definiciones formales de variables instrumentales, utilizando contrafácticos y criterios gráficos, en 2000. ^[10] Angrist y Krueger (2001) presentan un estudio de la historia y los usos de las técnicas de variables instrumentales. ^[11]Heckman (2008) analiza las nociones de causalidad en econometría y su relación con las variables instrumentales y otros métodos . ^[12]

Teoría

Si bien las ideas detrás de la IV se extienden a una amplia clase de modelos, un contexto muy común para la IV es la regresión lineal . Tradicionalmente, ^[13] una variable instrumental se define como una variable que está correlacionada con la variable independiente y no correlacionada con el "término de error" U en la ecuación lineal. ${\estilo de visualización Z}$ ${\estilo de visualización X}$

Y=X\beta+U

${\estilo de visualización Y}$ es un vector. es una matriz, generalmente con una columna de unos y quizás con columnas adicionales para otras covariables. Considere cómo un instrumento permite ser recuperado. Recuerde que MCO resuelve para tal que (cuando minimizamos la suma de errores al cuadrado, , la condición de primer orden es exactamente ). Si se cree que el modelo verdadero tiene debido a cualquiera de las razones enumeradas anteriormente (por ejemplo, si hay una variable omitida que afecta tanto a como por separado), entonces este procedimiento MCO no producirá el impacto causal de en . MCO simplemente elegirá el parámetro que hace que los errores resultantes parezcan no correlacionados con . ${\estilo de visualización X}$ ${\estilo de visualización \beta}$ ${\widehat {\beta }}$ $\operatorname {cov} (X,{\widehat {U}})=0$ $\min _{\beta }(Y-X\beta )'(Y-X\beta )$ $X'(Y-X{\widehat {\beta }})=X'{\widehat {U}}=0$ $\operatorname {cov} (X,U)\neq 0$ $X$ $Y$ $X$ $Y$ $X$

Consideremos, para simplificar, el caso de una sola variable. Supongamos que estamos considerando una regresión con una variable y una constante (quizás no sean necesarias otras covariables o tal vez hayamos excluido parcialmente otras covariables relevantes):

y=\alpha +\beta x+u

En este caso, el coeficiente del regresor de interés está dado por . Sustituyendo por se obtiene ${\widehat {\beta }}={\frac {\operatorname {cov} (x,y)}{\operatorname {var} (x)}}$ $y$

{\begin{aligned}{\widehat {\beta }}&={\frac {\operatorname {cov} (x,y)}{\operatorname {var} (x)}}={\frac {\operatorname {cov} (x,\alpha +\beta x+u)}{\operatorname {var} (x)}}\\[6pt]&={\frac {\operatorname {cov} (x,\alpha +\beta x)}{\operatorname {var} (x)}}+{\frac {\operatorname {cov} (x,u)}{\operatorname {var} (x)}}=\beta ^{*}+{\frac {\operatorname {cov} (x,u)}{\operatorname {var} (x)}},\end{aligned}}

donde es lo que sería el vector de coeficientes estimado si . En este caso, se puede demostrar que es un estimador insesgado de . Si en el modelo subyacente que creemos, entonces MCO da una estimación inconsistente que no refleja el efecto causal subyacente de interés. La VI ayuda a solucionar este problema al identificar los parámetros no basándose en si no está correlacionada con , sino basándose en si otra variable no está correlacionada con . Si la teoría sugiere que está relacionada con (la primera etapa) pero no está correlacionada con (la restricción de exclusión), entonces la VI puede identificar el parámetro causal de interés donde falla la VI. Debido a que hay múltiples formas específicas de usar y derivar estimadores VI incluso en solo el caso lineal (VI, MC2S, GMM), guardamos más discusión para la sección Estimación a continuación. $\beta ^{*}$ $\operatorname {cov} (x,u)=0$ $\beta ^{*}$ $\beta$ $\operatorname {cov} (x,u)\neq 0$ ${\beta }$ $x$ $u$ $z$ $u$ $z$ $x$ $u$

Definición gráfica

Las técnicas de IV se han desarrollado en una clase mucho más amplia de modelos no lineales. Pearl (2000; p. 248) dio definiciones generales de variables instrumentales, utilizando formalismo contrafactual y gráfico. ^[10] La definición gráfica requiere que Z satisfaga las siguientes condiciones:

(Z\perp \!\!\!\perp Y)_{G_{\overline {X}}}\qquad (Z\not \!\!{\perp \!\!\!\perp }X)_{G}

donde representa la separación d y representa el gráfico en el que se cortan todas las flechas que entran en X. $\perp \!\!\!\perp$ $G_{\overline {X}}$

La definición contrafáctica requiere que Z satisfaga

(Z\perp \!\!\!\perp Y_{x})\qquad (Z\not \!\!{\perp \!\!\!\perp }X)

donde Y _x representa el valor que Y alcanzaría si X fuera x y representa la independencia. $\perp \!\!\!\perp$

Si hay covariables adicionales W , entonces las definiciones anteriores se modifican de modo que Z califica como un instrumento si los criterios dados se cumplen condicionalmente en W.

La esencia de la definición de Pearl es:

Las ecuaciones de interés son "estructurales", no de "regresión".
El término de error U representa todos los factores exógenos que afectan a Y cuando X se mantiene constante.
El instrumento Z debe ser independiente de U.
El instrumento Z no debe afectar a Y cuando X se mantiene constante (restricción de exclusión).
El instrumento Z no debe ser independiente de X.

Estas condiciones no dependen de la forma funcional específica de las ecuaciones y, por lo tanto, son aplicables a ecuaciones no lineales, donde U puede ser no aditiva (ver Análisis no paramétrico). También son aplicables a un sistema de ecuaciones múltiples, en el que X (y otros factores) afectan a Y a través de varias variables intermedias. Una variable instrumental no necesita ser una causa de X ; también se puede utilizar un proxy de dicha causa, si satisface las condiciones 1 a 5. ^[10] La restricción de exclusión (condición 4) es redundante; se deduce de las condiciones 2 y 3.

Seleccionar instrumentos adecuados

Como U no se observa, el requisito de que Z sea independiente de U no se puede inferir a partir de los datos y, en cambio, se debe determinar a partir de la estructura del modelo, es decir, el proceso de generación de datos. Los gráficos causales son una representación de esta estructura, y la definición gráfica dada anteriormente se puede utilizar para determinar rápidamente si una variable Z califica como una variable instrumental dado un conjunto de covariables W. Para ver cómo, considere el siguiente ejemplo.

Supongamos que deseamos estimar el efecto de un programa de tutoría universitaria sobre el promedio de calificaciones ( GPA ). La relación entre asistir al programa de tutoría y el GPA puede verse afectada por varios factores. Los estudiantes que asisten al programa de tutoría pueden preocuparse más por sus calificaciones o pueden tener dificultades con su trabajo. Esta confusión se representa en las Figuras 1 a 3 a la derecha a través del arco bidireccional entre el Programa de tutoría y el GPA. Si los estudiantes son asignados a dormitorios al azar, la proximidad del dormitorio del estudiante al programa de tutoría es un candidato natural para ser una variable instrumental.

Figura 1: La proximidad califica como una variable instrumental dadas las horas de la biblioteca
Figura 2: , que se utiliza para determinar si la proximidad es una variable instrumental. $G_{\overline {X}}$
Figura 3: La proximidad no califica como una variable instrumental dadas las horas de la biblioteca
Figura 4: La proximidad califica como una variable instrumental, siempre que no incluyamos las horas de la biblioteca como covariable.

Sin embargo, ¿qué pasa si el programa de tutoría está ubicado en la biblioteca de la universidad? En ese caso, la Proximidad también puede hacer que los estudiantes pasen más tiempo en la biblioteca, lo que a su vez mejora su GPA (ver Figura 1). Usando el gráfico causal representado en la Figura 2, vemos que la Proximidad no califica como una variable instrumental porque está conectada al GPA a través de la ruta Proximidad Horas de Biblioteca GPA en . Sin embargo, si controlamos las Horas de Biblioteca agregándolas como una covariable, entonces la Proximidad se convierte en una variable instrumental, ya que la Proximidad está separada del GPA dadas las Horas de Biblioteca en ^[^{cita requerida}^] . $\rightarrow$ $\rightarrow$ $G_{\overline {X}}$ $G_{\overline {X}}$

Ahora, supongamos que observamos que la "habilidad natural" de un estudiante afecta su número de horas en la biblioteca, así como su promedio de calificaciones, como en la Figura 3. Utilizando el gráfico causal, vemos que las horas en la biblioteca son un colisionador y el condicionamiento en él abre el camino Proximidad Horas en la biblioteca GPA. Como resultado, la proximidad no se puede utilizar como una variable instrumental. $\rightarrow$ $\leftrightarrow$

Por último, supongamos que las horas de biblioteca en realidad no afectan el promedio de calificaciones porque los estudiantes que no estudian en la biblioteca simplemente estudian en otro lugar, como en la Figura 4. En este caso, controlar las horas de biblioteca aún abre un camino espurio desde la proximidad al promedio de calificaciones. Sin embargo, si no controlamos las horas de biblioteca y las eliminamos como covariable, entonces la proximidad puede volver a usarse como variable instrumental.

Estimación

Ahora revisamos y ampliamos la mecánica de IV con mayor detalle. Supongamos que los datos se generan mediante un proceso de la forma

y_{i}=X_{i}\beta +e_{i},

dónde

i indexa observaciones,
$y_{i}$ es el i -ésimo valor de la variable dependiente,
$X_{i}$ es un vector de los i -ésimos valores de la(s) variable(s) independiente(s) y una constante,
$e_{i}$ es el valor i -ésimo de un término de error no observado que representa todas las causas de errores distintos de , y $y_{i}$ $X_{i}$
$\beta$ es un vector de parámetros no observados.

El vector de parámetros es el efecto causal de un cambio de una unidad en cada elemento de , manteniendo constantes todas las demás causas de . El objetivo econométrico es estimar . Para simplificar, suponga que las extracciones de e no están correlacionadas y que se extraen de distribuciones con la misma varianza (es decir, que los errores no están correlacionados serialmente y son homocedásticos ). $\beta$ $y_{i}$ $X_{i}$ $y_{i}$ $\beta$

Supongamos también que se propone un modelo de regresión de forma nominalmente idéntica. Dada una muestra aleatoria de T observaciones de este proceso, el estimador de mínimos cuadrados ordinarios es

{\widehat {\beta }}_{\mathrm {OLS} }=(X^{\mathrm {T} }X)^{-1}X^{\mathrm {T} }y=(X^{\mathrm {T} }X)^{-1}X^{\mathrm {T} }(X\beta +e)=\beta +(X^{\mathrm {T} }X)^{-1}X^{\mathrm {T} }e

donde X , y y e denotan vectores columna de longitud T . Esta ecuación es similar a la ecuación que involucra en la introducción (esta es la versión matricial de esa ecuación). Cuando X y e no están correlacionados , bajo ciertas condiciones de regularidad el segundo término tiene un valor esperado condicional a X de cero y converge a cero en el límite, por lo que el estimador es insesgado y consistente. Sin embargo, cuando X y las otras variables causales no medidas colapsadas en el término e están correlacionadas, el estimador MCO generalmente está sesgado e inconsistente para β . En este caso, es válido usar las estimaciones para predecir valores de y dados los valores de X , pero la estimación no recupera el efecto causal de X sobre y . $\operatorname {cov} (X,y)$

Para recuperar el parámetro subyacente , introducimos un conjunto de variables Z que está altamente correlacionado con cada componente endógeno de X pero (en nuestro modelo subyacente) no está correlacionado con e . Para simplificar, se podría considerar que X es una matriz T × 2 compuesta por una columna de constantes y una variable endógena, y Z es una matriz T × 2 que consiste en una columna de constantes y una variable instrumental. Sin embargo, esta técnica se generaliza a X como una matriz de una constante y, digamos, 5 variables endógenas, con Z como una matriz compuesta por una constante y 5 instrumentos. En la discusión que sigue, asumiremos que X es una matriz T × K y dejaremos este valor K sin especificar. Un estimador en el que X y Z son ambas matrices T × K se conoce como recién identificado . $\beta$

Supongamos que la relación entre cada componente endógeno x _i y los instrumentos está dada por

x_{i}=Z_{i}\gamma +v_{i},

La especificación IV más común utiliza el siguiente estimador:

{\widehat {\beta }}_{\mathrm {IV} }=(Z^{\mathrm {T} }X)^{-1}Z^{\mathrm {T} }y

Esta especificación se aproxima al parámetro verdadero a medida que la muestra se hace grande, siempre que en el modelo verdadero: $Z^{\mathrm {T} }e=0$

{\widehat {\beta }}_{\mathrm {IV} }=(Z^{\mathrm {T} }X)^{-1}Z^{\mathrm {T} }y=(Z^{\mathrm {T} }X)^{-1}Z^{\mathrm {T} }X\beta +(Z^{\mathrm {T} }X)^{-1}Z^{\mathrm {T} }e\rightarrow \beta

Siempre que en el proceso subyacente que genera los datos, el uso adecuado del estimador IV identifique este parámetro. Esto funciona porque el estimador IV resuelve el parámetro único que satisface y, por lo tanto, se centra en el verdadero parámetro subyacente a medida que aumenta el tamaño de la muestra. $Z^{\mathrm {T} }e=0$ $Z^{\mathrm {T} }e=0$

Ahora, una extensión: supongamos que hay más instrumentos que covariables en la ecuación de interés, de modo que Z es una matriz T × M con M > K . Esto se suele denominar caso sobreidentificado . En este caso, se puede utilizar el método generalizado de momentos (GMM). El estimador GMM IV es

{\widehat {\beta }}_{\mathrm {GMM} }=(X^{\mathrm {T} }P_{Z}X)^{-1}X^{\mathrm {T} }P_{Z}y,

donde se refiere a la matriz de proyección . $P_{Z}$ $P_{Z}=Z(Z^{\mathrm {T} }Z)^{-1}Z^{\mathrm {T} }$

Esta expresión se reduce a la primera cuando el número de instrumentos es igual al número de covariables en la ecuación de interés. Por lo tanto, la IV sobreidentificada es una generalización de la IV recién identificada.

Prueba de que β _GMM colapsa a β _IV en el caso recién identificado

Desarrollando la expresión: $\beta _{\text{GMM}}$

{\widehat {\beta }}_{\mathrm {GMM} }=(X^{\mathrm {T} }Z(Z^{\mathrm {T} }Z)^{-1}Z^{\mathrm {T} }X)^{-1}X^{\mathrm {T} }Z(Z^{\mathrm {T} }Z)^{-1}Z^{\mathrm {T} }y

En el caso que acabamos de identificar, tenemos tantos instrumentos como covariables, de modo que la dimensión de X es la misma que la de Z . Por lo tanto, y son todas matrices al cuadrado de la misma dimensión. Podemos desarrollar la inversa, utilizando el hecho de que, para cualquier matriz invertible n por n A y B , ( AB ) ⁻¹ = B ⁻¹A ⁻¹ (ver Matriz invertible#Propiedades ): $X^{\mathrm {T} }Z,Z^{\mathrm {T} }Z$ $Z^{\mathrm {T} }X$

{\begin{aligned}{\widehat {\beta }}_{\mathrm {GMM} }&=(Z^{\mathrm {T} }X)^{-1}(Z^{\mathrm {T} }Z)(X^{\mathrm {T} }Z)^{-1}X^{\mathrm {T} }Z(Z^{\mathrm {T} }Z)^{-1}Z^{\mathrm {T} }y\\&=(Z^{\mathrm {T} }X)^{-1}(Z^{\mathrm {T} }Z)(Z^{\mathrm {T} }Z)^{-1}Z^{\mathrm {T} }y\\&=(Z^{\mathrm {T} }X)^{-1}Z^{\mathrm {T} }y\\&={\widehat {\beta }}_{\mathrm {IV} }\end{aligned}}

Referencia: véase Davidson y Mackinnon (1993) ^[14]^{: 218}

Existe un estimador subidentificado equivalente para el caso en que m < k . Dado que los parámetros son las soluciones de un conjunto de ecuaciones lineales, un modelo subidentificado que utilice el conjunto de ecuaciones no tiene una solución única. $Z'v=0$

Interpretación como mínimos cuadrados en dos etapas

Un método computacional que se puede utilizar para calcular las estimaciones de IV es el de mínimos cuadrados en dos etapas (2SLS o TSLS). En la primera etapa, cada variable explicativa que es una covariable endógena en la ecuación de interés se regresiona sobre todas las variables exógenas del modelo, incluidas las covariables exógenas en la ecuación de interés y los instrumentos excluidos. Los valores predichos a partir de estas regresiones se obtienen:

Etapa 1: Regresar cada columna de X sobre Z , ( ): $X=Z\delta +{\text{errors}}$

{\widehat {\delta }}=(Z^{\mathrm {T} }Z)^{-1}Z^{\mathrm {T} }X,\,

y guardar los valores previstos:

{\widehat {X}}=Z{\widehat {\delta }}={\color {ProcessBlue}Z(Z^{\mathrm {T} }Z)^{-1}Z^{\mathrm {T} }}X={\color {ProcessBlue}P_{Z}}X.\,

En la segunda etapa, la regresión de interés se estima de forma habitual, excepto que en esta etapa cada covariable endógena se reemplaza con los valores predichos de la primera etapa:

Etapa 2: Regresar Y sobre los valores predichos de la primera etapa:

Y={\widehat {X}}\beta +\mathrm {noise} ,\,

Lo cual da

\beta _{\text{2SLS}}=\left(X^{\mathrm {T} }{\color {ProcessBlue}P_{Z}}X\right)^{-1}X^{\mathrm {T} }{\color {ProcessBlue}P_{Z}}Y.

Este método sólo es válido en modelos lineales. Para covariables endógenas categóricas, uno podría verse tentado a utilizar una primera etapa diferente a los mínimos cuadrados ordinarios, como un modelo probit para la primera etapa seguido de MCO para la segunda. Esto se conoce comúnmente en la literatura econométrica como la regresión prohibida ^[15] , porque las estimaciones de parámetros de la segunda etapa IV son consistentes sólo en casos especiales. ^[16]

Demostración: cálculo del estimador MC2E

El estimador MCO habitual es: . Reemplazando y observando que es una matriz simétrica e idempotente , de modo que $({\widehat {X}}^{\mathrm {T} }{\widehat {X}})^{-1}{\widehat {X}}^{\mathrm {T} }Y$ ${\widehat {X}}=P_{Z}X$ $P_{Z}$ $P_{Z}^{\mathrm {T} }P_{Z}=P_{Z}P_{Z}=P_{Z}$

\beta _{\text{2SLS}}=({\widehat {X}}^{\mathrm {T} }{\widehat {X}})^{-1}{\widehat {X}}^{\mathrm {T} }Y=\left(X^{\mathrm {T} }P_{Z}^{\mathrm {T} }P_{Z}X\right)^{-1}X^{\mathrm {T} }P_{Z}^{\mathrm {T} }Y=\left(X^{\mathrm {T} }P_{Z}X\right)^{-1}X^{\mathrm {T} }P_{Z}Y.

El estimador resultante de es numéricamente idéntico a la expresión mostrada arriba. Se debe realizar una pequeña corrección a la suma de los cuadrados de los residuos en el modelo ajustado de la segunda etapa para que la matriz de covarianza de se calcule correctamente. $\beta$ $\beta$

Análisis no paramétrico

Cuando se desconoce la forma de las ecuaciones estructurales, aún se puede definir una variable instrumental mediante las ecuaciones: $Z$

x=g(z,u)\,

y=f(x,u)\,

donde y son dos funciones arbitrarias y es independiente de . Sin embargo, a diferencia de los modelos lineales, las mediciones de y no permiten la identificación del efecto causal promedio de sobre , denotado como ACE $f$ $g$ $Z$ $U$ $Z,X$ $Y$ $X$ $Y$

{\text{ACE}}=\Pr(y\mid {\text{do}}(x))=\operatorname {E} _{u}[f(x,u)].

Balke y Pearl [1997] derivaron límites estrictos sobre la ECA y demostraron que estos pueden proporcionar información valiosa sobre el signo y el tamaño de la ECA. ^[17]

En el análisis lineal, no existe ninguna prueba para refutar el supuesto de que es instrumental en relación con el par . Este no es el caso cuando es discreto. Pearl (2000) ha demostrado que, para todos y , la siguiente restricción, llamada "desigualdad instrumental", debe cumplirse siempre que satisfaga las dos ecuaciones anteriores: ^[10] $Z$ $(X,Y)$ $X$ $f$ $g$ $Z$

\max _{x}\sum _{y}[\max _{z}\Pr(y,x\mid z)]\leq 1.

Interpretación bajo heterogeneidad del efecto del tratamiento

La exposición anterior supone que el efecto causal de interés no varía a lo largo de las observaciones, es decir, que es una constante. En general, los diferentes sujetos responderán de diferentes maneras a los cambios en el "tratamiento" x . Cuando se reconoce esta posibilidad, el efecto promedio en la población de un cambio en x sobre y puede diferir del efecto en una subpoblación dada. Por ejemplo, el efecto promedio de un programa de capacitación laboral puede diferir sustancialmente entre el grupo de personas que realmente reciben la capacitación y el grupo que elige no recibirla. Por estas razones, los métodos IV invocan supuestos implícitos sobre la respuesta conductual o, más generalmente, supuestos sobre la correlación entre la respuesta al tratamiento y la propensión a recibir el tratamiento. ^[18] $\beta$

El estimador IV estándar puede recuperar los efectos de tratamiento promedio locales (LATE) en lugar de los efectos de tratamiento promedio (ATE). ^[1] Imbens y Angrist (1994) demuestran que la estimación IV lineal puede interpretarse en condiciones débiles como un promedio ponderado de los efectos de tratamiento promedio locales, donde los pesos dependen de la elasticidad del regresor endógeno a los cambios en las variables instrumentales. En términos generales, eso significa que el efecto de una variable solo se revela para las subpoblaciones afectadas por los cambios observados en los instrumentos, y que las subpoblaciones que responden más a los cambios en los instrumentos tendrán los mayores efectos en la magnitud de la estimación IV.

Por ejemplo, si un investigador utiliza la presencia de una universidad concesionaria de tierras como instrumento para la educación universitaria en una regresión de ingresos, identifica el efecto de la universidad sobre los ingresos en la subpoblación que obtendría un título universitario si existiera una universidad, pero que no lo obtendría si no existiera una universidad. Este enfoque empírico no le dice nada al investigador, sin más suposiciones, sobre el efecto de la universidad entre las personas que siempre o nunca obtendrían un título universitario independientemente de si existe una universidad local.

Problema de instrumentos débiles

Como señalan Bound, Jaeger y Baker (1995), la selección de instrumentos "débiles" genera un problema, es decir, instrumentos que son malos predictores del predictor de pregunta endógeno en la ecuación de la primera etapa. ^[19] En este caso, la predicción del predictor de pregunta por parte del instrumento será deficiente y los valores predichos tendrán muy poca variación. En consecuencia, es poco probable que tengan mucho éxito en la predicción del resultado final cuando se utilizan para reemplazar el predictor de pregunta en la ecuación de la segunda etapa.

En el contexto del ejemplo del tabaquismo y la salud que se ha analizado anteriormente, los impuestos al tabaco son instrumentos débiles para el tabaquismo si la condición de fumador no responde en gran medida a los cambios en los impuestos. Si los impuestos más altos no inducen a las personas a dejar de fumar (o a no empezar a fumar), entonces la variación en las tasas impositivas no nos dice nada sobre el efecto del tabaquismo en la salud. Si los impuestos afectan a la salud por canales distintos de su efecto sobre el tabaquismo, entonces los instrumentos no son válidos y el enfoque de las variables instrumentales puede arrojar resultados engañosos. Por ejemplo, los lugares y épocas con poblaciones relativamente conscientes de la salud pueden aplicar impuestos elevados al tabaco y exhibir una mejor salud incluso manteniendo constantes las tasas de tabaquismo, por lo que observaríamos una correlación entre la salud y los impuestos al tabaco incluso si fuera el caso de que fumar no tuviera ningún efecto sobre la salud. En este caso, sería un error inferir un efecto causal del tabaquismo sobre la salud a partir de la correlación observada entre los impuestos al tabaco y la salud.

Pruebas de instrumentos débiles

La fortaleza de los instrumentos se puede evaluar directamente porque tanto las covariables endógenas como los instrumentos son observables. ^[20] Una regla general común para los modelos con un regresor endógeno es: la estadística F contra la hipótesis nula de que los instrumentos excluidos son irrelevantes en la regresión de la primera etapa debe ser mayor que 10.

Inferencia estadística y prueba de hipótesis

Cuando las covariables son exógenas, las propiedades de muestra pequeña del estimador MCO se pueden derivar de una manera sencilla calculando los momentos del estimador condicionales a X . Cuando algunas de las covariables son endógenas de modo que se implementa la estimación de variables instrumentales, no se pueden obtener expresiones simples para los momentos del estimador. Generalmente, los estimadores de variables instrumentales solo tienen propiedades asintóticas deseables, no de muestra finita, y la inferencia se basa en aproximaciones asintóticas a la distribución de muestreo del estimador. Incluso cuando los instrumentos no están correlacionados con el error en la ecuación de interés y cuando los instrumentos no son débiles, las propiedades de muestra finita del estimador de variables instrumentales pueden ser deficientes. Por ejemplo, los modelos identificados exactamente producen estimadores de muestra finita sin momentos, por lo que se puede decir que el estimador no es ni sesgado ni insesgado, el tamaño nominal de las estadísticas de prueba puede estar sustancialmente distorsionado y las estimaciones pueden estar comúnmente muy alejadas del valor verdadero del parámetro. ^[21]

Prueba de la restricción de exclusión

La suposición de que los instrumentos no están correlacionados con el término de error en la ecuación de interés no es comprobable en modelos identificados exactamente. Si el modelo está sobreidentificado, hay información disponible que puede utilizarse para comprobar esta suposición. La prueba más común de estas restricciones de sobreidentificación , llamada prueba de Sargan-Hansen , se basa en la observación de que los residuos no deberían estar correlacionados con el conjunto de variables exógenas si los instrumentos son verdaderamente exógenos. ^[22] La estadística de prueba de Sargan-Hansen se puede calcular como (el número de observaciones multiplicado por el coeficiente de determinación ) a partir de la regresión MCO de los residuos sobre el conjunto de variables exógenas. Esta estadística será asintóticamente chi-cuadrado con m − k grados de libertad bajo la hipótesis nula de que el término de error no está correlacionado con los instrumentos. $TR^{2}$

Véase también

Función de control (econometría) : métodos estadísticos para corregir problemas de endogeneidad
Instrumentos óptimos – Técnica para mejorar la eficiencia de los estimadores en modelos de momento condicional

Referencias

^ ab Imbens, G.; Angrist, J. (1994). "Identificación y estimación de los efectos del tratamiento promedio local". Econometrica . 62 (2): 467–476. doi :10.2307/2951620. JSTOR 2951620. S2CID 153123153.
^ Bullock, JG; Green, DP; Ha, SE (2010). "Sí, pero ¿cuál es el mecanismo? (No esperes una respuesta fácil)". Revista de personalidad y psicología social . 98 (4): 550–558. CiteSeerX 10.1.1.169.5465 . doi :10.1037/a0018933. PMID 20307128. S2CID 7913867.
^ https://www.stata.com/meeting/5nasug/wiv.pdf ^{[ cita completa necesaria ]}
^ Nichols, Austin (23 de julio de 2006). "Instrumentos débiles: una visión general y nuevas técnicas". {{cite journal}}: Requiere citar revista |journal=( ayuda )
^ Leigh, JP; Schembri, M. (2004). "Técnica de variables instrumentales: el precio del cigarrillo proporcionó una mejor estimación de los efectos del tabaquismo en el SF-12". Journal of Clinical Epidemiology . 57 (3): 284–293. doi :10.1016/j.jclinepi.2003.08.006. PMID 15066689.
^ Epstein, Roy J. (1989). "La caída de MCO en la estimación estructural". Oxford Economic Papers . 41 (1): 94–107. doi :10.1093/oxfordjournals.oep.a041930. JSTOR 2663184.
^ Stock, James H.; Trebbi, Francesco (2003). "Retrospectivas: ¿Quién inventó la regresión de variable instrumental?". Journal of Economic Perspectives . 17 (3): 177–194. doi : 10.1257/089533003769204416 .
^ Reiersøl, Olav (1945). Análisis de Confluencia mediante Conjuntos Instrumentales de Variables . Arkiv para Matemáticas, Astronomi, och Fysik. vol. 32A. Upsala: Almquist & Wiksells. OCLC 793451601.
^ Wooldridge, J.: Introducción a la econometría . South-Western, Scarborough, Canadá, 2009.
^ abcd Pearl, J. (2000). Causalidad: modelos, razonamiento e inferencia . Nueva York: Cambridge University Press . ISBN 978-0-521-89560-6.
^ Angrist, J.; Krueger, A. (2001). "Variables instrumentales y la búsqueda de identificación: de la oferta y la demanda a los experimentos naturales". Journal of Economic Perspectives . 15 (4): 69–85. doi : 10.1257/jep.15.4.69 . hdl : 1721.1/63775 .
^ Heckman, J. (2008). "Causalidad econométrica". Revista estadística internacional . 76 (1): 1–27. doi :10.1111/j.1751-5823.2007.00024.x.
^ Bowden, RJ; Turkington, DA (1984). Variables instrumentales . Cambridge, Inglaterra: Cambridge University Press.
^ Davidson, Russell; Mackinnon, James (1993). Estimación e inferencia en econometría . Nueva York: Oxford University Press. ISBN 978-0-19-506011-9.
^ Wooldridge, J. (2010). Análisis econométrico de datos de sección transversal y de panel. Análisis econométrico de datos de sección transversal y de panel. MIT Press. ^{[ página necesaria ]}
^ Lergenmuller, Simon (2017). Sustitución de predictores en dos etapas para datos de tiempo hasta el evento (Tesis). hdl :10852/57801.
^ Balke, A.; Pearl, J. (1997). "Límites de los efectos del tratamiento en estudios con cumplimiento imperfecto". Revista de la Asociación Estadounidense de Estadística . 92 (439): 1172–1176. CiteSeerX 10.1.1.26.3952 . doi :10.1080/01621459.1997.10474074. S2CID 18365761.
^ Heckman, J. (1997). "Variables instrumentales: un estudio de supuestos conductuales implícitos utilizados en la realización de evaluaciones de programas". Revista de Recursos Humanos . 32 (3): 441–462. doi :10.2307/146178. JSTOR 146178.
^ Bound, J.; Jaeger, DA; Baker, RM (1995). "Problemas con la estimación de variables instrumentales cuando la correlación entre los instrumentos y la variable explicativa endógena es débil". Journal of the American Statistical Association . 90 (430): 443. doi :10.1080/01621459.1995.10476536.
^ Stock, J.; Wright, J.; Yogo, M. (2002). "Un estudio de instrumentos débiles e identificación débil en el método generalizado de momentos". Revista de la Asociación Estadounidense de Estadística . 20 (4): 518–529. CiteSeerX 10.1.1.319.2477 . doi :10.1198/073500102288618658. S2CID 14793271.
^ Nelson, CR; Startz, R. (1990). "Algunos resultados adicionales sobre las propiedades exactas de muestras pequeñas del estimador de variable instrumental". Econometrica . 58 (4): 967–976. doi :10.2307/2938359. JSTOR 2938359. S2CID 119872226.
^ Hayashi, Fumio (2000). "Prueba de restricciones sobreidentificadas". Econometría . Princeton: Princeton University Press. pp. 217–221. ISBN. 978-0-691-01018-2.

Lectura adicional

Greene, William H. (2008). Análisis econométrico (sexta edición). Upper Saddle River: Pearson Prentice-Hall. págs. 314–353. ISBN 978-0-13-600383-0.
Gujarati, Damodar N. ; Porter, Dawn C. (2009). Econometría básica (quinta edición). Nueva York: McGraw-Hill Irwin. págs. 711–736. ISBN 978-0-07-337577-9.
Sargan, Denis (1988). Lecciones sobre teoría econométrica avanzada . Oxford: Basil Blackwell. pp. 42–67. ISBN 978-0-631-14956-9.
Wooldridge, Jeffrey M. (2013). Introducción a la econometría: un enfoque moderno (quinta edición internacional). Mason, OH: South-Western. pp. 490–528. ISBN 978-1-111-53439-4.

Bibliografía

Wooldridge, J. (1997): Métodos de cuasibillisima probabilidad para datos de recuento, Handbook of Applied Econometrics, Volumen 2, ed. MH Pesaran y P. Schmidt, Oxford, Blackwell, págs. 352–406
Terza, JV (1998): "Estimación de modelos de recuento con conmutación endógena: selección de muestras y efectos de tratamiento endógeno". Journal of Econometrics (84), págs. 129-154
Wooldridge, J. (2002): "Análisis econométrico de datos transversales y de panel", MIT Press , Cambridge, Massachusetts.

Enlaces externos

Capítulo del libro de texto de Daniel McFadden
Conferencia de econometría (tema: variable instrumental) en YouTube por Mark Thoma .
Conferencia sobre econometría (tema: mínimos cuadrados en dos etapas) en YouTube por Mark Thoma