Diferencia en diferencias

Diferencia en diferencias ( DID ^[1] o DD ^[2] ) es una técnica estadística utilizada en econometría e investigación cuantitativa en las ciencias sociales que intenta imitar un diseño de investigación experimental utilizando datos de estudios observacionales , mediante el estudio del efecto diferencial de un tratamiento en un 'grupo de tratamiento' versus un ' grupo de control ' en un experimento natural . ^[3] Calcula el efecto de un tratamiento (es decir, una variable explicativa o una variable independiente ) sobre un resultado (es decir, una variable de respuesta o variable dependiente ) comparando el cambio promedio a lo largo del tiempo en la variable de resultado para el grupo de tratamiento con el cambio promedio a lo largo del tiempo para el grupo de control. Aunque está destinado a mitigar los efectos de factores extraños y sesgo de selección , dependiendo de cómo se elija el grupo de tratamiento, este método aún puede estar sujeto a ciertos sesgos (por ejemplo, regresión media , causalidad inversa y sesgo de variable omitida ).

A diferencia de una estimación de series de tiempo del efecto del tratamiento sobre los sujetos (que analiza las diferencias a lo largo del tiempo) o una estimación de sección transversal del efecto del tratamiento (que mide la diferencia entre los grupos de tratamiento y de control), la diferencia en diferencias utiliza datos de panel para medir las diferencias, entre el grupo de tratamiento y el grupo de control, de los cambios en la variable de resultado que ocurren a lo largo del tiempo.

Definición general

La diferencia en las diferencias requiere datos medidos de un grupo de tratamiento y un grupo de control en dos o más períodos de tiempo diferentes, específicamente al menos un período de tiempo antes del "tratamiento" y al menos un período de tiempo después del "tratamiento". En el ejemplo ilustrado, el resultado en el grupo de tratamiento está representado por la línea P y el resultado en el grupo de control está representado por la línea S. La variable de resultado (dependiente) en ambos grupos se mide en el momento 1, antes de que cualquiera de los grupos haya recibido el tratamiento (es decir, la variable independiente o explicativa), representada por los puntos P ₁ y S ₁ . El grupo de tratamiento recibe o experimenta el tratamiento y ambos grupos se miden nuevamente en el momento 2. No toda la diferencia entre los grupos de tratamiento y control en el momento 2 (es decir, la diferencia entre P ₂ y S ₂ ) se puede explicar como un efecto del tratamiento, porque el grupo de tratamiento y el grupo de control no comenzaron en el mismo punto en el momento 1. Por lo tanto, DID calcula la diferencia "normal" en la variable de resultado entre los dos grupos (la diferencia que aún existiría si ninguno de los grupos experimentara el tratamiento), representada por la línea de puntos Q . (Observe que la pendiente de P ₁ a Q es la misma que la pendiente de S ₁ a S ₂ .) El efecto del tratamiento es la diferencia entre el resultado observado (P ₂ ) y el resultado "normal" (la diferencia entre P ₂ y Q).

Definición formal

Considere el modelo

y_{it}~=~\gamma _{s(i)}+\lambda _{t}+\delta I(\puntos )+\varepsilon _{it}

donde es la variable dependiente para el individuo y el tiempo , es el grupo al que pertenece (es decir, el grupo de tratamiento o el grupo de control), y es la abreviatura de la variable ficticia igual a 1 cuando el evento descrito en es verdadero y 0 en caso contrario. En el gráfico de tiempo versus por grupo, es la intersección vertical para el gráfico de , y es la tendencia temporal compartida por ambos grupos de acuerdo con el supuesto de tendencia paralela (ver Supuestos a continuación). es el efecto del tratamiento, y es el término residual . $y_{it}$ ${\estilo de visualización i}$ ${\estilo de visualización t}$ $s(i)$ ${\estilo de visualización i}$ $I(\puntos )$ $(\puntos)$ ${\estilo de visualización Y}$ $\gamma_{s}$ ${\estilo de visualización s}$ $\lambda _{t}$ ${\estilo de visualización \delta}$ $\varepsilon _{it}$

Considere el promedio de la variable dependiente y los indicadores ficticios por grupo y tiempo:

{\begin{aligned}n_{s}&={\text{ número de individuos en el grupo}}s\\{\overline {y}}_{st}&={\frac {1}{n_{s}}}\sum _{i=1}^{n}y_{it}\ I(s(i)~=~s),\\{\overline {\gamma }}_{s}&={\frac {1}{n_{s}}}\sum _{i=1}^{n}\gamma _{s(i)}\ I(s(i)~=~s)~=~\gamma _{s},\\{\overline {\lambda }}_{st}&={\frac {1}{n_{s}}}\sum _{i=1}^{n}\lambda _{t}\ I(s(i)~=~s)~=~\lambda _{t},\\D_{st}&={\frac {1}{n_{s}}}\sum _{i=1}^{n}I(s(i)~=~{\text{ tratamiento, }}t{\text{ en el período posterior}})\ I(s(i)~=~s)~=~I(s~=~{\text{ tratamiento, }}t{\text{ en el período posterior}}),\\{\overline {\varepsilon }}_{st}&={\frac {1}{n_{s}}}\sum _{i=1}^{n}\varepsilon _{it}\ I(s(i)~=~s),\end{aligned}}

y supongamos para simplificar que y . Nótese que no es aleatorio; solo codifica cómo se etiquetan los grupos y los períodos. Entonces ${\estilo de visualización s=1,2}$ ${\estilo de visualización t=1,2}$ $D_{st}$

{\begin{aligned}&({\overline {y}}_{11}-{\overline {y}}_{12})-({\overline {y}}_{21}-{\overline {y}}_{22})\\[6pt]={}&{\big [}(\gamma _{1}+\lambda _{1}+\delta D_{11}+{\overline {\varepsilon }}_{11})-(\gamma _{1}+\lambda _{2}+\delta D_{12}+{\overline {\varepsilon }}_{12}){\big ]}\\&\qquad {}-{\big [}(\gamma _{2}+\lambda _{1}+\delta D_{21}+{\overline {\varepsilon }}_{21})-(\gamma _{2}+\lambda _{2}+\delta D_{22}+{\overline {\varepsilon }}_{22}){\big ]}\\[6pt]={}&\delta (D_{11}-D_{12})+\delta (D_{22}-D_{21})+{\overline {\varepsilon }}_{11}-{\overline {\varepsilon }}_{12}+{\overline {\varepsilon }}_{22}-{\overline {\varepsilon }}_{21}.\end{aligned}}

El supuesto de exogeneidad estricta implica entonces que

\operatorname {E} \left[({\overline {y}}_{11}-{\overline {y}}_{12})-({\overline {y}}_{21}-{\overline {y}}_{22})\right]~=~\delta (D_{11}-D_{12})+\delta (D_{22}-D_{21}).

Sin pérdida de generalidad , suponga que es el grupo de tratamiento, y es el período posterior, entonces y , dando el estimador DID $s=2$ $t=2$ $D_{22}=1$ $D_{11}=D_{12}=D_{21}=0$

{\hat {\delta }}~=~({\overline {y}}_{11}-{\overline {y}}_{12})-({\overline {y}}_{21}-{\overline {y}}_{22}),

que puede interpretarse como el efecto del tratamiento indicado por . A continuación se muestra cómo este estimador puede leerse como un coeficiente en una regresión de mínimos cuadrados ordinaria. El modelo descrito en esta sección está sobreparametrizado; para remediarlo, uno de los coeficientes de las variables ficticias se puede establecer en 0, por ejemplo, podemos establecer . $D_{st}$ $\gamma _{1}=0$

Suposiciones

Todas las suposiciones del modelo MCO se aplican igualmente a DID. Además, DID requiere una suposición de tendencia paralela . La suposición de tendencia paralela dice que son los mismos tanto en como . Dado que la definición formal anterior representa con precisión la realidad, esta suposición se cumple automáticamente. Sin embargo, un modelo con puede ser más realista. Para aumentar la probabilidad de que se cumpla la suposición de tendencia paralela, a menudo se combina un enfoque de diferencias en diferencias con el emparejamiento . ^[4] Esto implica "emparejar" unidades de "tratamiento" conocidas con unidades de "control" contrafactuales simuladas: unidades característicamente equivalentes que no recibieron tratamiento. Al definir la variable de resultado como una diferencia temporal (cambio en el resultado observado entre los períodos previos y posteriores al tratamiento) y emparejar múltiples unidades en una muestra grande sobre la base de historias similares previas al tratamiento, el ATE resultante (es decir, el ATT: efecto promedio del tratamiento para los tratados) proporciona una estimación robusta de diferencias en diferencias de los efectos del tratamiento. Esto sirve para dos propósitos estadísticos: en primer lugar, condicional a las covariables previas al tratamiento, es probable que se cumpla la suposición de tendencias paralelas; y en segundo lugar, este enfoque reduce la dependencia de los supuestos de ignorancia asociados necesarios para una inferencia válida. $\lambda _{2}-\lambda _{1}$ $s=1$ $s=2$ $\lambda _{st}~:~\lambda _{22}-\lambda _{21}\neq \lambda _{12}-\lambda _{11}$

Como se ilustra a la derecha, el efecto del tratamiento es la diferencia entre el valor observado de y y el valor que habría tenido y con tendencias paralelas, si no hubiera habido tratamiento. El talón de Aquiles del TID es cuando algo distinto del tratamiento cambia en un grupo pero no en el otro al mismo tiempo que el tratamiento, lo que implica una violación del supuesto de tendencia paralela.

Para garantizar la precisión de la estimación de DID, se supone que la composición de los individuos de los dos grupos permanece invariable a lo largo del tiempo. Al utilizar un modelo DID, se deben considerar y abordar diversos problemas que pueden comprometer los resultados, como la autocorrelación ^[5] y los dips de Ashenfelter.

Implementación

El método DID se puede implementar de acuerdo con la siguiente tabla, donde la celda inferior derecha es el estimador DID.

La ejecución de un análisis de regresión arroja el mismo resultado. Considere el modelo MCO

y~=~\beta _{0}+\beta _{1}T+\beta _{2}S+\beta _{3}(T\cdot S)+\varepsilon

donde es una variable ficticia para el período, igual a cuando , y es una variable ficticia para la pertenencia al grupo, igual a cuando . La variable compuesta es una variable ficticia que indica cuando . Aunque no se muestra rigurosamente aquí, esta es una parametrización adecuada de la definición formal del modelo; además, resulta que los promedios del grupo y del período en esa sección se relacionan con las estimaciones de los parámetros del modelo de la siguiente manera $T$ $1$ $t=2$ $S$ $1$ $s=2$ $(T\cdot S)$ $S=T=1$

{\begin{aligned}{\hat {\beta }}_{0}&={\widehat {E}}(y\mid T=0,~S=0)\\[8pt]{\hat {\beta }}_{1}&={\widehat {E}}(y\mid T=1,~S=0)-{\widehat {E}}(y\mid T=0,~S=0)\\[8pt]{\hat {\beta }}_{2}&={\widehat {E}}(y\mid T=0,~S=1)-{\widehat {E}}(y\mid T=0,~S=0)\\[8pt]{\hat {\beta }}_{3}&={\big [}{\widehat {E}}(y\mid T=1,~S=1)-{\widehat {E}}(y\mid T=0,~S=1){\big ]}\\&\qquad {}-{\big [}{\widehat {E}}(y\mid T=1,~S=0)-{\widehat {E}}(y\mid T=0,~S=0){\big ]},\end{aligned}}

donde representa los promedios condicionales calculados sobre la muestra, por ejemplo, es el indicador para el período posterior, es un indicador para el grupo de control. Nótese que es una estimación del contrafactual en lugar del impacto del grupo de control. El grupo de control se utiliza a menudo como un proxy para el contrafactual (ver, Método de control sintético para una comprensión más profunda de este punto). Por lo tanto, puede interpretarse como el impacto tanto del grupo de control como del contrafactual de la intervención (tratamiento). De manera similar, , debido al supuesto de tendencia paralela, también es el mismo diferencial entre el grupo de tratamiento y control en . Las descripciones anteriores no deben interpretarse como que implican el efecto (promedio) solo del grupo de control, para , o solo la diferencia de los grupos de tratamiento y control en el período anterior, para . Como en Card y Krueger , a continuación, una primera diferencia (temporal) de la variable de resultado elimina la necesidad de una tendencia temporal (es decir, ) para formar una estimación no sesgada de , lo que implica que en realidad no está condicional al grupo de tratamiento o control. ^[6] De manera consistente, una diferencia entre los grupos de tratamiento y control eliminaría la necesidad de diferenciales de tratamiento (es decir, ) para formar una estimación no sesgada de . Este matiz es importante de entender cuando el usuario cree que existen violaciones (débiles) de la tendencia previa paralela o en el caso de violaciones de los supuestos de aproximación contrafactual adecuados dada la existencia de shocks no comunes o eventos de confusión. Para ver la relación entre esta notación y la sección anterior, considere como se indicó anteriormente solo una observación por período de tiempo para cada grupo, luego ${\widehat {E}}(\dots \mid \dots )$ $T=1$ $S=0$ ${\hat {\beta }}_{1}$ ${\hat {\beta }}_{1}$ ${\hat {\beta }}_{2}$ $T=1$ ${\hat {\beta }}_{1}$ ${\hat {\beta }}_{2}$ $(\Delta Y_{i}=Y_{i,1}-Y_{i,0})$ ${\hat {\beta }}_{1}$ ${\hat {\beta }}_{3}$ ${\hat {\beta }}_{1}$ ${\hat {\beta }}_{2}$ ${\hat {\beta }}_{3}$

{\begin{aligned}{\widehat {E}}(y\mid T=1,~S=0)&={\widehat {E}}(y\mid {\text{ after period, control}})\\[3pt]\\&={\frac {{\widehat {E}}(y\ I({\text{ after period, control}}))}{{\widehat {P}}({\text{ after period, control}})}}\\[3pt]\\&={\frac {\sum _{i=1}^{n}y_{i,{\text{after}}}I(i{\text{ in control}})}{n_{\text{control}}}}={\overline {y}}_{\text{control, after}}\\[3pt]\\&={\overline {y}}_{\text{12}}\end{aligned}}

y así sucesivamente para otros valores de y , lo que es equivalente a $T$ $S$

{\hat {\beta }}_{3}~=~(y_{11}-y_{21})-(y_{12}-y_{22}).

Pero ésta es la expresión del efecto del tratamiento que se dio en la definición formal y en la tabla anterior.

Ejemplo

El artículo de Card y Krueger sobre el salario mínimo en Nueva Jersey , publicado en 1994, ^[6] se considera uno de los estudios DID más famosos; Card fue galardonado posteriormente con el Premio Nobel de Ciencias Económicas de 2021 en parte por este y otros trabajos relacionados. Card y Krueger compararon el empleo en el sector de la comida rápida en Nueva Jersey y en Pensilvania , en febrero de 1992 y en noviembre de 1992, después de que el salario mínimo de Nueva Jersey aumentara de 4,25 a 5,05 dólares en abril de 1992. Observar un cambio en el empleo solo en Nueva Jersey, antes y después del tratamiento, no controlaría las variables omitidas, como el clima y las condiciones macroeconómicas de la región. Al incluir Pensilvania como control en un modelo de diferencias en diferencias, cualquier sesgo causado por variables comunes a Nueva Jersey y Pensilvania se controla implícitamente, incluso cuando estas variables no se observan. Suponiendo que Nueva Jersey y Pensilvania tienen tendencias paralelas a lo largo del tiempo, el cambio en el empleo de Pensilvania puede interpretarse como el cambio que habría experimentado Nueva Jersey si no hubieran aumentado el salario mínimo, y viceversa. La evidencia sugirió que el aumento del salario mínimo no indujo una disminución del empleo en Nueva Jersey, contrariamente a lo que sugeriría cierta teoría económica. La tabla siguiente muestra las estimaciones de Card y Krueger del efecto del tratamiento en el empleo, medido como FTE (o equivalentes de tiempo completo) . Card y Krueger estiman que el aumento del salario mínimo de $0,80 en Nueva Jersey condujo a un aumento de 2,75 FTE en el empleo.

Un ejemplo de aplicación de software de esta investigación se encuentra en el comando -diff- de Stata ^[7] creado por Juan Miguel Villa.

Véase también

Referencias

^ Abadie, A. (2005). "Estimadores semiparamétricos de diferencias en diferencias". Review of Economic Studies . 72 (1): 1–19. CiteSeerX 10.1.1.470.1475 . doi :10.1111/0034-6527.00321. S2CID 8801460.
^ Bertrand, M.; Duflo, E .; Mullainathan, S. (2004). "¿Cuánto debemos confiar en las estimaciones de diferencias en diferencias?" (PDF) . Quarterly Journal of Economics . 119 (1): 249–275. doi :10.1162/003355304772839588. S2CID 470667.
^ Angrist, JD; Pischke, JS (2008). Econometría en su mayoría inofensiva: un compañero empirista. Princeton University Press. pp. 227–243. ISBN 978-0-691-12034-8.
^ Basu, Pallavi; Small, Dylan (2020). "Construcción de un grupo de control más estrechamente emparejado en un análisis de diferencias en diferencias: su efecto en la historia que interactúa con el sesgo grupal". Estudios observacionales . 6 : 103–130. doi :10.1353/obs.2020.0011. S2CID 221702893.
^ Bertrand, Marianne; Duflo, Esther; Mullainathan, Sendhil (2004). "¿Hasta qué punto debemos confiar en las estimaciones de diferencias en diferencias?" (PDF) . Quarterly Journal of Economics . 119 (1): 249–275. doi :10.1162/003355304772839588. S2CID 470667.
^ ab Card, David; Krueger, Alan B. (1994). "Salarios mínimos y empleo: un estudio de caso de la industria de comida rápida en Nueva Jersey y Pensilvania". American Economic Review . 84 (4): 772–793. JSTOR 2118030.
^ Villa, Juan M. (2016). «diff: Simplificando la estimación de los efectos del tratamiento de diferencias en diferencias». The Stata Journal . 16 (1): 52–71. doi : 10.1177/1536867X1601600108 . S2CID 124464636.

Lectura adicional

Angrist, JD; Pischke, JS (2008). Una econometría casi inofensiva: un compañero empirista. Princeton University Press. pp. 227–243. ISBN 978-0-691-12034-8.
Cameron, Arthur C.; Trivedi, Pravin K. (2005). Microeconometría: métodos y aplicaciones . Cambridge University Press. Págs. 768–772. Doi : 10.1017/CBO9780511811241. ISBN . 9780521848053.S2CID120313863 .
Imbens, Guido W.; Wooldridge, Jeffrey M. (2009). "Desarrollos recientes en la econometría de la evaluación de programas". Revista de literatura económica . 47 (1): 5–86. doi :10.1257/jel.47.1.5.
Bakija, Jon; Heim, Bradley (agosto de 2008). "¿Cómo responde la donación caritativa a los incentivos y los ingresos? Estimaciones de panel dinámicas que tienen en cuenta los cambios predecibles en la tributación". Documento de trabajo del NBER n.º 14237. doi : 10.3386 /w14237 .
Conley, T.; Taber, C. (julio de 2005). "Inferencia con 'diferencia en diferencias' con un pequeño número de cambios de política". Documento de trabajo técnico del NBER n.º 312. doi : 10.3386 /t0312 .

Enlaces externos

Estimación de diferencias en diferencias, sitio web de Healthcare Economist