stringtranslate.com

Diferencia en diferencias

La diferencia en diferencias ( DID [1] o DD [2] ) es una técnica estadística utilizada en econometría e investigación cuantitativa en las ciencias sociales que intenta imitar un diseño de investigación experimental utilizando datos de estudios observacionales , mediante el estudio del efecto diferencial de un tratamiento sobre un 'grupo de tratamiento' versus un ' grupo de control ' en un experimento natural . [3] Calcula el efecto de un tratamiento (es decir, una variable explicativa o una variable independiente ) sobre un resultado (es decir, una variable de respuesta o una variable dependiente ) comparando el cambio promedio a lo largo del tiempo en la variable de resultado para el grupo de tratamiento con el cambio promedio a lo largo del tiempo para el grupo de control. Aunque su objetivo es mitigar los efectos de factores extraños y el sesgo de selección , dependiendo de cómo se elija el grupo de tratamiento, este método aún puede estar sujeto a ciertos sesgos (p. ej., regresión media , causalidad inversa y sesgo de variable omitida ).

A diferencia de una estimación de series temporales del efecto del tratamiento en los sujetos (que analiza las diferencias a lo largo del tiempo) o una estimación transversal del efecto del tratamiento (que mide la diferencia entre los grupos de tratamiento y control), la diferencia en diferencias utiliza datos de panel para medir las diferencias, entre el grupo de tratamiento y el de control, de los cambios en la variable de resultado que ocurren a lo largo del tiempo.

Definición general

La diferencia en diferencias requiere datos medidos de un grupo de tratamiento y un grupo de control en dos o más períodos de tiempo diferentes, específicamente al menos un período de tiempo antes del "tratamiento" y al menos un período de tiempo después del "tratamiento". En el ejemplo que se muestra, el resultado en el grupo de tratamiento está representado por la línea P y el resultado en el grupo de control está representado por la línea S. La variable de resultado (dependiente) en ambos grupos se mide en el momento 1, antes de que cualquiera de los grupos haya recibió el tratamiento (es decir, la variable independiente o explicativa), representado por los puntos P 1 y S 1 . Luego, el grupo de tratamiento recibe o experimenta el tratamiento y ambos grupos se miden nuevamente en el momento 2. No toda la diferencia entre los grupos de tratamiento y control en el momento 2 (es decir, la diferencia entre P 2 y S 2 ) puede explicarse como siendo un efecto del tratamiento, porque el grupo de tratamiento y el grupo de control no comenzaron en el mismo punto en el momento 1. Por lo tanto, DID calcula la diferencia "normal" en la variable de resultado entre los dos grupos (la diferencia que todavía existir si ninguno de los grupos experimentó el tratamiento), representado por la línea de puntos Q. (Observe que la pendiente de P 1 a Q es la misma que la pendiente de S 1 a S 2 ). El efecto del tratamiento es la diferencia entre el resultado observado (P 2 ) y el resultado "normal" (la diferencia entre P 2 y Q).

Definicion formal

Considere el modelo

donde es la variable dependiente para individuo y tiempo , es el grupo al que pertenece (es decir, el grupo de tratamiento o de control), y es una abreviatura de la variable ficticia igual a 1 cuando el evento descrito en es verdadero y 0 en caso contrario. En el gráfico de tiempo versus por grupo, es la intersección vertical del gráfico de y es la tendencia temporal compartida por ambos grupos según el supuesto de tendencia paralela (consulte los Supuestos a continuación). es el efecto del tratamiento y es el término residual .

Considere el promedio de la variable dependiente y los indicadores ficticios por grupo y tiempo:

y supongamos por simplicidad que y . Tenga en cuenta que no es aleatorio; simplemente codifica cómo se etiquetan los grupos y los períodos. Entonces

El supuesto de exogeneidad estricta implica entonces que

Sin pérdida de generalidad , supongamos que es el grupo de tratamiento y el período posterior, luego y , dando el estimador DID

lo cual puede interpretarse como el efecto terapéutico del tratamiento indicado por . A continuación se muestra cómo se puede leer este estimador como un coeficiente en una regresión de mínimos cuadrados ordinaria. El modelo descrito en esta sección está sobreparametrizado; Para remediar esto, uno de los coeficientes de las variables ficticias se puede establecer en 0; por ejemplo, podemos establecer .

Suposiciones

Ilustración del supuesto de tendencia paralela

Todos los supuestos del modelo MCO se aplican igualmente al DID. Además, DID requiere un supuesto de tendencia paralela . El supuesto de tendencia paralela dice que son iguales tanto en como en . Dado que la definición formal anterior representa con precisión la realidad, esta suposición se cumple automáticamente. Sin embargo, un modelo con podría ser más realista. Para aumentar la probabilidad de que se mantenga el supuesto de tendencia paralela, a menudo se combina un enfoque de diferencias en diferencias con el emparejamiento . [4] Esto implica 'emparejar' unidades de 'tratamiento' conocidas con unidades de 'control' contrafactuales simuladas: unidades característicamente equivalentes que no recibieron tratamiento. Al definir la variable de resultado como una diferencia temporal (cambio en el resultado observado entre los períodos previo y posterior al tratamiento) y hacer coincidir múltiples unidades en una muestra grande sobre la base de historiales previos al tratamiento similares, el ATE resultante (es decir, el ATT: tratamiento promedio Effect for the Treated) proporciona una estimación sólida de diferencias en diferencias de los efectos del tratamiento. Esto tiene dos propósitos estadísticos: en primer lugar, condicionado a las covariables previas al tratamiento, es probable que se mantenga el supuesto de tendencias paralelas; y en segundo lugar, este enfoque reduce la dependencia de los supuestos de ignorabilidad asociados necesarios para una inferencia válida.

Como se ilustra a la derecha, el efecto del tratamiento es la diferencia entre el valor observado de y y lo que habría sido el valor de y con tendencias paralelas, si no hubiera habido tratamiento. El talón de Aquiles del TID es cuando algo distinto al tratamiento cambia en un grupo pero no en el otro al mismo tiempo que el tratamiento, lo que implica una violación del supuesto de tendencia paralela.

Para garantizar la exactitud de la estimación del DID, se supone que la composición de los individuos de los dos grupos permanece sin cambios a lo largo del tiempo. Cuando se utiliza un modelo DID, se deben considerar y abordar varios problemas que pueden comprometer los resultados, como la autocorrelación [5] y las caídas de Ashenfelter.

Implementación

El método DID se puede implementar de acuerdo con la siguiente tabla, donde la celda inferior derecha es el estimador DID.

Realizar un análisis de regresión da el mismo resultado. Considere el modelo OLS

donde es una variable ficticia para el período, igual a cuando , y es una variable ficticia para la pertenencia a un grupo, igual a cuando . La variable compuesta es una variable ficticia que indica cuándo . Aunque no se muestra rigurosamente aquí, esta es una parametrización adecuada de la definición formal del modelo; además, resulta que los promedios de grupo y período en esa sección se relacionan con las estimaciones de los parámetros del modelo de la siguiente manera

donde representa los promedios condicionales calculados sobre la muestra, por ejemplo, es el indicador para el período posterior, es un indicador para el grupo de control. Tenga en cuenta que se trata de una estimación del contrafactual y no del impacto del grupo de control. El grupo de control se utiliza a menudo como sustituto del contrafactual (consulte Método de control sintético para una comprensión más profunda de este punto). Por lo tanto, puede interpretarse como el impacto tanto del grupo de control como del contrafactual de la intervención (tratamiento). De manera similar, debido al supuesto de tendencia paralela, también existe el mismo diferencial entre el grupo de tratamiento y el de control en . Las descripciones anteriores no deben interpretarse en el sentido de que implican el efecto (promedio) solo del grupo de control, para , o solo la diferencia entre los grupos de tratamiento y control en el período anterior, para . Como en Card y Krueger , a continuación, una primera diferencia (temporal) de la variable de resultado elimina la necesidad de una tendencia temporal (es decir, ) para formar una estimación insesgada de , lo que implica que en realidad no está condicionada al grupo de tratamiento o control. [6] Consistentemente, una diferencia entre los grupos de tratamiento y control eliminaría la necesidad de diferenciales de tratamiento (es decir, ) para formar una estimación insesgada de . Es importante comprender este matiz cuando el usuario cree que existen violaciones (débiles) de pretendencias paralelas o en el caso de violaciones de los supuestos de aproximación contrafactual apropiados dada la existencia de shocks no comunes o eventos de confusión. Para ver la relación entre esta notación y la sección anterior, considere como arriba solo una observación por período de tiempo para cada grupo, luego

y así sucesivamente para otros valores de y , lo que equivale a

Pero esta es la expresión del efecto del tratamiento que se dio en la definición formal y en la tabla anterior.

Ejemplo de Card y Krueger (1994)

El artículo de Card y Krueger sobre el salario mínimo en Nueva Jersey , publicado en 1994, [6] es considerado uno de los estudios del DID más famosos; Posteriormente, Card recibió el Premio Nobel de Ciencias Económicas de 2021 en parte por este trabajo y otros relacionados. Card y Krueger compararon el empleo en el sector de comida rápida en Nueva Jersey y en Pensilvania , en febrero de 1992 y en noviembre de 1992, después de que el salario mínimo de Nueva Jersey aumentara de $4,25 a $5,05 en abril de 1992. Observando un cambio en el empleo en Nueva Jersey solamente, antes y después del tratamiento, no se lograría controlar por variables omitidas como el clima y las condiciones macroeconómicas de la región. Al incluir Pensilvania como control en un modelo de diferencias en diferencias, se controla implícitamente cualquier sesgo causado por variables comunes a Nueva Jersey y Pensilvania, incluso cuando estas variables no se observan. Suponiendo que Nueva Jersey y Pensilvania tengan tendencias paralelas a lo largo del tiempo, el cambio en el empleo de Pensilvania puede interpretarse como el cambio que habría experimentado Nueva Jersey si no hubieran aumentado el salario mínimo, y viceversa. La evidencia sugirió que el aumento del salario mínimo no indujo una disminución del empleo en Nueva Jersey, contrariamente a lo que sugeriría alguna teoría económica. La siguiente tabla muestra las estimaciones de Card & Krueger del efecto del tratamiento en el empleo, medido como FTE (o equivalentes a tiempo completo) . Card y Krueger estiman que el aumento del salario mínimo de $0,80 en Nueva Jersey condujo a un aumento de 2,75 FTE en el empleo.

Un ejemplo de aplicación de software de esta investigación se encuentra en el comando de Stata -diff- [7] escrito por Juan Miguel Villa.

Ver también

Referencias

  1. ^ Abadie, A. (2005). "Estimadores semiparamétricos de diferencias en diferencias". Revista de Estudios Económicos . 72 (1): 1–19. CiteSeerX  10.1.1.470.1475 . doi :10.1111/0034-6527.00321. S2CID  8801460.
  2. ^ Bertrand, M.; Duflo, E .; Mullainathan, S. (2004). "¿Cuánto deberíamos confiar en las estimaciones de diferencias en diferencias?" (PDF) . Revista Trimestral de Economía . 119 (1): 249–275. doi : 10.1162/003355304772839588. S2CID  470667.
  3. ^ Angrist, JD; Pischke, JS (2008). Econometría mayoritariamente inofensiva: la compañera de un empirista. Prensa de la Universidad de Princeton. págs. 227–243. ISBN 978-0-691-12034-8.
  4. ^ Basu, Pallavi; Pequeño, Dylan (2020). "Construcción de un grupo de control más estrechamente emparejado en un análisis de diferencias en diferencias: su efecto en la interacción de la historia con el sesgo del grupo". Estudios observacionales . 6 : 103-130. doi :10.1353/obs.2020.0011. S2CID  221702893.
  5. ^ Bertrand, Marianne; Duflo, Esther; Mullainathan, Sendhil (2004). "¿Cuánto deberíamos confiar en las estimaciones de diferencias en diferencias?" (PDF) . Revista Trimestral de Economía . 119 (1): 249–275. doi : 10.1162/003355304772839588. S2CID  470667.
  6. ^ ab Tarjeta, David; Krueger, Alan B. (1994). "Salarios mínimos y empleo: un estudio de caso de la industria de comida rápida en Nueva Jersey y Pensilvania". Revista económica estadounidense . 84 (4): 772–793. JSTOR  2118030.
  7. Villa, Juan M. (2016). "diff: Simplificación de la estimación de los efectos del tratamiento de diferencias en diferencias". El diario Stata . 16 (1): 52–71. doi : 10.1177/1536867X1601600108 . S2CID  124464636.

Otras lecturas

enlaces externos