Técnica estadística para corregir el sesgo de muestreo
La corrección de Heckman es una técnica estadística para corregir el sesgo de muestras seleccionadas de forma no aleatoria o variables dependientes truncadas incidentalmente , un problema generalizado en las ciencias sociales cuantitativas cuando se utilizan datos observacionales . [1] Conceptualmente, esto se logra modelando explícitamente la probabilidad de muestreo individual de cada observación (la llamada ecuación de selección) junto con la expectativa condicional de la variable dependiente (la llamada ecuación de resultado). La función de probabilidad resultante es matemáticamente similar al modelo Tobit para variables dependientes censuradas , una conexión trazada por primera vez por James Heckman en 1974. [2] Heckman también desarrolló un enfoque de función de control de dos pasos para estimar este modelo, [3] que evita la carga computacional de tener que estimar ambas ecuaciones conjuntamente , aunque a costa de la ineficiencia . [4] Heckman recibió el Premio Nobel en Ciencias Económicas en 2000 por su trabajo en este campo. [5]
Método
Los análisis estadísticos basados en muestras seleccionadas de manera no aleatoria pueden llevar a conclusiones erróneas. La corrección de Heckman, un método estadístico de dos pasos, ofrece un medio para corregir las muestras seleccionadas de manera no aleatoria.
Heckman analizó el sesgo que se produce al utilizar muestras seleccionadas de forma no aleatoria para estimar las relaciones de comportamiento como un error de especificación. Sugiere un método de estimación en dos etapas para corregir el sesgo. La corrección utiliza una idea de función de control y es fácil de implementar. La corrección de Heckman implica un supuesto de normalidad , proporciona una prueba para el sesgo de selección de la muestra y una fórmula para el modelo con corrección del sesgo.
Supongamos que un investigador desea estimar los determinantes de las ofertas salariales, pero tiene acceso a observaciones salariales solo de quienes trabajan. Dado que las personas que trabajan se seleccionan de manera no aleatoria de la población, estimar los determinantes de los salarios a partir de la subpoblación que trabaja puede introducir un sesgo. La corrección de Heckman se lleva a cabo en dos etapas.
En la primera etapa, el investigador formula un modelo, basado en la teoría económica , para la probabilidad de trabajar. La especificación canónica para esta relación es una regresión probit de la forma
donde D indica empleo ( D = 1 si el encuestado está empleado y D = 0 en caso contrario), Z es un vector de variables explicativas, es un vector de parámetros desconocidos y Φ es la función de distribución acumulativa de la distribución normal estándar . La estimación del modelo arroja resultados que pueden usarse para predecir esta probabilidad de empleo para cada individuo.
En la segunda etapa, el investigador corrige la autoselección incorporando una transformación de estas probabilidades individuales predichas como una variable explicativa adicional. La ecuación salarial puede especificarse,
donde denota una oferta salarial subyacente, que no se cumple si el encuestado no trabaja. La expectativa condicional de salario dado que la persona trabaja es entonces
Suponiendo que los términos de error son conjuntamente normales , tenemos
donde ρ es la correlación entre los determinantes no observados de la propensión a trabajar y los determinantes no observados de las ofertas salariales u , σ u es la desviación estándar de , y es el coeficiente de Mills inverso evaluado en . Esta ecuación demuestra la idea de Heckman de que la selección de la muestra puede verse como una forma de sesgo de variables omitidas , ya que es condicional tanto a X como a es como si la muestra se seleccionara aleatoriamente. La ecuación salarial se puede estimar reemplazando con estimaciones Probit de la primera etapa, construyendo el término e incluyéndolo como una variable explicativa adicional en la estimación de regresión lineal de la ecuación salarial. Dado que , el coeficiente en solo puede ser cero si , por lo que probar la hipótesis nula de que el coeficiente en es cero es equivalente a probar la selectividad de la muestra.
Los logros de Heckman han generado un gran número de aplicaciones empíricas en economía y en otras ciencias sociales. El método original ha sido posteriormente generalizado por Heckman y otros. [6]
Inferencia estadística
La corrección de Heckman es un estimador M de dos pasos donde la matriz de covarianza generada por la estimación MCO de la segunda etapa es inconsistente. [7] Los errores estándar correctos y otras estadísticas se pueden generar a partir de una aproximación asintótica o mediante un remuestreo, como por ejemplo a través de un bootstrap . [8]
Desventajas
- El estimador de dos pasos que se analizó anteriormente es un estimador de máxima verosimilitud con información limitada (LIML). En la teoría asintótica y en muestras finitas, como se demuestra mediante simulaciones de Monte Carlo, el estimador de información completa (FIML) exhibe mejores propiedades estadísticas. Sin embargo, el estimador FIML es más difícil de implementar desde el punto de vista computacional. [9]
- El modelo canónico supone que los errores son normales en conjunto. Si ese supuesto no se cumple, el estimador suele ser inconsistente y puede proporcionar una inferencia engañosa en muestras pequeñas. [10] En tales casos se pueden utilizar alternativas semiparamétricas y otras alternativas robustas. [11]
- El modelo obtiene una identificación formal a partir del supuesto de normalidad cuando aparecen las mismas covariables en la ecuación de selección y en la ecuación de interés, pero la identificación será tenue a menos que haya muchas observaciones en las colas donde hay una no linealidad sustancial en la razón inversa de Mills. Generalmente, se requiere una restricción de exclusión para generar estimaciones creíbles: debe haber al menos una variable que aparezca con un coeficiente distinto de cero en la ecuación de selección pero que no aparezca en la ecuación de interés, esencialmente un instrumento . Si no hay tal variable disponible, puede ser difícil corregir la selectividad del muestreo. [9] La razón de esto es doble: sin un instrumento, la identificación se basa en el supuesto de forma funcional que normalmente se considera muy débil. [12] Además, incluso si el supuesto se cumple, la función elegida puede estar muy cerca de una forma funcional lineal en el área bajo investigación, lo que causa un problema de multicolinealidad en la segunda etapa.
Implementaciones en paquetes de estadísticas
- R : Los procedimientos de tipo Heckman están disponibles como parte del
sampleSelection
paquete. [13] [14] - Stata : el comando
heckman
proporciona el modelo de selección de Heckman. [15] [16]
Véase también
Referencias
- ^ Winship, Christopher; Mare, Robert D. (1992). "Modelos para el sesgo de selección de muestra". Revista Anual de Sociología . 18 : 327–350. doi :10.1146/annurev.so.18.080192.001551.
- ^ Heckman, James (1974). "Precios sombra, salarios de mercado y oferta de trabajo". Econometrica . 42 (4): 679–694. doi :10.2307/1913937. JSTOR 1913937.
- ^ Heckman, James (1976). "La estructura común de los modelos estadísticos de truncamiento, selección de muestra y variables dependientes limitadas y un estimador simple para dichos modelos". Anales de medición económica y social . 5 (4): 475–492.
- ^ Nawata, Kazumitsu (1994). "Estimación de modelos de sesgo de selección de muestra mediante el estimador de máxima verosimilitud y el estimador de dos pasos de Heckman". Economics Letters . 45 (1): 33–40. doi :10.1016/0165-1765(94)90053-1.
- ^ Uchitelle, Louis (12 de octubre de 2000). «Dos estadounidenses ganan el Nobel de Economía». New York Times .
- ^ Lee, Lung-Fei (2001). "Autoselección". En Baltagi, B. (ed.). A Companion to Theoretical Econometrics . Oxford: Blackwell. págs. 383–409. doi :10.1002/9780470996249.ch19. ISBN 9780470996249.
- ^ Amemiya, Takeshi (1985). Econometría avanzada . Cambridge: Harvard University Press. págs. 368-372. ISBN. 0-674-00560-0.
- ^ Cameron, A. Colin ; Trivedi, Pravin K. (2005). "Estimación secuencial de dos pasos m". Microeconometría: métodos y aplicaciones . Nueva York: Cambridge University Press. págs. 200–202. ISBN 0-521-84805-9.
- ^ ab Puhani, P. (2000). "La corrección de Heckman para la selección de muestras y su crítica". Journal of Economic Surveys . 14 (1): 53–68. doi :10.1111/1467-6419.00104.
- ^ Goldberger, A. (1983). "Sesgo de selección anormal". En Karlin, Samuel ; Amemiya, Takeshi ; Goodman, Leo (eds.). Estudios en econometría, series temporales y estadísticas multivariadas . Nueva York: Academic Press. págs. 67–84. ISBN. 0-12-398750-4.
- ^ Newey, Whitney; Powell, J.; Walker, James R. (1990). "Estimación semiparamétrica de modelos de selección: algunos resultados empíricos". American Economic Review . 80 (2): 324–28. JSTOR 2006593.
- ^ Lewbel, Arthur (1 de diciembre de 2019). "El zoológico de la identificación: significados de la identificación en econometría". Revista de literatura económica . 57 (4): 835–903. doi :10.1257/jel.20181361. ISSN 0022-0515.
- ^ Toomet, O.; Henningsen, A. (2008). "Modelos de selección de muestras en R: paquete sampleSelection". Revista de software estadístico . 27 (7): 1–23. doi : 10.18637/jss.v027.i07 .
- ^ "sampleSelection: modelos de selección de muestras". Proyecto R. 3 de mayo de 2019.
- ^ "heckman — Modelo de selección de Heckman" (PDF) . Manual de Stata .
- ^ Cameron, A. Colin; Trivedi, Pravin K. (2010). Microeconometría con Stata (edición revisada). College Station: Stata Press. págs. 556–562. ISBN 978-1-59718-073-3.
Lectura adicional
- Achen, Christopher H. (1986). "Estimación de los efectos del tratamiento en cuasi-experimentos: el caso de los datos censurados". El análisis estadístico de los cuasi-experimentos . Berkeley: University of California Press. págs. 97–137. ISBN 0-520-04723-0.
- Breen, Richard (1996). Modelos de regresión: datos censurados, seleccionados por muestra o truncados. Thousand Oaks: Sage. pp. 33–48. ISBN 0-8039-5710-6.
- Fu, Vincent Kang; Winship, Christopher ; Mare, Robert D. (2004). "Modelos de sesgo de selección de muestra". En Hardy, Melissa; Bryman, Alan (eds.). Handbook of Data Analysis . Londres: Sage. págs. 409–430. doi :10.4135/9781848608184.n18. ISBN 0-7619-6652-8.
- Greene, William H. (2012). "Truncamiento incidental y selección de muestras". Análisis econométrico (séptima edición). Boston: Pearson. pp. 912–27. ISBN 978-0-273-75356-8.
- Vella, Francis (1998). "Estimación de modelos con sesgo de selección de muestra: una encuesta". Revista de recursos humanos . 33 (1): 127–169. doi :10.2307/146317. JSTOR 146317.
Enlaces externos
- Datos sobre el premio Nobel Heckman.