Modelo de efectos fijos

En estadística , un modelo de efectos fijos es un modelo estadístico en el que los parámetros del modelo son cantidades fijas o no aleatorias. Esto contrasta con los modelos de efectos aleatorios y los modelos mixtos en los que todos o algunos de los parámetros del modelo son variables aleatorias. En muchas aplicaciones, incluidas la econometría ^[1] y la bioestadística ^[2]^[3]^[4]^[5]^[6], un modelo de efectos fijos se refiere a un modelo de regresión en el que las medias grupales son fijas (no aleatorias) en lugar de una Modelo de efectos aleatorios en el que las medias del grupo son una muestra aleatoria de una población. ^[7]^[6] Generalmente, los datos se pueden agrupar según varios factores observados. Las medias de los grupos podrían modelarse como efectos fijos o aleatorios para cada grupo. En un modelo de efectos fijos, la media de cada grupo es una cantidad fija específica del grupo.

En datos de panel donde existen observaciones longitudinales para el mismo sujeto, los efectos fijos representan las medias específicas del sujeto. En el análisis de datos de panel, el término estimador de efectos fijos (también conocido como estimador interno ) se utiliza para referirse a un estimador de los coeficientes del modelo de regresión que incluye esos efectos fijos (una intercepción invariante en el tiempo para cada sujeto).

Descripción cualitativa

Dichos modelos ayudan a controlar el sesgo de variable omitida debido a la heterogeneidad no observada cuando esta heterogeneidad es constante en el tiempo. Esta heterogeneidad se puede eliminar de los datos mediante diferenciación, por ejemplo, restando el promedio a nivel de grupo a lo largo del tiempo, o tomando una primera diferencia que eliminará cualquier componente del modelo que sea invariante en el tiempo.

Hay dos supuestos comunes sobre el efecto específico individual: el supuesto de efectos aleatorios y el supuesto de efectos fijos. El supuesto de efectos aleatorios es que los efectos específicos de cada individuo no están correlacionados con las variables independientes. El supuesto de efectos fijos es que los efectos específicos de cada individuo están correlacionados con las variables independientes. Si se cumple el supuesto de efectos aleatorios, el estimador de efectos aleatorios es más eficiente que el estimador de efectos fijos. Sin embargo, si este supuesto no se cumple, el estimador de efectos aleatorios no es consistente . La prueba de Durbin-Wu-Hausman se utiliza a menudo para discriminar entre los modelos de efectos fijos y aleatorios. ^[8]^[9]

Modelo formal y supuestos.

Considere el modelo de efectos lineales no observados para observaciones y períodos de tiempo: $N$ $T$

y_{it}=X_{it}\mathbf {\beta } +\alpha _{i}+u_{it}

Para y

t=1,\dots ,T

i=1,\dots ,N

Dónde:

$y_{it}$ es la variable dependiente observada para el individuo en el momento . $i$ $t$
$X_{it}$ es el vector regresor variante en el tiempo (el número de variables independientes). $1\times k$
$\beta$ es la matriz de parámetros. $k\times 1$
$\alpha _{i}$ es el efecto individual invariante en el tiempo no observado. Por ejemplo, la capacidad innata de los individuos o factores históricos e institucionales de los países.
$u_{it}$ es el término de error .

A diferencia de , no se puede observar directamente. $X_{it}$ $\alpha _{i}$

A diferencia del modelo de efectos aleatorios donde lo no observado es independiente de para todos , el modelo de efectos fijos (EF) permite correlacionarlo con la matriz regresora . Aún se requiere una exogeneidad estricta con respecto al término de error idiosincrásico . $\alpha _{i}$ $X_{it}$ $t=1,...,T$ $\alpha _{i}$ $X_{it}$ $u_{it}$

Estimación estadística

Estimador de efectos fijos

Como no es observable, no se puede controlar directamente . El modelo FE elimina dessignificando las variables usando la transformación interna : $\alpha _{i}$ $\alpha _{i}$

y_{it}-{\overline {y}}_{i}=\left(X_{it}-{\overline {X}}_{i}\right)\beta +\left(\alpha _{i}-{\overline {\alpha }}_{i}\right)+\left(u_{it}-{\overline {u}}_{i}\right)\implies {\ddot {y}}_{it}={\ddot {X}}_{it}\beta +{\ddot {u}}_{it}

dónde y . ${\overline {y}}_{i}={\frac {1}{T}}\sum \limits _{t=1}^{T}y_{it}$ ${\overline {X}}_{i}={\frac {1}{T}}\sum \limits _{t=1}^{T}X_{it}$ ${\overline {u}}_{i}={\frac {1}{T}}\sum \limits _{t=1}^{T}u_{it}$

Puesto que es constante y, por tanto, se elimina el efecto. Luego, el estimador FE se obtiene mediante una regresión MCO de on . $\alpha _{i}$ ${\overline {\alpha _{i}}}=\alpha _{i}$ ${\hat {\beta }}_{FE}$ ${\ddot {y}}$ ${\ddot {X}}$

Existen al menos tres alternativas a la transformación interna con variaciones.

Una es agregar una variable ficticia para cada individuo (omitiendo el primer individuo debido a la multicolinealidad ). Esto es numéricamente, pero no computacionalmente, equivalente al modelo de efectos fijos y solo funciona si la suma del número de series y el número de parámetros globales es menor que el número de observaciones. ^[10] El enfoque de variable ficticia es particularmente exigente con respecto al uso de la memoria de la computadora y no se recomienda para problemas mayores que los que la RAM disponible y la compilación del programa aplicado pueden acomodar. $i>1$

La segunda alternativa es utilizar el enfoque de reiteraciones consecutivas para las estimaciones locales y globales. ^[11] Este enfoque es muy adecuado para sistemas con poca memoria en los que es mucho más eficiente desde el punto de vista computacional que el enfoque de variable ficticia.

El tercer enfoque es una estimación anidada mediante la cual la estimación local para series individuales se programa como parte de la definición del modelo. ^[12] Este enfoque es el más eficiente desde el punto de vista computacional y de memoria, pero requiere habilidades de programación competentes y acceso al código de programación del modelo; aunque, se puede programar incluso en SAS. ^[13]^[14]

Finalmente, cada una de las alternativas anteriores se puede mejorar si la estimación específica de la serie es lineal (dentro de un modelo no lineal), en cuyo caso la solución lineal directa para series individuales se puede programar como parte de la definición del modelo no lineal. ^[15]

Estimador de primera diferencia

Una alternativa a la transformación interna es la transformación en primeras diferencias , que produce un estimador diferente. Para : $t=2,\dots ,T$

y_{it}-y_{i,t-1}=\left(X_{it}-X_{i,t-1}\right)\beta +\left(\alpha _{i}-\alpha _{i}\right)+\left(u_{it}-u_{i,t-1}\right)\implies \Delta y_{it}=\Delta X_{it}\beta +\Delta u_{it}.

Luego, el estimador FD se obtiene mediante una regresión MCO de on . ${\hat {\beta }}_{FD}$ $\Delta y_{it}$ $\Delta X_{it}$

Cuando , los estimadores de primeras diferencias y de efectos fijos son numéricamente equivalentes. Porque no lo son. Si los términos de error son homocedásticos sin correlación serial , el estimador de efectos fijos es más eficiente que el estimador de primeras diferencias. Sin embargo, si sigue un paseo aleatorio , el estimador de primeras diferencias es más eficiente. ^[dieciséis] $T=2$ $T>2$ $u_{it}$ $u_{it}$

Igualdad de efectos fijos y estimadores de primeras diferencias cuando T=2

Para el caso especial de dos períodos ( ), el estimador de efectos fijos (FE) y el estimador de primeras diferencias (FD) son numéricamente equivalentes. Esto se debe a que el estimador FE efectivamente "duplica el conjunto de datos" utilizado en el estimador FD. Para ver esto, establezca que el estimador de efectos fijos es: $T=2$ ${FE}_{T=2}=\left[(x_{i1}-{\bar {x}}_{i})(x_{i1}-{\bar {x}}_{i})'+(x_{i2}-{\bar {x}}_{i})(x_{i2}-{\bar {x}}_{i})'\right]^{-1}\left[(x_{i1}-{\bar {x}}_{i})(y_{i1}-{\bar {y}}_{i})+(x_{i2}-{\bar {x}}_{i})(y_{i2}-{\bar {y}}_{i})\right]$

Dado que cada uno se puede reescribir como , reescribiremos la línea como: $(x_{i1}-{\bar {x}}_{i})$ $(x_{i1}-{\dfrac {x_{i1}+x_{i2}}{2}})={\dfrac {x_{i1}-x_{i2}}{2}}$

${FE}_{T=2}=\left[\sum _{i=1}^{N}{\dfrac {x_{i1}-x_{i2}}{2}}{\dfrac {x_{i1}-x_{i2}}{2}}'+{\dfrac {x_{i2}-x_{i1}}{2}}{\dfrac {x_{i2}-x_{i1}}{2}}'\right]^{-1}\left[\sum _{i=1}^{N}{\dfrac {x_{i1}-x_{i2}}{2}}{\dfrac {y_{i1}-y_{i2}}{2}}+{\dfrac {x_{i2}-x_{i1}}{2}}{\dfrac {y_{i2}-y_{i1}}{2}}\right]$

=\left[\sum _{i=1}^{N}2{\dfrac {x_{i2}-x_{i1}}{2}}{\dfrac {x_{i2}-x_{i1}}{2}}'\right]^{-1}\left[\sum _{i=1}^{N}2{\dfrac {x_{i2}-x_{i1}}{2}}{\dfrac {y_{i2}-y_{i1}}{2}}\right]

=2\left[\sum _{i=1}^{N}(x_{i2}-x_{i1})(x_{i2}-x_{i1})'\right]^{-1}\left[\sum _{i=1}^{N}{\frac {1}{2}}(x_{i2}-x_{i1})(y_{i2}-y_{i1})\right]

=\left[\sum _{i=1}^{N}(x_{i2}-x_{i1})(x_{i2}-x_{i1})'\right]^{-1}\sum _{i=1}^{N}(x_{i2}-x_{i1})(y_{i2}-y_{i1})={FD}_{T=2}

método chambelán

El método de Gary Chamberlain, una generalización del estimador interno, lo reemplaza con su proyección lineal sobre las variables explicativas. Escribiendo la proyección lineal como: $\alpha _{i}$

\alpha _{i}=\lambda _{0}+X_{i1}\lambda _{1}+X_{i2}\lambda _{2}+\dots +X_{iT}\lambda _{T}+e_{i}

esto da como resultado la siguiente ecuación:

y_{it}=\lambda _{0}+X_{i1}\lambda _{1}+X_{i2}\lambda _{2}+\dots +X_{it}(\lambda _{t}+\mathbf {\beta } )+\dots +X_{iT}\lambda _{T}+e_{i}+u_{it}

que se puede estimar mediante la estimación de distancia mínima . ^[17]

Método Hausman-Taylor

Necesita tener más de un regresor variable en el tiempo ( ) y un regresor invariante en el tiempo ( ) y al menos uno y uno que no estén correlacionados con . $X$ $Z$ $X$ $Z$ $\alpha _{i}$

Divida las variables y de manera que donde y no estén correlacionadas con . Necesidad . $X$ $Z$ ${\begin{array}{c}X=[{\underset {TN\times K1}{X_{1it}}}\vdots {\underset {TN\times K2}{X_{2it}}}]\\Z=[{\underset {TN\times G1}{Z_{1it}}}\vdots {\underset {TN\times G2}{Z_{2it}}}]\end{array}}$ $X_{1}$ $Z_{1}$ $\alpha _{i}$ $K1>G2$

La estimación mediante MCO sobre el uso y como instrumentos produce una estimación consistente. $\gamma$ ${\widehat {di}}=Z_{i}\gamma +\varphi _{it}$ $X_{1}$ $Z_{1}$

Generalización con incertidumbre de entrada.

Cuando hay incertidumbre en la entrada de los datos, entonces se debe minimizar el valor, en lugar de la suma de los residuos al cuadrado. ^[18] Esto se puede lograr directamente a partir de reglas de sustitución: $y$ $\delta y$ $\chi ^{2}$

{\frac {y_{it}}{\delta y_{it}}}=\mathbf {\beta } {\frac {X_{it}}{\delta y_{it}}}+\alpha _{i}{\frac {1}{\delta y_{it}}}+{\frac {u_{it}}{\delta y_{it}}}

luego, los valores y las desviaciones estándar de y se pueden determinar mediante el análisis clásico de mínimos cuadrados ordinarios y la matriz de varianza-covarianza . $\mathbf {\beta }$ $\alpha _{i}$

Úselo para probar la consistencia

Los estimadores de efectos aleatorios pueden ser inconsistentes a veces en el límite de series de tiempo largas, si los efectos aleatorios están mal especificados (es decir, el modelo elegido para los efectos aleatorios es incorrecto). Sin embargo, el modelo de efectos fijos puede seguir siendo consistente en algunas situaciones. Por ejemplo, si la serie temporal que se modela no es estacionaria, los modelos de efectos aleatorios que suponen estacionariedad pueden no ser consistentes en el límite de las series largas. Un ejemplo de esto es si la serie temporal tiene una tendencia ascendente. Luego, a medida que la serie se hace más larga, el modelo revisa hacia arriba las estimaciones de la media de períodos anteriores, dando predicciones de coeficientes cada vez más sesgadas. Sin embargo, un modelo con efectos temporales fijos no agrupa información a lo largo del tiempo y, como resultado, las estimaciones anteriores no se verán afectadas.

En situaciones como ésta, en las que se sabe que el modelo de efectos fijos es consistente, se puede utilizar la prueba de Durbin-Wu-Hausman para probar si el modelo de efectos aleatorios elegido es consistente. Si es cierto, ambos y son consistentes, pero sólo es eficiente. Si es cierto, no se puede garantizar la coherencia . $H_{0}$ ${\widehat {\beta }}_{RE}$ ${\widehat {\beta }}_{FE}$ ${\widehat {\beta }}_{RE}$ $H_{a}$ ${\widehat {\beta }}_{RE}$

Ver también

Modelo de Poisson de efectos fijos

Notas

^ Greene, WH, 2011. Análisis econométrico , 7ª ed., Prentice Hall
^ Diggle, Peter J.; Heagerty, Patrick; Liang, Kung-Yee; Zeger, Scott L. (2002). Análisis de datos longitudinales (2ª ed.). Prensa de la Universidad de Oxford. págs. 169-171. ISBN 0-19-852484-6.
^ Fitzmaurice, Garrett M.; Laird, Nan M.; Mercancías, James H. (2004). Análisis Longitudinal Aplicado . Hoboken: John Wiley e hijos. págs. 326–328. ISBN 0-471-21487-6.
^ Laird, Nan M.; Mercancías, James H. (1982). "Modelos de efectos aleatorios para datos longitudinales". Biometría . 38 (4): 963–974. doi :10.2307/2529876. JSTOR 2529876.
^ Gardiner, José C.; Luo, Zhehui; Romano, Lee Anne (2009). "Efectos fijos, efectos aleatorios y GEE: ¿Cuáles son las diferencias?". Estadística en Medicina . 28 (2): 221–239. doi :10.1002/sim.3478. PMID 19012297. S2CID 16277040.
^ ab Gomes, Dylan GE (20 de enero de 2022). "¿Debo utilizar efectos fijos o efectos aleatorios cuando tengo menos de cinco niveles de un factor de agrupación en un modelo de efectos mixtos?". PeerJ . 10 : e12794. doi : 10.7717/peerj.12794 . PMC 8784019 . PMID 35116198.
^ Ramsey, F., Schafer, D., 2002. El detective estadístico: un curso sobre métodos de análisis de datos , 2ª ed. Prensa de Duxbury
^ Cameron, A. Colin; Trivedi, Pravin K. (2005). Microeconometría: métodos y aplicaciones. Prensa de la Universidad de Cambridge. págs. 717-19. ISBN 9780521848053.
^ Nerlove, Marc (2005). Ensayos sobre econometría de datos de panel. Prensa de la Universidad de Cambridge. págs. 36–39. ISBN 9780521022460.
^ García, Óscar. (1983). "Un modelo de ecuación diferencial estocástica para el crecimiento en altura de masas forestales". Biometría . 39 (4): 1059-1072. doi :10.2307/2531339. JSTOR 2531339.
^ Tait, David; Cieszewski, Chris J.; Bella, Imre E. (1986). "La dinámica del rodal del pino torcido". Poder. J. Para. Res . 18 (10): 1255-1260. doi :10.1139/x88-193.
^ Strub, Mike; Cieszewski, Chris J. (2006). "Propiedades de invarianza de edad base de dos técnicas para estimar los parámetros de modelos de índice de sitios". Ciencias Forestales . 52 (2): 182–186.
^ Strub, Mike; Cieszewski, Chris J. (2003). "Ajustar los parámetros de índice de sitio global cuando el índice de sitio de parcela o árbol se trata como un parámetro de molestia local En: Burkhart HA, editor. Actas del Simposio sobre estadística y tecnología de la información en silvicultura; 8 al 12 de septiembre de 2002; Blacksburg, Virginia: Politécnico de Virginia Instituto y Universidad Estatal": 97–107. {{cite journal}}: Citar diario requiere |journal=( ayuda )
^ Cieszewski, Chris J.; Harrison, Mike; Martín, Stacey W. (2000). "Métodos prácticos para estimar parámetros no sesgados en modelos de crecimiento y rendimiento autorreferenciados" (PDF) . Informe técnico del PMRC . 2000 (7): 12.
^ Schnute, Jon; McKinnell, saltar (1984). "Un enfoque biológicamente significativo para el análisis de la superficie de respuesta". Poder. J. Pescado. Agua. Ciencia . 41 (6): 936–953. doi :10.1139/f84-108.
^ Wooldridge, Jeffrey M. (2001). Análisis econométrico de datos de sección transversal y de panel . Prensa del MIT. págs. 279–291. ISBN 978-0-262-23219-7.
^ Chamberlain, Gary (1984). Capítulo 22 Datos del panel . Manual de econometría. vol. 2. págs. 1247-1318. doi :10.1016/S1573-4412(84)02014-6. ISBN 9780444861863. ISSN 1573-4412.
^ Ren, contenedor; Dong, Ruobing; Espósito, Thomas M.; Pueyo, Laurent; Debes, John H.; Poteet, Charles A.; Choquet, Élodie; Benisty, Myriam; Chiang, Eugenio; Grady, Carol A.; Hines, Dean C.; Schneider, Glenn; Sommer, Rémi (2018). "Una década de imágenes de disco MWC 758: ¿Dónde están los planetas que impulsan los brazos en espiral?". Las cartas del diario astrofísico . 857 (1): L9. arXiv : 1803.06776 . Código Bib : 2018ApJ...857L...9R. doi : 10.3847/2041-8213/aab7f5 . S2CID 59427417.

Referencias

Christensen, Ronald (2002). Respuestas planas a preguntas complejas: la teoría de los modelos lineales (tercera ed.). Nueva York: Springer. ISBN 0-387-95361-2.
Gujarati, Damodar N.; Portero, amanecer C. (2009). "Modelos de regresión de datos de panel". Econometría Básica (Quinta ed. internacional). Boston: McGraw-Hill. págs. 591–616. ISBN 978-007-127625-2.
Hsiao, Cheng (2003). "Modelos de efectos fijos". Análisis de datos de panel (2ª ed.). Nueva York: Cambridge University Press. págs. 95-103. ISBN 0-521-52271-4.
Wooldridge, Jeffrey M. (2013). "Estimación de efectos fijos". Introducción a la econometría: un enfoque moderno (Quinta edición internacional). Mason, OH: suroeste. págs. 466–474. ISBN 978-1-111-53439-4.

enlaces externos

Modelos de efectos fijos y aleatorios.
Ejemplos de todos los modelos ANOVA y ANCOVA con hasta tres factores de tratamiento, incluidos bloques aleatorios, diagramas divididos, medidas repetidas y cuadrados latinos, y su análisis en R