Sesgo por variable omitida

En estadística , el sesgo por omisión de variables ( OVB ) ocurre cuando un modelo estadístico omite una o más variables relevantes. El sesgo hace que el modelo atribuya el efecto de las variables faltantes a las que se incluyeron.

Más específicamente, el OVB es el sesgo que aparece en las estimaciones de parámetros en un análisis de regresión , cuando la especificación asumida es incorrecta porque omite una variable independiente que es determinante de la variable dependiente y está correlacionada con una o más de las variables independientes incluidas.

En regresión lineal

Intuición

Supongamos que la verdadera relación de causa y efecto viene dada por:

y=a+bx+cz+u

con parámetros a, b, c , variable dependiente y , variables independientes x y z , y término de error u . Deseamos conocer el efecto de x en sí sobre y (es decir, deseamos obtener una estimación de b ).

Para que exista sesgo por variable omitida en la regresión lineal deben cumplirse dos condiciones :

la variable omitida debe ser un determinante de la variable dependiente (es decir, su verdadero coeficiente de regresión no debe ser cero); y
La variable omitida debe estar correlacionada con una variable independiente especificada en la regresión (es decir, cov( z , x ) no debe ser igual a cero).

Supongamos que omitimos z de la regresión y supongamos que la relación entre x y z está dada por

z=d+fx+e

con parámetros d , f y término de error e . Sustituyendo la segunda ecuación en la primera se obtiene

y=(a+cd)+(b+cf)x+(u+ce).

Si se realiza una regresión de y sobre x solamente, esta última ecuación es la que se estima, y el coeficiente de regresión sobre x es en realidad una estimación de ( b + cf ), lo que no da simplemente una estimación del efecto directo deseado de x sobre y (que es b ), sino más bien de su suma con el efecto indirecto (el efecto f de x sobre z multiplicado por el efecto c de z sobre y ). Por lo tanto, al omitir la variable z de la regresión, hemos estimado la derivada total de y con respecto a x en lugar de su derivada parcial con respecto a x . Estas difieren si tanto c como f son distintos de cero.

La dirección y el grado del sesgo están contenidos en cf , ya que el efecto buscado es b pero la regresión estima b+cf . El grado del sesgo es el valor absoluto de cf , y la dirección del sesgo es ascendente (hacia un valor más positivo o menos negativo) si cf > 0 (si la dirección de correlación entre y y z es la misma que entre x y z ), y descendente en caso contrario.

Análisis detallado

Como ejemplo, considere un modelo lineal de la forma

y_{i}=x_{i}\beta +z_{i}\delta +u_{i},\qquad i=1,\dots ,n

dónde

x _i es un vector de fila 1 × p de valores de p variables independientes observadas en el momento i o para el i-ésimo ^participante del estudio;
β es un vector de columna p × 1 de parámetros no observables (los coeficientes de respuesta de la variable dependiente a cada una de las p variables independientes en x _i ) a estimar;
z _i es un escalar y es el valor de otra variable independiente que se observa en el momento i o para el i- ^ésimo participante del estudio;
δ es un escalar y es un parámetro no observable (el coeficiente de respuesta de la variable dependiente a z _i ) a estimar;
u _i es el término de error no observable que ocurre en el momento i o para el i- ^ésimo participante del estudio; es una realización no observada de una variable aleatoria que tiene un valor esperado 0 (condicionalmente en x _i y z _i );
y _i es la observación de la variable dependiente en el momento i o para el i- ^ésimo participante del estudio.

Recopilamos las observaciones de todas las variables con subíndice i = 1, ..., n , y las apilamos una debajo de otra, para obtener la matriz X y los vectores Y , Z y U :

X=\left[{\begin{array}{c}x_{1}\\\vdots \\x_{n}\end{array}}\right]\in \mathbb {R} ^{n\times p},

Y=\left[{\begin{array}{c}y_{1}\\\vdots \\y_{n}\end{array}}\right],\quad Z=\left[{\begin{array}{c}z_{1}\\\vdots \\z_{n}\end{array}}\right],\quad U=\left[{\begin{array}{c}u_{1}\\\vdots \\u_{n}\end{array}}\right]\in \mathbb {R} ^{n\times 1}.

Si se omite la variable independiente z de la regresión, entonces los valores estimados de los parámetros de respuesta de las otras variables independientes se darán mediante el cálculo de mínimos cuadrados habitual,

{\widehat {\beta }}=(X'X)^{-1}X'Y\,

(donde la notación "prima" significa la transposición de una matriz y el superíndice -1 es la inversión de la matriz ).

Sustituyendo Y con base en el modelo lineal asumido,

{\begin{aligned}{\widehat {\beta }}&=(X'X)^{-1}X'(X\beta +Z\delta +U)\\&=(X'X)^{-1}X'X\beta +(X'X)^{-1}X'Z\delta +(X'X)^{-1}X'U\\&=\beta +(X'X)^{-1}X'Z\delta +(X'X)^{-1}X'U.\end{aligned}}

Al tomar las expectativas, la contribución del término final es cero; esto se deduce del supuesto de que U no está correlacionado con los regresores X. Al simplificar los términos restantes:

{\begin{aligned}E[{\widehat {\beta }}\mid X]&=\beta +(X'X)^{-1}E[X'Z\mid X]\delta \\&=\beta +{\text{bias}}.\end{aligned}}

El segundo término después del signo igual es el sesgo de la variable omitida en este caso, que no es cero si la variable omitida z está correlacionada con cualquiera de las variables incluidas en la matriz X (es decir, si X′Z no es igual a un vector de ceros). Nótese que el sesgo es igual a la porción ponderada de z _i que se "explica" por x _i .

Efecto en mínimos cuadrados ordinarios

El teorema de Gauss-Markov establece que los modelos de regresión que cumplen con los supuestos del modelo de regresión lineal clásico proporcionan los estimadores más eficientes , lineales e insesgados . En los mínimos cuadrados ordinarios , el supuesto relevante del modelo de regresión lineal clásico es que el término de error no está correlacionado con los regresores.

La presencia de un sesgo por omisión de variables viola este supuesto en particular. La violación hace que el estimador MCO esté sesgado y sea inconsistente . La dirección del sesgo depende de los estimadores, así como de la covarianza entre los regresores y las variables omitidas. Una covarianza positiva de la variable omitida con un regresor y la variable dependiente hará que la estimación MCO del coeficiente del regresor incluido sea mayor que el valor real de ese coeficiente. Este efecto se puede ver tomando la expectativa del parámetro, como se muestra en la sección anterior.

Véase también

Variable de confusión

Referencias

Barreto; Howland (2006). "Sesgo por variable omitida". Econometría introductoria: uso de simulación de Monte Carlo con Microsoft Excel . Cambridge University Press.
Clarke, Kevin A. (2005). "La amenaza fantasma: sesgo de variable omitida en la investigación econométrica". Gestión de conflictos y ciencia de la paz . 22 (4): 341–352. doi :10.1080/07388940500339183.
Greene, WH (1993). Análisis econométrico (2.ª ed.). Macmillan. págs. 245–246.
Wooldridge, Jeffrey M. (2009). "Sesgo por variable omitida: el caso simple". Introducción a la econometría: un enfoque moderno . Mason, OH: Cengage Learning. págs. 89–93. ISBN 9780324660548.