stringtranslate.com

Sesgo por variable omitida

En estadística , el sesgo por omisión de variables ( OVB ) ocurre cuando un modelo estadístico omite una o más variables relevantes. El sesgo hace que el modelo atribuya el efecto de las variables faltantes a las que se incluyeron.

Más específicamente, el OVB es el sesgo que aparece en las estimaciones de parámetros en un análisis de regresión , cuando la especificación asumida es incorrecta porque omite una variable independiente que es determinante de la variable dependiente y está correlacionada con una o más de las variables independientes incluidas.

En regresión lineal

Intuición

Supongamos que la verdadera relación de causa y efecto viene dada por:

con parámetros a, b, c , variable dependiente y , variables independientes x y z , y término de error u . Deseamos conocer el efecto de x en sí sobre y (es decir, deseamos obtener una estimación de b ).

Para que exista sesgo por variable omitida en la regresión lineal deben cumplirse dos condiciones :

Supongamos que omitimos z de la regresión y supongamos que la relación entre x y z está dada por

con parámetros d , f y término de error e . Sustituyendo la segunda ecuación en la primera se obtiene

Si se realiza una regresión de y sobre x solamente, esta última ecuación es la que se estima, y ​​el coeficiente de regresión sobre x es en realidad una estimación de ( b  +  cf ), lo que no da simplemente una estimación del efecto directo deseado de x sobre y (que es b ), sino más bien de su suma con el efecto indirecto (el efecto f de x sobre z multiplicado por el efecto c de z sobre y ). Por lo tanto, al omitir la variable z de la regresión, hemos estimado la derivada total de y con respecto a x en lugar de su derivada parcial con respecto a  x . Estas difieren si tanto c como f son distintos de cero.

La dirección y el grado del sesgo están contenidos en cf , ya que el efecto buscado es b pero la regresión estima b+cf . El grado del sesgo es el valor absoluto de cf , y la dirección del sesgo es ascendente (hacia un valor más positivo o menos negativo) si cf > 0 (si la dirección de correlación entre y y z es la misma que entre x y z ), y descendente en caso contrario.

Análisis detallado

Como ejemplo, considere un modelo lineal de la forma

dónde

Recopilamos las observaciones de todas las variables con subíndice i = 1, ..., n , y las apilamos una debajo de otra, para obtener la matriz X y los vectores Y , Z y U :

y

Si se omite la variable independiente z de la regresión, entonces los valores estimados de los parámetros de respuesta de las otras variables independientes se darán mediante el cálculo de mínimos cuadrados habitual,

(donde la notación "prima" significa la transposición de una matriz y el superíndice -1 es la inversión de la matriz ).

Sustituyendo Y con base en el modelo lineal asumido,

Al tomar las expectativas, la contribución del término final es cero; esto se deduce del supuesto de que U no está correlacionado con los regresores X. Al simplificar los términos restantes:

El segundo término después del signo igual es el sesgo de la variable omitida en este caso, que no es cero si la variable omitida z está correlacionada con cualquiera de las variables incluidas en la matriz X (es decir, si X′Z no es igual a un vector de ceros). Nótese que el sesgo es igual a la porción ponderada de z i que se "explica" por x i .

Efecto en mínimos cuadrados ordinarios

El teorema de Gauss-Markov establece que los modelos de regresión que cumplen con los supuestos del modelo de regresión lineal clásico proporcionan los estimadores más eficientes , lineales e insesgados . En los mínimos cuadrados ordinarios , el supuesto relevante del modelo de regresión lineal clásico es que el término de error no está correlacionado con los regresores.

La presencia de un sesgo por omisión de variables viola este supuesto en particular. La violación hace que el estimador MCO esté sesgado y sea inconsistente . La dirección del sesgo depende de los estimadores, así como de la covarianza entre los regresores y las variables omitidas. Una covarianza positiva de la variable omitida con un regresor y la variable dependiente hará que la estimación MCO del coeficiente del regresor incluido sea mayor que el valor real de ese coeficiente. Este efecto se puede ver tomando la expectativa del parámetro, como se muestra en la sección anterior.

Véase también

Referencias