stringtranslate.com

Sesgo de variable omitida

En estadística , el sesgo de variable omitida ( OVB ) ocurre cuando un modelo estadístico omite una o más variables relevantes. El sesgo da como resultado que el modelo atribuya el efecto de las variables faltantes a aquellas que fueron incluidas.

Más específicamente, OVB es el sesgo que aparece en las estimaciones de parámetros en un análisis de regresión , cuando la especificación asumida es incorrecta en el sentido de que omite una variable independiente que es determinante de la variable dependiente y correlacionada con una o más de las variables independientes incluidas. variables.

En regresión lineal

Intuición

Supongamos que la verdadera relación causa-efecto viene dada por:

con parámetros a, b, c , variable dependiente y , variables independientes x y z , y término de error u . Deseamos conocer el efecto de x sobre y (es decir, deseamos obtener una estimación de b ).

Deben cumplirse dos condiciones para que exista sesgo de variable omitida en la regresión lineal :

Supongamos que omitimos z de la regresión y supongamos que la relación entre x y z está dada por

con parámetros d , f y término de error e . Sustituyendo la segunda ecuación en la primera se obtiene

Si se realiza una regresión de y únicamente sobre x , esta última ecuación es lo que se estima, y ​​el coeficiente de regresión sobre x es en realidad una estimación de ( b  +  cf ), lo que no da simplemente una estimación del efecto directo deseado de x sobre y (que es b ), sino más bien de su suma con el efecto indirecto (el efecto f de x sobre z multiplicado por el efecto c de z sobre y ). Así, al omitir la variable z de la regresión, hemos estimado la derivada total de y con respecto a x en lugar de su derivada parcial con respecto a  x . Estos difieren si tanto cyf son distintos de cero.

La dirección y el alcance del sesgo están contenidos en cf , ya que el efecto buscado es b pero la regresión estima b+cf . El alcance del sesgo es el valor absoluto de cf , y la dirección del sesgo es hacia arriba (hacia un valor más positivo o menos negativo) si cf > 0 (si la dirección de correlación entre y y z es la misma que entre x y z ), y en caso contrario es hacia abajo.

Análisis detallado

Como ejemplo, considere un modelo lineal de la forma

dónde

Recopilamos las observaciones de todas las variables subíndices i = 1, ..., n y las apilamos una debajo de la otra para obtener la matriz X y los vectores Y , Z y U :

y

Si la variable independiente z se omite de la regresión, entonces los valores estimados de los parámetros de respuesta de las otras variables independientes vendrán dados por el cálculo habitual de mínimos cuadrados ,

(donde la notación "principal" significa la transpuesta de una matriz y el superíndice -1 es la inversión de la matriz ).

Sustituyendo Y según el modelo lineal supuesto,

Al tomar expectativas, la contribución del término final es cero; esto se desprende del supuesto de que U no está correlacionado con los regresores X. Al simplificar los términos restantes:

El segundo término después del signo igual es el sesgo de la variable omitida en este caso, que es distinto de cero si la variable omitida z está correlacionada con cualquiera de las variables incluidas en la matriz X (es decir, si X′Z no es igual un vector de ceros). Tenga en cuenta que el sesgo es igual a la porción ponderada de z i que se "explica" por x i .

Efecto en mínimos cuadrados ordinarios

El teorema de Gauss-Markov establece que los modelos de regresión que cumplen los supuestos del modelo de regresión lineal clásico proporcionan los estimadores lineales, insesgados y más eficientes . En mínimos cuadrados ordinarios , el supuesto relevante del modelo de regresión lineal clásico es que el término de error no está correlacionado con los regresores.

La presencia de sesgo de variable omitida viola este supuesto particular. La violación hace que el estimador MCO sea sesgado e inconsistente . La dirección del sesgo depende de los estimadores así como de la covarianza entre los regresores y las variables omitidas. Una covarianza positiva de la variable omitida tanto con un regresor como con la variable dependiente hará que la estimación de MCO del coeficiente del regresor incluido sea mayor que el valor real de ese coeficiente. Este efecto se puede ver tomando la expectativa del parámetro, como se muestra en la sección anterior.

Ver también

Referencias