Teorema de Gauss-Markov

En estadística , el teorema de Gauss-Markov (o simplemente teorema de Gauss para algunos autores) ^[1] establece que el estimador de mínimos cuadrados ordinarios (MCO) tiene la varianza de muestreo más baja dentro de la clase de estimadores lineales insesgados , si los errores en el modelo de regresión lineal no están correlacionados , tienen varianzas iguales y un valor esperado de cero. ^[2] Los errores no necesitan ser normales , ni necesitan ser independientes e idénticamente distribuidos (solo no correlacionados con media cero y homocedásticos con varianza finita). El requisito de que el estimador sea insesgado no se puede descartar, ya que existen estimadores sesgados con varianza menor. Véase, por ejemplo, el estimador de James-Stein (que también descarta la linealidad), la regresión de cresta o simplemente cualquier estimador degenerado .

El teorema debe su nombre a Carl Friedrich Gauss y Andrey Markov , aunque el trabajo de Gauss es significativamente anterior al de Markov. ^[3] Pero mientras que Gauss derivó el resultado bajo el supuesto de independencia y normalidad, Markov redujo los supuestos a la forma indicada anteriormente. ^[4]Alexander Aitken dio una generalización adicional a los errores no esféricos . ^[5]

Declaración de caso escalar

Supongamos que nos dan dos vectores de variables aleatorias y que queremos encontrar el mejor estimador lineal de dado , utilizando el mejor estimador lineal donde los parámetros y son ambos números reales. $X{\text{, }}Y\in \mathbb {R} ^{k}$ ${\estilo de visualización Y}$ ${\estilo de visualización X}$ ${\sombrero {Y}}=\alpha X+\mu$ ${\estilo de visualización \alpha}$ ${\estilo de visualización \mu}$

Un estimador de este tipo tendría la misma media y desviación estándar que , es decir, . ${\hat {Y}}$ ${\estilo de visualización Y}$ $\mu _{\hat {Y}}=\mu _{Y},\sigma _{\hat {Y}}=\sigma _{Y}$

Por lo tanto, si el vector tiene media y desviación estándar respectivas , el mejor estimador lineal sería ${\estilo de visualización X}$ $\mu_{x},\sigma_{x}$

${\hat {Y}}=\sigma _{y}{\frac {(X-\mu _{x})}{\sigma _{x}}}+\mu _{y}$

ya que tiene la misma media y desviación estándar que . ${\hat {Y}}$ ${\estilo de visualización Y}$

Declaración

Supongamos que tenemos, en notación matricial, la relación lineal

y=X\beta +\varepsilon ,\quad (y,\varepsilon \in \mathbb {R} ^{n},\beta \in \mathbb {R} ^{K}{\text{ y }}X\in \mathbb {R} ^{n\times K})

expandiéndose a,

y_{i}=\sum _{j=1}^{K}\beta _{j}X_{ij}+\varepsilon _{i}\quad \forall i=1,2,\ldots ,n

donde son parámetros no aleatorios pero no observables, no son aleatorios y observables (llamados "variables explicativas"), son aleatorios y, por lo tanto, aleatorios. Las variables aleatorias se denominan "perturbación", "ruido" o simplemente "error" (se contrastará con "residuo" más adelante en el artículo; consulte errores y residuos en estadística ). Tenga en cuenta que para incluir una constante en el modelo anterior, se puede optar por introducir la constante como una variable con una última columna recién introducida de X que es la unidad, es decir, para todos . Tenga en cuenta que, aunque como respuestas de muestra, son observables, las siguientes afirmaciones y argumentos, incluidas las suposiciones, las pruebas y los demás, suponen bajo la única condición de saber pero no $\beta _{j}$ $X_{ij}$ $\varepsilon _{i}$ $y_{i}$ $\varepsilon _{i}$ $\beta _{K+1}$ $X_{i(K+1)}=1$ $i$ $y_{i},$ $X_{ij},$ $y_{i}.$

Los supuestos de Gauss-Markov se refieren al conjunto de variables aleatorias de error : $\varepsilon _{i}$

Tienen media cero: $\operatorname {E} [\varepsilon _{i}]=0.$
Son homocedásticos , es decir, todos tienen la misma varianza finita: para todos y $\operatorname {Var} (\varepsilon _{i})=\sigma ^{2}<\infty$ $i$
Los términos de error distintos no están correlacionados: ${\text{Cov}}(\varepsilon _{i},\varepsilon _{j})=0,\forall i\neq j.$

Un estimador lineal de es una combinación lineal $\beta _{j}$

{\widehat {\beta }}_{j}=c_{1j}y_{1}+\cdots +c_{kj}y_{k}

en la que no se permite que los coeficientes dependan de los coeficientes subyacentes , ya que estos no son observables, pero se permite que dependan de los valores , ya que estos datos son observables. (La dependencia de los coeficientes de cada uno es típicamente no lineal; el estimador es lineal en cada uno y, por lo tanto, en cada aleatorio , por lo que esta es una regresión "lineal" ). Se dice que el estimador es insesgado si y solo si $c_{ij}$ $\beta _{j}$ $X_{ij}$ $X_{ij}$ $y_{i}$ $\varepsilon ,$

\operatorname {E} \left[{\widehat {\beta }}_{j}\right]=\beta _{j}

independientemente de los valores de . Ahora, sea una combinación lineal de los coeficientes. Entonces, el error cuadrático medio de la estimación correspondiente es $X_{ij}$ ${\textstyle \sum _{j=1}^{K}\lambda _{j}\beta _{j}}$

\operatorname {E} \left[\left(\sum _{j=1}^{K}\lambda _{j}\left({\widehat {\beta }}_{j}-\beta _{j}\right)\right)^{2}\right],

en otras palabras, es la expectativa del cuadrado de la suma ponderada (entre parámetros) de las diferencias entre los estimadores y los parámetros correspondientes a estimar. (Dado que estamos considerando el caso en el que todas las estimaciones de los parámetros son insesgadas, este error cuadrático medio es el mismo que la varianza de la combinación lineal). El mejor estimador lineal insesgado (BLUE) del vector de parámetros es aquel con el menor error cuadrático medio para cada vector de parámetros de combinación lineal. Esto es equivalente a la condición de que $\beta$ $\beta _{j}$ $\lambda$

\operatorname {Var} \left({\widetilde {\beta }}\right)-\operatorname {Var} \left({\widehat {\beta }}\right)

es una matriz semidefinida positiva para cualquier otro estimador lineal imparcial . ${\widetilde {\beta }}$

El estimador de mínimos cuadrados ordinarios (MCO) es la función

{\widehat {\beta }}=(X^{\operatorname {T} }X)^{-1}X^{\operatorname {T} }y

de y (donde denota la transposición de ) que minimiza la suma de los cuadrados de los residuos (cantidades de predicción errónea): $y$ $X$ $X^{\operatorname {T} }$ $X$

\sum _{i=1}^{n}\left(y_{i}-{\widehat {y}}_{i}\right)^{2}=\sum _{i=1}^{n}\left(y_{i}-\sum _{j=1}^{K}{\widehat {\beta }}_{j}X_{ij}\right)^{2}.

El teorema ahora establece que el estimador MCO es el mejor estimador lineal imparcial (BLUE).

La idea principal de la prueba es que el estimador de mínimos cuadrados no está correlacionado con ningún estimador lineal insesgado de cero, es decir, con ninguna combinación lineal cuyos coeficientes no dependen de lo no observable pero cuyo valor esperado es siempre cero. $a_{1}y_{1}+\cdots +a_{n}y_{n}$ $\beta$

Observación

La prueba de que el MCO efectivamente minimiza la suma de los cuadrados de los residuos se puede realizar de la siguiente manera, con un cálculo de la matriz hessiana y demostrando que es definida positiva.

La función MSE que queremos minimizar es para un modelo de regresión múltiple con p variables. La primera derivada es donde es la matriz de diseño. $f(\beta _{0},\beta _{1},\dots ,\beta _{p})=\sum _{i=1}^{n}(y_{i}-\beta _{0}-\beta _{1}x_{i1}-\dots -\beta _{p}x_{ip})^{2}$ ${\begin{aligned}{\frac {d}{d{\boldsymbol {\beta }}}}f&=-2X^{\operatorname {T} }\left(\mathbf {y} -X{\boldsymbol {\beta }}\right)\\&=-2{\begin{bmatrix}\sum _{i=1}^{n}(y_{i}-\dots -\beta _{p}x_{ip})\\\sum _{i=1}^{n}x_{i1}(y_{i}-\dots -\beta _{p}x_{ip})\\\vdots \\\sum _{i=1}^{n}x_{ip}(y_{i}-\dots -\beta _{p}x_{ip})\end{bmatrix}}\\&=\mathbf {0} _{p+1},\end{aligned}}$ $X^{\operatorname {T} }$ $X={\begin{bmatrix}1&x_{11}&\cdots &x_{1p}\\1&x_{21}&\cdots &x_{2p}\\&&\vdots \\1&x_{n1}&\cdots &x_{np}\end{bmatrix}}\in \mathbb {R} ^{n\times (p+1)};\qquad n\geq p+1$

La matriz hessiana de segundas derivadas es ${\mathcal {H}}=2{\begin{bmatrix}n&\sum _{i=1}^{n}x_{i1}&\cdots &\sum _{i=1}^{n}x_{ip}\\\sum _{i=1}^{n}x_{i1}&\sum _{i=1}^{n}x_{i1}^{2}&\cdots &\sum _{i=1}^{n}x_{i1}x_{ip}\\\vdots &\vdots &\ddots &\vdots \\\sum _{i=1}^{n}x_{ip}&\sum _{i=1}^{n}x_{ip}x_{i1}&\cdots &\sum _{i=1}^{n}x_{ip}^{2}\end{bmatrix}}=2X^{\operatorname {T} }X$

Suponiendo que las columnas de son linealmente independientes, de modo que es invertible, sea , entonces $X$ $X^{\operatorname {T} }X$ $X={\begin{bmatrix}\mathbf {v_{1}} &\mathbf {v_{2}} &\cdots &\mathbf {v} _{p+1}\end{bmatrix}}$ $k_{1}\mathbf {v_{1}} +\dots +k_{p+1}\mathbf {v} _{p+1}=\mathbf {0} \iff k_{1}=\dots =k_{p+1}=0$

Sea ahora un vector propio de . $\mathbf {k} =(k_{1},\dots ,k_{p+1})^{T}\in \mathbb {R} ^{(p+1)\times 1}$ ${\mathcal {H}}$

$\mathbf {k} \neq \mathbf {0} \implies \left(k_{1}\mathbf {v_{1}} +\dots +k_{p+1}\mathbf {v} _{p+1}\right)^{2}>0$

En términos de multiplicación de vectores, esto significa que donde es el valor propio correspondiente a . Además, ${\begin{bmatrix}k_{1}&\cdots &k_{p+1}\end{bmatrix}}{\begin{bmatrix}\mathbf {v_{1}} \\\vdots \\\mathbf {v} _{p+1}\end{bmatrix}}{\begin{bmatrix}\mathbf {v_{1}} &\cdots &\mathbf {v} _{p+1}\end{bmatrix}}{\begin{bmatrix}k_{1}\\\vdots \\k_{p+1}\end{bmatrix}}=\mathbf {k} ^{\operatorname {T} }{\mathcal {H}}\mathbf {k} =\lambda \mathbf {k} ^{\operatorname {T} }\mathbf {k} >0$ $\lambda$ $\mathbf {k}$ $\mathbf {k} ^{\operatorname {T} }\mathbf {k} =\sum _{i=1}^{p+1}k_{i}^{2}>0\implies \lambda >0$

Finalmente, como el vector propio es arbitrario, significa que todos los valores propios de son positivos, por lo tanto, es definida positiva. Por lo tanto, es de hecho un mínimo global. $\mathbf {k}$ ${\mathcal {H}}$ ${\mathcal {H}}$ ${\boldsymbol {\beta }}=\left(X^{\operatorname {T} }X\right)^{-1}X^{\operatorname {T} }Y$

O bien, simplemente observe que para todos los vectores . Por lo tanto, el hessiano es definido positivo si es de rango completo. $\mathbf {v} ,\mathbf {v} ^{\operatorname {T} }X^{\operatorname {T} }X\mathbf {v} =\|\mathbf {X} \mathbf {v} \|^{2}\geq 0$

Prueba

Sea otro estimador lineal de con donde es una matriz distinta de cero. Como nos limitamos a estimadores insesgados , el error cuadrático medio mínimo implica una varianza mínima. Por lo tanto, el objetivo es demostrar que dicho estimador tiene una varianza no menor que la del estimador MCO. Calculamos: ${\tilde {\beta }}=Cy$ $\beta$ $C=(X^{\operatorname {T} }X)^{-1}X^{\operatorname {T} }+D$ $D$ $K\times n$ ${\widehat {\beta }},$

{\begin{aligned}\operatorname {E} \left[{\tilde {\beta }}\right]&=\operatorname {E} [Cy]\\&=\operatorname {E} \left[\left((X^{\operatorname {T} }X)^{-1}X^{\operatorname {T} }+D\right)(X\beta +\varepsilon )\right]\\&=\left((X^{\operatorname {T} }X)^{-1}X^{\operatorname {T} }+D\right)X\beta +\left((X^{\operatorname {T} }X)^{-1}X^{\operatorname {T} }+D\right)\operatorname {E} [\varepsilon ]\\&=\left((X^{\operatorname {T} }X)^{-1}X^{\operatorname {T} }+D\right)X\beta &&\operatorname {E} [\varepsilon ]=0\\&=(X^{\operatorname {T} }X)^{-1}X^{\operatorname {T} }X\beta +DX\beta \\&=(I_{K}+DX)\beta .\\\end{aligned}}

Por lo tanto, dado que no es observable, es insesgado si y solo si . Entonces: $\beta$ ${\tilde {\beta }}$ $DX=0$

{\begin{aligned}\operatorname {Var} \left({\tilde {\beta }}\right)&=\operatorname {Var} (Cy)\\&=C{\text{ Var}}(y)C^{\operatorname {T} }\\&=\sigma ^{2}CC^{\operatorname {T} }\\&=\sigma ^{2}\left((X^{\operatorname {T} }X)^{-1}X^{\operatorname {T} }+D\right)\left(X(X^{\operatorname {T} }X)^{-1}+D^{\operatorname {T} }\right)\\&=\sigma ^{2}\left((X^{\operatorname {T} }X)^{-1}X^{\operatorname {T} }X(X^{\operatorname {T} }X)^{-1}+(X^{\operatorname {T} }X)^{-1}X^{\operatorname {T} }D^{\operatorname {T} }+DX(X^{\operatorname {T} }X)^{-1}+DD^{\operatorname {T} }\right)\\&=\sigma ^{2}(X^{\operatorname {T} }X)^{-1}+\sigma ^{2}(X^{\operatorname {T} }X)^{-1}(DX)^{\operatorname {T} }+\sigma ^{2}DX(X^{\operatorname {T} }X)^{-1}+\sigma ^{2}DD^{\operatorname {T} }\\&=\sigma ^{2}(X^{\operatorname {T} }X)^{-1}+\sigma ^{2}DD^{\operatorname {T} }&&DX=0\\&=\operatorname {Var} \left({\widehat {\beta }}\right)+\sigma ^{2}DD^{\operatorname {T} }&&\sigma ^{2}(X^{\operatorname {T} }X)^{-1}=\operatorname {Var} \left({\widehat {\beta }}\right)\end{aligned}}

Dado que es una matriz semidefinida positiva, excede por una matriz semidefinida positiva. $DD^{\operatorname {T} }$ $\operatorname {Var} \left({\tilde {\beta }}\right)$ $\operatorname {Var} \left({\widehat {\beta }}\right)$

Observaciones sobre la prueba

Como se ha indicado antes, la condición de que sea una matriz semidefinida positiva es equivalente a la propiedad de que el mejor estimador lineal insesgado de es (el mejor en el sentido de que tiene mínima varianza). Para ver esto, supongamos otro estimador lineal insesgado de . $\operatorname {Var} \left({\tilde {\beta }}\right)-\operatorname {Var} \left({\widehat {\beta }}\right)$ $\ell ^{\operatorname {T} }\beta$ $\ell ^{\operatorname {T} }{\widehat {\beta }}$ $\ell ^{\operatorname {T} }{\tilde {\beta }}$ $\ell ^{\operatorname {T} }\beta$

{\begin{aligned}\operatorname {Var} \left(\ell ^{\operatorname {T} }{\tilde {\beta }}\right)&=\ell ^{\operatorname {T} }\operatorname {Var} \left({\tilde {\beta }}\right)\ell \\&=\sigma ^{2}\ell ^{\operatorname {T} }(X^{\operatorname {T} }X)^{-1}\ell +\ell ^{\operatorname {T} }DD^{\operatorname {T} }\ell \\&=\operatorname {Var} \left(\ell ^{\operatorname {T} }{\widehat {\beta }}\right)+(D^{\operatorname {T} }\ell )^{\operatorname {T} }(D^{\operatorname {T} }\ell )&&\sigma ^{2}\ell ^{\operatorname {T} }(X^{\operatorname {T} }X)^{-1}\ell =\operatorname {Var} \left(\ell ^{\operatorname {T} }{\widehat {\beta }}\right)\\&=\operatorname {Var} \left(\ell ^{\operatorname {T} }{\widehat {\beta }}\right)+\|D^{\operatorname {T} }\ell \|\\&\geq \operatorname {Var} \left(\ell ^{\operatorname {T} }{\widehat {\beta }}\right)\end{aligned}}

Además, la igualdad se cumple si y sólo si . Calculamos $D^{\operatorname {T} }\ell =0$

{\begin{aligned}\ell ^{\operatorname {T} }{\tilde {\beta }}&=\ell ^{\operatorname {T} }\left(((X^{\operatorname {T} }X)^{-1}X^{\operatorname {T} }+D)Y\right)&&{\text{ from above}}\\&=\ell ^{\operatorname {T} }(X^{\operatorname {T} }X)^{-1}X^{\operatorname {T} }Y+\ell ^{\operatorname {T} }DY\\&=\ell ^{\operatorname {T} }{\widehat {\beta }}+(D^{\operatorname {T} }\ell )^{\operatorname {T} }Y\\&=\ell ^{\operatorname {T} }{\widehat {\beta }}&&D^{\operatorname {T} }\ell =0\end{aligned}}

Esto demuestra que la igualdad se cumple si y solo si, lo que da la unicidad del estimador MCO como BLUE. $\ell ^{\operatorname {T} }{\tilde {\beta }}=\ell ^{\operatorname {T} }{\widehat {\beta }}$

Estimador de mínimos cuadrados generalizados

El método de mínimos cuadrados generalizados (GLS), desarrollado por Aitken , ^[5] extiende el teorema de Gauss-Markov al caso donde el vector de error tiene una matriz de covarianza no escalar. ^[6] El estimador de Aitken también es un BLUE.

El teorema de Gauss-Markov tal como se enuncia en la econometría

En la mayoría de los tratamientos de MCO, se supone que los regresores (parámetros de interés) en la matriz de diseño son fijos en muestras repetidas. Esta suposición se considera inadecuada para una ciencia predominantemente no experimental como la econometría . ^[7] En cambio, las suposiciones del teorema de Gauss-Markov se establecen como condicionales a . $\mathbf {X}$ $\mathbf {X}$

Linealidad

Se supone que la variable dependiente es una función lineal de las variables especificadas en el modelo. La especificación debe ser lineal en sus parámetros. Esto no significa que deba haber una relación lineal entre las variables independientes y dependientes. Las variables independientes pueden adoptar formas no lineales siempre que los parámetros sean lineales. La ecuación se califica como lineal mientras que se puede transformar para que sea lineal al reemplazarla por otro parámetro, por ejemplo . Una ecuación con un parámetro que depende de una variable independiente no se califica como lineal, por ejemplo , donde es una función de . $y=\beta _{0}+\beta _{1}x^{2},$ $y=\beta _{0}+\beta _{1}^{2}x$ $\beta _{1}^{2}$ $\gamma$ $y=\beta _{0}+\beta _{1}(x)\cdot x$ $\beta _{1}(x)$ $x$

Las transformaciones de datos se utilizan a menudo para convertir una ecuación en una forma lineal. Por ejemplo, la función Cobb-Douglas , que se utiliza a menudo en economía, es no lineal:

Y=AL^{\alpha }K^{1-\alpha }e^{\varepsilon }

Pero se puede expresar en forma lineal tomando el logaritmo natural de ambos lados: ^[8]

\ln Y=\ln A+\alpha \ln L+(1-\alpha )\ln K+\varepsilon =\beta _{0}+\beta _{1}\ln L+\beta _{2}\ln K+\varepsilon

Esta suposición también cubre cuestiones de especificación: suponer que se ha seleccionado la forma funcional adecuada y que no hay variables omitidas .

Sin embargo, se debe tener en cuenta que los parámetros que minimizan los residuos de la ecuación transformada no necesariamente minimizan los residuos de la ecuación original.

Exogeneidad estricta

Para todas las observaciones, la expectativa (condicionada a los regresores) del término de error es cero: ^[9] $n$

\operatorname {E} [\,\varepsilon _{i}\mid \mathbf {X} ]=\operatorname {E} [\,\varepsilon _{i}\mid \mathbf {x} _{1},\dots ,\mathbf {x} _{n}]=0.

donde es el vector de datos de los regresores para la i -ésima observación y, en consecuencia, es la matriz de datos o matriz de diseño. $\mathbf {x} _{i}={\begin{bmatrix}x_{i1}&x_{i2}&\cdots &x_{ik}\end{bmatrix}}^{\operatorname {T} }$ $\mathbf {X} ={\begin{bmatrix}\mathbf {x} _{1}^{\operatorname {T} }&\mathbf {x} _{2}^{\operatorname {T} }&\cdots &\mathbf {x} _{n}^{\operatorname {T} }\end{bmatrix}}^{\operatorname {T} }$

Geométricamente, esta suposición implica que y son ortogonales entre sí, de modo que su producto interno (es decir, su momento cruzado) es cero. $\mathbf {x} _{i}$ $\varepsilon _{i}$

\operatorname {E} [\,\mathbf {x} _{j}\cdot \varepsilon _{i}\,]={\begin{bmatrix}\operatorname {E} [\,{x}_{j1}\cdot \varepsilon _{i}\,]\\\operatorname {E} [\,{x}_{j2}\cdot \varepsilon _{i}\,]\\\vdots \\\operatorname {E} [\,{x}_{jk}\cdot \varepsilon _{i}\,]\end{bmatrix}}=\mathbf {0} \quad {\text{for all }}i,j\in n

Este supuesto se viola si las variables explicativas se miden con un error o son endógenas . ^[10] La endogeneidad puede ser el resultado de la simultaneidad, donde la causalidad fluye de ida y vuelta entre la variable dependiente y la independiente. Las técnicas de variables instrumentales se utilizan comúnmente para abordar este problema.

Rango completo

La matriz de datos de muestra debe tener rango de columna completo . $\mathbf {X}$

\operatorname {rank} (\mathbf {X} )=k

De lo contrario, no es invertible y no se puede calcular el estimador MCO. $\mathbf {X} ^{\operatorname {T} }\mathbf {X}$

Una violación de este supuesto es la multicolinealidad perfecta , es decir, algunas variables explicativas son linealmente dependientes. Un escenario en el que esto ocurrirá se llama "trampa de variable ficticia", cuando no se omite una variable ficticia base, lo que da como resultado una correlación perfecta entre las variables ficticias y el término constante. ^[11]

Puede existir multicolinealidad (siempre que no sea "perfecta"), lo que da como resultado una estimación menos eficiente, pero aún así imparcial. Las estimaciones serán menos precisas y altamente sensibles a conjuntos particulares de datos. ^[12] La multicolinealidad se puede detectar a partir del número de condición o el factor de inflación de la varianza , entre otras pruebas.

Errores esféricos

El producto externo del vector de error debe ser esférico.

\operatorname {E} [\,{\boldsymbol {\varepsilon }}{\boldsymbol {\varepsilon }}^{\operatorname {T} }\mid \mathbf {X} ]=\operatorname {Var} [\,{\boldsymbol {\varepsilon }}\mid \mathbf {X} ]={\begin{bmatrix}\sigma ^{2}&0&\cdots &0\\0&\sigma ^{2}&\cdots &0\\\vdots &\vdots &\ddots &\vdots \\0&0&\cdots &\sigma ^{2}\end{bmatrix}}=\sigma ^{2}\mathbf {I} \quad {\text{with }}\sigma ^{2}>0

Esto implica que el término de error tiene varianza uniforme ( homocedasticidad ) y no tiene correlación serial . ^[13] Si se viola este supuesto, MCO sigue siendo imparcial, pero ineficiente . El término "errores esféricos" describirá la distribución normal multivariada : si está en la densidad normal multivariada, entonces la ecuación es la fórmula para una pelota centrada en μ con radio σ en un espacio n-dimensional. ^[14] $\operatorname {Var} [\,{\boldsymbol {\varepsilon }}\mid \mathbf {X} ]=\sigma ^{2}\mathbf {I}$ $f(\varepsilon )=c$

La heterocedasticidad se produce cuando la cantidad de error está correlacionada con una variable independiente. Por ejemplo, en una regresión sobre el gasto en alimentos y los ingresos, el error está correlacionado con los ingresos. Las personas de bajos ingresos suelen gastar una cantidad similar en alimentos, mientras que las personas de altos ingresos pueden gastar una cantidad muy grande o tan pequeña como la que gastan las personas de bajos ingresos. La heterocedasticidad también puede ser causada por cambios en las prácticas de medición. Por ejemplo, a medida que las oficinas de estadística mejoran sus datos, el error de medición disminuye, por lo que el término de error disminuye con el tiempo.

Este supuesto se viola cuando hay autocorrelación . La autocorrelación se puede visualizar en un gráfico de datos cuando es más probable que una observación dada se encuentre por encima de una línea ajustada si las observaciones adyacentes también se encuentran por encima de la línea de regresión ajustada. La autocorrelación es común en datos de series temporales donde una serie de datos puede experimentar "inercia". Si una variable dependiente tarda un tiempo en absorber por completo un shock. La autocorrelación espacial también puede ocurrir, es probable que las áreas geográficas tengan errores similares. La autocorrelación puede ser el resultado de una especificación incorrecta, como elegir la forma funcional incorrecta. En estos casos, corregir la especificación es una forma posible de abordar la autocorrelación.

Cuando se puede violar el supuesto de errores esféricos, se puede demostrar que el estimador de mínimos cuadrados generalizados es AZUL. ^[6]

Véase también

Otras estadísticas imparciales

Mejor predicción lineal imparcial (BLUP)
Estimador imparcial de mínima varianza (MVUE)

Referencias

^ Véase el capítulo 7 de Johnson, RA; Wichern, DW (2002). Análisis estadístico multivariado aplicado . Vol. 5. Prentice Hall.
^ Theil, Henri (1971). "Mejor estimación y predicción lineal imparcial". Principles of Econometrics . Nueva York: John Wiley & Sons. pp. 119–124. ISBN 0-471-85845-5.
^ Plackett, RL (1949). "Una nota histórica sobre el método de mínimos cuadrados". Biometrika . 36 (3/4): 458–460. doi :10.2307/2332682.
^ David, FN; Neyman, J. (1938). "Extensión del teorema de Markoff sobre mínimos cuadrados". Memorias de investigación estadística . 2 : 105–116. OCLC 4025782.
^ ab Aitken, AC (1935). "Sobre mínimos cuadrados y combinaciones lineales de observaciones". Actas de la Royal Society de Edimburgo . 55 : 42–48. doi :10.1017/S0370164600014346.
^ ab Huang, David S. (1970). Regresión y métodos econométricos . Nueva York: John Wiley & Sons. págs. 127-147. ISBN 0-471-41754-8.
^ Hayashi, Fumio (2000). Econometría. Princeton University Press. pág. 13. ISBN 0-691-01018-8.
^ Walters, AA (1970). Introducción a la econometría . Nueva York: WW Norton. pág. 275. ISBN. 0-393-09931-8.
^ Hayashi, Fumio (2000). Econometría. Princeton University Press. pág. 7. ISBN 0-691-01018-8.
^ Johnston, John (1972). Métodos econométricos (segunda edición). Nueva York: McGraw-Hill. pp. 267–291. ISBN 0-07-032679-7.
^ Wooldridge, Jeffrey (2012). Introducción a la econometría (quinta edición internacional). Suroeste. pág. 220. ISBN 978-1-111-53439-4.
^ Johnston, John (1972). Métodos econométricos (segunda edición). Nueva York: McGraw-Hill. pp. 159-168. ISBN 0-07-032679-7.
^ Hayashi, Fumio (2000). Econometría. Princeton University Press. pág. 10. ISBN 0-691-01018-8.
^ Ramanathan, Ramu (1993). "Perturbaciones no esféricas". Métodos estadísticos en econometría . Academic Press. págs. 330–351. ISBN 0-12-576830-3.

Lectura adicional

Davidson, James (2000). "Análisis estadístico del modelo de regresión". Teoría econométrica . Oxford: Blackwell. pp. 17–36. ISBN 0-631-17837-6.
Goldberger, Arthur (1991). "Regresión clásica". Un curso de econometría . Cambridge: Harvard University Press. pp. 160–169. ISBN 0-674-17544-1.
Theil, Henri (1971). "Mínimos cuadrados y el modelo lineal estándar". Principles of Econometrics . Nueva York: John Wiley & Sons. pp. 101–162. ISBN 0-471-85845-5.

Enlaces externos

Usos más antiguos conocidos de algunas palabras de las matemáticas: G (breve historia y explicación del nombre)
Demostración del teorema de Gauss-Markov para regresión lineal múltiple (hace uso de álgebra matricial)
Una prueba del teorema de Gauss-Markov mediante geometría