Mínimos cuadrados ponderados

Los mínimos cuadrados ponderados ( WLS ), también conocidos como regresión lineal ponderada , ^[1]^[2] son una generalización de los mínimos cuadrados ordinarios y la regresión lineal en la que se incorpora a la regresión el conocimiento de la varianza desigual de las observaciones ( heterocedasticidad ). WLS es también una especialización de los mínimos cuadrados generalizados , cuando todas las entradas fuera de la diagonal de la matriz de covarianza de los errores son nulas.

Formulación

El ajuste de un modelo a un punto de datos se mide por su residuo , , definido como la diferencia entre un valor medido de la variable dependiente y el valor predicho por el modelo, : $r_{i}$ $y_{i}$ $f(x_{i},{\boldsymbol {\beta }})$ $r_{i}({\boldsymbol {\beta }})=y_{i}-f(x_{i},{\boldsymbol {\beta }}).$

Si los errores no están correlacionados y tienen varianza igual, entonces la función se minimiza en , de modo que . $S({\boldsymbol {\beta }})=\sum _{i}r_{i}({\boldsymbol {\beta }})^{2},$ ${\boldsymbol {\sombrero {\beta }}}$ ${\frac {\partial S}{\partial \beta _{j}}}({\hat {\boldsymbol {\beta }}})=0$

El teorema de Gauss-Markov muestra que, cuando esto es así, es un estimador lineal insesgado óptimo ( BLUE ). Sin embargo, si las mediciones no están correlacionadas pero tienen diferentes incertidumbres, se podría adoptar un enfoque modificado. Aitken demostró que cuando se minimiza una suma ponderada de residuos cuadrados, es el BLUE si cada ponderación es igual al recíproco de la varianza de la medición. ${\sombrero {\boldsymbol {\beta }}}$ ${\sombrero {\boldsymbol {\beta }}}$ ${\begin{aligned}S&=\sum _{i=1}^{n}W_{ii}{r_{i}}^{2},&W_{ii}&={\frac {1}{{\sigma _{i}}^{2}}}\end{aligned}}$

Las ecuaciones de gradiente para esta suma de cuadrados son $-2\sum _{i}W_{ii}{\frac {\partial f(x_{i},{\boldsymbol {\beta }})}{\partial \beta _{j}}}r_{i}=0,\quad j=1,\ldots ,m$

que, en un sistema de mínimos cuadrados lineales, dan las ecuaciones normales modificadas, La matriz anterior es como se define en la discusión correspondiente de mínimos cuadrados lineales . $\sum _{i=1}^{n}\sum _{k=1}^{m}X_{ij}W_{ii}X_{ik}{\hat {\beta }}_{k}=\sum _{i=1}^{n}X_{ij}W_{ii}y_{i},\quad j=1,\ldots ,m\,.$ $X$

Cuando los errores de observación no están correlacionados y la matriz de ponderación , W = Ω ⁻¹ , es diagonal, estos pueden escribirse como $\mathbf {\left(X^{\textsf {T}}WX\right){\hat {\boldsymbol {\beta }}}=X^{\textsf {T}}Wy} .$

Si los errores están correlacionados, el estimador resultante es el AZUL si la matriz de ponderación es igual a la inversa de la matriz de varianza-covarianza de las observaciones.

Cuando los errores no están correlacionados, es conveniente simplificar los cálculos para factorizar la matriz de ponderación como . Las ecuaciones normales pueden entonces escribirse en la misma forma que los mínimos cuadrados ordinarios: $w_{ii}={\sqrt {W_{ii}}}$ $\mathbf {\left(X'^{\textsf {T}}X'\right){\hat {\boldsymbol {\beta }}}=X'^{\textsf {T}}y'} \,$

donde definimos la siguiente matriz y vector escalados: ${\begin{aligned}\mathbf {X'} &=\operatorname {diag} \left(\mathbf {w} \right)\mathbf {X} ,\\\mathbf {y'} &=\operatorname {diag} \left(\mathbf {w} \right)\mathbf {y} =\mathbf {y} \oslash \mathbf {\sigma } .\end{aligned}}$

Se trata de un tipo de transformación blanqueadora ; la última expresión implica una división por entrada .

Para sistemas de mínimos cuadrados no lineales, un argumento similar muestra que las ecuaciones normales deben modificarse de la siguiente manera. $\mathbf {\left(J^{\textsf {T}}WJ\right)\,{\boldsymbol {\Delta }}\beta =J^{\textsf {T}}W\,{\boldsymbol {\Delta }}y} .\,$

Tenga en cuenta que, para las pruebas empíricas, no se conoce con certeza la W adecuada y debe estimarse. Para ello, se pueden utilizar técnicas de mínimos cuadrados generalizados factibles (FGLS); en este caso, se especializan para una matriz de covarianza diagonal, lo que produce una solución de mínimos cuadrados ponderados factibles.

Si no se conoce la incertidumbre de las observaciones a partir de fuentes externas, se pueden estimar los pesos a partir de las observaciones dadas. Esto puede ser útil, por ejemplo, para identificar valores atípicos. Una vez que se hayan eliminado los valores atípicos del conjunto de datos, los pesos se deben restablecer a uno. ^[3]

Motivación

En algunos casos, las observaciones pueden estar ponderadas (por ejemplo, pueden no ser igualmente confiables). En este caso, se puede minimizar la suma ponderada de cuadrados: donde w _i > 0 es el peso de la i- ésima observación y W es la matriz diagonal de dichos pesos. ${\underset {\boldsymbol {\beta }}{\operatorname {arg\ min} }}\,\sum _{i=1}^{n}w_{i}\left|y_{i}-\sum _{j=1}^{m}X_{ij}\beta _{j}\right|^{2}={\underset {\boldsymbol {\beta }}{\operatorname {arg\ min} }}\,\left\|W^{\frac {1}{2}}\left(\mathbf {y} -X{\boldsymbol {\beta }}\right)\right\|^{2}.$

Los pesos deberían ser, idealmente, iguales al recíproco de la varianza de la medición. (Esto implica que las observaciones no están correlacionadas. Si las observaciones están correlacionadas , se aplica la expresión . En este caso, la matriz de pesos idealmente debería ser igual a la inversa de la matriz de varianza-covarianza de las observaciones). ^[3] Las ecuaciones normales son entonces: ${\textstyle S=\sum _{k}\sum _{j}r_{k}W_{kj}r_{j}\,}$ $\left(X^{\textsf {T}}WX\right){\hat {\boldsymbol {\beta }}}=X^{\textsf {T}}W\mathbf {y} .$

Este método se utiliza en mínimos cuadrados reponderados iterativamente .

Solución

Errores de parámetros y correlación

Los valores de los parámetros estimados son combinaciones lineales de los valores observados. ${\hat {\boldsymbol {\beta }}}=(X^{\textsf {T}}WX)^{-1}X^{\textsf {T}}W\mathbf {y} .$

Por lo tanto, se puede obtener una expresión para la matriz de varianza-covarianza estimada de las estimaciones de los parámetros mediante la propagación de errores a partir de los errores en las observaciones. Sea M la matriz de varianza-covarianza de las observaciones y M ^β la de los parámetros estimados . Entonces $M^{\beta }=\left(X^{\textsf {T}}WX\right)^{-1}X^{\textsf {T}}WMW^{\textsf {T}}X\left(X^{\textsf {T}}W^{\textsf {T}}X\right)^{-1}.$

Cuando $W = M -1$ , esto se simplifica a $M^{\beta }=\left(X^{\textsf {T}}WX\right)^{-1}.$

Cuando se utilizan pesos unitarios ( $W = I$ , la matriz identidad ), se da por sentado que los errores experimentales no están correlacionados y son todos iguales: $M = σ 2 I$ , donde $σ 2$ es la varianza a priori de una observación. En cualquier caso, σ ² se aproxima mediante el chi-cuadrado reducido : $\chi _{\nu }^{2}$ ${\begin{aligned}M^{\beta }&=\chi _{\nu }^{2}\left(X^{\textsf {T}}WX\right)^{-1},\\\chi _{\nu }^{2}&=S/\nu ,\end{aligned}}$

donde S es el valor mínimo de la función objetivo ponderada: $S=r^{\textsf {T}}Wr=\left\|W^{\frac {1}{2}}\left(\mathbf {y} -X{\hat {\boldsymbol {\beta }}}\right)\right\|^{2}.$

El denominador, , es el número de grados de libertad ; consulte grados de libertad efectivos para generalizaciones para el caso de observaciones correlacionadas. $\nu =n-m$

En todos los casos, la varianza de la estimación del parámetro está dada por y la covarianza entre las estimaciones del parámetro y está dada por . La desviación estándar es la raíz cuadrada de la varianza, , y el coeficiente de correlación está dado por . Estas estimaciones de error reflejan solo errores aleatorios en las mediciones. La incertidumbre real en los parámetros es mayor debido a la presencia de errores sistemáticos , que, por definición, no se pueden cuantificar. Tenga en cuenta que, aunque las observaciones pueden no estar correlacionadas, los parámetros normalmente están correlacionados . ${\hat {\beta }}_{i}$ $M_{ii}^{\beta }$ ${\hat {\beta }}_{i}$ ${\hat {\beta }}_{j}$ $M_{ij}^{\beta }$ $\sigma _{i}={\sqrt {M_{ii}^{\beta }}}$ $\rho _{ij}=M_{ij}^{\beta }/(\sigma _{i}\sigma _{j})$

Límites de confianza de los parámetros

A menudo se supone , por falta de evidencia concreta pero a menudo apelando al teorema del límite central (ver Distribución normal#Ocurrencia y aplicaciones ) que el error en cada observación pertenece a una distribución normal con una media de cero y una desviación estándar de . Bajo esa suposición, se pueden derivar las siguientes probabilidades para una única estimación de parámetro escalar en términos de su error estándar estimado (dado aquí ): $\sigma$ $se_{\beta }$

68% que el intervalo abarca el verdadero valor del coeficiente ${\hat {\beta }}\pm se_{\beta }$
95% que el intervalo abarca el verdadero valor del coeficiente ${\hat {\beta }}\pm 2se_{\beta }$
99% de que el intervalo abarca el verdadero valor del coeficiente ${\hat {\beta }}\pm 2.5se_{\beta }$

La suposición no es irrazonable cuando n >> m . Si los errores experimentales se distribuyen normalmente, los parámetros pertenecerán a una distribución t de Student con n − m grados de libertad . Cuando n ≫ m la distribución t de Student se aproxima a una distribución normal. Sin embargo, tenga en cuenta que estos límites de confianza no pueden tener en cuenta el error sistemático. Además, los errores de los parámetros deben citarse solo con una cifra significativa, ya que están sujetos al error de muestreo . ^[4]

Cuando el número de observaciones es relativamente pequeño, la desigualdad de Chebychev se puede utilizar como límite superior de las probabilidades, independientemente de cualquier suposición sobre la distribución de errores experimentales: las probabilidades máximas de que un parámetro esté a más de 1, 2 o 3 desviaciones estándar de su valor esperado son 100%, 25% y 11% respectivamente.

Valores residuales y correlación

Los residuos están relacionados con las observaciones por $\mathbf {\hat {r}} =\mathbf {y} -X{\hat {\boldsymbol {\beta }}}=\mathbf {y} -H\mathbf {y} =(I-H)\mathbf {y} ,$

donde H es la matriz idempotente conocida como matriz sombrero : $H=X\left(X^{\textsf {T}}WX\right)^{-1}X^{\textsf {T}}W,$

y I es la matriz identidad . La matriz de varianza-covarianza de los residuos, M ^r, viene dada por $M^{\mathbf {r} }=(I-H)M(I-H)^{\textsf {T}}.$

Por lo tanto, los residuos están correlacionados, incluso si las observaciones no lo están.

Cuando , $W=M^{-1}$ $M^{\mathbf {r} }=(I-H)M.$

La suma de los valores residuales ponderados es igual a cero siempre que la función del modelo contenga un término constante. Multiplica por la izquierda la expresión de los residuos por X ^T W ^T : $X^{\textsf {T}}W{\hat {\mathbf {r} }}=X^{\textsf {T}}W\mathbf {y} -X^{\textsf {T}}WX{\hat {\boldsymbol {\beta }}}=X^{\textsf {T}}W\mathbf {y} -\left(X^{\rm {T}}WX\right)\left(X^{\textsf {T}}WX\right)^{-1}X^{\textsf {T}}W\mathbf {y} =\mathbf {0} .$

Digamos, por ejemplo, que el primer término del modelo es una constante, de modo que para todo i . En ese caso se sigue que $X_{i1}=1$ $\sum _{i}^{m}X_{i1}W_{i}{\hat {r}}_{i}=\sum _{i}^{m}W_{i}{\hat {r}}_{i}=0.$

Así, en el ejemplo motivacional anterior, el hecho de que la suma de los valores residuales sea igual a cero no es accidental, sino que es una consecuencia de la presencia del término constante, α, en el modelo.

Si el error experimental sigue una distribución normal , entonces, debido a la relación lineal entre los residuos y las observaciones, también deberían seguir los residuos, ^[5] pero como las observaciones son solo una muestra de la población de todas las observaciones posibles, los residuos deberían pertenecer a una distribución t de Student . Los residuos estudentizados son útiles para realizar una prueba estadística de un valor atípico cuando un residuo particular parece ser excesivamente grande.

Véase también

Referencias

^ "Regresión ponderada".
^ "Visualizar una regresión ponderada".
^ ab Strutz, T. (2016). "3". Ajuste de datos e incertidumbre (Una introducción práctica a los mínimos cuadrados ponderados y más allá) . Springer Vieweg. ISBN 978-3-658-11455-8.
^ Mandel, John (1964). El análisis estadístico de datos experimentales . Nueva York: Interscience.
^ Mardia, KV; Kent, JT; Bibby, JM (1979). Análisis multivariado . Nueva York: Academic Press. ISBN 0-12-471250-9.