Métodos numéricos para mínimos cuadrados lineales

Los métodos numéricos para mínimos cuadrados lineales implican el análisis numérico de problemas de mínimos cuadrados lineales .

Introducción

Un enfoque general para el problema de mínimos cuadrados se puede describir de la siguiente manera. Supongamos que podemos encontrar una matriz S de n por m tal que XS es una proyección ortogonal sobre la imagen de X . Entonces una solución a nuestro problema de minimización viene dada por $\operatorname {\,min} \,{\big \|}\mathbf {y} -X{\boldsymbol {\beta }}{\big \|}^{2}$

{\boldsymbol {\beta }}=S\mathbf {y}

simplemente porque

X{\boldsymbol {\beta }}=X(S\mathbf {y} )=(XS)\mathbf {y}

es exactamente la proyección ortogonal buscada sobre una imagen de X (vea la imagen a continuación y note que, como se explica en la siguiente sección, la imagen de X es solo un subespacio generado por vectores columna de X ). A continuación se describen algunas formas populares de encontrar dicha matriz S. $\mathbf {y}$

Invertir la matriz de las ecuaciones normales

La ecuación se conoce como ecuación normal. La solución algebraica de las ecuaciones normales con una matriz de rango completo X ^TX se puede escribir como $(\mathbf {X} ^{\rm {T}}\mathbf {X} )\beta =\mathbf {X} ^{\rm {T}}y$

{\hat {\boldsymbol {\beta }}}=(\mathbf {X} ^{\rm {T}}\mathbf {X} )^{-1}\mathbf {X} ^{\rm {T}}\mathbf {y} =\mathbf {X} ^{+}\mathbf {y}

donde X ⁺ es la pseudoinversa de Moore–Penrose de X . Aunque esta ecuación es correcta y puede funcionar en muchas aplicaciones, no es computacionalmente eficiente invertir la matriz de ecuaciones normales (la matriz de Gram ). Una excepción ocurre en el suavizado numérico y la diferenciación donde se requiere una expresión analítica.

Si la matriz X ^TX está bien condicionada y es definida positiva , lo que implica que tiene rango completo , las ecuaciones normales se pueden resolver directamente utilizando la descomposición de Cholesky R ^TR , donde R es una matriz triangular superior , dando:

R^{\rm {T}}R{\hat {\boldsymbol {\beta }}}=X^{\rm {T}}\mathbf {y} .

La solución se obtiene en dos etapas, una etapa de sustitución hacia adelante , resolviendo z :

R^{\rm {T}}\mathbf {z} = X^{\rm {T}}\mathbf {y} ,

seguido de una sustitución hacia atrás, resolviendo : ${\sombrero {\boldsymbol {\beta }}}$

R{\hat {\boldsymbol {\beta }}}=\mathbf {z} .

Ambas sustituciones se ven facilitadas por la naturaleza triangular de R.

Métodos de descomposición ortogonal

Los métodos de descomposición ortogonal para resolver el problema de mínimos cuadrados son más lentos que el método de ecuaciones normales, pero son numéricamente más estables porque evitan la formación del producto X ^TX .

Los residuos se escriben en notación matricial como

\mathbf {r} =\mathbf {y} -X{\hat {\boldsymbol {\beta }}}.

La matriz X se somete a una descomposición ortogonal, por ejemplo, la descomposición QR como sigue.

X=Q{\begin{pmatrix}R\\0\end{pmatrix}}\

donde Q es una matriz ortogonal m × m ( Q ^TQ=I ) y R es una matriz triangular superior n × n con . $r_{ii}>0$

El vector residual se multiplica por la izquierda por Q ^T .

Q^{\rm {T}}\mathbf {r} =Q^{\rm {T}}\mathbf {y} -\left(Q^{\rm {T}}Q\right){\begin{pmatrix}R\\0\end{pmatrix}}{\hat {\boldsymbol {\beta }}}={\begin{bmatrix}\left(Q^{\rm {T}}\mathbf {y} \right)_{n}-R{\hat {\boldsymbol {\beta }}}\\\left(Q^{\rm {T}}\mathbf {y} \right)_{mn}\end{bmatrix}}={\begin{bmatrix}\mathbf {u} \\\mathbf {v} \end{bmatrix}}

Como Q es ortogonal , la suma de los cuadrados de los residuos, s , puede escribirse como:

s=\|\mathbf {r} \|^{2}=\mathbf {r} ^{\rm {T}}\mathbf {r} =\mathbf {r} ^{\rm {T}}QQ^{\rm {T}}\mathbf {r} =\mathbf {u} ^{\rm {T}}\mathbf {u} +\mathbf {v} ^{\rm {T}}\mathbf {v}

Como v no depende de β , el valor mínimo de s se alcanza cuando el bloque superior, u , es cero. Por lo tanto, los parámetros se encuentran resolviendo:

R{\hat {\boldsymbol {\beta }}}=\left(Q^{\rm {T}}\mathbf {y} \right)_{n}.

Estas ecuaciones se resuelven fácilmente ya que R es triangular superior.

Una descomposición alternativa de X es la descomposición en valores singulares (SVD) ^[1]

X=U\Sigma V^{\rm {T}}\

donde U es una matriz ortogonal de m por m , V es una matriz ortogonal de n por n y es una matriz de m por n con todos sus elementos fuera de la diagonal principal iguales a 0. La pseudoinversa de se obtiene fácilmente invirtiendo sus elementos diagonales distintos de cero y transponiendo. Por lo tanto, ${\estilo de visualización \Sigma}$ ${\estilo de visualización \Sigma}$

\mathbf {X} \mathbf {X} ^{+}=U\Sigma V^{\rm {T}}V\Sigma ^{+}U^{\rm {T}}=UPU^{\rm {T}},

donde P se obtiene reemplazando sus elementos diagonales distintos de cero por unos. Dado que (propiedad de pseudoinversa), la matriz es una proyección ortogonal sobre la imagen (espacio de columnas) de X . De acuerdo con un enfoque general descrito en la introducción anterior (hallar XS que es una proyección ortogonal), ${\estilo de visualización \Sigma}$ $(\mathbf {X} \mathbf {X} ^{+})^{*}=\mathbf {X} \mathbf {X} ^{+}$ $UPU^{\rm {T}}$

S=\mathbf {X} ^{+}

y por lo tanto,

\beta =V\Sigma ^{+}U^{\rm {T}}\mathbf {y}

es una solución de un problema de mínimos cuadrados. Este método es el más intensivo en términos computacionales, pero es particularmente útil si la matriz de ecuaciones normales, X ^TX , está muy mal condicionada (es decir, si su número de condición multiplicado por el error de redondeo relativo de la máquina es apreciablemente grande). En ese caso, incluir los valores singulares más pequeños en la inversión simplemente agrega ruido numérico a la solución. Esto se puede solucionar con el enfoque SVD truncado, que brinda una respuesta más estable y exacta, al establecer explícitamente en cero todos los valores singulares por debajo de un cierto umbral y, por lo tanto, ignorarlos, un proceso estrechamente relacionado con el análisis factorial .

Discusión

Los métodos numéricos para los mínimos cuadrados lineales son importantes porque los modelos de regresión lineal se encuentran entre los tipos de modelos más importantes, tanto como modelos estadísticos formales como para la exploración de conjuntos de datos. La mayoría de los paquetes informáticos estadísticos contienen funciones para el análisis de regresión que utilizan cálculos de mínimos cuadrados lineales. Por lo tanto, es apropiado que se haya dedicado un esfuerzo considerable a la tarea de garantizar que estos cálculos se realicen de manera eficiente y teniendo debidamente en cuenta el error de redondeo .

Los análisis estadísticos individuales rara vez se realizan de forma aislada, sino que forman parte de una secuencia de pasos de investigación. Algunos de los temas involucrados en la consideración de métodos numéricos para mínimos cuadrados lineales se relacionan con este punto. Por lo tanto, se pueden abordar temas importantes

Cálculos en los que se consideran varios modelos similares, y a menudo anidados , para el mismo conjunto de datos. Es decir, en los que se deben considerar modelos con la misma variable dependiente pero diferentes conjuntos de variables independientes , para esencialmente el mismo conjunto de puntos de datos.
Cálculos para análisis que ocurren en una secuencia, a medida que aumenta el número de puntos de datos.
Consideraciones especiales para conjuntos de datos muy extensos.

El ajuste de modelos lineales por mínimos cuadrados a menudo, pero no siempre, surge en el contexto del análisis estadístico . Por lo tanto, puede ser importante que las consideraciones de eficiencia computacional para tales problemas se extiendan a todas las cantidades auxiliares requeridas para tales análisis y no se limiten a la solución formal del problema de mínimos cuadrados lineales.

Los cálculos matriciales, como cualquier otro, se ven afectados por errores de redondeo . Wilkinson proporcionó un primer resumen de estos efectos, en relación con la elección de métodos de cálculo para la inversión de matrices. ^[2]

Véase también

Referencias

^ Lawson, CL; Hanson, RJ (1974). Solución de problemas de mínimos cuadrados . Englewood Cliffs, NJ: Prentice-Hall. ISBN 0-13-822585-0.
^ Wilkinson, JH (1963) "Capítulo 3: Cálculos matriciales", Errores de redondeo en procesos algebraicos , Londres: Her Majesty's Stationery Office (Laboratorio Nacional de Física, Notas sobre Ciencias Aplicadas, N.º 32)

Lectura adicional

Ake Björck (1996), Métodos numéricos para problemas de mínimos cuadrados , SIAM.
Ake Björck (2024), Métodos numéricos para problemas de mínimos cuadrados: segunda edición , SIAM, ISBN 978-1-61197-794-3.
RW Farebrother, Cálculos de mínimos cuadrados lineales , CRC Press, 1988.
Barlow, Jesse L. (1993), "Capítulo 9: Aspectos numéricos de la resolución de problemas de mínimos cuadrados lineales", en Rao, CR (ed.), Computational Statistics , Handbook of Statistics, vol. 9, North-Holland, ISBN 0-444-88096-8
Björck, Åke (1996). Métodos numéricos para problemas de mínimos cuadrados . Filadelfia: SIAM. ISBN 0-89871-360-9.
Goodall, Colin R. (1993), "Capítulo 13: Cálculo utilizando la descomposición QR", en Rao, CR (ed.), Computational Statistics , Handbook of Statistics, vol. 9, North-Holland, ISBN 0-444-88096-8
Laboratorio Nacional de Física (1961), "Capítulo 1: Ecuaciones lineales y matrices: métodos directos", Métodos de computación modernos , Notas sobre ciencia aplicada, vol. 16 (2.ª ed.), Her Majesty's Stationery Office
Laboratorio Nacional de Física (1961), "Capítulo 2: Ecuaciones lineales y matrices: métodos directos en computadoras automáticas", Métodos de computación modernos , Notas sobre ciencia aplicada, vol. 16 (2.ª ed.), Her Majesty's Stationery Office