Mínimos cuadrados totales

En estadística aplicada , los mínimos cuadrados totales son un tipo de regresión de errores en las variables , una técnica de modelado de datos de mínimos cuadrados en la que se tienen en cuenta los errores de observación tanto en las variables dependientes como en las independientes. Es una generalización de la regresión de Deming y también de la regresión ortogonal , y se puede aplicar tanto a modelos lineales como no lineales.

La aproximación de mínimos cuadrados totales de los datos es genéricamente equivalente a la mejor aproximación de bajo rango de la matriz de datos según la norma de Frobenius . ^[1]

Modelo lineal

Fondo

En el método de mínimos cuadrados de modelado de datos, la función objetivo , S ,

S=\mathbf {r^{T}Wr} ,

se minimiza, donde r es el vector de residuos y W es una matriz de ponderación. En los mínimos cuadrados lineales, el modelo contiene ecuaciones que son lineales en los parámetros que aparecen en el vector de parámetros , por lo que los residuos están dados por ${\boldsymbol {\beta }}$

\mathbf {r=yX{\boldsymbol {\beta }}} .

Hay m observaciones en y y n parámetros en β con m > n . X es una matriz m × n cuyos elementos son constantes o funciones de las variables independientes, x . La matriz de ponderación W es, idealmente, la inversa de la matriz de varianza-covarianza de las observaciones y . Se supone que las variables independientes están libres de errores. Las estimaciones de los parámetros se obtienen fijando las ecuaciones de gradiente en cero, lo que da como resultado las ecuaciones normales ^{[nota 1]} $\mathbf {M}_{y}$

\mathbf {X^{T}WX{\boldsymbol {\beta }}=X^{T}Wy} .

Permitir errores de observación en todas las variables

Ahora, supongamos que tanto x como y se observan sujetos a error, con matrices de varianza-covarianza y respectivamente. En este caso, la función objetivo se puede escribir como $\mathbf {M}_{x}$ $\mathbf {M}_{y}$

S=\mathbf {r_{x}^{T}M_{x}^{-1}r_{x}+r_{y}^{T}M_{y}^{-1}r_{y}} ,

donde y son los residuos en x e y respectivamente. Claramente ^[^{se necesita más explicación}^] estos residuos no pueden ser independientes entre sí, sino que deben estar restringidos por algún tipo de relación. Escribiendo la función del modelo como , las restricciones se expresan mediante m ecuaciones de condición. ^[2] $\mathbf {r} _{x}$ $\mathbf {r} _{y}$ $\mathbf {f(r_{x},r_{y},{\boldsymbol {\beta }})}$

\mathbf {F=\Delta y-{\frac {\partial f}{\partial r_{x}}}r_{x}-{\frac {\partial f}{\partial r_{y}}}r_{y}-X\Delta {\boldsymbol {\beta }}=0} .

Por lo tanto, el problema consiste en minimizar la función objetivo sujeta a las restricciones m . Se resuelve mediante el uso de multiplicadores de Lagrange . Después de algunas manipulaciones algebraicas, ^[3] se obtiene el resultado.

\mathbf {X^{T}M^{-1}X\Delta {\boldsymbol {\beta }}=X^{T}M^{-1}\Delta y} ,

o alternativamente donde M es la matriz de varianza-covarianza relativa a las variables independientes y dependientes. $\mathbf {X^{T}M^{-1}X{\boldsymbol {\beta }}=X^{T}M^{-1}y} ,$

\mathbf {M=K_{x}M_{x}K_{x}^{T}+K_{y}M_{y}K_{y}^{T};\ K_{x}=-{\frac {\partial f}{\partial r_{x}}},\ K_{y}=-{\frac {\partial f}{\partial r_{y}}}} .

Ejemplo

Cuando los errores de datos no están correlacionados, todas las matrices M y W son diagonales. Tomemos entonces el ejemplo del ajuste de línea recta.

f(x_{i},\beta )=\alpha +\beta x_{i}

en este caso

M_{ii}=\sigma _{y,i}^{2}+\beta ^{2}\sigma _{x,i}^{2}

que muestra cómo la varianza en el punto i está determinada por las varianzas de las variables dependientes e independientes y por el modelo que se utiliza para ajustar los datos. La expresión se puede generalizar observando que el parámetro es la pendiente de la línea. $\beta$

M_{ii}=\sigma _{y,i}^{2}+\left({\frac {dy}{dx}}\right)_{i}^{2}\sigma _{x,i}^{2}

Una expresión de este tipo se utiliza para ajustar datos de titulación de pH, donde un pequeño error en x se traduce en un gran error en y cuando la pendiente es grande.

Punto de vista algebraico

Como lo demostraron en 1980 Golub y Van Loan, el problema TLS no tiene una solución en general. ^[4] A continuación se considera el caso simple donde existe una solución única sin hacer ninguna suposición particular.

El cálculo de la TLS mediante descomposición en valores singulares (SVD) se describe en textos estándar. ^[5] Podemos resolver la ecuación

XB\approx Y

para B donde X es m -por- n e Y es m -por- k . ^{[nota 2]}

Es decir, buscamos encontrar B que minimice las matrices de error E y F para X e Y respectivamente. Es decir,

\mathrm {argmin} _{B,E,F}\|[E\;F]\|_{F},\qquad (X+E)B=Y+F

donde es la matriz aumentada con E y F una al lado de la otra y es la norma de Frobenius , la raíz cuadrada de la suma de los cuadrados de todas las entradas en una matriz y, por lo tanto, equivalentemente, la raíz cuadrada de la suma de los cuadrados de las longitudes de las filas o columnas de la matriz. $[E\;F]$ $\|\cdot \|_{F}$

Esto se puede reescribir como

[(X+E)\;(Y+F)]{\begin{bmatrix}B\\-I_{k}\end{bmatrix}}=0.

donde es la matriz identidad. El objetivo es entonces encontrar que reduce el rango de en k . Defina como la descomposición en valores singulares de la matriz aumentada . $I_{k}$ $k\times k$ $[E\;F]$ $[X\;Y]$ $[U][\Sigma ][V]^{*}$ $[X\;Y]$

[X\;Y]=[U_{X}\;U_{Y}]{\begin{bmatrix}\Sigma _{X}&0\\0&\Sigma _{Y}\end{bmatrix}}{\begin{bmatrix}V_{XX}&V_{XY}\\V_{YX}&V_{YY}\end{bmatrix}}^{*}=[U_{X}\;U_{Y}]{\begin{bmatrix}\Sigma _{X}&0\\0&\Sigma _{Y}\end{bmatrix}}{\begin{bmatrix}V_{XX}^{*}&V_{YX}^{*}\\V_{XY}^{*}&V_{YY}^{*}\end{bmatrix}}

donde V se divide en bloques correspondientes a la forma de X e Y.

Usando el teorema de Eckart-Young , la aproximación que minimiza la norma del error es tal que las matrices y no cambian, mientras que los valores singulares más pequeños se reemplazan por ceros. Es decir, queremos $U$ $V$ $k$

[(X+E)\;(Y+F)]=[U_{X}\;U_{Y}]{\begin{bmatrix}\Sigma _{X}&0\\0&0_{k\times k}\end{bmatrix}}{\begin{bmatrix}V_{XX}&V_{XY}\\V_{YX}&V_{YY}\end{bmatrix}}^{*}

Entonces por linealidad,

[E\;F]=-[U_{X}\;U_{Y}]{\begin{bmatrix}0_{n\times n}&0\\0&\Sigma _{Y}\end{bmatrix}}{\begin{bmatrix}V_{XX}&V_{XY}\\V_{YX}&V_{YY}\end{bmatrix}}^{*}.

Luego podemos eliminar bloques de las matrices U y Σ, simplificando a

[E\;F]=-U_{Y}\Sigma _{Y}{\begin{bmatrix}V_{XY}\\V_{YY}\end{bmatrix}}^{*}=-[X\;Y]{\begin{bmatrix}V_{XY}\\V_{YY}\end{bmatrix}}{\begin{bmatrix}V_{XY}\\V_{YY}\end{bmatrix}}^{*}.

Esto proporciona E y F de modo que

[(X+E)\;(Y+F)]{\begin{bmatrix}V_{XY}\\V_{YY}\end{bmatrix}}=0.

Ahora bien, si no es singular, lo que no siempre es el caso (nótese que el comportamiento de TLS cuando es singular aún no se entiende bien), podemos entonces multiplicar a la derecha ambos lados por para llevar el bloque inferior de la matriz derecha a la identidad negativa, obteniendo ^[6] $V_{YY}$ $V_{YY}$ $-V_{YY}^{-1}$

[(X+E)\;(Y+F)]{\begin{bmatrix}-V_{XY}V_{YY}^{-1}\\-V_{YY}V_{YY}^{-1}\end{bmatrix}}=[(X+E)\;(Y+F)]{\begin{bmatrix}B\\-I_{k}\end{bmatrix}}=0,

y entonces

B=-V_{XY}V_{YY}^{-1}.

Una implementación ingenua de GNU Octave de esto es:

función  B = tls ( X, Y )  [ m n ] = tamaño ( X ); % n es el ancho de X (X es m por n) Z = [ X Y ]; % Z es X aumentado con Y. [ U S V ] = svd ( Z , 0 ); % encuentra la SVD de Z. VXY = V ( 1 : n , 1 + n : fin ); % Toma el bloque de V que consiste en las primeras n filas y las n+1 hasta la última columna VYY = V ( 1 + n : fin , 1 + n : fin ); % Toma el bloque inferior derecho de V. B = - VXY / VYY ;                          fin

La forma descrita anteriormente para resolver el problema, que requiere que la matriz no sea singular, se puede ampliar ligeramente mediante el llamado algoritmo TLS clásico . ^[7] $V_{YY}$

Cálculo

La implementación estándar del algoritmo TLS clásico está disponible a través de Netlib, véase también. ^[8]^[9] Todas las implementaciones modernas basadas, por ejemplo, en la resolución de una secuencia de problemas de mínimos cuadrados ordinarios, aproximan la matriz (denotada en la literatura), como lo introdujeron Van Huffel y Vandewalle. Vale la pena señalar que, sin embargo, esta no es la solución TLS en muchos casos. ^[10]^[11] $B$ $X$ $B$

Modelo no lineal

Para sistemas no lineales, un razonamiento similar muestra que las ecuaciones normales para un ciclo de iteración se pueden escribir como

\mathbf {J^{T}M^{-1}J\Delta {\boldsymbol {\beta }}=J^{T}M^{-1}\Delta y} ,

¿Dónde está la matriz jacobiana ? $\mathbf {J}$

Interpretación geométrica

Cuando la variable independiente está libre de errores, un residuo representa la distancia "vertical" entre el punto de datos observado y la curva ajustada (o superficie). En los mínimos cuadrados totales, un residuo representa la distancia entre un punto de datos y la curva ajustada medida a lo largo de alguna dirección. De hecho, si ambas variables se miden en las mismas unidades y los errores en ambas variables son los mismos, entonces el residuo representa la distancia más corta entre el punto de datos y la curva ajustada , es decir, el vector residual es perpendicular a la tangente de la curva. Por esta razón, este tipo de regresión a veces se denomina regresión euclidiana bidimensional (Stein, 1983) ^[12] o regresión ortogonal .

Métodos invariantes de escala

Una dificultad seria surge si las variables no se miden en las mismas unidades. Primero, consideremos la medición de la distancia entre un punto de datos y la línea: ¿cuáles son las unidades de medida para esta distancia? Si consideramos la medición de la distancia con base en el Teorema de Pitágoras, entonces está claro que estaremos sumando cantidades medidas en diferentes unidades, lo cual no tiene sentido. En segundo lugar, si reescalamos una de las variables, por ejemplo, medimos en gramos en lugar de kilogramos, entonces terminaremos con resultados diferentes (una línea diferente). Para evitar estos problemas, a veces se sugiere que convirtamos a variables adimensionales; esto puede llamarse normalización o estandarización. Sin embargo, hay varias formas de hacer esto, y estas conducen a modelos ajustados que no son equivalentes entre sí. Un enfoque es normalizar por precisión de medición conocida (o estimada), minimizando así la distancia de Mahalanobis desde los puntos hasta la línea, proporcionando una solución de máxima verosimilitud ; ^{[ cita requerida ]} las precisiones desconocidas podrían encontrarse mediante análisis de varianza .

En resumen, los mínimos cuadrados totales no tienen la propiedad de invariancia de unidades, es decir, no son invariantes de escala . Para que un modelo tenga sentido, necesitamos que se cumpla esta propiedad. Una forma de avanzar es darse cuenta de que los residuos (distancias) medidos en diferentes unidades se pueden combinar si se utiliza la multiplicación en lugar de la suma. Consideremos el ajuste de una línea: para cada punto de datos, el producto de los residuos verticales y horizontales es igual al doble del área del triángulo formado por las líneas de residuos y la línea ajustada. Elegimos la línea que minimiza la suma de estas áreas. El premio Nobel Paul Samuelson demostró en 1942 que, en dos dimensiones, es la única línea expresable únicamente en términos de las razones de las desviaciones estándar y el coeficiente de correlación que (1) se ajusta a la ecuación correcta cuando las observaciones caen en una línea recta, (2) exhibe invariancia de escala y (3) exhibe invariancia bajo intercambio de variables. ^[13] Esta solución ha sido redescubierta en diferentes disciplinas y se conoce como eje mayor estandarizado (Ricker 1975, Warton et al., 2006), ^[14]^[15] eje mayor reducido , relación funcional de media geométrica (Draper y Smith, 1998), ^[16] regresión de mínimos productos , regresión diagonal , línea de correlación orgánica y línea de mínimas áreas (Tofallis, 2002). ^[17]

Tofallis (2015, 2023) ^[18]^[19] ha ampliado este enfoque para abordar múltiples variables. Los cálculos son más simples que los de los mínimos cuadrados totales, ya que solo requieren el conocimiento de las covarianzas y se pueden realizar utilizando funciones estándar de hojas de cálculo.

Véase también

Dilución de regresión
Regresión de Deming , un caso especial con dos predictores y errores independientes.
Modelo de errores en las variables
Modelo de Gauss-Helmert
Regresión lineal
Mínimos cuadrados
Análisis de componentes principales
Regresión de componentes principales

Notas

^ Una forma alternativa es , donde es el cambio de parámetro a partir de una estimación inicial de y es la diferencia entre y y el valor calculado utilizando el valor inicial de $\mathbf {X^{T}WX{\boldsymbol {\Delta }}{\boldsymbol {\beta }}=X^{T}W{\boldsymbol {\Delta }}y}$ ${\boldsymbol {\Delta }}{\boldsymbol {\beta }}$ ${\boldsymbol {\beta }}$ ${\boldsymbol {\Delta }}\mathbf {y}$ ${\boldsymbol {\beta }}$
^ La notación XB ≈ Y se utiliza aquí para reflejar la notación utilizada en la parte anterior del artículo. En la literatura computacional, el problema se ha presentado más comúnmente como AX ≈ B , es decir, con la letra X utilizada para la matriz n por k de coeficientes de regresión desconocidos.

Referencias

^ I. Markovsky y S. Van Huffel , Descripción general de los métodos de mínimos cuadrados totales. Procesamiento de señales, vol. 87, págs. 2283–2302, 2007. preimpresión
^ WE Deming, Ajuste estadístico de datos, Wiley, 1943
^ Gans, Peter (1992). Ajuste de datos en las ciencias químicas. Wiley. ISBN 9780471934127. Recuperado el 4 de diciembre de 2012 .
^ GH Golub y CF Van Loan, Un análisis del problema de mínimos cuadrados totales. Numer. Anal., 17, 1980, págs. 883–893.
^ Golub, Gene H. ; Van Loan, Charles F. (1996). Cálculos matriciales (3.ª ed.). The Johns Hopkins University Press .págs. 596.
^ Bjõrck, Ake (1996) Métodos numéricos para problemas de mínimos cuadrados , Sociedad de Matemáticas Industriales y Aplicadas. ISBN 978-0898713602 ^[^{página necesaria}^]
^ S. Van Huffel y J. Vandewalle (1991) Los problemas de mínimos cuadrados totales: aspectos computacionales y análisis . Publicaciones SIAM, Filadelfia PA.
^ S. Van Huffel , Programas Fortran 77 documentados del algoritmo de mínimos cuadrados totales clásico extendido, el algoritmo de descomposición en valores singulares parciales y el algoritmo de mínimos cuadrados totales parciales, Informe interno ESAT-KUL 88/1, Laboratorio ESAT, Departamento de Ingeniería Eléctrica, Katholieke Universiteit Leuven, 1988.
^ S. Van Huffel , El algoritmo clásico extendido de mínimos cuadrados totales, J. Comput. Appl. Math., 25, págs. 111–119, 1989.
^ M. Plešinger, El problema de los mínimos cuadrados totales y la reducción de datos en AX ≈ B. Tesis doctoral, TU de Liberec e Instituto de Ciencias Informáticas, AS CR Praga, 2008. Tesis doctoral
^ I. Hnětynková, M. Plešinger, DM Sima, Z. Strakoš y S. Van Huffel , El problema de mínimos cuadrados totales en AX ≈ B. Una nueva clasificación con relación a los trabajos clásicos. SIMAX vol. 32 número 3 (2011), págs. 748–770.
^ Stein, Yaakov J. "Regresión euclidiana bidimensional" (PDF) . {{cite journal}}: Requiere citar revista |journal=( ayuda )
^ Samuelson, Paul A. (1942). "Una nota sobre regresiones alternativas". Econometrica . 10 (1): 80–83. doi :10.2307/1907024. JSTOR 1907024.
^ Ricker, WE (1975). "Una nota sobre los comentarios del profesor Jolicoeur". Revista de la Junta de Investigación Pesquera de Canadá . 32 (8): 1494–1498. doi :10.1139/f75-172.
^ Warton, David I.; Wright, Ian J.; Falster, Daniel S.; Westoby, Mark (2006). "Métodos de ajuste de línea bivariados para alometría". Biological Reviews . 81 (2): 259–291. CiteSeerX 10.1.1.461.9154 . doi :10.1017/S1464793106007007. PMID 16573844. S2CID 16462731.
^ Draper, NR y Smith, H. Análisis de regresión aplicado , 3.ª edición, págs. 92-96. 1998
^ Tofallis, Chris (2002). "Ajuste de modelos para múltiples variables minimizando la desviación media geométrica". En Van Huffel, Sabine ; Lemmerling, P. (eds.). Mínimos cuadrados totales y modelado de errores en las variables: análisis, algoritmos y aplicaciones . Dordrecht: Kluwer Academic Publ. ISBN 978-1402004766.SSRN1077322 .
^ Tofallis, Chris (2015). "Ajuste de ecuaciones a datos con la relación de correlación perfecta". SSRN 2707593.
^ Tofallis, C. (2023). Ajuste imparcial de una ecuación a los datos. Matemáticas, 11(18), 3957. https://ssrn.com/abstract=4556739 https://doi.org/10.3390/math11183957

Otros

I. Hnětynková, M. Plešinger, DM Sima, Z. Strakoš y S. Van Huffel , El problema de mínimos cuadrados totales en AX ≈ B. Una nueva clasificación con relación a los trabajos clásicos. SIMAX vol. 32 número 3 (2011), págs. 748–770. Disponible como preimpresión.
M. Plešinger, El problema de los mínimos cuadrados totales y la reducción de datos en AX ≈ B. Tesis doctoral, TU de Liberec e Instituto de Ciencias Informáticas, AS CR Praga, 2008. Tesis doctoral
CC Paige, Z. Strakoš, Problemas básicos en sistemas algebraicos lineales. SIAM J. Matrix Anal. Appl. 27, 2006, págs. 861–875. doi :10.1137/040616991
S. Van Huffel y P. Lemmerling, Mínimos cuadrados totales y modelado de errores en las variables: análisis, algoritmos y aplicaciones . Dordrecht, Países Bajos: Kluwer Academic Publishers, 2002.
S. Jo y SW Kim, Filtrado cuadrático medio normalizado consistente con matriz de datos ruidosos. IEEE Trans. Signal Process., vol. 53, núm. 6, págs. 2112–2123, junio de 2005.
RD DeGroat y EM Dowling, El problema de los mínimos cuadrados de los datos y la ecualización de canales. IEEE Trans. Signal Process., vol. 41, núm. 1, págs. 407–411, enero de 1993.
S. Van Huffel y J. Vandewalle, Problemas de mínimos cuadrados totales: aspectos computacionales y análisis. SIAM Publications, Filadelfia, Pensilvania, 1991. doi :10.1137/1.9781611971002
T. Abatzoglou y J. Mendel, Mínimos cuadrados totales restringidos , en Proc. IEEE Int. Conf. Acoust., Speech, Signal Process. (ICASSP'87), abril de 1987, vol. 12, págs. 1485–1488.
P. de Groen Una introducción a los mínimos cuadrados totales , en Nieuw Archief voor Wiskunde, Vierde serie, del 14, 1996, págs. 237–253 arxiv.org.
GH Golub y CF Van Loan, Un análisis del problema de mínimos cuadrados totales. SIAM J. on Numer. Anal., 17, 1980, págs. 883–893. doi :10.1137/0717073
Regresión perpendicular de una recta en MathPages
AR Amiri-Simkooei y S. Jazaeri Mínimos cuadrados totales ponderados formulados por la teoría de mínimos cuadrados estándar , en Journal of Geodetic Science, 2 (2): 113–124, 2012 [1].