stringtranslate.com

Mínimos cuadrados totales

El caso bivariado (regresión de Deming) de mínimos cuadrados totales. Las líneas rojas muestran el error tanto en x como en y . Esto es diferente del método tradicional de mínimos cuadrados que mide el error paralelo al eje y . El caso mostrado, con desviaciones medidas perpendicularmente, surge cuando los errores en xey tienen varianzas iguales.

En estadística aplicada , los mínimos cuadrados totales son un tipo de regresión de errores en variables , una técnica de modelado de datos de mínimos cuadrados en la que se tienen en cuenta los errores de observación tanto en variables dependientes como independientes. Es una generalización de la regresión de Deming y también de la regresión ortogonal , y puede aplicarse tanto a modelos lineales como no lineales.

La aproximación de mínimos cuadrados totales de los datos es genéricamente equivalente a la mejor aproximación de bajo rango , según la norma de Frobenius , de la matriz de datos. [1]

Modelo lineal

Fondo

En el método de mínimos cuadrados de modelado de datos, la función objetivo , S ,

se minimiza, donde r es el vector de residuos y W es una matriz de ponderación. En mínimos cuadrados lineales, el modelo contiene ecuaciones que son lineales en los parámetros que aparecen en el vector de parámetros , por lo que los residuos vienen dados por

Hay m observaciones en y y n parámetros en β con m > n . X es una matriz m × n cuyos elementos son constantes o funciones de las variables independientes, x . La matriz de ponderaciones W es, idealmente, la inversa de la matriz de varianza-covarianza de las observaciones y . Se supone que las variables independientes están libres de errores. Las estimaciones de los parámetros se encuentran estableciendo las ecuaciones de gradiente en cero, lo que da como resultado las ecuaciones normales [nota 1]

Permitir errores de observación en todas las variables.

Ahora supongamos que tanto x como y se observan sujetos a error, con matrices de varianza-covarianza y respectivamente. En este caso la función objetivo se puede escribir como

donde y son los residuos en x e y respectivamente. Claramente [ se necesita más explicación ] estos residuos no pueden ser independientes entre sí, pero deben estar restringidos por algún tipo de relación. Al escribir la función del modelo como , las restricciones se expresan mediante m ecuaciones de condición. [2]

Por tanto, el problema es minimizar la función objetivo sujeta a las m restricciones. Se resuelve mediante el uso de multiplicadores de Lagrange . Después de algunas manipulaciones algebraicas, [3] se obtiene el resultado.

o, alternativamente, donde M es la matriz de varianza-covarianza relativa a las variables independientes y dependientes.

Ejemplo

Cuando los errores de datos no están correlacionados, todas las matrices M y W son diagonales. Luego, tomemos el ejemplo del ajuste en línea recta.

en este caso

mostrando cómo la varianza en el i- ésimo punto está determinada por las varianzas de las variables independientes y dependientes y por el modelo que se utiliza para ajustar los datos. La expresión se puede generalizar observando que el parámetro es la pendiente de la recta.

Una expresión de este tipo se utiliza para ajustar datos de valoración de pH donde un pequeño error en x se traduce en un gran error en y cuando la pendiente es grande.

Punto de vista algebraico

Como demostraron en 1980 Golub y Van Loan, el problema de TLS no tiene solución en general. [4] A continuación se considera el caso simple en el que existe una solución única sin hacer suposiciones particulares.

El cálculo del TLS mediante descomposición en valores singulares (SVD) se describe en textos estándar. [5] Podemos resolver la ecuación.

para B donde X es m -por- n e Y es m -por- k . [nota 2]

Es decir, buscamos encontrar B que minimice las matrices de error E y F para X e Y respectivamente. Eso es,

donde es la matriz aumentada con E y F lado a lado y es la norma de Frobenius , la raíz cuadrada de la suma de los cuadrados de todas las entradas en una matriz y, de manera equivalente, la raíz cuadrada de la suma de los cuadrados de las longitudes de las filas o columnas de la matriz.

Esto se puede reescribir como

¿ Dónde está la matriz identidad? El objetivo entonces es encontrar que reduce el rango de por k . Definir como la descomposición en valores singulares de la matriz aumentada .

donde V se divide en bloques correspondientes a la forma de X e Y.

Utilizando el teorema de Eckart-Young , la aproximación que minimiza la norma del error es tal que las matrices y no cambian, mientras que los valores singulares más pequeños se reemplazan por ceros. Es decir, queremos

entonces por linealidad,

Luego podemos eliminar bloques de las matrices U y Σ, simplificando a

Esto proporciona E y F de modo que

Ahora bien, si no es singular, lo cual no siempre es el caso (tenga en cuenta que el comportamiento de TLS cuando es singular aún no se comprende bien), podemos multiplicar ambos lados por para llevar el bloque inferior de la matriz derecha a la identidad negativa. dando [6]

y entonces

Una implementación ingenua de GNU Octave de esto es:

función  B = tls ( X, Y )  [ mn ] = tamaño ( X ) ; % n es el ancho de X (X es m por n) Z = [ X Y ]; % Z es X aumentado con Y. [ U S V ] = svd ( Z , 0 ); % encuentra el SVD de Z. VXY = V ( 1 : n , 1 + n : end ); % Tome el bloque de V que consta de las primeras n filas y la n+1 hasta la última columna VYY = V ( 1 + n : fin , 1 + n : fin ); % Tome el bloque inferior derecho de V. B = - VXY / VYY ;                          fin

La forma descrita anteriormente de resolver el problema, que requiere que la matriz sea no singular, puede ampliarse ligeramente mediante el llamado algoritmo TLS clásico . [7]

Cálculo

La implementación estándar del algoritmo TLS clásico está disponible a través de Netlib, ver también. [8] [9] Todas las implementaciones modernas basadas, por ejemplo, en la resolución de una secuencia de problemas de mínimos cuadrados ordinarios, se aproximan a la matriz (indicada en la literatura), como la introdujeron Van Huffel y Vandewalle. Vale la pena señalar que , sin embargo, en muchos casos esta no es la solución TLS . [10] [11]

Modelo no lineal

Para sistemas no lineales, un razonamiento similar muestra que las ecuaciones normales para un ciclo de iteración se pueden escribir como

¿Dónde está la matriz jacobiana ?

Interpretación geométrica

Cuando la variable independiente no tiene errores, un residual representa la distancia "vertical" entre el punto de datos observado y la curva (o superficie) ajustada. En mínimos cuadrados totales, un residual representa la distancia entre un punto de datos y la curva ajustada medida en alguna dirección. De hecho, si ambas variables se miden en las mismas unidades y los errores en ambas variables son los mismos, entonces el residual representa la distancia más corta entre el punto de datos y la curva ajustada , es decir, el vector residual es perpendicular a la tangente de La curva. Por esta razón, este tipo de regresión a veces se denomina regresión euclidiana bidimensional (Stein, 1983) [12] o regresión ortogonal .

Métodos invariantes de escala

Surge una seria dificultad si las variables no se miden en las mismas unidades. Primero considere medir la distancia entre un punto de datos y la línea: ¿cuáles son las unidades de medida para esta distancia? Si consideramos medir distancias basándonos en el teorema de Pitágoras, entonces está claro que sumaremos cantidades medidas en diferentes unidades, lo cual no tiene sentido. En segundo lugar, si reescalamos una de las variables, por ejemplo, medimos en gramos en lugar de kilogramos, entonces terminaremos con resultados diferentes (una línea diferente). Para evitar estos problemas, a veces se sugiere convertir a variables adimensionales; esto puede denominarse normalización o estandarización. Sin embargo, hay varias maneras de hacerlo, y éstas conducen a modelos ajustados que no son equivalentes entre sí. Un enfoque consiste en normalizar mediante una precisión de medición conocida (o estimada), minimizando así la distancia de Mahalanobis desde los puntos hasta la línea, proporcionando una solución de máxima verosimilitud ; [ cita necesaria ] las precisiones desconocidas se pueden encontrar mediante análisis de varianza .

En resumen, los mínimos cuadrados totales no tienen la propiedad de invariancia unitaria, es decir, no son invariantes de escala . Para un modelo significativo requerimos que esta propiedad se cumpla. Un camino a seguir es darse cuenta de que los residuos (distancias) medidos en diferentes unidades se pueden combinar si se utiliza la multiplicación en lugar de la suma. Considere ajustar una línea: para cada punto de datos, el producto de los residuos verticales y horizontales es igual al doble del área del triángulo formado por las líneas residuales y la línea ajustada. Elegimos la recta que minimiza la suma de estas áreas. El premio Nobel Paul Samuelson demostró en 1942 que, en dos dimensiones, es la única línea expresable únicamente en términos de las razones de las desviaciones estándar y el coeficiente de correlación que (1) se ajusta a la ecuación correcta cuando las observaciones caen en una línea recta, ( 2) exhibe invariancia de escala y (3) exhibe invariancia bajo intercambio de variables. [13] Esta solución ha sido redescubierta en diferentes disciplinas y se la conoce como eje mayor estandarizado (Ricker 1975, Warton et al., 2006), [14] [15] el eje mayor reducido , la relación funcional media geométrica (Draper y Smith, 1998), [16] regresión de mínimos productos , regresión diagonal , línea de correlación orgánica y línea de mínimas áreas (Tofallis, 2002). [17]

Tofallis (2015, 2023) [18] [19] ha ampliado este enfoque para abordar múltiples variables. Los cálculos son más simples que los de mínimos cuadrados totales, ya que solo requieren conocimiento de las covarianzas y se pueden calcular utilizando funciones de hoja de cálculo estándar.

Ver también

Notas

  1. ^ Una forma alternativa es , ¿dónde está el cambio de parámetro a partir de una estimación inicial de y es la diferencia entre y y el valor calculado utilizando el valor inicial de?
  2. ^ La notación XB  ≈  Y se utiliza aquí para reflejar la notación utilizada en la parte anterior del artículo. En la literatura computacional, el problema se ha presentado más comúnmente como AX  ≈  B , es decir, con la letra X utilizada para la matriz n por k de coeficientes de regresión desconocidos.

Referencias

  1. ^ I. Markovsky y S. Van Huffel , Descripción general de los métodos de mínimos cuadrados totales. Procesamiento de señales, vol. 87, págs. 2283–2302, 2007. preimpresión
  2. ^ WE Deming, Ajuste estadístico de datos, Wiley, 1943
  3. ^ Gans, Peter (1992). Ajuste de datos en las ciencias químicas. Wiley. ISBN 9780471934127. Consultado el 4 de diciembre de 2012 .
  4. ^ GH Golub y CF Van Loan, Un análisis del problema de mínimos cuadrados totales. Número. Anal., 17, 1980, págs. 883–893.
  5. ^ Golub, gen H .; Préstamo de Van, Charles F. (1996). Cálculos matriciales (3ª ed.). Prensa de la Universidad Johns Hopkins .págs.596.
  6. ^ Bjõrck, Ake (1996) Métodos numéricos para problemas de mínimos cuadrados , Sociedad de Matemáticas Industriales y Aplicadas. ISBN 978-0898713602 [ página necesaria ] 
  7. ^ S. Van Huffel y J. Vandewalle (1991) Los problemas de mínimos cuadrados totales: aspectos computacionales y análisis . Publicaciones SIAM, Filadelfia PA.
  8. ^ S. Van Huffel , Programas Fortran 77 documentados del algoritmo de mínimos cuadrados totales clásico extendido, el algoritmo de descomposición parcial de valores singulares y el algoritmo de mínimos cuadrados totales parciales, Informe interno ESAT-KUL 88/1, ESAT Lab., Departamento de Electricidad Ingeniería, Katholieke Universiteit Leuven, 1988.
  9. ^ S. Van Huffel , El algoritmo clásico extendido de mínimos cuadrados totales, J. Comput. Aplica. Math., 25, págs. 111-119, 1989.
  10. ^ M. Plešinger, El problema de los mínimos cuadrados totales y la reducción de datos en AX ≈ B. Tesis doctoral, TU de Liberec e Instituto de Ciencias de la Computación, AS CR Praga, 2008. Ph.D. Tesis
  11. ^ I. Hnětynková, M. Plešinger, DM Sima, Z. Strakoš y S. Van Huffel , El problema de mínimos cuadrados totales en AX ≈ B. Una nueva clasificación con relación a las obras clásicas. SIMAX vol. 32 número 3 (2011), págs. 748–770.
  12. ^ Stein, Yaakov J. "Regresión euclidiana bidimensional" (PDF) . {{cite journal}}: Citar diario requiere |journal=( ayuda )
  13. ^ Samuelson, Paul A. (1942). "Una nota sobre regresiones alternativas". Econométrica . 10 (1): 80–83. doi :10.2307/1907024. JSTOR  1907024.
  14. ^ Ricker, NOSOTROS (1975). "Una nota sobre los comentarios del profesor Jolicoeur". Revista de la Junta de Investigación Pesquera de Canadá . 32 (8): 1494-1498. doi :10.1139/f75-172.
  15. ^ Warton, David I.; Wright, Ian J.; Falster, Daniel S.; Westoby, Mark (2006). "Métodos bivariados de ajuste de líneas para alometría". Reseñas biológicas . 81 (2): 259–291. CiteSeerX 10.1.1.461.9154 . doi :10.1017/S1464793106007007. PMID  16573844. S2CID  16462731. 
  16. ^ Draper, NR y Smith, H. Análisis de regresión aplicada , tercera edición, págs. 1998
  17. ^ Tofallis, Chris (2002). "Ajuste del modelo para múltiples variables minimizando la desviación media geométrica". En Van Huffel, Sabine ; Lemmerling, P. (eds.). Modelado de mínimos cuadrados totales y errores en variables: análisis, algoritmos y aplicaciones . Dordrecht: Publicación académica de Kluwer. ISBN 978-1402004766. SSRN  1077322.
  18. ^ Tofallis, Chris (2015). "Ajustar ecuaciones a datos con la relación de correlación perfecta". SSRN  2707593.
  19. ^ Tofallis, C. (2023). Ajuste imparcial de una ecuación a los datos. Matemáticas, 11(18), 3957. https://ssrn.com/abstract=4556739 https://doi.org/10.3390/math11183957

Otros