donde y están dados y es variable a calcular. Cuando generalmente se da el caso de que ( 1 ) no tiene solución. Por ejemplo, no existe ningún valor de que satisfaga
1problema de mínimos cuadrados.
La solución al problema de mínimos cuadrados ( 1 ) se calcula resolviendo la ecuación normal [1]
Las tres formulaciones principales de mínimos cuadrados lineales son:
Los mínimos cuadrados ordinarios (OLS) son el estimador más común. Las estimaciones MCO se utilizan comúnmente para analizardatos tanto experimentales como observacionales .El método MCO minimiza la suma de los residuos al cuadrado y conduce a una expresión de forma cerrada para el valor estimado del vector de parámetros desconocido β :
donde es un vector cuyo i- ésimo elemento es la i -ésima observación de la variable dependiente , y es una matriz cuyo ij elemento es la i -ésima observación de la j -ésima variable independiente . El estimador es insesgado y consistente si los errores tienen varianza finita y no están correlacionados con los regresores: [2]
donde está la transpuesta de la fila i de la matriz. También es eficiente bajo el supuesto de que los errores tienen varianza finita y son homocedásticos , lo que significa que E[ ε i 2 | x i ] no depende de i . La condición de que los errores no estén correlacionados con los regresores generalmente se cumplirá en un experimento, pero en el caso de datos observacionales, es difícil excluir la posibilidad de una covariable z omitida que esté relacionada tanto con las covariables observadas como con la variable de respuesta. . La existencia de tal covariable generalmente conducirá a una correlación entre los regresores y la variable de respuesta y, por lo tanto, a un estimador inconsistente de β . La condición de homocedasticidad puede fallar tanto con datos experimentales como observacionales. Si el objetivo es la inferencia o el modelado predictivo, el rendimiento de las estimaciones MCO puede ser deficiente si hay multicolinealidad , a menos que el tamaño de la muestra sea grande.
Mínimos cuadrados generalizados (GLS) es una extensión del método OLS, que permite una estimación eficiente de β cuando heteroscedasticidad , correlaciones o ambas están presentes entre los términos de error del modelo, siempre que se conozca la forma de heteroscedasticidad y correlación. independientemente de los datos. Para manejar la heteroscedasticidad cuando los términos de error no están correlacionados entre sí, GLS minimiza un análogo ponderado a la suma de los residuos cuadrados de la regresión MCO, donde el peso para el caso i es inversamente proporcional a var( ε i ). Este caso especial de GLS se denomina "mínimos cuadrados ponderados". La solución GLS a un problema de estimación es
donde Ω es la matriz de covarianza de los errores. Se puede considerar que GLS aplica una transformación lineal a los datos de modo que se cumplan los supuestos de OLS para los datos transformados. Para que se aplique GLS, se debe conocer la estructura de covarianza de los errores hasta una constante multiplicativa.
Formulaciones alternativas
Otras formulaciones incluyen:
Los mínimos cuadrados iterativamente reponderados (IRLS) se utilizan cuando la heterocedasticidad , las correlaciones o ambas están presentes entre los términos de error del modelo, pero cuando se sabe poco sobre la estructura de covarianza de los errores independientemente de los datos. [3] En la primera iteración se realiza MCO, o GLS con estructura de covarianza provisional, y del ajuste se obtienen los residuales. A partir de los residuos normalmente se puede obtener una estimación mejorada de la estructura de covarianza de los errores. Luego se realiza una iteración GLS posterior utilizando esta estimación de la estructura de error para definir las ponderaciones. El proceso puede repetirse hasta alcanzar la convergencia, pero en muchos casos, sólo una iteración es suficiente para lograr una estimación eficiente de β . [4] [5]
La regresión de variables instrumentales (IV) se puede realizar cuando los regresores están correlacionados con los errores. En este caso, necesitamos la existencia de algunas variables instrumentales auxiliares z i tales que E[ z i ε i ] = 0. Si Z es la matriz de instrumentos, entonces el estimador se puede dar en forma cerrada como
La regresión de instrumentos óptimos es una extensión de la regresión IV clásica a la situación donde E[ ε i | z yo ] = 0 .
Mínimos cuadrados totales (TLS) [6] es un enfoque para la estimación de mínimos cuadrados del modelo de regresión lineal que trata las covariables y la variable de respuesta de una manera más geométricamente simétrica que MCO. Es un enfoque para manejar el problema de los "errores en las variables" y, a veces, también se utiliza incluso cuando se supone que las covariables están libres de errores.
Linear Template Fit (LTF) [7] combina una regresión lineal con mínimos cuadrados (generalizados) para determinar el mejor estimador. El ajuste de plantilla lineal aborda el problema frecuente cuando los residuos no se pueden expresar analíticamente o requieren demasiado tiempo para evaluarlos repetidamente, como suele ser el caso en los algoritmos de minimización iterativos. En el ajuste de plantilla lineal, los residuos se estiman a partir de las variables aleatorias y de una aproximación lineal del modelo verdadero subyacente , mientras que el modelo verdadero debe proporcionarse para al menos (donde sea el número de estimadores) valores de referencia distintos β . Luego, la distribución verdadera se aproxima mediante una regresión lineal y los mejores estimadores se obtienen en forma cerrada como
donde denota la matriz plantilla con los valores del modelo conocido o previamente determinado para cualquiera de los valores de referencia β , son las variables aleatorias (por ejemplo, una medición), y la matriz y el vector se calculan a partir de los valores de β . El LTF también se puede expresar para variables aleatorias distribuidas con distribución logarítmica normal . Una generalización del LTF es el ajuste de plantilla cuadrática, que supone una regresión de segundo orden del modelo, requiere predicciones para al menos valores distintos β y encuentra el mejor estimador utilizando el método de Newton .
El porcentaje de mínimos cuadrados se centra en reducir los errores porcentuales, lo cual es útil en el campo de la previsión o el análisis de series de tiempo. También es útil en situaciones donde la variable dependiente tiene un rango amplio sin varianza constante, ya que aquí los residuos más grandes en el extremo superior del rango dominarían si se usara MCO. Cuando el porcentaje o el error relativo se distribuye normalmente, la regresión porcentual de mínimos cuadrados proporciona estimaciones de máxima verosimilitud. La regresión porcentual está vinculada a un modelo de error multiplicativo, mientras que MCO está vinculada a modelos que contienen un término de error aditivo. [8]
Mínimos cuadrados restringidos indica un problema de mínimos cuadrados lineal con restricciones adicionales en la solución.
Función objetiva
En MCO (es decir, asumiendo observaciones no ponderadas), el valor óptimo de la función objetivo se encuentra sustituyendo el vector de coeficientes por la expresión óptima:
Si se supone que los residuos pertenecen a una distribución normal, la función objetivo, al ser una suma de residuos al cuadrado ponderados, pertenecerá a una distribución chi-cuadrado ( ) con m − n grados de libertad . En la siguiente tabla se dan algunos valores percentiles ilustrativos de . [10]
Estos valores pueden utilizarse como criterio estadístico de bondad de ajuste . Cuando se utilizan pesos unitarios, los números deben dividirse por la varianza de una observación.
Para WLS, la función objetivo ordinaria anterior se reemplaza por un promedio ponderado de residuos.
Discusión
En estadística y matemáticas , los mínimos cuadrados lineales son un enfoque para ajustar un modelo matemático o estadístico a los datos en los casos en que el valor idealizado proporcionado por el modelo para cualquier punto de datos se expresa linealmente en términos de los parámetros desconocidos del modelo. El modelo ajustado resultante se puede utilizar para resumir los datos, predecir valores no observados del mismo sistema y comprender los mecanismos que pueden subyacer al sistema.
Matemáticamente, los mínimos cuadrados lineales son el problema de resolver aproximadamente un sistema sobredeterminado de ecuaciones lineales A x = b , donde b no es un elemento del espacio columna de la matriz A . La solución aproximada se realiza como una solución exacta de A x = b' , donde b' es la proyección de b sobre el espacio columna de A . La mejor aproximación es entonces aquella que minimiza la suma de las diferencias al cuadrado entre los valores de los datos y sus correspondientes valores modelados. El enfoque se llama mínimos cuadrados lineales ya que la función asumida es lineal en los parámetros a estimar. Los problemas de mínimos cuadrados lineales son convexos y tienen una solución de forma cerrada que es única, siempre que el número de puntos de datos utilizados para el ajuste sea igual o superior al número de parámetros desconocidos, excepto en situaciones especiales degeneradas. Por el contrario, los problemas de mínimos cuadrados no lineales generalmente deben resolverse mediante un procedimiento iterativo , y los problemas pueden ser no convexos con múltiples óptimos para la función objetivo. Si se dispone de distribuciones previas, incluso un sistema indeterminado puede resolverse utilizando el estimador bayesiano MMSE .
En estadística, los problemas de mínimos cuadrados lineales corresponden a un tipo de modelo estadístico particularmente importante llamado regresión lineal que surge como una forma particular de análisis de regresión . Una forma básica de dicho modelo es el modelo de mínimos cuadrados ordinario . El presente artículo se concentra en los aspectos matemáticos de los problemas de mínimos cuadrados lineales, y en los artículos que acabamos de mencionar se analizan la formulación e interpretación de modelos de regresión estadística y las inferencias estadísticas relacionadas con estos. Consulte el esquema del análisis de regresión para obtener un resumen del tema.
Propiedades
Si los errores experimentales, no están correlacionados, tienen una media de cero y una varianza constante, el teorema de Gauss-Markov establece que el estimador de mínimos cuadrados, tiene la varianza mínima de todos los estimadores que son combinaciones lineales de las observaciones. En este sentido es el mejor estimador u óptimo de los parámetros. Tenga en cuenta en particular que esta propiedad es independiente de la función de distribución estadística de los errores. En otras palabras, la función de distribución de los errores no tiene por qué ser una distribución normal . Sin embargo, para algunas distribuciones de probabilidad, no hay garantía de que la solución de mínimos cuadrados sea posible dadas las observaciones; aun así, en tales casos el mejor estimador es el que es a la vez lineal e insesgado.
Por ejemplo, es fácil demostrar que la media aritmética de un conjunto de medidas de una cantidad es el estimador de mínimos cuadrados del valor de esa cantidad. Si se aplican las condiciones del teorema de Gauss-Markov, la media aritmética es óptima, cualquiera que sea la distribución de los errores de las mediciones.
Sin embargo, en el caso de que los errores experimentales pertenezcan a una distribución normal, el estimador de mínimos cuadrados también es un estimador de máxima verosimilitud . [11]
Estas propiedades sustentan el uso del método de mínimos cuadrados para todo tipo de ajuste de datos, incluso cuando los supuestos no son estrictamente válidos.
Limitaciones
Una suposición subyacente al tratamiento dado anteriormente es que la variable independiente, x , está libre de error. En la práctica, los errores en las mediciones de la variable independiente suelen ser mucho más pequeños que los errores en la variable dependiente y, por tanto, pueden ignorarse. Cuando este no es el caso, se deben utilizar mínimos cuadrados totales o, más generalmente, modelos de errores en variables , o mínimos cuadrados rigurosos . Esto se puede hacer ajustando el esquema de ponderación para tener en cuenta los errores tanto en las variables dependientes como en las independientes y luego siguiendo el procedimiento estándar. [12] [13]
En algunos casos, la matriz de ecuaciones normales (ponderadas) X T X está mal condicionada . Al ajustar polinomios, la matriz de ecuaciones normales es una matriz de Vandermonde . Las matrices de Vandermonde se vuelven cada vez más mal condicionadas a medida que aumenta el orden de la matriz. [ cita necesaria ] En estos casos, la estimación de mínimos cuadrados amplifica el ruido de la medición y puede ser muy inexacta. [ cita necesaria ] En tales casos se pueden aplicar varias técnicas de regularización , la más común de las cuales se llama regresión de crestas . Si se conoce más información sobre los parámetros, por ejemplo, un rango de valores posibles de , entonces se pueden usar varias técnicas para aumentar la estabilidad de la solución. Por ejemplo, consulte mínimos cuadrados restringidos.
Otro inconveniente del estimador de mínimos cuadrados es el hecho de que la norma de los residuos se minimiza, mientras que en algunos casos uno está realmente interesado en obtener un error pequeño en el parámetro , por ejemplo, un valor pequeño de . [ cita necesaria ] Sin embargo, dado que el parámetro verdadero es necesariamente desconocido, esta cantidad no se puede minimizar directamente. Si se conoce una probabilidad previa , entonces se puede utilizar un estimador de Bayes para minimizar el error cuadrático medio . El método de mínimos cuadrados se aplica a menudo cuando no se conoce el a priori. Cuando se estiman varios parámetros de forma conjunta se pueden construir mejores estimadores, efecto conocido como fenómeno de Stein . Por ejemplo, si el error de medición es gaussiano , se conocen varios estimadores que dominan o superan la técnica de mínimos cuadrados; el más conocido de ellos es el estimador de James-Stein . Este es un ejemplo de estimadores de contracción más generales que se han aplicado a problemas de regresión.
La aplicación principal de los mínimos cuadrados lineales es el ajuste de datos . Dado un conjunto de m puntos de datos que consta de valores medidos experimentalmente tomados en m valores de una variable independiente ( pueden ser cantidades escalares o vectoriales), y dada una función modelo con la que se desea encontrar los parámetros tales que la función modelo sea "mejor" se ajusta a los datos. En mínimos cuadrados lineales, la linealidad debe ser con respecto a los parámetros , por lo que
Aquí, las funciones pueden ser no lineales con respecto a la variable x .
Idealmente, la función del modelo se ajusta exactamente a los datos, por lo que
Después de sustituir por y luego por , este problema de minimización se convierte en el problema de minimización cuadrática anterior con
Ejemplo
Un investigador hipotético realiza un experimento y obtiene cuatro puntos de datos: y (que se muestran en rojo en el diagrama de la derecha). Debido al análisis exploratorio de datos o al conocimiento previo del tema, el investigador sospecha que los valores dependen de los valores sistemáticamente. Los valores se suponen exactos, pero contienen cierta incertidumbre o "ruido", debido al fenómeno que se estudia, imperfecciones en las mediciones, etc.
Colocando una línea
Una de las relaciones más simples posibles entre y es una línea . Inicialmente se desconocen la intersección y la pendiente . Al investigador le gustaría encontrar valores de y que hagan que la línea pase por los cuatro puntos de datos. En otras palabras, al investigador le gustaría resolver el sistema de ecuaciones lineales.
Este cálculo se puede expresar en notación matricial de la siguiente manera. El sistema de ecuaciones original es , donde
Montar una parábola
Supongamos que el investigador hipotético desea ajustar una parábola de la forma . Es importante destacar que este modelo sigue siendo lineal en los parámetros desconocidos (ahora solo ), por lo que todavía se aplican los mínimos cuadrados lineales. El sistema de ecuaciones que incorpora residuos es
La suma de los residuos al cuadrado es
En notación matricial, las ecuaciones sin residuos son nuevamente , donde ahora
La figura muestra una extensión para ajustar la parábola de tres parámetros usando una matriz de diseño con tres columnas (una para , y ) y una fila para cada uno de los puntos de datos rojos.
Adaptación de otras curvas y superficies
De manera más general, se pueden tener regresores y un modelo lineal.
^ Weisstein, Eric W. "Ecuación normal". MundoMatemático . Wolframio . Consultado el 18 de diciembre de 2023 .
^ Lai, TL; Robbins, H.; Wei, CZ (1978). "Fuerte consistencia de las estimaciones de mínimos cuadrados en regresión múltiple". PNAS . 75 (7): 3034–3036. Código bibliográfico : 1978PNAS...75.3034L. doi : 10.1073/pnas.75.7.3034 . JSTOR 68164. PMC 392707 . PMID 16592540.
^ del Pino, Guido (1989). "El papel unificador de los mínimos cuadrados iterativos generalizados en algoritmos estadísticos". Ciencia estadística . 4 (4): 394–403. doi : 10.1214/ss/1177012408 . JSTOR 2245853.
^ Carroll, Raymond J. (1982). "Adaptación a la heterocedasticidad en modelos lineales". Los anales de la estadística . 10 (4): 1224-1233. doi : 10.1214/aos/1176345987 . JSTOR 2240725.
^ Cohen, Michael; Dalal, Siddhartha R.; Tukey, John W. (1993). "Regresión de varianza robusta y suavemente heterogénea". Revista de la Royal Statistical Society, Serie C. 42 (2): 339–353. JSTOR 2986237.
^ Nievergelt, Yves (1994). "Mínimos cuadrados totales: regresión de última generación en análisis numérico". Revisión SIAM . 36 (2): 258–264. doi :10.1137/1036055. JSTOR 2132463.
^ Britzger, Daniel (2022). "El ajuste de plantilla lineal". EUR. Física. J.C. 82 (8): 731. arXiv : 2112.01548 . Código Bib : 2022EPJC...82..731B. doi :10.1140/epjc/s10052-022-10581-w. S2CID 244896511.
^ Tofallis, C (2009). "Regresión porcentual de mínimos cuadrados". Revista de métodos estadísticos aplicados modernos . 7 : 526–534. doi :10.2139/ssrn.1406472. hdl : 2299/965 . SSRN 1406472.
^ Hamilton, WC (1964). Estadística en Ciencias Físicas . Nueva York: Ronald Press.
^ Spiegel, Murray R. (1975). Esquema de teoría y problemas de probabilidad y estadística de Schaum . Nueva York: McGraw-Hill. ISBN978-0-585-26739-5.
^ Margenau, Enrique; Murphy, George Moseley (1956). Las Matemáticas de la Física y la Química . Princeton: Van Nostrand.
^ ab Gans, Peter (1992). Ajuste de datos en las Ciencias Químicas . Nueva York: Wiley. ISBN978-0-471-93412-7.
^ Deming, NOSOTROS (1943). Ajuste estadístico de Datos . Nueva York: Wiley.
^ Acton, FS (1959). Análisis de datos en línea recta . Nueva York: Wiley.
^ Invitado, PG (1961). Métodos numéricos de ajuste de curvas . Cambridge: Prensa de la Universidad de Cambridge.[ página necesaria ]
Otras lecturas
Bevington, Philip R.; Robinson, Keith D. (2003). Reducción de Datos y Análisis de Errores para las Ciencias Físicas . McGraw-Hill. ISBN 978-0-07-247227-1.
enlaces externos
Ajuste de mínimos cuadrados - De MathWorld
Polinomio de ajuste de mínimos cuadrados - De MathWorld