stringtranslate.com

mínimos cuadrados

El resultado de ajustar un conjunto de puntos de datos con una función cuadrática
Ajuste cónico de un conjunto de puntos mediante aproximación de mínimos cuadrados

El método de mínimos cuadrados es un método de estimación de parámetros en el análisis de regresión basado en minimizar la suma de los cuadrados de los residuos (siendo un residual la diferencia entre un valor observado y el valor ajustado proporcionado por un modelo) realizados en los resultados de cada individuo. ecuación.

La aplicación más importante es el ajuste de datos . Cuando el problema tiene incertidumbres sustanciales en la variable independiente (la variable x ), entonces los métodos de regresión simple y de mínimos cuadrados tienen problemas; en tales casos, se puede considerar la metodología requerida para ajustar modelos de errores en variables en lugar de la de mínimos cuadrados.

Los problemas de mínimos cuadrados se dividen en dos categorías: mínimos cuadrados lineales u ordinarios y mínimos cuadrados no lineales , dependiendo de si los residuos son lineales o no en todas las incógnitas. El problema de los mínimos cuadrados lineales ocurre en el análisis de regresión estadística ; tiene una solución de forma cerrada . El problema no lineal suele resolverse mediante refinamiento iterativo ; en cada iteración, el sistema se aproxima a uno lineal y, por lo tanto, el cálculo central es similar en ambos casos.

Los mínimos cuadrados polinomiales describen la varianza en una predicción de la variable dependiente en función de la variable independiente y las desviaciones de la curva ajustada.

Cuando las observaciones provienen de una familia exponencial con identidad como su estadística suficiente natural y se cumplen condiciones suaves (por ejemplo, para distribuciones normal , exponencial , Poisson y binomial ), las estimaciones de mínimos cuadrados estandarizadas y las estimaciones de máxima verosimilitud son idénticas. [1] El método de mínimos cuadrados también se puede derivar como método de estimador de momentos.

La siguiente discusión se presenta principalmente en términos de funciones lineales , pero el uso de mínimos cuadrados es válido y práctico para familias de funciones más generales. Además, al aplicar iterativamente la aproximación cuadrática local a la probabilidad (a través de la información de Fisher ), se puede utilizar el método de mínimos cuadrados para ajustar un modelo lineal generalizado .

El método de mínimos cuadrados fue descubierto y publicado oficialmente por Adrien-Marie Legendre (1805), [2] aunque generalmente también se le atribuye a Carl Friedrich Gauss (1809), [3] [4] quien contribuyó con importantes avances teóricos a el método, [4] y es posible que también lo haya utilizado en su trabajo anterior en 1794 y 1795. [5] [4]

Historia

Establecimiento

El método de mínimos cuadrados surgió de los campos de la astronomía y la geodesia , cuando los científicos y matemáticos buscaban proporcionar soluciones a los desafíos de la navegación por los océanos de la Tierra durante la Era de los Descubrimientos . La descripción precisa del comportamiento de los cuerpos celestes fue la clave para que los barcos pudieran navegar en mares abiertos, donde los marineros ya no podían confiar en avistamientos terrestres para navegar.

El método fue la culminación de varios avances que tuvieron lugar durante el transcurso del siglo XVIII: [6]

El método

Carl Friedrich Gauss

La primera exposición clara y concisa del método de mínimos cuadrados fue publicada por Legendre en 1805. [7] La ​​técnica se describe como un procedimiento algebraico para ajustar ecuaciones lineales a datos y Legendre demuestra el nuevo método analizando los mismos datos que Laplace para la forma de la Tierra. Diez años después de la publicación de Legendre, el método de mínimos cuadrados se había adoptado como herramienta estándar en astronomía y geodesia en Francia, Italia y Prusia, lo que constituye una aceptación extraordinariamente rápida de una técnica científica. [6]

En 1809 Carl Friedrich Gauss publicó su método para calcular las órbitas de los cuerpos celestes. En ese trabajo afirmó haber estado en posesión del método de mínimos cuadrados desde 1795. [8] Esto naturalmente llevó a una disputa de prioridad con Legendre. Sin embargo, hay que reconocer que Gauss fue más allá de Legendre y logró conectar el método de mínimos cuadrados con los principios de probabilidad y con la distribución normal . Había logrado completar el programa de Laplace de especificar una forma matemática de la densidad de probabilidad de las observaciones, dependiendo de un número finito de parámetros desconocidos, y definir un método de estimación que minimiza el error de estimación. Gauss demostró que la media aritmética es de hecho la mejor estimación del parámetro de ubicación al cambiar tanto la densidad de probabilidad como el método de estimación. Luego dio la vuelta al problema preguntando qué forma debería tener la densidad y qué método de estimación debería usarse para obtener la media aritmética como estimación del parámetro de ubicación. En este intento, inventó la distribución normal.

Una de las primeras demostraciones de la fuerza del método de Gauss se produjo cuando se utilizó para predecir la ubicación futura del asteroide Ceres recién descubierto . El 1 de enero de 1801, el astrónomo italiano Giuseppe Piazzi descubrió Ceres y pudo seguir su trayectoria durante 40 días antes de que se perdiera bajo el resplandor del Sol. Basándose en estos datos, los astrónomos deseaban determinar la ubicación de Ceres después de que emergiera detrás del Sol sin resolver las complicadas ecuaciones no lineales del movimiento planetario de Kepler . Las únicas predicciones que permitieron con éxito al astrónomo húngaro Franz Xaver von Zach reubicar a Ceres fueron las realizadas por Gauss, de 24 años, utilizando el análisis de mínimos cuadrados.

En 1810, después de leer el trabajo de Gauss, Laplace, después de demostrar el teorema del límite central , lo utilizó para dar una gran muestra de justificación del método de mínimos cuadrados y la distribución normal. En 1822, Gauss pudo afirmar que el método de mínimos cuadrados para el análisis de regresión es óptimo en el sentido de que en un modelo lineal donde los errores tienen una media de cero, no están correlacionados y tienen varianzas iguales, el mejor estimador lineal insesgado de los coeficientes es el estimador de mínimos cuadrados. Este resultado se conoce como teorema de Gauss-Markov .

La idea del análisis de mínimos cuadrados también fue formulada de forma independiente por el estadounidense Robert Adrian en 1808. En los dos siglos siguientes, los investigadores de la teoría de los errores y de la estadística encontraron muchas formas diferentes de implementar los mínimos cuadrados. [9]

Planteamiento del problema

El objetivo consiste en ajustar los parámetros de una función modelo para que se ajuste mejor a un conjunto de datos. Un conjunto de datos simple consta de n puntos (pares de datos) , i = 1,…, n , donde es una variable independiente y una variable dependiente cuyo valor se encuentra mediante observación. La función modelo tiene la forma , donde m parámetros ajustables se mantienen en el vector . El objetivo es encontrar los valores de los parámetros para el modelo que "mejor" se ajuste a los datos. El ajuste de un modelo a un punto de datos se mide por su residual , definido como la diferencia entre el valor observado de la variable dependiente y el valor predicho por el modelo:

Los residuos se trazan frente a los valores correspondientes. Las fluctuaciones aleatorias indican que un modelo lineal es apropiado.

El método de mínimos cuadrados encuentra los valores óptimos de los parámetros minimizando la suma de los residuos cuadrados : [10]

En el caso más simple , el resultado del método de mínimos cuadrados es la media aritmética de los datos de entrada.

Un ejemplo de modelo en dos dimensiones es el de la línea recta. Denotando la intersección con el eje y y la pendiente como , la función del modelo viene dada por . Consulte mínimos cuadrados lineales para ver un ejemplo completamente elaborado de este modelo.

Un punto de datos puede constar de más de una variable independiente. Por ejemplo, cuando se ajusta un plano a un conjunto de medidas de altura, el plano es función de dos variables independientes, x y z , por ejemplo. En el caso más general puede haber una o más variables independientes y una o más variables dependientes en cada punto de datos.

A la derecha hay un gráfico residual que ilustra fluctuaciones aleatorias sobre , lo que indica que un modelo lineal es apropiado. es una variable aleatoria independiente. [10]  

Los residuos se trazan frente a los valores correspondientes. La forma parabólica de las fluctuaciones indica que un modelo parabólico es apropiado.

Si los puntos residuales tuvieran algún tipo de forma y no fluctuaran aleatoriamente, un modelo lineal no sería apropiado. Por ejemplo, si el gráfico residual tuviera una forma parabólica como se ve a la derecha, un modelo parabólico sería apropiado para los datos. Los residuos de un modelo parabólico se pueden calcular mediante . [10]

Limitaciones

Esta formulación de regresión considera sólo errores de observación en la variable dependiente (pero la regresión alternativa de mínimos cuadrados totales puede explicar errores en ambas variables). Hay dos contextos bastante diferentes con implicaciones diferentes:

Resolviendo el problema de mínimos cuadrados

El mínimo de la suma de cuadrados se encuentra estableciendo el gradiente en cero. Dado que el modelo contiene m parámetros, existen m ecuaciones de gradiente:

Las ecuaciones de gradiente se aplican a todos los problemas de mínimos cuadrados. Cada problema particular requiere expresiones particulares para el modelo y sus derivadas parciales . [12]

Mínimos cuadrados lineales

Un modelo de regresión es lineal cuando el modelo comprende una combinación lineal de los parámetros, es decir,

[12]

Dejando y poniendo las variables independientes y dependientes en matrices y , respectivamente, podemos calcular los mínimos cuadrados de la siguiente manera. Tenga en cuenta que es el conjunto de todos los datos. [12] [13]

El gradiente de pérdida es:

Al establecer el gradiente de la pérdida en cero y resolver para , obtenemos: [13] [12]

Mínimos cuadrados no lineales

En algunos casos existe una solución de forma cerrada para un problema de mínimos cuadrados no lineal, pero en general no la hay. En el caso de que no haya una solución de forma cerrada, se utilizan algoritmos numéricos para encontrar el valor de los parámetros que minimiza el objetivo. La mayoría de los algoritmos implican elegir valores iniciales para los parámetros. Luego, los parámetros se refinan iterativamente, es decir, los valores se obtienen por aproximaciones sucesivas:

ken serie de Taylor

El jacobiano J es una función de constantes, la variable independiente y los parámetros, por lo que cambia de una iteración a la siguiente. Los residuos están dados por

Para minimizar la suma de los cuadrados de , la ecuación del gradiente se establece en cero y se resuelve para :

en mecuaciones normales

Las ecuaciones normales se escriben en notación matricial como

Estas son las ecuaciones que definen el algoritmo de Gauss-Newton .

Diferencias entre mínimos cuadrados lineales y no lineales

Estas diferencias deben considerarse siempre que se busque la solución a un problema de mínimos cuadrados no lineal. [12]

Ejemplo

Consideremos un ejemplo sencillo extraído de la física. Un resorte debe obedecer la ley de Hooke , que establece que la extensión de un resorte y es proporcional a la fuerza, F , que se le aplica.

constituye el modelo, donde F es la variable independiente. Para estimar la constante de fuerza , k , realizamos una serie de n mediciones con diferentes fuerzas para producir un conjunto de datos, donde y i es una extensión de resorte medida. [14] Cada observación experimental contendrá algún error, por lo que podemos especificar un modelo empírico para nuestras observaciones,

Hay muchos métodos que podríamos utilizar para estimar el parámetro desconocido k . Dado que las n ecuaciones en las m variables de nuestros datos comprenden un sistema sobredeterminado con una incógnita yn ecuaciones, estimamos k usando mínimos cuadrados. La suma de cuadrados a minimizar es

[12]

La estimación de mínimos cuadrados de la constante de fuerza, k , viene dada por

Suponemos que al aplicar fuerza el resorte se expande. Después de haber obtenido la constante de fuerza mediante ajuste de mínimos cuadrados, predecimos la extensión a partir de la ley de Hooke.

Cuantificación de la incertidumbre

En un cálculo de mínimos cuadrados con pesos unitarios, o en una regresión lineal, la varianza del jésimo parámetro, denotado , generalmente se estima con

donde la varianza del error verdadero σ 2 se reemplaza por una estimación, el estadístico chi-cuadrado reducido , basado en el valor minimizado de la suma residual de cuadrados (función objetivo) , S. El denominador, n  −  m , son los grados de libertad estadísticos ; ver grados efectivos de libertad para generalizaciones. [12] C es la matriz de covarianza .

Pruebas estadísticas

Si se conoce la distribución de probabilidad de los parámetros o se realiza una aproximación asintótica, se pueden encontrar límites de confianza . De manera similar, se pueden realizar pruebas estadísticas sobre los residuos si se conoce o se supone la distribución de probabilidad de los residuos. Podemos derivar la distribución de probabilidad de cualquier combinación lineal de las variables dependientes si se conoce o se supone la distribución de probabilidad de los errores experimentales. Inferir es fácil cuando se supone que los errores siguen una distribución normal, lo que implica en consecuencia que las estimaciones de los parámetros y los residuos también se distribuirán normalmente dependiendo de los valores de las variables independientes. [12]

Es necesario hacer suposiciones sobre la naturaleza de los errores experimentales para probar los resultados estadísticamente. Una suposición común es que los errores pertenecen a una distribución normal. El teorema del límite central apoya la idea de que ésta es una buena aproximación en muchos casos.

Sin embargo, supongamos que los errores no se distribuyen normalmente. En ese caso, un teorema del límite central a menudo implica que las estimaciones de los parámetros se distribuirán aproximadamente normalmente siempre que la muestra sea razonablemente grande. Por esta razón, dada la importante propiedad de que la media del error es independiente de las variables independientes, la distribución del término de error no es una cuestión importante en el análisis de regresión. Específicamente, normalmente no es importante si el término de error sigue una distribución normal.

Mínimos cuadrados ponderados

Efecto "en abanico" de la heteroscedasticidad

Un caso especial de mínimos cuadrados generalizados llamado mínimos cuadrados ponderados ocurre cuando todas las entradas fuera de la diagonal de Ω (la matriz de correlación de los residuos) son nulas; las varianzas de las observaciones (a lo largo de la diagonal de la matriz de covarianza) aún pueden ser desiguales ( heterocedasticidad ). En términos más simples, la heterocedasticidad es cuando la varianza de depende de cuyo valor hace que el gráfico residual cree un efecto de "desplegado" hacia valores más grandes, como se ve en el gráfico residual de la derecha. Por otro lado, la homocedasticidad supone que la varianza de y la varianza de son iguales. [10]  

Relación con los componentes principales

El primer componente principal de la media de un conjunto de puntos se puede representar mediante la línea que más se acerca a los puntos de datos (medida por la distancia al cuadrado de la aproximación más cercana, es decir, perpendicular a la línea). Por el contrario, los mínimos cuadrados lineales intentan minimizar la distancia sólo en la dirección. Por lo tanto, aunque los dos utilizan una métrica de error similar, los mínimos cuadrados lineales son un método que trata una dimensión de los datos de manera preferencial, mientras que PCA trata todas las dimensiones por igual.

Relación con la teoría de la medida

La notable estadística Sara van de Geer utilizó la teoría del proceso empírico y la dimensión de Vapnik-Chervonenkis para demostrar que un estimador de mínimos cuadrados puede interpretarse como una medida en el espacio de funciones integrables al cuadrado . [dieciséis]

Regularización

Regularización de Tikhonov

En algunos contextos puede ser preferible una versión regularizada de la solución de mínimos cuadrados. La regularización de Tikhonov (o regresión de crestas ) agrega una restricción de que la norma al cuadrado del vector de parámetros no es mayor que un valor dado a la formulación de mínimos cuadrados, lo que lleva a un problema de minimización restringida. Esto es equivalente al problema de minimización sin restricciones donde la función objetivo es la suma residual de cuadrados más un término de penalización y es un parámetro de ajuste (esta es la forma lagrangiana del problema de minimización restringida). [17]

En un contexto bayesiano , esto equivale a colocar una distribución normal de media cero antes en el vector de parámetros.

método de lazo

Una versión regularizada alternativa de mínimos cuadrados es Lasso (operador de selección y contracción mínima absoluta), que utiliza la restricción de que , la norma L 1 del vector de parámetros, no es mayor que un valor dado. [18] [19] [20] (Se puede demostrar como arriba usando multiplicadores de Lagrange que esto es equivalente a una minimización sin restricciones de la penalización por mínimos cuadrados con agregado). En un contexto bayesiano , esto equivale a colocar una media cero Distribución previa de Laplace en el vector de parámetros. [21] El problema de optimización se puede resolver utilizando programación cuadrática o métodos de optimización convexos más generales , así como mediante algoritmos específicos como el algoritmo de regresión de ángulo mínimo .

Una de las principales diferencias entre Lasso y la regresión de crestas es que en la regresión de crestas, a medida que aumenta la penalización, todos los parámetros se reducen sin dejar de ser distintos de cero, mientras que en Lasso, aumentar la penalización hará que se reduzcan cada vez más parámetros. llevado a cero. Esta es una ventaja de Lasso sobre la regresión de crestas, ya que llevar los parámetros a cero anula la selección de las características de la regresión. Por lo tanto, Lasso selecciona automáticamente las características más relevantes y descarta las demás, mientras que la regresión Ridge nunca descarta completamente ninguna característica. Algunas técnicas de selección de características se desarrollan en base a LASSO, incluido Bolasso, que arranca muestras, [22] y FeaLect, que analiza los coeficientes de regresión correspondientes a diferentes valores de para calificar todas las características. [23]

La formulación regularizada L 1 es útil en algunos contextos debido a su tendencia a preferir soluciones donde más parámetros son cero, lo que da soluciones que dependen de menos variables. [18] Por esta razón, el Lasso y sus variantes son fundamentales para el campo de la detección comprimida . Una extensión de este enfoque es la regularización neta elástica .

Ver también

Referencias

  1. ^ Charnes, A.; Frome, EL; Yu, PL (1976). "La equivalencia de mínimos cuadrados generalizados y estimaciones de máxima verosimilitud en la familia exponencial". Revista de la Asociación Estadounidense de Estadística . 71 (353): 169-171. doi :10.1080/01621459.1976.10481508.
  2. ^ Mansfield Merriman, "Una lista de escritos relacionados con el método de mínimos cuadrados"
  3. ^ Bretscher, Otto (1995). Álgebra lineal con aplicaciones (3ª ed.). Upper Saddle River, Nueva Jersey: Prentice Hall.
  4. ^ abc Stigler, Stephen M. (1981). "Gauss y la invención de los mínimos cuadrados". Ana. Estadística . 9 (3): 465–474. doi : 10.1214/aos/1176345451 .
  5. ^ Plackett, RL (1972). «El descubrimiento del método de mínimos cuadrados» (PDF) . Biometrika . 59 (2): 239–251.
  6. ^ ab Stigler, Stephen M. (1986). La historia de la estadística: la medición de la incertidumbre antes de 1900 . Cambridge, MA: Belknap Press de Harvard University Press. ISBN 978-0-674-40340-6.
  7. ^ Legendre, Adrien-Marie (1805), Nouvelles méthodes pour la détermination des orbites des comètes [ Nuevos métodos para la determinación de las órbitas de los cometas ] (en francés), París: F. Didot, hdl : 2027/nyp.33433069112559
  8. ^ "El descubrimiento de la regresión estadística". Priceonomía . 2015-11-06 . Consultado el 4 de abril de 2023 .
  9. ^ Aldrich, J. (1998). "Haciendo mínimos cuadrados: perspectivas de Gauss y Yule". Revista estadística internacional . 66 (1): 61–81. doi :10.1111/j.1751-5823.1998.tb00406.x. S2CID  121471194.
  10. ^ abcd Una introducción moderna a la probabilidad y la estadística: comprender por qué y cómo . Dekking, Michel, 1946-. Londres: Springer. 2005.ISBN _ 978-1-85233-896-1. OCLC  262680588.{{cite book}}: CS1 maint: others (link)
  11. ^ Para obtener una buena introducción al error en variables, consulte Fuller, WA (1987). Modelos de errores de medición . John Wiley e hijos. ISBN 978-0-471-86187-4.
  12. ^ abcdefgh Williams, Jeffrey H. (Jeffrey Huw), 1956- (noviembre de 2016). Medición cuantificadora: la tiranía de los números . Morgan & Claypool Publishers, Instituto de Física (Gran Bretaña). San Rafael [California] (40 Oak Drive, San Rafael, CA, 94903, EE. UU.). ISBN 978-1-68174-433-9. OCLC  962422324.{{cite book}}: CS1 maint: location (link) CS1 maint: location missing publisher (link) CS1 maint: multiple names: authors list (link) CS1 maint: numeric names: authors list (link)
  13. ^ ab Rencher, Alvin C.; Christensen, William F. (15 de agosto de 2012). Métodos de análisis multivariado. John Wiley e hijos. pag. 155.ISBN _ 978-1-118-39167-9.
  14. ^ Gere, James M. (2013). Mecanica de materiales . Goodno, Barry J. (8ª ed.). Stamford, Connecticut: Cengage Learning. ISBN 978-1-111-57773-5. OCLC  741541348.
  15. ^ Hallin, Marc. "Teorema de Gauss-Markov". Biblioteca en línea de Wiley . Enciclopedia de Medioambiente . Consultado el 18 de octubre de 2023 .
  16. ^ van de Geer, Sara (junio de 1987). "Un nuevo enfoque para la estimación de mínimos cuadrados, con aplicaciones". Anales de Estadística . 15 (2): 587–602. doi : 10.1214/aos/1176350362 . S2CID  123088844.
  17. ^ van Wieringen, Wessel N. (2021). "Apuntes de conferencias sobre regresión de crestas". arXiv : 1509.09169 . {{cite journal}}: Citar diario requiere |journal=( ayuda )
  18. ^ ab Tibshirani, R. (1996). "Regresión, contracción y selección mediante el lazo". Revista de la Royal Statistical Society, Serie B. 58 (1): 267–288. JSTOR  2346178.
  19. ^ Hastie, Trevor ; Tibshirani, Robert; Friedman, Jerome H. (2009). Los elementos del aprendizaje estadístico (segunda ed.). Springer-Verlag. ISBN 978-0-387-84858-7. Archivado desde el original el 10 de noviembre de 2009.
  20. ^ Bühlmann, Peter; van de Geer, Sara (2011). Estadística para datos de alta dimensión: métodos, teoría y aplicaciones . Saltador. ISBN 9783642201929.
  21. ^ Parque, Trevor; Casella, George (2008). "El lazo bayesiano". Revista de la Asociación Estadounidense de Estadística . 103 (482): 681–686. doi :10.1198/016214508000000337. S2CID  11797924.
  22. ^ Bach, Francis R (2008). "Bolasso". Actas de la 25ª conferencia internacional sobre aprendizaje automático - ICML '08 . págs. 33–40. arXiv : 0804.1302 . Código Bib : 2008arXiv0804.1302B. doi :10.1145/1390156.1390161. ISBN 9781605582054. S2CID  609778.
  23. ^ Zare, Habil (2013). "Puntuación de relevancia de características basada en análisis combinatorio de Lasso con aplicación al diagnóstico de linfoma". Genómica BMC . 14 (Suplemento 1): S14. doi : 10.1186/1471-2164-14-S1-S14 . PMC 3549810 . PMID  23369194. 

Otras lecturas

enlaces externos