mínimos cuadrados

El método de mínimos cuadrados es un método de estimación de parámetros en el análisis de regresión basado en minimizar la suma de los cuadrados de los residuos (siendo un residual la diferencia entre un valor observado y el valor ajustado proporcionado por un modelo) realizados en los resultados de cada individuo. ecuación.

La aplicación más importante es el ajuste de datos . Cuando el problema tiene incertidumbres sustanciales en la variable independiente (la variable x ), entonces los métodos de regresión simple y de mínimos cuadrados tienen problemas; en tales casos, se puede considerar la metodología requerida para ajustar modelos de errores en variables en lugar de la de mínimos cuadrados.

Los problemas de mínimos cuadrados se dividen en dos categorías: mínimos cuadrados lineales u ordinarios y mínimos cuadrados no lineales , dependiendo de si los residuos son lineales o no en todas las incógnitas. El problema de los mínimos cuadrados lineales ocurre en el análisis de regresión estadística ; tiene una solución de forma cerrada . El problema no lineal suele resolverse mediante refinamiento iterativo ; en cada iteración, el sistema se aproxima a uno lineal y, por lo tanto, el cálculo central es similar en ambos casos.

Los mínimos cuadrados polinomiales describen la varianza en una predicción de la variable dependiente en función de la variable independiente y las desviaciones de la curva ajustada.

Cuando las observaciones provienen de una familia exponencial con identidad como su estadística suficiente natural y se cumplen condiciones suaves (por ejemplo, para distribuciones normal , exponencial , Poisson y binomial ), las estimaciones de mínimos cuadrados estandarizadas y las estimaciones de máxima verosimilitud son idénticas. ^[1] El método de mínimos cuadrados también se puede derivar como método de estimador de momentos.

La siguiente discusión se presenta principalmente en términos de funciones lineales , pero el uso de mínimos cuadrados es válido y práctico para familias de funciones más generales. Además, al aplicar iterativamente la aproximación cuadrática local a la probabilidad (a través de la información de Fisher ), se puede utilizar el método de mínimos cuadrados para ajustar un modelo lineal generalizado .

El método de mínimos cuadrados fue descubierto y publicado oficialmente por Adrien-Marie Legendre (1805), ^[2] aunque generalmente también se le atribuye a Carl Friedrich Gauss (1809), ^[3]^[4] quien contribuyó con importantes avances teóricos a el método, ^[4] y es posible que también lo haya utilizado en su trabajo anterior en 1794 y 1795. ^[5]^[4]

Historia

Establecimiento

El método de mínimos cuadrados surgió de los campos de la astronomía y la geodesia , cuando los científicos y matemáticos buscaban proporcionar soluciones a los desafíos de la navegación por los océanos de la Tierra durante la Era de los Descubrimientos . La descripción precisa del comportamiento de los cuerpos celestes fue la clave para que los barcos pudieran navegar en mares abiertos, donde los marineros ya no podían confiar en avistamientos terrestres para navegar.

El método fue la culminación de varios avances que tuvieron lugar durante el transcurso del siglo XVIII: ^[6]

La combinación de diferentes observaciones como la mejor estimación del valor real; Los errores disminuyen con la agregación en lugar de aumentar, tal vez expresado por primera vez por Roger Cotes en 1722.
La combinación de diferentes observaciones tomadas bajo las mismas condiciones, en contraposición a simplemente hacer lo mejor que uno pueda para observar y registrar una sola observación con precisión. El enfoque se conoció como método de promedios. Este enfoque fue utilizado notablemente por Tobias Mayer mientras estudiaba las libraciones de la Luna en 1750, y por Pierre-Simon Laplace en su trabajo para explicar las diferencias en el movimiento de Júpiter y Saturno en 1788.
La combinación de diferentes observaciones tomadas en diferentes condiciones. El método llegó a ser conocido como el método de mínima desviación absoluta . Fue realizado en particular por Roger Joseph Boscovich en su trabajo sobre la forma de la Tierra en 1757 y por Pierre-Simon Laplace para el mismo problema en 1789 y 1799.
El desarrollo de un criterio que pueda evaluarse para determinar cuándo se ha logrado la solución con el mínimo error. Laplace intentó especificar una forma matemática de la densidad de probabilidad de los errores y definir un método de estimación que minimice el error de estimación. Para este propósito, Laplace usó una distribución exponencial simétrica de dos lados que ahora llamamos distribución de Laplace para modelar la distribución del error, y usó la suma de la desviación absoluta como error de estimación. Consideró que éstas eran las suposiciones más simples que podía hacer y esperaba obtener la media aritmética como la mejor estimación. En cambio, su estimador fue la mediana posterior.

El método

La primera exposición clara y concisa del método de mínimos cuadrados fue publicada por Legendre en 1805. ^[7] La técnica se describe como un procedimiento algebraico para ajustar ecuaciones lineales a datos y Legendre demuestra el nuevo método analizando los mismos datos que Laplace para la forma de la Tierra. Diez años después de la publicación de Legendre, el método de mínimos cuadrados se había adoptado como herramienta estándar en astronomía y geodesia en Francia, Italia y Prusia, lo que constituye una aceptación extraordinariamente rápida de una técnica científica. ^[6]

En 1809 Carl Friedrich Gauss publicó su método para calcular las órbitas de los cuerpos celestes. En ese trabajo afirmó haber estado en posesión del método de mínimos cuadrados desde 1795. ^[8] Esto naturalmente llevó a una disputa de prioridad con Legendre. Sin embargo, hay que reconocer que Gauss fue más allá de Legendre y logró conectar el método de mínimos cuadrados con los principios de probabilidad y con la distribución normal . Había logrado completar el programa de Laplace de especificar una forma matemática de la densidad de probabilidad de las observaciones, dependiendo de un número finito de parámetros desconocidos, y definir un método de estimación que minimiza el error de estimación. Gauss demostró que la media aritmética es de hecho la mejor estimación del parámetro de ubicación al cambiar tanto la densidad de probabilidad como el método de estimación. Luego dio la vuelta al problema preguntando qué forma debería tener la densidad y qué método de estimación debería usarse para obtener la media aritmética como estimación del parámetro de ubicación. En este intento, inventó la distribución normal.

Una de las primeras demostraciones de la fuerza del método de Gauss se produjo cuando se utilizó para predecir la ubicación futura del asteroide Ceres recién descubierto . El 1 de enero de 1801, el astrónomo italiano Giuseppe Piazzi descubrió Ceres y pudo seguir su trayectoria durante 40 días antes de que se perdiera bajo el resplandor del Sol. Basándose en estos datos, los astrónomos deseaban determinar la ubicación de Ceres después de que emergiera detrás del Sol sin resolver las complicadas ecuaciones no lineales del movimiento planetario de Kepler . Las únicas predicciones que permitieron con éxito al astrónomo húngaro Franz Xaver von Zach reubicar a Ceres fueron las realizadas por Gauss, de 24 años, utilizando el análisis de mínimos cuadrados.

En 1810, después de leer el trabajo de Gauss, Laplace, después de demostrar el teorema del límite central , lo utilizó para dar una gran muestra de justificación del método de mínimos cuadrados y la distribución normal. En 1822, Gauss pudo afirmar que el método de mínimos cuadrados para el análisis de regresión es óptimo en el sentido de que en un modelo lineal donde los errores tienen una media de cero, no están correlacionados y tienen varianzas iguales, el mejor estimador lineal insesgado de los coeficientes es el estimador de mínimos cuadrados. Este resultado se conoce como teorema de Gauss-Markov .

La idea del análisis de mínimos cuadrados también fue formulada de forma independiente por el estadounidense Robert Adrian en 1808. En los dos siglos siguientes, los investigadores de la teoría de los errores y de la estadística encontraron muchas formas diferentes de implementar los mínimos cuadrados. ^[9]

Planteamiento del problema

El objetivo consiste en ajustar los parámetros de una función modelo para que se ajuste mejor a un conjunto de datos. Un conjunto de datos simple consta de n puntos (pares de datos) , i = 1,…, n , donde es una variable independiente y una variable dependiente cuyo valor se encuentra mediante observación. La función modelo tiene la forma , donde m parámetros ajustables se mantienen en el vector . El objetivo es encontrar los valores de los parámetros para el modelo que "mejor" se ajuste a los datos. El ajuste de un modelo a un punto de datos se mide por su residual , definido como la diferencia entre el valor observado de la variable dependiente y el valor predicho por el modelo: $(x_{i},y_{i})\!$ $x_{i}\!$ $y_{i}\!$ $f(x,{\boldsymbol {\beta }})$ ${\boldsymbol {\beta }}$

r_{i}=y_{i}-f(x_{i},{\boldsymbol {\beta }}).

El método de mínimos cuadrados encuentra los valores óptimos de los parámetros minimizando la suma de los residuos cuadrados : ^[10] $S$

S=\sum _{i=1}^{n}r_{i}^{2}.

En el caso más simple , el resultado del método de mínimos cuadrados es la media aritmética de los datos de entrada. $f(x_{i},{\boldsymbol {\beta }})=\beta$

Un ejemplo de modelo en dos dimensiones es el de la línea recta. Denotando la intersección con el eje y y la pendiente como , la función del modelo viene dada por . Consulte mínimos cuadrados lineales para ver un ejemplo completamente elaborado de este modelo. $\beta _{0}$ $\beta _{1}$ $f(x,{\boldsymbol {\beta }})=\beta _{0}+\beta _{1}x$

Un punto de datos puede constar de más de una variable independiente. Por ejemplo, cuando se ajusta un plano a un conjunto de medidas de altura, el plano es función de dos variables independientes, x y z , por ejemplo. En el caso más general puede haber una o más variables independientes y una o más variables dependientes en cada punto de datos.

A la derecha hay un gráfico residual que ilustra fluctuaciones aleatorias sobre , lo que indica que un modelo lineal es apropiado. es una variable aleatoria independiente. ^[10] $r_{i}=0$ $(Y_{i}=\alpha +\beta x_{i}+U_{i})$ $U_{i}$

Si los puntos residuales tuvieran algún tipo de forma y no fluctuaran aleatoriamente, un modelo lineal no sería apropiado. Por ejemplo, si el gráfico residual tuviera una forma parabólica como se ve a la derecha, un modelo parabólico sería apropiado para los datos. Los residuos de un modelo parabólico se pueden calcular mediante . ^[10] $(Y_{i}=\alpha +\beta x_{i}+\gamma x_{i}^{2}+U_{i})$ $r_{i}=y_{i}-{\hat {\alpha }}-{\hat {\beta }}x_{i}-{\widehat {\gamma }}x_{i}^{2}$

Limitaciones

Esta formulación de regresión considera sólo errores de observación en la variable dependiente (pero la regresión alternativa de mínimos cuadrados totales puede explicar errores en ambas variables). Hay dos contextos bastante diferentes con implicaciones diferentes:

Regresión para la predicción. Aquí se ajusta un modelo para proporcionar una regla de predicción para su aplicación en una situación similar a la que se aplican los datos utilizados para el ajuste. En este caso, las variables dependientes correspondientes a dicha aplicación futura estarían sujetas a los mismos tipos de errores de observación que aquellos en los datos utilizados para el ajuste. Por lo tanto, es lógicamente coherente utilizar la regla de predicción de mínimos cuadrados para dichos datos.
Regresión para encajar en una "relación verdadera". En el análisis de regresión estándar que conduce al ajuste por mínimos cuadrados hay una suposición implícita de que los errores en la variable independiente son cero o están estrictamente controlados para que sean insignificantes. Cuando los errores en la variable independiente no son despreciables, se pueden utilizar modelos de error de medición ; Dichos métodos pueden conducir a estimaciones de parámetros , pruebas de hipótesis e intervalos de confianza que tienen en cuenta la presencia de errores de observación en las variables independientes. ^[11] Un enfoque alternativo es ajustar un modelo por mínimos cuadrados totales ; Esto puede verse como la adopción de un enfoque pragmático para equilibrar los efectos de las diferentes fuentes de error al formular una función objetivo para su uso en el ajuste del modelo.

Resolviendo el problema de mínimos cuadrados

El mínimo de la suma de cuadrados se encuentra estableciendo el gradiente en cero. Dado que el modelo contiene m parámetros, existen m ecuaciones de gradiente:

{\frac {\partial S}{\partial \beta _{j}}}=2\sum _{i}r_{i}{\frac {\partial r_{i}}{\partial \beta _{j}}}=0,\ j=1,\ldots ,m,

r_{i}=y_{i}-f(x_{i},{\boldsymbol {\beta }})

-2\sum _{i}r_{i}{\frac {\partial f(x_{i},{\boldsymbol {\beta }})}{\partial \beta _{j}}}=0,\ j=1,\ldots ,m.

Las ecuaciones de gradiente se aplican a todos los problemas de mínimos cuadrados. Cada problema particular requiere expresiones particulares para el modelo y sus derivadas parciales . ^[12]

Mínimos cuadrados lineales

Un modelo de regresión es lineal cuando el modelo comprende una combinación lineal de los parámetros, es decir,

f(x,{\boldsymbol {\beta }})=\sum _{j=1}^{m}\beta _{j}\phi _{j}(x),

^[12]

\phi _{j}

x

Dejando y poniendo las variables independientes y dependientes en matrices y , respectivamente, podemos calcular los mínimos cuadrados de la siguiente manera. Tenga en cuenta que es el conjunto de todos los datos. ^[12]^[13] $X_{ij}=\phi _{j}(x_{i})$ $X$ $Y$ $D$

L(D,{\boldsymbol {\beta }})=\left\|Y-X{\boldsymbol {\beta }}\right\|^{2}=(Y-X{\boldsymbol {\beta }})^{\mathsf {T}}(Y-X{\boldsymbol {\beta }})=Y^{\mathsf {T}}Y-Y^{\mathsf {T}}X{\boldsymbol {\beta }}-{\boldsymbol {\beta }}^{\mathsf {T}}X^{\mathsf {T}}Y+{\boldsymbol {\beta }}^{\mathsf {T}}X^{\mathsf {T}}X{\boldsymbol {\beta }}

El gradiente de pérdida es:

{\frac {\partial L(D,{\boldsymbol {\beta }})}{\partial {\boldsymbol {\beta }}}}={\frac {\partial \left(Y^{\mathsf {T}}Y-Y^{\mathsf {T}}X{\boldsymbol {\beta }}-{\boldsymbol {\beta }}^{\mathsf {T}}X^{\mathsf {T}}Y+{\boldsymbol {\beta }}^{\mathsf {T}}X^{\mathsf {T}}X{\boldsymbol {\beta }}\right)}{\partial {\boldsymbol {\beta }}}}=-2X^{\mathsf {T}}Y+2X^{\mathsf {T}}X{\boldsymbol {\beta }}

Al establecer el gradiente de la pérdida en cero y resolver para , obtenemos: ^[13]^[12] ${\boldsymbol {\beta }}$

-2X^{\mathsf {T}}Y+2X^{\mathsf {T}}X{\boldsymbol {\beta }}=0\Rightarrow X^{\mathsf {T}}Y=X^{\mathsf {T}}X{\boldsymbol {\beta }}

{\boldsymbol {\hat {\beta }}}=\left(X^{\mathsf {T}}X\right)^{-1}X^{\mathsf {T}}Y

Mínimos cuadrados no lineales

En algunos casos existe una solución de forma cerrada para un problema de mínimos cuadrados no lineal, pero en general no la hay. En el caso de que no haya una solución de forma cerrada, se utilizan algoritmos numéricos para encontrar el valor de los parámetros que minimiza el objetivo. La mayoría de los algoritmos implican elegir valores iniciales para los parámetros. Luego, los parámetros se refinan iterativamente, es decir, los valores se obtienen por aproximaciones sucesivas: $\beta$

{\beta _{j}}^{k+1}={\beta _{j}}^{k}+\Delta \beta _{j},

ken serie de Taylor

\Delta \beta _{j}

{\boldsymbol {\beta }}^{k}

{\begin{aligned}f(x_{i},{\boldsymbol {\beta }})&=f^{k}(x_{i},{\boldsymbol {\beta }})+\sum _{j}{\frac {\partial f(x_{i},{\boldsymbol {\beta }})}{\partial \beta _{j}}}\left(\beta _{j}-{\beta _{j}}^{k}\right)\\&=f^{k}(x_{i},{\boldsymbol {\beta }})+\sum _{j}J_{ij}\,\Delta \beta _{j}.\end{aligned}}

El jacobiano J es una función de constantes, la variable independiente y los parámetros, por lo que cambia de una iteración a la siguiente. Los residuos están dados por

r_{i}=y_{i}-f^{k}(x_{i},{\boldsymbol {\beta }})-\sum _{k=1}^{m}J_{ik}\,\Delta \beta _{k}=\Delta y_{i}-\sum _{j=1}^{m}J_{ij}\,\Delta \beta _{j}.

Para minimizar la suma de los cuadrados de , la ecuación del gradiente se establece en cero y se resuelve para : $r_{i}$ $\Delta \beta _{j}$

-2\sum _{i=1}^{n}J_{ij}\left(\Delta y_{i}-\sum _{k=1}^{m}J_{ik}\,\Delta \beta _{k}\right)=0,

en mecuaciones normales

\sum _{i=1}^{n}\sum _{k=1}^{m}J_{ij}J_{ik}\,\Delta \beta _{k}=\sum _{i=1}^{n}J_{ij}\,\Delta y_{i}\qquad (j=1,\ldots ,m).

Las ecuaciones normales se escriben en notación matricial como

\left(\mathbf {J} ^{\mathsf {T}}\mathbf {J} \right)\Delta {\boldsymbol {\beta }}=\mathbf {J} ^{\mathsf {T}}\Delta \mathbf {y} .

Estas son las ecuaciones que definen el algoritmo de Gauss-Newton .

Diferencias entre mínimos cuadrados lineales y no lineales

La función del modelo, f , en LLSQ (mínimos cuadrados lineales) es una combinación lineal de parámetros de la forma El modelo puede representar una línea recta, una parábola o cualquier otra combinación lineal de funciones. En NLLSQ (mínimos cuadrados no lineales), los parámetros aparecen como funciones, como etc. Si las derivadas son constantes o dependen sólo de los valores de la variable independiente, el modelo es lineal en los parámetros. De lo contrario, el modelo es no lineal. $f=X_{i1}\beta _{1}+X_{i2}\beta _{2}+\cdots$ $\beta ^{2},e^{\beta x}$ $\partial f/\partial \beta _{j}$
Necesita valores iniciales de los parámetros para encontrar la solución a un problema NLLSQ; LLSQ no los requiere.
Los algoritmos de solución para NLLSQ a menudo requieren que el jacobiano pueda calcularse de manera similar al LLSQ. Las expresiones analíticas de las derivadas parciales pueden resultar complicadas. Si es imposible obtener expresiones analíticas, las derivadas parciales deben calcularse mediante aproximación numérica o debe hacerse una estimación del jacobiano, a menudo mediante diferencias finitas .
La no convergencia (fallo del algoritmo para encontrar un mínimo) es un fenómeno común en NLLSQ.
LLSQ es globalmente cóncavo, por lo que la no convergencia no es un problema.
Resolver NLLSQ suele ser un proceso iterativo que debe finalizar cuando se satisface un criterio de convergencia. Las soluciones LLSQ se pueden calcular utilizando métodos directos, aunque los problemas con una gran cantidad de parámetros generalmente se resuelven con métodos iterativos, como el método de Gauss-Seidel .
En LLSQ la solución es única, pero en NLLSQ puede haber múltiples mínimos en la suma de cuadrados.
Bajo la condición de que los errores no estén correlacionados con las variables predictoras, el LLSQ produce estimaciones insesgadas, pero incluso bajo esa condición, las estimaciones del NLLSQ generalmente están sesgadas.

Estas diferencias deben considerarse siempre que se busque la solución a un problema de mínimos cuadrados no lineal. ^[12]

Ejemplo

Consideremos un ejemplo sencillo extraído de la física. Un resorte debe obedecer la ley de Hooke , que establece que la extensión de un resorte $y$ es proporcional a la fuerza, F , que se le aplica.

y=f(F,k)=kF\!

constituye el modelo, donde F es la variable independiente. Para estimar la constante de fuerza , k , realizamos una serie de n mediciones con diferentes fuerzas para producir un conjunto de datos, donde y _i es una extensión de resorte medida. ^[14] Cada observación experimental contendrá algún error, por lo que podemos especificar un modelo empírico para nuestras observaciones, $(F_{i},y_{i}),\ i=1,\dots ,n\!$ $\varepsilon$

y_{i}=kF_{i}+\varepsilon _{i}.\,

Hay muchos métodos que podríamos utilizar para estimar el parámetro desconocido k . Dado que las n ecuaciones en las m variables de nuestros datos comprenden un sistema sobredeterminado con una incógnita yn ecuaciones, estimamos k usando mínimos cuadrados. La suma de cuadrados a minimizar es

S=\sum _{i=1}^{n}(y_{i}-kF_{i})^{2}.

^[12]

La estimación de mínimos cuadrados de la constante de fuerza, k , viene dada por

{\hat {k}}={\frac {\sum _{i}F_{i}y_{i}}{\sum _{i}F_{i}^{2}}}.

Suponemos que al aplicar fuerza el resorte se expande. Después de haber obtenido la constante de fuerza mediante ajuste de mínimos cuadrados, predecimos la extensión a partir de la ley de Hooke.

Cuantificación de la incertidumbre

En un cálculo de mínimos cuadrados con pesos unitarios, o en una regresión lineal, la varianza del jésimo parámetro, denotado , generalmente se estima con $\operatorname {var} ({\hat {\beta }}_{j})$

\operatorname {var} ({\hat {\beta }}_{j})=\sigma ^{2}\left(\left[X^{\mathsf {T}}X\right]^{-1}\right)_{jj}\approx {\hat {\sigma }}^{2}C_{jj},

{\hat {\sigma }}^{2}\approx {\frac {S}{n-m}}

C=\left(X^{\mathsf {T}}X\right)^{-1},

donde la varianza del error verdadero σ ² se reemplaza por una estimación, el estadístico chi-cuadrado reducido , basado en el valor minimizado de la suma residual de cuadrados (función objetivo) , S. El denominador, n − m , son los grados de libertad estadísticos ; ver grados efectivos de libertad para generalizaciones. ^[12] C es la matriz de covarianza .

Pruebas estadísticas

Si se conoce la distribución de probabilidad de los parámetros o se realiza una aproximación asintótica, se pueden encontrar límites de confianza . De manera similar, se pueden realizar pruebas estadísticas sobre los residuos si se conoce o se supone la distribución de probabilidad de los residuos. Podemos derivar la distribución de probabilidad de cualquier combinación lineal de las variables dependientes si se conoce o se supone la distribución de probabilidad de los errores experimentales. Inferir es fácil cuando se supone que los errores siguen una distribución normal, lo que implica en consecuencia que las estimaciones de los parámetros y los residuos también se distribuirán normalmente dependiendo de los valores de las variables independientes. ^[12]

Es necesario hacer suposiciones sobre la naturaleza de los errores experimentales para probar los resultados estadísticamente. Una suposición común es que los errores pertenecen a una distribución normal. El teorema del límite central apoya la idea de que ésta es una buena aproximación en muchos casos.

El teorema de Gauss-Markov . En un modelo lineal en el que los errores tienen expectativa cero condicionada a las variables independientes, no están correlacionados y tienen varianzas iguales , el mejor estimador lineal insesgado de cualquier combinación lineal de observaciones es su estimador de mínimos cuadrados. "Mejor" significa que los estimadores de mínimos cuadrados de los parámetros tienen una varianza mínima. El supuesto de igual varianza es válido cuando todos los errores pertenecen a la misma distribución. ^[15]
Si los errores pertenecen a una distribución normal, los estimadores de mínimos cuadrados también son los estimadores de máxima verosimilitud en un modelo lineal.

Sin embargo, supongamos que los errores no se distribuyen normalmente. En ese caso, un teorema del límite central a menudo implica que las estimaciones de los parámetros se distribuirán aproximadamente normalmente siempre que la muestra sea razonablemente grande. Por esta razón, dada la importante propiedad de que la media del error es independiente de las variables independientes, la distribución del término de error no es una cuestión importante en el análisis de regresión. Específicamente, normalmente no es importante si el término de error sigue una distribución normal.

Mínimos cuadrados ponderados

Un caso especial de mínimos cuadrados generalizados llamado mínimos cuadrados ponderados ocurre cuando todas las entradas fuera de la diagonal de Ω (la matriz de correlación de los residuos) son nulas; las varianzas de las observaciones (a lo largo de la diagonal de la matriz de covarianza) aún pueden ser desiguales ( heterocedasticidad ). En términos más simples, la heterocedasticidad es cuando la varianza de depende de cuyo valor hace que el gráfico residual cree un efecto de "desplegado" hacia valores más grandes, como se ve en el gráfico residual de la derecha. Por otro lado, la homocedasticidad supone que la varianza de y la varianza de son iguales. ^[10] $Y_{i}$ $x_{i}$ $Y_{i}$ $Y_{i}$ $U_{i}$

Relación con los componentes principales

El primer componente principal de la media de un conjunto de puntos se puede representar mediante la línea que más se acerca a los puntos de datos (medida por la distancia al cuadrado de la aproximación más cercana, es decir, perpendicular a la línea). Por el contrario, los mínimos cuadrados lineales intentan minimizar la distancia sólo en la dirección. Por lo tanto, aunque los dos utilizan una métrica de error similar, los mínimos cuadrados lineales son un método que trata una dimensión de los datos de manera preferencial, mientras que PCA trata todas las dimensiones por igual. $y$

Relación con la teoría de la medida

La notable estadística Sara van de Geer utilizó la teoría del proceso empírico y la dimensión de Vapnik-Chervonenkis para demostrar que un estimador de mínimos cuadrados puede interpretarse como una medida en el espacio de funciones integrables al cuadrado . ^[dieciséis]

Regularización

Regularización de Tikhonov

En algunos contextos puede ser preferible una versión regularizada de la solución de mínimos cuadrados. La regularización de Tikhonov (o regresión de crestas ) agrega una restricción de que la norma al cuadrado del vector de parámetros no es mayor que un valor dado a la formulación de mínimos cuadrados, lo que lleva a un problema de minimización restringida. Esto es equivalente al problema de minimización sin restricciones donde la función objetivo es la suma residual de cuadrados más un término de penalización y es un parámetro de ajuste (esta es la forma lagrangiana del problema de minimización restringida). ^[17] $\|\beta \|_{2}^{2}$ $\ell _{2}$ $\alpha \|\beta \|_{2}^{2}$ $\alpha$

En un contexto bayesiano , esto equivale a colocar una distribución normal de media cero antes en el vector de parámetros.

método de lazo

Una versión regularizada alternativa de mínimos cuadrados es Lasso (operador de selección y contracción mínima absoluta), que utiliza la restricción de que , la norma L 1 del vector de parámetros, no es mayor que un valor dado. ^[18]^[19]^[20] (Se puede demostrar como arriba usando multiplicadores de Lagrange que esto es equivalente a una minimización sin restricciones de la penalización por mínimos cuadrados con agregado). En un contexto bayesiano , esto equivale a colocar una media cero Distribución previa de Laplace en el vector de parámetros. ^[21] El problema de optimización se puede resolver utilizando programación cuadrática o métodos de optimización convexos más generales , así como mediante algoritmos específicos como el algoritmo de regresión de ángulo mínimo . $\|\beta \|_{1}$ $\alpha \|\beta \|_{1}$

Una de las principales diferencias entre Lasso y la regresión de crestas es que en la regresión de crestas, a medida que aumenta la penalización, todos los parámetros se reducen sin dejar de ser distintos de cero, mientras que en Lasso, aumentar la penalización hará que se reduzcan cada vez más parámetros. llevado a cero. Esta es una ventaja de Lasso sobre la regresión de crestas, ya que llevar los parámetros a cero anula la selección de las características de la regresión. Por lo tanto, Lasso selecciona automáticamente las características más relevantes y descarta las demás, mientras que la regresión Ridge nunca descarta completamente ninguna característica. Algunas técnicas de selección de características se desarrollan en base a LASSO, incluido Bolasso, que arranca muestras, ^[22] y FeaLect, que analiza los coeficientes de regresión correspondientes a diferentes valores de para calificar todas las características. ^[23] $\alpha$

La formulación regularizada L ¹ es útil en algunos contextos debido a su tendencia a preferir soluciones donde más parámetros son cero, lo que da soluciones que dependen de menos variables. ^[18] Por esta razón, el Lasso y sus variantes son fundamentales para el campo de la detección comprimida . Una extensión de este enfoque es la regularización neta elástica .

Ver también

Referencias

^ Charnes, A.; Frome, EL; Yu, PL (1976). "La equivalencia de mínimos cuadrados generalizados y estimaciones de máxima verosimilitud en la familia exponencial". Revista de la Asociación Estadounidense de Estadística . 71 (353): 169-171. doi :10.1080/01621459.1976.10481508.
^ Mansfield Merriman, "Una lista de escritos relacionados con el método de mínimos cuadrados"
^ Bretscher, Otto (1995). Álgebra lineal con aplicaciones (3ª ed.). Upper Saddle River, Nueva Jersey: Prentice Hall.
^ abc Stigler, Stephen M. (1981). "Gauss y la invención de los mínimos cuadrados". Ana. Estadística . 9 (3): 465–474. doi : 10.1214/aos/1176345451 .
^ Plackett, RL (1972). «El descubrimiento del método de mínimos cuadrados» (PDF) . Biometrika . 59 (2): 239–251.
^ ab Stigler, Stephen M. (1986). La historia de la estadística: la medición de la incertidumbre antes de 1900 . Cambridge, MA: Belknap Press de Harvard University Press. ISBN 978-0-674-40340-6.
^ Legendre, Adrien-Marie (1805), Nouvelles méthodes pour la détermination des orbites des comètes [ Nuevos métodos para la determinación de las órbitas de los cometas ] (en francés), París: F. Didot, hdl : 2027/nyp.33433069112559
^ "El descubrimiento de la regresión estadística". Priceonomía . 2015-11-06 . Consultado el 4 de abril de 2023 .
^ Aldrich, J. (1998). "Haciendo mínimos cuadrados: perspectivas de Gauss y Yule". Revista estadística internacional . 66 (1): 61–81. doi :10.1111/j.1751-5823.1998.tb00406.x. S2CID 121471194.
^ abcd Una introducción moderna a la probabilidad y la estadística: comprender por qué y cómo . Dekking, Michel, 1946-. Londres: Springer. 2005.ISBN _ 978-1-85233-896-1. OCLC 262680588.{{cite book}}: CS1 maint: others (link)
^ Para obtener una buena introducción al error en variables, consulte Fuller, WA (1987). Modelos de errores de medición . John Wiley e hijos. ISBN 978-0-471-86187-4.
^ abcdefgh Williams, Jeffrey H. (Jeffrey Huw), 1956- (noviembre de 2016). Medición cuantificadora: la tiranía de los números . Morgan & Claypool Publishers, Instituto de Física (Gran Bretaña). San Rafael [California] (40 Oak Drive, San Rafael, CA, 94903, EE. UU.). ISBN 978-1-68174-433-9. OCLC 962422324.{{cite book}}: CS1 maint: location (link) CS1 maint: location missing publisher (link) CS1 maint: multiple names: authors list (link) CS1 maint: numeric names: authors list (link)
^ ab Rencher, Alvin C.; Christensen, William F. (15 de agosto de 2012). Métodos de análisis multivariado. John Wiley e hijos. pag. 155.ISBN _ 978-1-118-39167-9.
^ Gere, James M. (2013). Mecanica de materiales . Goodno, Barry J. (8ª ed.). Stamford, Connecticut: Cengage Learning. ISBN 978-1-111-57773-5. OCLC 741541348.
^ Hallin, Marc. "Teorema de Gauss-Markov". Biblioteca en línea de Wiley . Enciclopedia de Medioambiente . Consultado el 18 de octubre de 2023 .
^ van de Geer, Sara (junio de 1987). "Un nuevo enfoque para la estimación de mínimos cuadrados, con aplicaciones". Anales de Estadística . 15 (2): 587–602. doi : 10.1214/aos/1176350362 . S2CID 123088844.
^ van Wieringen, Wessel N. (2021). "Apuntes de conferencias sobre regresión de crestas". arXiv : 1509.09169 . {{cite journal}}: Citar diario requiere |journal=( ayuda )
^ ab Tibshirani, R. (1996). "Regresión, contracción y selección mediante el lazo". Revista de la Royal Statistical Society, Serie B. 58 (1): 267–288. JSTOR 2346178.
^ Hastie, Trevor ; Tibshirani, Robert; Friedman, Jerome H. (2009). Los elementos del aprendizaje estadístico (segunda ed.). Springer-Verlag. ISBN 978-0-387-84858-7. Archivado desde el original el 10 de noviembre de 2009.
^ Bühlmann, Peter; van de Geer, Sara (2011). Estadística para datos de alta dimensión: métodos, teoría y aplicaciones . Saltador. ISBN 9783642201929.
^ Parque, Trevor; Casella, George (2008). "El lazo bayesiano". Revista de la Asociación Estadounidense de Estadística . 103 (482): 681–686. doi :10.1198/016214508000000337. S2CID 11797924.
^ Bach, Francis R (2008). "Bolasso". Actas de la 25ª conferencia internacional sobre aprendizaje automático - ICML '08 . págs. 33–40. arXiv : 0804.1302 . Código Bib : 2008arXiv0804.1302B. doi :10.1145/1390156.1390161. ISBN 9781605582054. S2CID 609778.
^ Zare, Habil (2013). "Puntuación de relevancia de características basada en análisis combinatorio de Lasso con aplicación al diagnóstico de linfoma". Genómica BMC . 14 (Suplemento 1): S14. doi : 10.1186/1471-2164-14-S1-S14 . PMC 3549810 . PMID 23369194.

Otras lecturas

Björck, Å. (1996). Métodos numéricos para problemas de mínimos cuadrados . SIAM. ISBN 978-0-89871-360-2.
Kariya, T.; Kurata, H. (2004). Mínimos cuadrados generalizados . Hoboken: Wiley. ISBN 978-0-470-86697-9.
Lüenberger, DG (1997) [1969]. "Estimación de mínimos cuadrados". Optimización por métodos de espacio vectorial . Nueva York: John Wiley & Sons. págs. 78-102. ISBN 978-0-471-18117-0.
Rao, CR ; Toutenburg, H.; et al. (2008). Modelos lineales: mínimos cuadrados y alternativas. Serie Springer en Estadística (3ª ed.). Berlín: Springer. ISBN 978-3-540-74226-5.
Van de moortel, Koen (abril de 2021). "Análisis de regresión multidireccional".
Wolberg, J. (2005). Análisis de datos mediante el método de mínimos cuadrados: extracción de la mayor cantidad de información de los experimentos . Berlín: Springer. ISBN 978-3-540-25674-8.

enlaces externos

Medios relacionados con mínimos cuadrados en Wikimedia Commons