Mínimos cuadrados no lineales

Los mínimos cuadrados no lineales son la forma de análisis de mínimos cuadrados que se utiliza para ajustar un conjunto de m observaciones con un modelo que es no lineal en n parámetros desconocidos ( m ≥ n ). Se utiliza en algunas formas de regresión no lineal . La base del método es aproximar el modelo mediante uno lineal y refinar los parámetros mediante iteraciones sucesivas. Hay muchas similitudes con los mínimos cuadrados lineales , pero también algunas diferencias significativas . En teoría económica, el método de mínimos cuadrados no lineales se aplica en (i) la regresión probit, (ii) la regresión de umbral, (iii) la regresión suave, (iv) la regresión de enlace logístico, (v) los regresores transformados de Box-Cox ( ) . $m(x,\theta _ {i})=\theta _ {1}+\theta _ {2}x^{(\theta _ {3})}$

Teoría

Considere un conjunto de puntos de datos y una curva (función modelo) que además de la variable también depende de parámetros, con Se desea encontrar el vector de parámetros tal que la curva se ajuste mejor a los datos dados en el sentido de mínimos cuadrados. es decir, la suma de cuadrados $m$ $(x_{1},y_{1}),(x_{2},y_{2}),\dots,(x_{m},y_{m}),$ ${\hat {y}}=f(x,{\boldsymbol {\beta }}),$ $x$ $n$ ${\boldsymbol {\beta }}=(\beta _ {1},\beta _ {2},\dots,\beta _ {n}),$ $m\geq n.$ ${\boldsymbol {\beta }}$

S=\sum _{i=1}^{m}r_{i}^{2}

residuos

r i

r_{i}=y_{i}-f(x_{i},{\boldsymbol {\beta }})

i=1,2,\dots ,m.

El valor mínimo de $S$ ocurre cuando el gradiente es cero. Dado que el modelo contiene $n$ parámetros, existen $n$ ecuaciones de gradiente:

{\frac {\partial S}{\partial \beta _{j}}}=2\sum _{i}r_{i}{\frac {\partial r_{i}}{\partial \beta _{j}}}=0\quad (j=1,\ldots ,n).

En un sistema no lineal, las derivadas son funciones tanto de la variable independiente como de los parámetros, por lo que en general estas ecuaciones de gradiente no tienen una solución cerrada. En su lugar, se deben elegir valores iniciales para los parámetros. Luego, los parámetros se refinan iterativamente, es decir, los valores se obtienen por aproximaciones sucesivas, ${\textstyle {\frac {\partial r_{i}}{\partial \beta _{j}}}}$

\beta _{j}\approx \beta _{j}^{k+1}=\beta _{j}^{k}+\Delta \beta _{j}.

Aquí, $k$ es un número de iteración y el vector de incrementos se conoce como vector de desplazamiento. En cada iteración, el modelo se linealiza mediante una aproximación a una expansión polinómica de Taylor de primer orden sobre $\Delta {\boldsymbol {\beta }}$ ${\boldsymbol {\beta }}^{k}$

f(x_{i},{\boldsymbol {\beta }})\approx f(x_{i},{\boldsymbol {\beta }}^{k})+\sum _{j}{\frac {\partial f(x_{i},{\boldsymbol {\beta }}^{k})}{\partial \beta _{j}}}\left(\beta _{j}-\beta _{j}^{k}\right)=f(x_{i},{\boldsymbol {\beta }}^{k})+\sum _{j}J_{ij}\,\Delta \beta _{j}.

matriz jacobiana

J

{\frac {\partial r_{i}}{\partial \beta _{j}}}=-J_{ij}

\Delta y_{i}=y_{i}-f(x_{i},{\boldsymbol {\beta }}^{k}),

r_{i}=y_{i}-f(x_{i},{\boldsymbol {\beta }})=\left(y_{i}-f(x_{i},{\boldsymbol {\beta }}^{k})\right)+\left(f(x_{i},{\boldsymbol {\beta }}^{k})-f(x_{i},{\boldsymbol {\beta }})\right)\approx \Delta y_{i}-\sum _{s=1}^{n}J_{is}\Delta \beta _{s}.

Sustituyendo estas expresiones en las ecuaciones de gradiente, se convierten en

-2\sum _{i=1}^{m}J_{ij}\left(\Delta y_{i}-\sum _{s=1}^{n}J_{is}\ \Delta \beta _{s}\right)=0,

en n

ecuaciones normales

\sum _{i=1}^{m}\sum _{s=1}^{n}J_{ij}J_{is}\ \Delta \beta _{s}=\sum _{i=1}^{m}J_{ij}\ \Delta y_{i}\qquad (j=1,\dots ,n).

Las ecuaciones normales se escriben en notación matricial como

\left(\mathbf {J} ^{\mathsf {T}}\mathbf {J} \right)\Delta {\boldsymbol {\beta }}=\mathbf {J} ^{\mathsf {T}}\ \Delta \mathbf {y} .

Estas ecuaciones forman la base del algoritmo de Gauss-Newton para un problema de mínimos cuadrados no lineal.

Tenga en cuenta la convención de signos en la definición de la matriz jacobiana en términos de derivadas. Las fórmulas lineales in pueden aparecer con factor de en otros artículos o en la literatura. $J$ $-1$

Extensión por pesas

Cuando las observaciones no son igualmente confiables, se puede minimizar una suma ponderada de cuadrados,

S=\sum _{i=1}^{m}W_{ii}r_{i}^{2}.

Idealmente, cada elemento de la matriz de peso diagonal $W$ debería ser igual al recíproco de la varianza del error de la medición. ^[1] Las ecuaciones normales son entonces, de manera más general,

\left(\mathbf {J} ^{\mathsf {T}}\mathbf {WJ} \right)\Delta {\boldsymbol {\beta }}=\mathbf {J} ^{\mathsf {T}}\mathbf {W} \ \Delta \mathbf {y} .

Interpretación geométrica

En mínimos cuadrados lineales la función objetivo , $S$ , es una función cuadrática de los parámetros.

S=\sum _{i}W_{ii}\left(y_{i}-\sum _{j}X_{ij}\beta _{j}\right)^{2}

S

parábola

S

elipses definida positiva una región cercana

\mathbf {X} ^{\mathsf {T}}\mathbf {WX}

S\approx \sum _{i}W_{ii}\left(y_{i}-\sum _{j}J_{ij}\beta _{j}\right)^{2}

Cálculo

Estimaciones de parámetros iniciales

Algunos problemas de mal condicionamiento y divergencia pueden corregirse encontrando estimaciones de parámetros iniciales cercanas a los valores óptimos. Una buena forma de hacerlo es mediante simulación por ordenador . Tanto los datos observados como los calculados se muestran en una pantalla. Los parámetros del modelo se ajustan manualmente hasta que la concordancia entre los datos observados y calculados sea razonablemente buena. Aunque esto será un juicio subjetivo, es suficiente encontrar un buen punto de partida para el refinamiento no lineal. Las estimaciones de parámetros iniciales se pueden crear mediante transformaciones o linealizaciones. Mejor aún, los algoritmos evolutivos, como el algoritmo de embudo estocástico, pueden conducir a la cuenca de atracción convexa que rodea las estimaciones óptimas de los parámetros. ^{[ cita necesaria ]} Se ha demostrado que los algoritmos híbridos que utilizan aleatorización y elitismo, seguidos de métodos de Newton, son útiles y computacionalmente eficientes ^{[ cita necesaria ]} .

Solución

Se puede aplicar cualquier método entre los que se describen a continuación para encontrar una solución.

Criterios de convergencia

El criterio de sentido común para la convergencia es que la suma de cuadrados no aumenta de una iteración a la siguiente. Sin embargo, este criterio suele ser difícil de implementar en la práctica por diversas razones. Un criterio de convergencia útil es

\left|{\frac {S^{k}-S^{k+1}}{S^{k}}}\right|<0.0001.

\left|{\frac {\Delta \beta _{j}}{\beta _{j}}}\right|<0.001,\qquad j=1,\dots ,n.

Nuevamente, el valor numérico es algo arbitrario; 0,001 equivale a especificar que cada parámetro debe refinarse con una precisión del 0,1%. Esto es razonable cuando es menor que la desviación estándar relativa más grande de los parámetros.

Cálculo del jacobiano por aproximación numérica

Hay modelos para los cuales es muy difícil o incluso imposible derivar expresiones analíticas para los elementos del jacobiano. Entonces, la aproximación numérica

{\frac {\partial f(x_{i},{\boldsymbol {\beta }})}{\partial \beta _{j}}}\approx {\frac {\delta f(x_{i},{\boldsymbol {\beta }})}{\delta \beta _{j}}}

de redondeo

f(x_{i},{\boldsymbol {\beta }})

\beta _{j}

\beta _{j}+\delta \beta _{j}

\delta \beta _{j}

Errores de parámetros, límites de confianza, residuos, etc.

Alguna información se proporciona en la sección correspondiente de la página de mínimos cuadrados lineales .

mínimos múltiples

Pueden ocurrir múltiples mínimos en una variedad de circunstancias, algunas de las cuales son:

Un parámetro se eleva a una potencia de dos o más. Por ejemplo, al ajustar datos a una curva de Lorentz $f(x_{i},{\boldsymbol {\beta }})={\frac {\alpha }{1+\left({\frac {\gamma -x_{i}}{\beta }}\right)^{2}}}$ donde es la altura, es la posición y es el medio ancho a la mitad de la altura, existen dos soluciones para el medio ancho, y que dan el mismo valor óptimo para la función objetivo. $\alpha$ $\gamma$ $\beta$ ${\hat {\beta }}$ $-{\hat {\beta }}$
Se pueden intercambiar dos parámetros sin cambiar el valor del modelo. Un ejemplo sencillo es cuando el modelo contiene el producto de dos parámetros, ya que dará el mismo valor que . $\alpha \beta$ $\beta \alpha$
Un parámetro está en una función trigonométrica, como , que tiene valores idénticos en . Consulte el algoritmo de Levenberg-Marquardt para ver un ejemplo. $\sin \beta$ ${\hat {\beta }}+2n\pi$

No todos los mínimos múltiples tienen valores iguales de la función objetivo. Los falsos mínimos, también conocidos como mínimos locales, ocurren cuando el valor de la función objetivo es mayor que su valor en el llamado mínimo global. Para estar seguro de que el mínimo encontrado es el mínimo global, el refinamiento debe iniciarse con valores iniciales de los parámetros muy diferentes. Cuando se encuentra el mismo mínimo independientemente del punto de partida, es probable que sea el mínimo global.

Cuando existen múltiples mínimos, hay una consecuencia importante: la función objetivo tendrá un valor máximo en algún lugar entre dos mínimos. La matriz de ecuaciones normales no es definida positiva en un máximo en la función objetivo, ya que el gradiente es cero y no existe una dirección de descenso única. El refinamiento desde un punto (un conjunto de valores de parámetros) cercano a un máximo estará mal condicionado y debe evitarse como punto de partida. Por ejemplo, al ajustar un Lorentziano, la matriz de ecuaciones normales no es definida positiva cuando la mitad del ancho de la banda es cero. ^[2]

Transformación a un modelo lineal.

En ocasiones, un modelo no lineal se puede transformar en uno lineal. Esta aproximación suele ser, por ejemplo, aplicable en las proximidades del mejor estimador y es uno de los supuestos básicos en la mayoría de los algoritmos de minimización iterativos. Cuando una aproximación lineal es válida, el modelo se puede utilizar directamente para inferir con mínimos cuadrados generalizados , donde se aplican las ecuaciones del Ajuste de plantilla lineal ^[3] .

Otro ejemplo de aproximación lineal sería, cuando el modelo es una función exponencial simple,

f(x_{i},{\boldsymbol {\beta }})=\alpha e^{\beta x_{i}}

\log f(x_{i},{\boldsymbol {\beta }})=\log \alpha +\beta x_{i}

gráfica semilogarítmica

S=\sum _{i}(\log y_{i}-\log \alpha -\beta x_{i})^{2}.

tengan una distribución logarítmica normal

y

, los errores en log y

Otro ejemplo lo proporciona la cinética de Michaelis-Menten , utilizada para determinar dos parámetros y : $V_{\max }$ $K_{m}$

v={\frac {V_{\max }[S]}{K_{m}+[S]}}.

trama Lineweaver-Burk

{\frac {1}{v}}={\frac {1}{V_{\max }}}+{\frac {K_{m}}{V_{\max }[S]}}

{\textstyle {\frac {1}{v}}}

{\textstyle {\frac {1}{[S]}}}

{\textstyle {\frac {1}{V_{\max }}}}

{\textstyle {\frac {K_{m}}{V_{\max }}}}

[S]

Algoritmos

Método de Gauss-Newton

las ecuaciones normales

\left(\mathbf {J} ^{\mathsf {T}}\mathbf {WJ} \right)\Delta {\boldsymbol {\beta }}=\left(\mathbf {J} ^{\mathsf {T}}\mathbf {W} \right)\Delta \mathbf {y}

descomposición de Cholesky mínimos cuadrados lineales

\Delta {\boldsymbol {\beta }}

{\boldsymbol {\beta }}^{k+1}={\boldsymbol {\beta }}^{k}+\Delta {\boldsymbol {\beta }}

corte de turnos

Si ocurre divergencia, un recurso simple es reducir la longitud del vector de desplazamiento, en una fracción, f $\Delta {\boldsymbol {\beta }}$

{\boldsymbol {\beta }}^{k+1}={\boldsymbol {\beta }}^{k}+f\ \Delta {\boldsymbol {\beta }}.

fbúsqueda lineal^[4]f

Cuando se utiliza el corte por desplazamiento, la dirección del vector de desplazamiento permanece sin cambios. Esto limita la aplicabilidad del método a situaciones donde la dirección del vector de desplazamiento no es muy diferente de lo que sería si la función objetivo fuera aproximadamente cuadrática en los parámetros. ${\boldsymbol {\beta }}^{k}.$

parámetro de Marquardt

Si ocurre divergencia y la dirección del vector de desplazamiento está tan lejos de su dirección "ideal" que el corte de desplazamiento no es muy efectivo, es decir, la fracción f requerida para evitar la divergencia es muy pequeña, se debe cambiar la dirección. Esto se puede lograr utilizando el parámetro de Marquardt . ^[5] En este método se modifican las ecuaciones normales.

\left(\mathbf {J} ^{\mathsf {T}}\mathbf {WJ} +\lambda \mathbf {I} \right)\Delta {\boldsymbol {\beta }}=\left(\mathbf {J} ^{\mathsf {T}}\mathbf {W} \right)\Delta \mathbf {y}

Idescenso más pronunciado

\lambda

\lambda

\lambda \mathbf {I} \gg \mathbf {J} ^{\mathsf {T}}\mathbf {WJ} ,\ {\Delta {\boldsymbol {\beta }}}\approx {\frac {1}{\lambda }}\mathbf {J} ^{\mathsf {T}}\mathbf {W} \ \Delta \mathbf {y} .

\mathbf {J} ^{\mathsf {T}}\mathbf {W} \,\Delta \mathbf {y}

\lambda

Se han propuesto varias estrategias para la determinación del parámetro de Marquardt. Al igual que con el corte por turnos, es un desperdicio optimizar este parámetro de manera demasiado estricta. Más bien, una vez que se ha encontrado un valor que provoca una reducción en el valor de la función objetivo, ese valor del parámetro se lleva a la siguiente iteración, se reduce si es posible o se aumenta si es necesario. Al reducir el valor del parámetro de Marquardt, existe un valor de corte por debajo del cual es seguro ponerlo a cero, es decir, continuar con el método de Gauss-Newton sin modificar. El valor de corte puede establecerse igual al valor singular más pequeño del jacobiano. ^[6] Un límite para este valor viene dado por donde $tr$ es la función de seguimiento . ^[7] $1/\operatorname {tr} \left(\mathbf {J} ^{\mathsf {T}}\mathbf {WJ} \right)^{-1}$

descomposición QR

El mínimo en la suma de cuadrados se puede encontrar mediante un método que no implica formar ecuaciones normales. Los residuos con el modelo linealizado se pueden escribir como

\mathbf {r} =\Delta \mathbf {y} -\mathbf {J} \,\Delta {\boldsymbol {\beta }}.

descomposición QR

\mathbf {J} =\mathbf {QR}

Q

ortogonal y

R

divide

m\times m

m\times n

n\times n

\mathbf {R} _{n}

(m-n)\times n

\mathbf {R} _{n}

\mathbf {R} ={\begin{bmatrix}\mathbf {R} _{n}\\\mathbf {0} \end{bmatrix}}

El vector residual se multiplica por la izquierda por . $\mathbf {Q} ^{\mathsf {T}}$

\mathbf {Q} ^{\mathsf {T}}\mathbf {r} =\mathbf {Q} ^{\mathsf {T}}\ \Delta \mathbf {y} -\mathbf {R} \ \Delta {\boldsymbol {\beta }}={\begin{bmatrix}\left(\mathbf {Q} ^{\mathsf {T}}\ \Delta \mathbf {y} -\mathbf {R} \ \Delta {\boldsymbol {\beta }}\right)_{n}\\\left(\mathbf {Q} ^{\mathsf {T}}\ \Delta \mathbf {y} \right)_{m-n}\end{bmatrix}}

Esto no tiene ningún efecto sobre la suma de cuadrados ya que debido a que Q es ortogonal , el valor mínimo de S se alcanza cuando el bloque superior es cero. Por lo tanto, el vector de desplazamiento se encuentra resolviendo $S=\mathbf {r} ^{\mathsf {T}}\mathbf {Q} \mathbf {Q} ^{\mathsf {T}}\mathbf {r} =\mathbf {r} ^{\mathsf {T}}\mathbf {r}$

\mathbf {R} _{n}\ \Delta {\boldsymbol {\beta }}=\left(\mathbf {Q} ^{\mathsf {T}}\ \Delta \mathbf {y} \right)_{n}.

Estas ecuaciones se resuelven fácilmente ya que R es triangular superior.

Valor singular de descomposición

Una variante del método de descomposición ortogonal implica la descomposición en valores singulares , en la que R se diagonaliza mediante transformaciones ortogonales adicionales.

\mathbf {J} =\mathbf {U} {\boldsymbol {\Sigma }}\mathbf {V} ^{\mathsf {T}}

\mathbf {U}

{\boldsymbol {\Sigma }}

\mathbf {V}

\mathbf {J} ^{\mathsf {T}}\mathbf {J}

\mathbf {J}

\Delta {\boldsymbol {\beta }}=\mathbf {V} {\boldsymbol {\Sigma }}^{-1}\left(\mathbf {U} ^{\mathsf {T}}\ \Delta \mathbf {y} \right)_{n}.

La relativa simplicidad de esta expresión es muy útil en el análisis teórico de mínimos cuadrados no lineales. La aplicación de la descomposición de valores singulares se analiza en detalle en Lawson y Hanson. ^[6]

Métodos de gradiente

Hay muchos ejemplos en la literatura científica donde se han utilizado diferentes métodos para problemas de ajuste de datos no lineales.

Inclusión de segundas derivadas en la expansión en serie de Taylor de la función modelo. Este es el método de optimización de Newton . $f(x_{i},{\boldsymbol {\beta }})=f^{k}(x_{i},{\boldsymbol {\beta }})+\sum _{j}J_{ij}\,\Delta \beta _{j}+{\frac {1}{2}}\sum _{j}\sum _{k}\Delta \beta _{j}\,\Delta \beta _{k}\,H_{jk_{(i)}},\ H_{jk_{(i)}}={\frac {\partial ^{2}f(x_{i},{\boldsymbol {\beta }})}{\partial \beta _{j}\,\partial \beta _{k}}}.$ La matriz H se conoce como matriz de Hesse . Aunque este modelo tiene mejores propiedades de convergencia cerca del mínimo, es mucho peor cuando los parámetros están lejos de sus valores óptimos. El cálculo del hessiano aumenta la complejidad del algoritmo. Este método no es de uso general.
Método Davidon-Fletcher-Powell . Este método, una forma de método pseudo-Newton, es similar al anterior pero calcula el hessiano mediante aproximaciones sucesivas, para evitar tener que utilizar expresiones analíticas para las segundas derivadas.
Descenso más pronunciado . Aunque se garantiza una reducción en la suma de cuadrados cuando el vector de desplazamiento apunta en la dirección del descenso más pronunciado, este método a menudo funciona mal. Cuando los valores de los parámetros están lejos de ser óptimos, la dirección del vector de descenso más pronunciado, que es normal (perpendicular) a los contornos de la función objetivo, es muy diferente de la dirección del vector de Gauss-Newton. Esto hace que la divergencia sea mucho más probable, especialmente porque el mínimo a lo largo de la dirección del descenso más pronunciado puede corresponder a una pequeña fracción de la longitud del vector de descenso más pronunciado. Cuando los contornos de la función objetivo son muy excéntricos, debido a que existe una alta correlación entre parámetros, las iteraciones de descenso más pronunciadas, con corte de turnos, siguen una trayectoria lenta en zig-zag hacia el mínimo.
Búsqueda de gradiente conjugado . Este es un método mejorado basado en el descenso más pronunciado con buenas propiedades de convergencia teórica, aunque puede fallar en computadoras digitales de precisión finita incluso cuando se usa en problemas cuadráticos. ^[8]

Métodos de búsqueda directa

Los métodos de búsqueda directa dependen de evaluaciones de la función objetivo en una variedad de valores de parámetros y no utilizan derivadas en absoluto. Ofrecen alternativas al uso de derivadas numéricas en el método de Gauss-Newton y los métodos de gradiente.

Búsqueda de variables alternas. ^[4] Cada parámetro se varía a su vez añadiéndole un incremento fijo o variable y reteniendo el valor que provoca una reducción en la suma de cuadrados. El método es simple y eficaz cuando los parámetros no están altamente correlacionados. Tiene propiedades de convergencia muy pobres, pero puede resultar útil para encontrar estimaciones de parámetros iniciales.
Búsqueda Nelder-Mead (simple) . Un simplex en este contexto es un politopo de n + 1 vértices en n dimensiones; un triángulo en un plano, un tetraedro en un espacio tridimensional, etc. Cada vértice corresponde a un valor de la función objetivo para un conjunto particular de parámetros. La forma y el tamaño del simplex se ajustan variando los parámetros de tal manera que el valor de la función objetivo en el vértice más alto siempre disminuye. Aunque la suma de cuadrados puede inicialmente disminuir rápidamente, puede converger a un punto no estacionario en problemas cuasiconvexos, según el ejemplo de MJD Powell.

Descripciones más detalladas de estos y otros métodos están disponibles en Recetas numéricas , junto con código de computadora en varios idiomas.

Ver también

Referencias

^ Esto implica que las observaciones no están correlacionadas. Si las observaciones están correlacionadas , la expresión $S=\sum _{k}\sum _{j}r_{k}W_{kj}r_{j}$ aplica. En este caso, lo ideal es que la matriz de ponderación sea igual a la inversa de la matriz de varianza-covarianza del error de las observaciones.
^ En ausencia de error de redondeo y de error experimental en la variable independiente, la matriz de ecuaciones normales sería singular
^ Britzger, Daniel (2022). "El ajuste de plantilla lineal". EUR. Física. J.C. 82 : 731. arXiv : 2112.01548 . doi :10.1140/epjc/s10052-022-10581-w.
^ ab MJ Box, D. Davies y WH Swann, Técnicas de optimización no lineal, Oliver & Boyd, 1969
^ Esta técnica fue propuesta de forma independiente por Levenberg (1944), Girard (1958), Wynne (1959), Morrison (1960) y Marquardt (1963). Sólo el nombre de Marquardt se utiliza en gran parte de la literatura científica. Consulte el artículo principal para obtener referencias de citas.
^ ab CL Lawson y RJ Hanson, Resolución de problemas de mínimos cuadrados, Prentice-Hall, 1974
^ R. Fletcher, Informe UKAEA AERE-R 6799, Oficina de papelería de HM, 1971
^ MJD Powell, Computer Journal, (1964), 7 , 155.

Otras lecturas

Kelley, CT (1999). Métodos iterativos de optimización (PDF) . Fronteras SIAM en Matemática Aplicada. vol. nº 18. ISBN 0-89871-433-8.
Strutz, T. (2016). Ajuste de datos e incertidumbre: una introducción práctica a los mínimos cuadrados ponderados y más (2ª ed.). Springer Vieweg. ISBN 978-3-658-11455-8.