stringtranslate.com

Mínimos cuadrados no lineales

Los mínimos cuadrados no lineales son la forma de análisis de mínimos cuadrados utilizada para ajustar un conjunto de m observaciones con un modelo que no es lineal en n parámetros desconocidos ( m  ≥  n ). Se utiliza en algunas formas de regresión no lineal . La base del método es aproximar el modelo por uno lineal y refinar los parámetros mediante iteraciones sucesivas. Hay muchas similitudes con los mínimos cuadrados lineales , pero también algunas diferencias significativas . En teoría económica, el método de mínimos cuadrados no lineales se aplica en (i) la regresión probit, (ii) la regresión umbral, (iii) la regresión suave, (iv) la regresión de enlace logístico, (v) los regresores transformados de Box-Cox ( ).

Teoría

Consideremos un conjunto de puntos de datos y una curva (función modelo) que además de la variable también depende de parámetros, con Se desea encontrar el vector de parámetros tal que la curva se ajuste mejor a los datos dados en el sentido de mínimos cuadrados, es decir, se minimiza la suma de cuadrados, donde los residuos (errores de predicción en la muestra) r i están dados por para

El valor mínimo de S se produce cuando el gradiente es cero. Como el modelo contiene n parámetros, existen n ecuaciones de gradiente:

En un sistema no lineal, las derivadas son funciones tanto de la variable independiente como de los parámetros, por lo que en general estas ecuaciones de gradiente no tienen una solución cerrada. En cambio, se deben elegir valores iniciales para los parámetros. Luego, los parámetros se refinan iterativamente, es decir, los valores se obtienen por aproximación sucesiva.

Aquí, k es un número de iteración y el vector de incrementos se conoce como el vector de desplazamiento. En cada iteración, el modelo se linealiza mediante la aproximación a una expansión polinomial de Taylor de primer orden sobre La matriz jacobiana , J , es una función de constantes, la variable independiente y los parámetros, por lo que cambia de una iteración a la siguiente. Por lo tanto, en términos del modelo linealizado, y los residuos están dados por

Sustituyendo estas expresiones en las ecuaciones de gradiente, se convierten en que, al reordenarlas, se convierten en n ecuaciones lineales simultáneas, las ecuaciones normales.

Las ecuaciones normales se escriben en notación matricial como

Estas ecuaciones forman la base del algoritmo de Gauss-Newton para un problema de mínimos cuadrados no lineal.

Tenga en cuenta la convención de signos en la definición de la matriz jacobiana en términos de las derivadas. Las fórmulas lineales pueden aparecer con el factor de en otros artículos o en la literatura.

Extensión por pesos

Cuando las observaciones no son igualmente confiables, se puede minimizar una suma ponderada de cuadrados,

Cada elemento de la matriz de peso diagonal W debería, idealmente, ser igual al recíproco de la varianza del error de la medición. [1] Las ecuaciones normales son entonces, de manera más general,

Interpretación geométrica

En los mínimos cuadrados lineales, la función objetivo , S , es una función cuadrática de los parámetros. Cuando hay un solo parámetro, el gráfico de S con respecto a ese parámetro será una parábola . Con dos o más parámetros, los contornos de S con respecto a cualquier par de parámetros serán elipses concéntricas (suponiendo que la matriz de ecuaciones normales es definida positiva ). Los valores mínimos de los parámetros se encuentran en el centro de las elipses. La geometría de la función objetivo general se puede describir como paraboloide elíptica. En NLLSQ, la función objetivo es cuadrática con respecto a los parámetros solo en una región cercana a su valor mínimo, donde la serie de Taylor truncada es una buena aproximación al modelo. Cuanto más difieren los valores de los parámetros de sus valores óptimos, más se desvían los contornos de la forma elíptica. Una consecuencia de esto es que las estimaciones iniciales de los parámetros deben ser lo más cercanas posible a sus valores óptimos (¡desconocidos!). También explica cómo puede producirse divergencia, ya que el algoritmo de Gauss-Newton es convergente sólo cuando la función objetivo es aproximadamente cuadrática en los parámetros.

Cálculo

Estimaciones iniciales de parámetros

Algunos problemas de mal condicionamiento y divergencia pueden corregirse encontrando estimaciones iniciales de parámetros que estén cerca de los valores óptimos. Una buena forma de hacerlo es mediante simulación por computadora . Tanto los datos observados como los calculados se muestran en una pantalla. Los parámetros del modelo se ajustan manualmente hasta que la concordancia entre los datos observados y calculados sea razonablemente buena. Aunque este será un juicio subjetivo, es suficiente para encontrar un buen punto de partida para el refinamiento no lineal. Las estimaciones iniciales de parámetros pueden crearse utilizando transformaciones o linealizaciones. Mejor aún, algoritmos evolutivos como el algoritmo de embudo estocástico pueden conducir a la cuenca de atracción convexa que rodea las estimaciones óptimas de parámetros. [ cita requerida ] Se ha demostrado que los algoritmos híbridos que utilizan aleatorización y elitismo, seguidos de los métodos de Newton, son útiles y computacionalmente eficientes [ cita requerida ] .

Solución

Se puede aplicar cualquiera de los métodos descritos a continuación para encontrar una solución.

Criterios de convergencia

El criterio de sentido común para la convergencia es que la suma de cuadrados no aumenta de una iteración a la siguiente. Sin embargo, este criterio suele ser difícil de implementar en la práctica por diversas razones. Un criterio de convergencia útil es El valor 0,0001 es algo arbitrario y puede ser necesario cambiarlo. En particular, puede ser necesario aumentarlo cuando los errores experimentales son grandes. Un criterio alternativo es

Nuevamente, el valor numérico es algo arbitrario: 0,001 equivale a especificar que cada parámetro debe refinarse con una precisión del 0,1 %. Esto es razonable cuando es menor que la desviación estándar relativa más grande de los parámetros.

Cálculo del jacobiano por aproximación numérica

Existen modelos para los cuales es muy difícil o incluso imposible derivar expresiones analíticas para los elementos del jacobiano. En ese caso, la aproximación numérica se obtiene mediante el cálculo de para y . El tamaño del incremento, , debe elegirse de modo que la derivada numérica no esté sujeta a un error de aproximación por ser demasiado grande, o a un error de redondeo por ser demasiado pequeña.

Errores de parámetros, límites de confianza, residuos, etc.

Se proporciona cierta información en la sección correspondiente de la página Mínimos cuadrados ponderados .

Mínimos múltiples

Pueden ocurrir múltiples mínimos en una variedad de circunstancias, algunas de las cuales son:

No todos los mínimos múltiples tienen valores iguales de la función objetivo. Los mínimos falsos, también conocidos como mínimos locales, ocurren cuando el valor de la función objetivo es mayor que su valor en el llamado mínimo global. Para estar seguro de que el mínimo encontrado es el mínimo global, el refinamiento debe comenzar con valores iniciales muy diferentes de los parámetros. Cuando se encuentra el mismo mínimo independientemente del punto de partida, es probable que sea el mínimo global.

Cuando existen múltiples mínimos, hay una consecuencia importante: la función objetivo tendrá un valor máximo en algún punto entre dos mínimos. La matriz de ecuaciones normales no es definida positiva en un máximo de la función objetivo, ya que el gradiente es cero y no existe una dirección única de descenso. El refinamiento a partir de un punto (un conjunto de valores de parámetros) cercano a un máximo estará mal condicionado y se debe evitar como punto de partida. Por ejemplo, al ajustar un lorentziano, la matriz de ecuaciones normales no es definida positiva cuando la mitad del ancho de la banda es cero. [2]

Transformación a un modelo lineal

Un modelo no lineal puede transformarse a veces en uno lineal. Esta aproximación suele ser aplicable, por ejemplo, en las proximidades del mejor estimador y es uno de los supuestos básicos en la mayoría de los algoritmos de minimización iterativos. Cuando una aproximación lineal es válida, el modelo puede utilizarse directamente para la inferencia con un método de mínimos cuadrados generalizado , donde se aplican las ecuaciones del ajuste de plantilla lineal [3] .

Otro ejemplo de una aproximación lineal sería cuando el modelo es una función exponencial simple, que se puede transformar en un modelo lineal tomando logaritmos. Gráficamente esto corresponde a trabajar en un gráfico semilogarítmico . La suma de cuadrados se convierte en Este procedimiento debe evitarse a menos que los errores sean multiplicativos y log-normalmente distribuidos porque puede dar resultados engañosos. Esto se debe al hecho de que cualesquiera que sean los errores experimentales en y , los errores en log y son diferentes. Por lo tanto, cuando se minimiza la suma de cuadrados transformada, se obtendrán resultados diferentes tanto para los valores de los parámetros como para sus desviaciones estándar calculadas. Sin embargo, con errores multiplicativos que se distribuyen log-normalmente, este procedimiento da estimaciones de parámetros imparciales y consistentes.

Otro ejemplo lo proporciona la cinética de Michaelis-Menten , utilizada para determinar dos parámetros y : El gráfico de Lineweaver-Burk de contra es lineal en los parámetros y pero muy sensible a los errores de datos y fuertemente sesgado hacia el ajuste de los datos en un rango particular de la variable independiente .

Algoritmos

Método de Gauss-Newton

Las ecuaciones normales se pueden resolver mediante la descomposición de Cholesky , como se describe en los mínimos cuadrados lineales . Los parámetros se actualizan iterativamente, donde k es un número de iteración. Si bien este método puede ser adecuado para modelos simples, fallará si se produce divergencia. Por lo tanto, la protección contra la divergencia es esencial.

Corte de turnos

Si se produce divergencia, un recurso sencillo consiste en reducir la longitud del vector de desplazamiento, , en una fracción, f Por ejemplo, la longitud del vector de desplazamiento puede reducirse sucesivamente a la mitad hasta que el nuevo valor de la función objetivo sea menor que su valor en la última iteración. La fracción, f, podría optimizarse mediante una búsqueda lineal . [4] Como cada valor de prueba de f requiere que se vuelva a calcular la función objetivo, no merece la pena optimizar su valor de forma demasiado estricta.

Al utilizar el método de corte por desplazamiento, la dirección del vector de desplazamiento permanece inalterada, lo que limita la aplicabilidad del método a situaciones en las que la dirección del vector de desplazamiento no es muy diferente de la que sería si la función objetivo fuera aproximadamente cuadrática en los parámetros.

Parámetro de Marquardt

Si se produce divergencia y la dirección del vector de desplazamiento está tan alejada de su dirección "ideal" que el corte por desplazamiento no es muy eficaz, es decir, la fracción f necesaria para evitar la divergencia es muy pequeña, se debe cambiar la dirección. Esto se puede lograr utilizando el parámetro de Marquardt . [5] En este método se modifican las ecuaciones normales donde es el parámetro de Marquardt e I es una matriz identidad. Aumentar el valor de tiene el efecto de cambiar tanto la dirección como la longitud del vector de desplazamiento. El vector de desplazamiento se gira hacia la dirección de descenso más pronunciado cuando es el vector de descenso más pronunciado. Por lo tanto, cuando se vuelve muy grande, el vector de desplazamiento se convierte en una pequeña fracción del vector de descenso más pronunciado.

Se han propuesto varias estrategias para la determinación del parámetro de Marquardt. Al igual que con el corte por desplazamiento, es un desperdicio optimizar este parámetro de forma demasiado estricta. En cambio, una vez que se ha encontrado un valor que produce una reducción en el valor de la función objetivo, ese valor del parámetro se lleva a la siguiente iteración, se reduce si es posible o se aumenta si es necesario. Al reducir el valor del parámetro de Marquardt, existe un valor de corte por debajo del cual es seguro establecerlo en cero, es decir, continuar con el método de Gauss-Newton sin modificar. El valor de corte puede establecerse igual al valor singular más pequeño del jacobiano. [6] Un límite para este valor viene dado por donde tr es la función de traza . [7]

Descomposición QR

El mínimo en la suma de cuadrados se puede encontrar mediante un método que no implica la formación de ecuaciones normales. Los residuos con el modelo linealizado se pueden escribir como El jacobiano se somete a una descomposición ortogonal; la descomposición QR servirá para ilustrar el proceso. donde Q es una matriz ortogonal y R es una matriz que se divide en un bloque, y un bloque cero. es triangular superior.

El vector residual se multiplica por la izquierda por .

Esto no tiene efecto en la suma de cuadrados ya que debido a que Q es ortogonal , el valor mínimo de S se alcanza cuando el bloque superior es cero. Por lo tanto, el vector de desplazamiento se encuentra resolviendo

Estas ecuaciones se resuelven fácilmente ya que R es triangular superior.

Descomposición en valores singulares

Una variante del método de descomposición ortogonal implica la descomposición en valores singulares , en la que R se diagonaliza mediante transformaciones ortogonales adicionales.

donde es ortogonal, es una matriz diagonal de valores singulares y es la matriz ortogonal de los vectores propios de o, equivalentemente, los vectores singulares derechos de . En este caso, el vector de desplazamiento viene dado por

La relativa simplicidad de esta expresión es muy útil en el análisis teórico de mínimos cuadrados no lineales. La aplicación de la descomposición en valores singulares se analiza en detalle en Lawson y Hanson. [6]

Métodos de gradiente

Hay muchos ejemplos en la literatura científica donde se han utilizado diferentes métodos para problemas de ajuste de datos no lineales.

Métodos de búsqueda directa

Los métodos de búsqueda directa dependen de evaluaciones de la función objetivo en una variedad de valores de parámetros y no utilizan derivadas en absoluto. Ofrecen alternativas al uso de derivadas numéricas en el método de Gauss-Newton y los métodos de gradiente.

Se encuentran disponibles descripciones más detalladas de estos y otros métodos en Recetas numéricas , junto con código de computadora en varios idiomas.

Véase también

Referencias

  1. ^ Esto implica que las observaciones no están correlacionadas. Si las observaciones están correlacionadas , se aplica la expresión . En este caso, la matriz de ponderación idealmente debería ser igual a la inversa de la matriz de varianza-covarianza de error de las observaciones.
  2. ^ En ausencia de error de redondeo y de error experimental en la variable independiente la matriz de ecuaciones normales sería singular
  3. ^ Britzger, Daniel (2022). "El ajuste lineal de la plantilla". Eur. Phys. J. C . 82 (8): 731. arXiv : 2112.01548 . Código Bibliográfico :2022EPJC...82..731B. doi :10.1140/epjc/s10052-022-10581-w.
  4. ^ ab MJ Box, D. Davies y WH Swann, Técnicas de optimización no lineal, Oliver & Boyd, 1969
  5. ^ Esta técnica fue propuesta independientemente por Levenberg (1944), Girard (1958), Wynne (1959), Morrison (1960) y Marquardt (1963). El nombre de Marquardt es el único que se utiliza para referirse a ella en gran parte de la literatura científica. Consulte el artículo principal para ver las referencias citadas.
  6. ^ ab CL Lawson y RJ Hanson, Solución de problemas de mínimos cuadrados, Prentice–Hall, 1974
  7. ^ R. Fletcher, Informe AERE-R 6799 de UKAEA, Oficina de papelería de Su Majestad, 1971
  8. ^ MJD Powell, Computer Journal, (1964), 7 , 155.

Lectura adicional