stringtranslate.com

Mínimos cuadrados no lineales

Los mínimos cuadrados no lineales son la forma de análisis de mínimos cuadrados que se utiliza para ajustar un conjunto de m observaciones con un modelo que es no lineal en n parámetros desconocidos ( m  ≥  n ). Se utiliza en algunas formas de regresión no lineal . La base del método es aproximar el modelo mediante uno lineal y refinar los parámetros mediante iteraciones sucesivas. Hay muchas similitudes con los mínimos cuadrados lineales , pero también algunas diferencias significativas . En teoría económica, el método de mínimos cuadrados no lineales se aplica en (i) la regresión probit, (ii) la regresión de umbral, (iii) la regresión suave, (iv) la regresión de enlace logístico, (v) los regresores transformados de Box-Cox ( ) .

Teoría

Considere un conjunto de puntos de datos y una curva (función modelo) que además de la variable también depende de parámetros, con Se desea encontrar el vector de parámetros tal que la curva se ajuste mejor a los datos dados en el sentido de mínimos cuadrados. es decir, la suma de cuadrados

residuosr i

El valor mínimo de S ocurre cuando el gradiente es cero. Dado que el modelo contiene n parámetros, existen n ecuaciones de gradiente:

En un sistema no lineal, las derivadas son funciones tanto de la variable independiente como de los parámetros, por lo que en general estas ecuaciones de gradiente no tienen una solución cerrada. En su lugar, se deben elegir valores iniciales para los parámetros. Luego, los parámetros se refinan iterativamente, es decir, los valores se obtienen por aproximaciones sucesivas,

Aquí, k es un número de iteración y el vector de incrementos se conoce como vector de desplazamiento. En cada iteración, el modelo se linealiza mediante una aproximación a una expansión polinómica de Taylor de primer orden sobre

matriz jacobianaJy

Sustituyendo estas expresiones en las ecuaciones de gradiente, se convierten en

en necuaciones normales

Las ecuaciones normales se escriben en notación matricial como

Estas ecuaciones forman la base del algoritmo de Gauss-Newton para un problema de mínimos cuadrados no lineal.

Tenga en cuenta la convención de signos en la definición de la matriz jacobiana en términos de derivadas. Las fórmulas lineales in pueden aparecer con factor de en otros artículos o en la literatura.

Extensión por pesas

Cuando las observaciones no son igualmente confiables, se puede minimizar una suma ponderada de cuadrados,

Idealmente, cada elemento de la matriz de peso diagonal W debería ser igual al recíproco de la varianza del error de la medición. [1] Las ecuaciones normales son entonces, de manera más general,

Interpretación geométrica

En mínimos cuadrados lineales la función objetivo , S , es una función cuadrática de los parámetros.

SparábolaSelipsesdefinida positivauna región cercana

Cálculo

Estimaciones de parámetros iniciales

Algunos problemas de mal condicionamiento y divergencia pueden corregirse encontrando estimaciones de parámetros iniciales cercanas a los valores óptimos. Una buena forma de hacerlo es mediante simulación por ordenador . Tanto los datos observados como los calculados se muestran en una pantalla. Los parámetros del modelo se ajustan manualmente hasta que la concordancia entre los datos observados y calculados sea razonablemente buena. Aunque esto será un juicio subjetivo, es suficiente encontrar un buen punto de partida para el refinamiento no lineal. Las estimaciones de parámetros iniciales se pueden crear mediante transformaciones o linealizaciones. Mejor aún, los algoritmos evolutivos, como el algoritmo de embudo estocástico, pueden conducir a la cuenca de atracción convexa que rodea las estimaciones óptimas de los parámetros. [ cita necesaria ] Se ha demostrado que los algoritmos híbridos que utilizan aleatorización y elitismo, seguidos de métodos de Newton, son útiles y computacionalmente eficientes [ cita necesaria ] .

Solución

Se puede aplicar cualquier método entre los que se describen a continuación para encontrar una solución.

Criterios de convergencia

El criterio de sentido común para la convergencia es que la suma de cuadrados no aumenta de una iteración a la siguiente. Sin embargo, este criterio suele ser difícil de implementar en la práctica por diversas razones. Un criterio de convergencia útil es

Nuevamente, el valor numérico es algo arbitrario; 0,001 equivale a especificar que cada parámetro debe refinarse con una precisión del 0,1%. Esto es razonable cuando es menor que la desviación estándar relativa más grande de los parámetros.

Cálculo del jacobiano por aproximación numérica

Hay modelos para los cuales es muy difícil o incluso imposible derivar expresiones analíticas para los elementos del jacobiano. Entonces, la aproximación numérica

de redondeo

Errores de parámetros, límites de confianza, residuos, etc.

Alguna información se proporciona en la sección correspondiente de la página de mínimos cuadrados lineales .

mínimos múltiples

Pueden ocurrir múltiples mínimos en una variedad de circunstancias, algunas de las cuales son:

No todos los mínimos múltiples tienen valores iguales de la función objetivo. Los falsos mínimos, también conocidos como mínimos locales, ocurren cuando el valor de la función objetivo es mayor que su valor en el llamado mínimo global. Para estar seguro de que el mínimo encontrado es el mínimo global, el refinamiento debe iniciarse con valores iniciales de los parámetros muy diferentes. Cuando se encuentra el mismo mínimo independientemente del punto de partida, es probable que sea el mínimo global.

Cuando existen múltiples mínimos, hay una consecuencia importante: la función objetivo tendrá un valor máximo en algún lugar entre dos mínimos. La matriz de ecuaciones normales no es definida positiva en un máximo en la función objetivo, ya que el gradiente es cero y no existe una dirección de descenso única. El refinamiento desde un punto (un conjunto de valores de parámetros) cercano a un máximo estará mal condicionado y debe evitarse como punto de partida. Por ejemplo, al ajustar un Lorentziano, la matriz de ecuaciones normales no es definida positiva cuando la mitad del ancho de la banda es cero. [2]

Transformación a un modelo lineal.

En ocasiones, un modelo no lineal se puede transformar en uno lineal. Esta aproximación suele ser, por ejemplo, aplicable en las proximidades del mejor estimador y es uno de los supuestos básicos en la mayoría de los algoritmos de minimización iterativos. Cuando una aproximación lineal es válida, el modelo se puede utilizar directamente para inferir con mínimos cuadrados generalizados , donde se aplican las ecuaciones del Ajuste de plantilla lineal [3] .

Otro ejemplo de aproximación lineal sería, cuando el modelo es una función exponencial simple,

gráfica semilogarítmica
tengan una distribución logarítmica normaly , los errores en log y

Otro ejemplo lo proporciona la cinética de Michaelis-Menten , utilizada para determinar dos parámetros y :

trama Lineweaver-Burk

Algoritmos

Método de Gauss-Newton

las ecuaciones normales

descomposición de Choleskymínimos cuadrados lineales
k

corte de turnos

Si ocurre divergencia, un recurso simple es reducir la longitud del vector de desplazamiento, en una fracción, f

fbúsqueda lineal[4]f

Cuando se utiliza el corte por desplazamiento, la dirección del vector de desplazamiento permanece sin cambios. Esto limita la aplicabilidad del método a situaciones donde la dirección del vector de desplazamiento no es muy diferente de lo que sería si la función objetivo fuera aproximadamente cuadrática en los parámetros.

parámetro de Marquardt

Si ocurre divergencia y la dirección del vector de desplazamiento está tan lejos de su dirección "ideal" que el corte de desplazamiento no es muy efectivo, es decir, la fracción f requerida para evitar la divergencia es muy pequeña, se debe cambiar la dirección. Esto se puede lograr utilizando el parámetro de Marquardt . [5] En este método se modifican las ecuaciones normales.

Idescenso más pronunciado

Se han propuesto varias estrategias para la determinación del parámetro de Marquardt. Al igual que con el corte por turnos, es un desperdicio optimizar este parámetro de manera demasiado estricta. Más bien, una vez que se ha encontrado un valor que provoca una reducción en el valor de la función objetivo, ese valor del parámetro se lleva a la siguiente iteración, se reduce si es posible o se aumenta si es necesario. Al reducir el valor del parámetro de Marquardt, existe un valor de corte por debajo del cual es seguro ponerlo a cero, es decir, continuar con el método de Gauss-Newton sin modificar. El valor de corte puede establecerse igual al valor singular más pequeño del jacobiano. [6] Un límite para este valor viene dado por donde tr es la función de seguimiento . [7]

descomposición QR

El mínimo en la suma de cuadrados se puede encontrar mediante un método que no implica formar ecuaciones normales. Los residuos con el modelo linealizado se pueden escribir como

descomposición QR
Qortogonal y Rdivide

El vector residual se multiplica por la izquierda por .

Esto no tiene ningún efecto sobre la suma de cuadrados ya que debido a que Q es ortogonal , el valor mínimo de S se alcanza cuando el bloque superior es cero. Por lo tanto, el vector de desplazamiento se encuentra resolviendo

Estas ecuaciones se resuelven fácilmente ya que R es triangular superior.

Valor singular de descomposición

Una variante del método de descomposición ortogonal implica la descomposición en valores singulares , en la que R se diagonaliza mediante transformaciones ortogonales adicionales.

La relativa simplicidad de esta expresión es muy útil en el análisis teórico de mínimos cuadrados no lineales. La aplicación de la descomposición de valores singulares se analiza en detalle en Lawson y Hanson. [6]

Métodos de gradiente

Hay muchos ejemplos en la literatura científica donde se han utilizado diferentes métodos para problemas de ajuste de datos no lineales.

Métodos de búsqueda directa

Los métodos de búsqueda directa dependen de evaluaciones de la función objetivo en una variedad de valores de parámetros y no utilizan derivadas en absoluto. Ofrecen alternativas al uso de derivadas numéricas en el método de Gauss-Newton y los métodos de gradiente.

Descripciones más detalladas de estos y otros métodos están disponibles en Recetas numéricas , junto con código de computadora en varios idiomas.

Ver también

Referencias

  1. ^ Esto implica que las observaciones no están correlacionadas. Si las observaciones están correlacionadas , la expresión
    aplica. En este caso, lo ideal es que la matriz de ponderación sea igual a la inversa de la matriz de varianza-covarianza del error de las observaciones.
  2. ^ En ausencia de error de redondeo y de error experimental en la variable independiente, la matriz de ecuaciones normales sería singular
  3. ^ Britzger, Daniel (2022). "El ajuste de plantilla lineal". EUR. Física. J.C.82 : 731. arXiv : 2112.01548 . doi :10.1140/epjc/s10052-022-10581-w.
  4. ^ ab MJ Box, D. Davies y WH Swann, Técnicas de optimización no lineal, Oliver & Boyd, 1969
  5. ^ Esta técnica fue propuesta de forma independiente por Levenberg (1944), Girard (1958), Wynne (1959), Morrison (1960) y Marquardt (1963). Sólo el nombre de Marquardt se utiliza en gran parte de la literatura científica. Consulte el artículo principal para obtener referencias de citas.
  6. ^ ab CL Lawson y RJ Hanson, Resolución de problemas de mínimos cuadrados, Prentice-Hall, 1974
  7. ^ R. Fletcher, Informe UKAEA AERE-R 6799, Oficina de papelería de HM, 1971
  8. ^ MJD Powell, Computer Journal, (1964), 7 , 155.

Otras lecturas