Regresión no lineal

En estadística, la regresión no lineal es una forma de análisis de regresión en la que los datos observacionales se modelan mediante una función que es una combinación no lineal de los parámetros del modelo y depende de una o más variables independientes. Los datos se ajustan mediante un método de aproximaciones sucesivas.

General

En regresión no lineal, un modelo estadístico de la forma,

\mathbf {y} \sim f(\mathbf {x} ,{\boldsymbol {\beta }})

Relaciona un vector de variables independientes , , y sus variables dependientes observadas asociadas , . La función no es lineal en los componentes del vector de parámetros , pero por lo demás es arbitraria. Por ejemplo, el modelo de Michaelis-Menten para la cinética enzimática tiene dos parámetros y una variable independiente, relacionados por : ^[a] $\mathbf {x}$ $\mathbf {y}$ $f$ $\beta$ $f$

f(x,{\boldsymbol {\beta }})={\frac {\beta _{1}x}{\beta _{2}+x}}

Esta función no es lineal porque no se puede expresar como una combinación lineal de las dos s. $\beta$

Puede haber errores sistemáticos en las variables independientes, pero su tratamiento está fuera del alcance del análisis de regresión. Si las variables independientes no están libres de errores, este es un modelo de errores en variables , también fuera de este alcance.

Otros ejemplos de funciones no lineales incluyen funciones exponenciales , funciones logarítmicas , funciones trigonométricas , funciones de potencia , funciones gaussianas y distribuciones de Lorentz . Algunas funciones, como las funciones exponenciales o logarítmicas, se pueden transformar para que sean lineales. Cuando se transforma así, se puede realizar la regresión lineal estándar, pero se debe aplicar con precaución. Consulte Linealización§Transformación, a continuación, para obtener más detalles.

En general, no existe una expresión cerrada para los parámetros que mejor se ajustan, como ocurre en la regresión lineal . Por lo general, se aplican algoritmos de optimización numérica para determinar los parámetros que mejor se ajustan. Nuevamente, a diferencia de la regresión lineal, puede haber muchos mínimos locales de la función a optimizar e incluso el mínimo global puede producir una estimación sesgada . En la práctica, los valores estimados de los parámetros se utilizan, junto con el algoritmo de optimización, para intentar encontrar el mínimo global de una suma de cuadrados.

Para obtener detalles sobre el modelado de datos no lineales, consulte mínimos cuadrados y mínimos cuadrados no lineales .

Estadísticas de regresión

La suposición subyacente a este procedimiento es que el modelo puede aproximarse mediante una función lineal, es decir, una serie de Taylor de primer orden :

f(x_{i},{\boldsymbol {\beta }})\approx f(x_{i},0)+\sum _{j}J_{ij}\beta _{j}

dónde . De esto se deduce que los estimadores de mínimos cuadrados están dados por $J_{ij}={\frac {\partial f(x_{i},{\boldsymbol {\beta }})}{\partial \beta _{j}}}$

{\hat {\boldsymbol {\beta }}}\approx \mathbf {(J^{T}J)^{-1}J^{T}y} ,

comparar mínimos cuadrados generalizados con matriz de covarianza proporcional a la matriz unitaria. Las estadísticas de regresión no lineal se calculan y utilizan como en las estadísticas de regresión lineal, pero utilizando J en lugar de X en las fórmulas.

Cuando la función en sí no se conoce analíticamente, pero necesita ser aproximada linealmente a partir de , o más, valores conocidos (donde está el número de estimadores), el mejor estimador se obtiene directamente del ajuste de plantilla lineal como ^[1] $f(x_{i},{\boldsymbol {\beta }})$ $n+1$ $n$

{\hat {\boldsymbol {\beta }}}=((\mathbf {Y{\tilde {M}}} )^{\mathsf {T}}{\boldsymbol {\Omega }}^{-1}\mathbf {Y{\tilde {M}}} )^{-1}(\mathbf {Y{\tilde {M}}} )^{\mathsf {T}}{\boldsymbol {\Omega }}^{-1}(\mathbf {d} -\mathbf {Y{\bar {m}})}

mínimos cuadrados lineales

La aproximación lineal introduce sesgos en las estadísticas. Por lo tanto, se requiere más cautela de lo habitual al interpretar las estadísticas derivadas de un modelo no lineal.

Mínimos cuadrados ordinarios y ponderados

A menudo se supone que la curva de mejor ajuste es aquella que minimiza la suma de los residuos al cuadrado . Este es el método de mínimos cuadrados ordinarios (MCO). Sin embargo, en los casos en que la variable dependiente no tiene una varianza constante, se puede minimizar una suma de residuos cuadrados ponderados; ver mínimos cuadrados ponderados . Idealmente, cada ponderación debería ser igual al recíproco de la varianza de la observación, pero las ponderaciones se pueden volver a calcular en cada iteración, en un algoritmo de mínimos cuadrados ponderado iterativamente.

Linealización

Transformación

Algunos problemas de regresión no lineal pueden trasladarse a un dominio lineal mediante una transformación adecuada de la formulación del modelo.

Por ejemplo, considere el problema de regresión no lineal.

y=ae^{bx}U\,\!

con parámetros a y b y con término de error multiplicativo U . Si tomamos el logaritmo de ambos lados, esto se convierte en

\ln {(y)}=\ln {(a)}+bx+u,\,\!

donde u = ln( U ), lo que sugiere una estimación de los parámetros desconocidos mediante una regresión lineal de ln( y ) en x , un cálculo que no requiere optimización iterativa. Sin embargo, el uso de una transformación no lineal requiere precaución. Las influencias de los valores de los datos cambiarán, al igual que la estructura de error del modelo y la interpretación de cualquier resultado inferencial. Es posible que estos no sean efectos deseados. Por otro lado, dependiendo de cuál sea la mayor fuente de error, una transformación no lineal puede distribuir los errores de forma gaussiana, por lo que la elección de realizar una transformación no lineal debe basarse en consideraciones de modelado.

Para la cinética de Michaelis-Menten , el diagrama lineal de Lineweaver-Burk

{\frac {1}{v}}={\frac {1}{V_{\max }}}+{\frac {K_{m}}{V_{\max }[S]}}

de 1/ v contra 1/[ S ] se ha utilizado mucho. Sin embargo, dado que es muy sensible al error de datos y está fuertemente sesgado hacia el ajuste de los datos en un rango particular de la variable independiente, [ S ], se desaconseja su uso.

Para distribuciones de error que pertenecen a la familia exponencial , se puede usar una función de enlace para transformar los parámetros bajo el marco del modelo lineal generalizado .

Segmentación

La variable independiente o explicativa (digamos X) se puede dividir en clases o segmentos y se puede realizar una regresión lineal por segmento. La regresión segmentada con análisis de confianza puede arrojar el resultado de que la variable dependiente o de respuesta (digamos Y) se comporta de manera diferente en los distintos segmentos. ^[2]

La figura muestra que la salinidad del suelo (X) inicialmente no ejerce influencia sobre el rendimiento del cultivo (Y) de mostaza, hasta alcanzar un valor crítico o umbral ( punto de interrupción ), después del cual el rendimiento se ve afectado negativamente. ^[3]

Ver también

Referencias

^ Britzger, Daniel (2022). "El ajuste de plantilla lineal". EUR. Física. J.C. _ 82 : 731. arXiv : 2112.01548 . doi :10.1140/epjc/s10052-022-10581-w.
^ RJOosterbaan, 1994, Análisis de frecuencia y regresión. En: HPRitzema (ed.), Principios y aplicaciones de drenaje, Publ. 16, págs. 175-224, Instituto Internacional para la Recuperación y Mejora de Tierras (ILRI), Wageningen, Países Bajos. ISBN 90-70754-33-9 . Descargar como PDF: [1]
^ RJOosterbaan, 2002. Investigación sobre drenaje en campos de agricultores: análisis de datos. Parte del proyecto “Liquid Gold” del Instituto Internacional para la Recuperación y Mejora de Tierras (ILRI), Wageningen, Países Bajos. Descargar como PDF: [2]. La figura fue realizada con el programa SegReg , que se puede descargar gratuitamente desde [3]

Notas

^ Este modelo también se puede expresar en la notación biológica convencional:
$v={\frac {V_{\max }\ [{\mbox{S}}]}{K_{m}+[{\mbox{S}}]}}$

Otras lecturas

Bethea, RM; Durán, BS; Boullion, TL (1985). Métodos estadísticos para ingenieros y científicos . Nueva York: Marcel Dekker. ISBN 0-8247-7227-X.
Meade, N.; Islam, T. (1995). "Intervalos de predicción para las previsiones de la curva de crecimiento". Revista de previsión . 14 (5): 413–430. doi :10.1002/for.3980140502.
Schittkowski, K. (2002). Ajuste de datos en sistemas dinámicos . Boston: Kluwer. ISBN 1402010796.
Seber, GAF; Salvaje, CJ (1989). Regresión no lineal . Nueva York: John Wiley and Sons. ISBN 0471617601.