Identificación de sistemas no lineales

La identificación de sistemas es un método para identificar o medir el modelo matemático de un sistema a partir de mediciones de las entradas y salidas del sistema. Las aplicaciones de la identificación de sistemas incluyen cualquier sistema en el que se puedan medir las entradas y salidas, como procesos industriales , sistemas de control , datos económicos , biología y ciencias de la vida , medicina , sistemas sociales y muchos más.

Un sistema no lineal se define como cualquier sistema que no sea lineal, es decir, cualquier sistema que no satisfaga el principio de superposición . Esta definición negativa tiende a ocultar que existen muchos tipos diferentes de sistemas no lineales. Históricamente, la identificación de sistemas para sistemas no lineales ^[1]^[2] se ha desarrollado centrándose en clases específicas de sistemas y se puede categorizar en cinco enfoques básicos, cada uno definido por una clase de modelo:

Modelos de la serie Volterra ,
Modelos estructurados en bloques,
Modelos de redes neuronales ,
Modelos NARMAX, y
Modelos de espacio de estados .

Para la identificación de un sistema se deben seguir cuatro pasos: recopilación de datos, postulado del modelo, identificación de parámetros y validación del modelo. La recopilación de datos se considera la primera y esencial parte de la terminología de identificación, que se utiliza como entrada para el modelo que se prepara posteriormente. Consiste en seleccionar un conjunto de datos apropiado, preprocesarlos y procesarlos. Implica la implementación de los algoritmos conocidos junto con la transcripción de cintas de vuelo, el almacenamiento y la gestión de datos, la calibración, el procesamiento, el análisis y la presentación. Además, la validación del modelo es necesaria para ganar confianza en un modelo en particular o rechazarlo. En particular, la estimación de parámetros y la validación del modelo son partes integrales de la identificación del sistema. La validación se refiere al proceso de confirmar el modelo conceptual y demostrar una correspondencia adecuada entre los resultados computacionales del modelo y los datos reales. ^[3]

Métodos de la serie Volterra

Los primeros trabajos estuvieron dominados por métodos basados en la serie de Volterra , que en el caso de tiempo discreto se puede expresar como

{\begin{aligned}y(k)&=h_{0}+\sum \limits _{m_{1}=1}^{M}h_{1}(m_{1})u(k-m_{1})+\sum \limits _{m_{1}=1}^{M}\sum \limits _{m_{2}=1}^{M}h_{2}(m_{1},m_{2})u(k-m_{1})u(k-m_{2})\\&{}\quad {}+\sum \limits _{m_{1}=1}^{M}\sum \limits _{m_{2}=1}^{M}\sum \limits _{m_{3}=1}^{M}h_{3}(m_{1},m_{2},m_{3})u(k-m_{1})u(k-m_{2})u(k-m_{3})+\cdots \end{aligned}}

donde u ( k ), y ( k ); k = 1, 2, 3, ... son la entrada y la salida medidas respectivamente y es el núcleo Volterra de orden l, o la respuesta al impulso no lineal de orden l. La serie de Volterra es una extensión de la integral de convolución lineal . La mayoría de los algoritmos de identificación anteriores asumieron que solo están presentes los dos primeros núcleos Volterra, lineal y cuadrático, y utilizaron entradas especiales como ruido blanco gaussiano y métodos de correlación para identificar los dos núcleos Volterra. En la mayoría de estos métodos, la entrada tiene que ser gaussiana y blanca, lo que es una restricción severa para muchos procesos reales. Estos resultados se ampliaron posteriormente para incluir los tres primeros núcleos Volterra, para permitir diferentes entradas y otros desarrollos relacionados, incluida la serie de Wiener . Wiener, Lee, Bose y sus colegas desarrollaron un cuerpo de trabajo muy importante en el MIT desde la década de 1940 hasta la de 1960, incluido el famoso método de Lee y Schetzen. ^[4]^[5] Si bien estos métodos aún se estudian activamente en la actualidad, existen varias restricciones básicas. Estas incluyen la necesidad de conocer el número de términos de la serie de Volterra a priori, el uso de entradas especiales y la gran cantidad de estimaciones que deben identificarse. Por ejemplo, para un sistema donde el núcleo de Volterra de primer orden se describe mediante, digamos, 30 muestras, se requerirán 30x30 puntos para el núcleo de segundo orden, 30x30x30 para el de tercer orden, y así sucesivamente y, por lo tanto, la cantidad de datos necesarios para proporcionar buenas estimaciones se vuelve excesivamente grande. ^[6] Estos números se pueden reducir explotando ciertas simetrías, pero los requisitos siguen siendo excesivos independientemente del algoritmo que se use para la identificación. $h_{\ell }(m_{1},\ldots ,m_{\ell })$

Sistemas estructurados en bloques

Debido a los problemas de identificación de los modelos Volterra, se investigaron otras formas de modelo como base para la identificación de sistemas para sistemas no lineales. Se han introducido o reintroducido varias formas de modelos no lineales estructurados en bloques. ^[6]^[7] El modelo de Hammerstein consta de un elemento no lineal estático de un solo valor seguido de un elemento dinámico lineal. ^[8] El modelo de Wiener es el reverso de esta combinación, de modo que el elemento lineal aparece antes de la característica no lineal estática. ^[9] El modelo de Wiener-Hammerstein consta de un elemento no lineal estático intercalado entre dos elementos lineales dinámicos, y hay disponibles varias otras formas de modelo. El modelo de Hammerstein-Wiener consta de un bloque dinámico lineal intercalado entre dos bloques no lineales estáticos. ^[10] El modelo de Urysohn ^[11]^[12] es diferente de otros modelos de bloques, no consta de bloques lineales y no lineales de secuencia, sino que describe no linealidades tanto dinámicas como estáticas en la expresión del núcleo de un operador. ^[13] Todos estos modelos se pueden representar mediante una serie de Volterra, pero en este caso los núcleos de Volterra adoptan una forma especial en cada caso. La identificación consiste en métodos de estimación de parámetros y basados en la correlación. Los métodos de correlación aprovechan ciertas propiedades de estos sistemas, lo que significa que si se utilizan entradas específicas, a menudo ruido blanco gaussiano, los elementos individuales se pueden identificar uno a la vez. Esto da como resultado requisitos de datos manejables y, a veces, los bloques individuales se pueden relacionar con componentes del sistema en estudio.

Los resultados más recientes se basan en la estimación de parámetros y en soluciones basadas en redes neuronales. Se han presentado muchos resultados y estos sistemas siguen estudiándose en profundidad. Un problema es que estos métodos solo son aplicables a una forma muy especial de modelo en cada caso y, por lo general, esta forma de modelo debe conocerse antes de la identificación.

Redes neuronales

Las redes neuronales artificiales intentan imitar vagamente la red de neuronas del cerebro, donde se lleva a cabo la computación a través de una gran cantidad de elementos de procesamiento simples. Una red neuronal típica consta de varias unidades de procesamiento simples interconectadas para formar una red compleja. Las capas de dichas unidades están dispuestas de modo que los datos se ingresen en la capa de entrada y pasen por una o varias capas intermedias antes de llegar a la capa de salida. En el aprendizaje supervisado, la red se entrena operando sobre la diferencia entre la salida real y la salida deseada de la red, el error de predicción, para cambiar las fortalezas de la conexión entre los nodos. Al iterar, los pesos se modifican hasta que el error de salida alcanza un nivel aceptable. Este proceso se denomina aprendizaje automático porque la red ajusta los pesos para que se reproduzca el patrón de salida. Las redes neuronales se han estudiado ampliamente y existen muchos libros de texto excelentes dedicados a este tema en general, ^[1]^[14] y libros de texto más centrados que enfatizan las aplicaciones de control y sistemas. ^[1]^[15] Hay dos tipos principales de problemas que se pueden estudiar utilizando redes neuronales: problemas estáticos y problemas dinámicos. Los problemas estáticos incluyen el reconocimiento de patrones , la clasificación y la aproximación . Los problemas dinámicos involucran variables rezagadas y son más apropiados para la identificación de sistemas y aplicaciones relacionadas. Dependiendo de la arquitectura de la red, el problema de entrenamiento puede ser no lineal en los parámetros, lo que implica optimización, o lineal en los parámetros, que se puede resolver utilizando enfoques clásicos. Los algoritmos de entrenamiento se pueden clasificar en aprendizaje supervisado, no supervisado o de refuerzo. Las redes neuronales tienen excelentes propiedades de aproximación, pero estas generalmente se basan en resultados de aproximación de funciones estándar utilizando, por ejemplo, el Teorema de Weierstrass , que se aplica igualmente bien a polinomios, funciones racionales y otros modelos bien conocidos. Las redes neuronales se han aplicado ampliamente a problemas de identificación de sistemas que involucran relaciones no lineales y dinámicas. Sin embargo, las redes neuronales clásicas son máquinas de aproximación estática puramente burdas. No hay dinámica dentro de la red. Por lo tanto, al ajustar modelos dinámicos, toda la dinámica surge asignando entradas y salidas rezagadas a la capa de entrada de la red. El procedimiento de entrenamiento produce entonces la mejor aproximación estática que relaciona las variables rezagadas asignadas a los nodos de entrada con la salida. Existen arquitecturas de red más complejas, incluidas las redes recurrentes, ^[1]que producen dinámicas mediante la introducción de órdenes crecientes de variables retardadas en los nodos de entrada. Pero en estos casos es muy fácil sobreespecificar los retardos y esto puede llevar a un sobreajuste y a propiedades de generalización deficientes. Las redes neuronales tienen varias ventajas: son conceptualmente simples, fáciles de entrenar y usar, tienen excelentes propiedades de aproximación, el concepto de procesamiento local y paralelo es importante y esto proporciona integridad y comportamiento tolerante a fallas. La mayor crítica a los modelos de redes neuronales clásicas es que los modelos producidos son completamente opacos y, por lo general, no se pueden escribir ni analizar. Por lo tanto, es muy difícil saber qué está causando qué, analizar el modelo o calcular características dinámicas a partir del modelo. Algunos de estos puntos no serán relevantes para todas las aplicaciones, pero sí lo son para el modelado dinámico.

Métodos NARMAX

El modelo autorregresivo no lineal de media móvil con entradas exógenas ( modelo NARMAX) puede representar una amplia clase de sistemas no lineales, ^[2] y se define como

{\begin{aligned}y(k)&=F[y(k-1),y(k-2),\ldots ,y(k-n_{y}),u(k-d),u(k-d-1),\ldots ,u(k-d-n_{u}),\\&{}\quad e(k-1),e(k-2),\ldots ,e(k-n_{e})]+e(k)\end{aligned}}

donde y ( k ), u ( k ) y e ( k ) son las secuencias de salida, entrada y ruido del sistema respectivamente; , , y son los retardos máximos para la salida, entrada y ruido del sistema; F[•] es alguna función no lineal, d es un retardo de tiempo normalmente establecido en d = 1. El modelo es esencialmente una expansión de términos de entradas, salidas y ruido pasados. Debido a que el ruido se modela explícitamente, se pueden obtener estimaciones imparciales del modelo del sistema en presencia de ruido altamente correlacionado y no lineal no observado. El Volterra, los modelos estructurados en bloques y muchas arquitecturas de redes neuronales pueden considerarse como subconjuntos del modelo NARMAX. Desde que se introdujo NARMAX, al probar qué clase de sistemas no lineales se pueden representar con este modelo, se han derivado muchos resultados y algoritmos basados en esta descripción. La mayor parte del trabajo inicial se basó en expansiones polinomiales del modelo NARMAX. Estos siguen siendo los métodos más populares en la actualidad, pero se han introducido otras formas más complejas basadas en wavelets y otras expansiones para representar sistemas no lineales severamente no lineales y altamente complejos. Una proporción significativa de sistemas no lineales se puede representar mediante un modelo NARMAX, incluidos sistemas con comportamientos exóticos como caos , bifurcaciones y subarmónicos . Si bien NARMAX comenzó como el nombre de un modelo, ahora se ha convertido en una filosofía de identificación de sistemas no lineales. ^[2] El enfoque NARMAX consta de varios pasos: $n_{y}$ $n_{u}$ $n_{e}$

Detección de estructura: ¿qué términos hay en el modelo?
Estimación de parámetros: determinar los coeficientes del modelo
Validación del modelo: ¿el modelo es imparcial y correcto?
Predicción: ¿cuál es el resultado en un momento futuro?
Análisis: ¿cuáles son las propiedades dinámicas del sistema?

La detección de estructuras constituye la parte más fundamental de NARMAX. Por ejemplo, un modelo NARMAX que consta de un término de entrada y un término de salida rezagados, tres términos de ruido rezagados, expandido como un polinomio cúbico constaría de ochenta y dos términos candidatos posibles. Esta cantidad de términos candidatos surge porque la expansión, por definición, incluye todas las combinaciones posibles dentro de la expansión cúbica. Proceder ingenuamente a estimar un modelo que incluya todos estos términos y luego podarlos causará problemas numéricos y computacionales y siempre debe evitarse. Sin embargo, a menudo solo unos pocos términos son importantes en el modelo. Por lo tanto, la detección de estructuras, que apunta a seleccionar los términos uno a la vez, es de vital importancia. Estos objetivos se pueden lograr fácilmente utilizando el algoritmo de mínimos cuadrados ortogonales ^[2] y sus derivados para seleccionar los términos del modelo NARMAX uno a la vez. Estas ideas también se pueden adaptar para el reconocimiento de patrones y la selección de características y brindan una alternativa al análisis de componentes principales , pero con la ventaja de que las características se revelan como funciones base que se relacionan fácilmente con el problema original.

Los métodos NARMAX están diseñados para hacer más que encontrar el mejor modelo de aproximación. La identificación del sistema se puede dividir en dos objetivos. El primero implica la aproximación, donde el objetivo clave es desarrollar un modelo que se aproxime al conjunto de datos de manera que se puedan hacer buenas predicciones. Hay muchas aplicaciones en las que este enfoque es apropiado, por ejemplo, en la predicción de series temporales del clima, precios de acciones, discursos, seguimiento de objetivos, clasificación de patrones, etc. En tales aplicaciones, la forma del modelo no es tan importante. El objetivo es encontrar un esquema de aproximación que produzca los errores de predicción mínimos. Un segundo objetivo de la identificación del sistema, que incluye el primer objetivo como un subconjunto, implica mucho más que simplemente encontrar un modelo para lograr los mejores errores cuadráticos medios. Este segundo objetivo es la razón por la que se desarrolló la filosofía NARMAX y está vinculado a la idea de encontrar la estructura de modelo más simple. El objetivo aquí es desarrollar modelos que reproduzcan las características dinámicas del sistema subyacente, para encontrar el modelo más simple posible y, si es posible, relacionarlo con los componentes y comportamientos del sistema en estudio. El objetivo principal de este segundo enfoque de identificación es, por lo tanto, identificar y revelar la regla que representa el sistema. Estos objetivos son relevantes para la simulación de modelos y el diseño de sistemas de control, pero cada vez más para aplicaciones en medicina, neurociencia y ciencias de la vida. En este caso, el objetivo es identificar modelos, a menudo no lineales, que se puedan utilizar para comprender los mecanismos básicos de funcionamiento y comportamiento de estos sistemas, de modo que podamos manipularlos y utilizarlos. Los métodos NARMAX también se han desarrollado en los dominios de frecuencia y espacio-temporal.

Modelos no lineales estocásticos

En una situación general, podría darse el caso de que alguna perturbación incierta exógena pase a través de la dinámica no lineal e influya en los resultados. Una clase de modelo que es lo suficientemente general como para capturar esta situación es la clase de modelos de espacio de estados no lineales estocásticos . Un modelo de espacio de estados se obtiene generalmente utilizando leyes de primeros principios, ^[16] como leyes físicas mecánicas, eléctricas o termodinámicas, y los parámetros a identificar suelen tener algún significado o importancia física.

Un modelo de espacio de estados de tiempo discreto puede definirse mediante las ecuaciones diferenciales:

{\begin{aligned}x_{t+1}&=f(x_{t},u_{t},w_{t};\theta ),\\y_{t}&=g(x_{t},u_{t},v_{t};\theta ),\quad t=1,2,\dots \end{aligned}}

en el que es un entero positivo que se refiere al tiempo. Las funciones y son funciones no lineales generales. La primera ecuación se conoce como ecuación de estado y la segunda se conoce como ecuación de salida. Todas las señales se modelan utilizando procesos estocásticos . El proceso se conoce como proceso de estado y , por lo general, se supone que son independientes y mutuamente independientes, de modo que . El parámetro suele ser un parámetro de dimensión finita (real) que se debe estimar (utilizando datos experimentales). Observe que el proceso de estado no tiene que ser una señal física y, normalmente, no se observa (no se mide). El conjunto de datos se proporciona como un conjunto de pares de entrada-salida para para algún valor entero positivo finito . $t$ $f$ $g$ $x_{t}$ $w_{t}$ $v_{t}$ $w_{t}\sim p(w;\theta ),\;v_{t}\sim p(v;\theta )$ $\theta$ $(y_{t},u_{t})$ $t=1,\dots ,N$ $N$

Desafortunadamente, debido a la transformación no lineal de variables aleatorias no observadas, la función de verosimilitud de los resultados es analíticamente intratable; se da en términos de una integral de marginalización multidimensional. En consecuencia, los métodos de estimación de parámetros comúnmente utilizados, como el método de máxima verosimilitud o el método de error de predicción basado en el predictor óptimo de un paso por delante ^[16] , son analíticamente intratables. Recientemente, se han utilizado algoritmos basados en métodos secuenciales de Monte Carlo para aproximar la media condicional de los resultados o, junto con el algoritmo de expectativa-maximización , para aproximar el estimador de máxima verosimilitud. ^[17] Estos métodos, aunque asintóticamente óptimos, son computacionalmente exigentes y su uso está limitado a casos específicos donde se pueden evitar las limitaciones fundamentales de los filtros de partículas empleados. Una solución alternativa es aplicar el método de error de predicción utilizando un predictor subóptimo. ^[18]^[19]^[20] Se puede demostrar que el estimador resultante es fuertemente consistente y asintóticamente normal y se puede evaluar utilizando algoritmos relativamente simples. ^[21]^[20]

Véase también

Referencias

^ abcd Nelles O. "Identificación de sistemas no lineales: de los enfoques clásicos a las redes neuronales". Springer Verlag, 2001
^ abcd Billings SA "Identificación de sistemas no lineales: métodos NARMAX en los dominios de tiempo, frecuencia y espacio-temporal". Wiley, 2013
^ Nesaei, Sepehr; Raissi, Kamran (1 de diciembre de 2011). Das, Vinu V.; Ariwa, Ezendu; Rahayu, Syarifah Bahiyah (eds.). Consideración del procesamiento de datos y validación del modelo en la identificación del sistema del vehículo de vuelo . Notas de clase del Instituto de Ciencias de la Computación, Informática Social e Ingeniería de Telecomunicaciones. Springer Berlin Heidelberg. págs. 269–274. doi :10.1007/978-3-642-32573-1_46. ISBN 978-3-642-32572-4.
^ Schetzen M. "Las teorías de Volterra y Wiener de los sistemas no lineales". Wiley, 1980
^ Rugh WJ "Teoría de sistemas no lineales: el enfoque Volterra Wiener". Johns Hopkins University Press, 1981
^ ab Billings SA "Identificación de sistemas no lineales: un estudio". Actas del IEE Parte D 127(6), 272–285, 1980
^ Haber R., Keviczky L "Identificación de sistemas no lineales: enfoque de modelado de entrada y salida". Vols. I y II, Kluwer, 1980
^ Hammerstein (Acta Math 1930) no se ocupaba del análisis de sistemas, sino de problemas de valores límite y valores propios de operadores no lineales.
^ Este término es de uso común, pero es bastante impreciso, ya que Wiener nunca utilizó este modelo simple. Su modelo fue el que se presentó inmediatamente después de la página 50 en la encuesta de Billings de 1980 a la que se hace referencia en las referencias siguientes.
^ A.Wills, T.Schön, L.Ljung, B.Ninness, Identificación de modelos Hammerstein-Wiener, Automatica 29 (2013), 70-81
^ M.Poluektov y A.Polar. Modelado de sistemas de control no lineales utilizando el operador de Urysohn discreto. 2018. Enviado arXiv:1802.01700.
^ A. Polar. http://ezcodesample.com/urysohn/urysohn.html
^ M.Poluektov y A.Polar. Filtro adaptativo Urysohn. 2019.
^ Haykin S. "Redes neuronales: una base integral". McMillan, 1999
^ Warwick K, Irwin GW, Hunt KJ "Redes neuronales para control y sistemas". Peter Peregrinus, 1992
^ ab Lennart., Ljung (1999). Identificación de sistemas: teoría para el usuario (2.ª ed.). Upper Saddle River, NJ: Prentice Hall PTR. ISBN 978-0136566953.OCLC 38884169 .
^ Schön, Thomas B.; Lindsten, Fredrik; Dahlin, Johan; Wågberg, Johan; Naesseth, Christian A.; Svensson, Andreas; Dai, Liang (2015). "Métodos secuenciales de Monte Carlo para la identificación de sistemas**Este trabajo fue financiado por los proyectos Aprendizaje de sistemas dinámicos complejos (Número de contrato: 637-2014-466) y Modelado probabilístico de sistemas dinámicos (Número de contrato: 621-2013-5524), ambos financiados por el Consejo de Investigación sueco". IFAC-PapersOnLine . 48 (28): 775–786. arXiv : 1503.06058 . doi :10.1016/j.ifacol.2015.12.224. S2CID 11396163.
^ M. Abdalmoaty, 'Aprendizaje de sistemas dinámicos no lineales estocásticos mediante predictores lineales no estacionarios', tesis de licenciatura, Estocolmo, Suecia, 2017. Urn:nbn:se:kth:diva-218100
^ Abdalmoaty, Mohamed Rasheed; Hjalmarsson, Håkan (2017). "Identificación simulada de pseudomáxima verosimilitud de modelos no lineales". IFAC-PapersOnLine . 50 (1): 14058–14063. doi : 10.1016/j.ifacol.2017.08.1841 .
^ ab Abdalmoaty, Mohamed (2019). "Identificación de modelos dinámicos no lineales estocásticos mediante funciones de estimación". Diva .
^ Abdalmoaty, Mohamed Rasheed-Hilmy; Hjalmarsson, Håkan (2019). "Métodos de predicción de error lineal para modelos no lineales estocásticos". Automatica . 105 : 49–63. doi :10.1016/j.automatica.2019.03.006. S2CID 132768104.

Lectura adicional

Lennart Ljung: Identificación del sistema: teoría para el usuario, 2.ª ed., PTR Prentice Hall, Upper Saddle River, NJ, 1999.
R. Pintelon, J. Schoukens, Identificación de sistemas: un enfoque en el dominio de la frecuencia, IEEE Press, Nueva York, 2001. ISBN 978-0-7803-6000-6
T. Söderström, P. Stoica, Identificación de sistemas, Prentice Hall, Upper Saddle River, NJ, 1989. ISBN 0-13-881236-5
RK Pearson: Modelos dinámicos de tiempo discreto. Oxford University Press, 1999.
P. Marmarelis, V. Marmarelis, V. Análisis de sistemas fisiológicos, Plenum, 1978.
K. Worden, GR Tomlinson, No linealidad en dinámica estructural, Institute of Physics Publishing, 2001.