La serie de Volterra es un modelo de comportamiento no lineal similar a la serie de Taylor . Se diferencia de la serie de Taylor en su capacidad para capturar efectos de "memoria". La serie de Taylor se puede utilizar para aproximar la respuesta de un sistema no lineal a una entrada dada si la salida del sistema depende estrictamente de la entrada en ese momento en particular. En la serie de Volterra, la salida del sistema no lineal depende de la entrada al sistema en todos los demás momentos. Esto proporciona la capacidad de capturar el efecto de "memoria" de dispositivos como capacitores e inductores .
Se ha aplicado en los campos de la medicina ( ingeniería biomédica ) y la biología, especialmente la neurociencia . [1] También se utiliza en ingeniería eléctrica para modelar la distorsión de intermodulación en muchos dispositivos, incluidos amplificadores de potencia y mezcladores de frecuencia . [ cita requerida ] Su principal ventaja radica en su generalización: puede representar una amplia gama de sistemas. Por ello, a veces se considera un modelo no paramétrico .
En matemáticas , una serie de Volterra denota una expansión funcional de una función dinámica, no lineal e invariante en el tiempo . Las series de Volterra se utilizan con frecuencia en la identificación de sistemas . La serie de Volterra, que se utiliza para demostrar el teorema de Volterra, es una suma infinita de integrales convolucionales multidimensionales.
La serie de Volterra es una versión modernizada de la teoría de los funcionales analíticos del matemático italiano Vito Volterra , en su obra que data de 1887. [2] [3] Norbert Wiener se interesó en esta teoría en la década de 1920 debido a su contacto con el estudiante de Volterra Paul Lévy . Wiener aplicó su teoría del movimiento browniano para la integración de los funcionales analíticos de Volterra. El uso de la serie de Volterra para el análisis de sistemas se originó a partir de un informe restringido de 1942 en tiempos de guerra [4] de Wiener, quien entonces era profesor de matemáticas en el MIT . Usó la serie para hacer un análisis aproximado del efecto del ruido del radar en un circuito receptor no lineal. El informe se hizo público después de la guerra. [5] Como método general de análisis de sistemas no lineales, la serie de Volterra comenzó a usarse después de aproximadamente 1957 como resultado de una serie de informes, al principio circulados de forma privada, del MIT y otros lugares. [6] El nombre en sí, serie Volterra , comenzó a usarse unos años más tarde.
La teoría de la serie de Volterra se puede ver desde dos perspectivas diferentes:
La última perspectiva de mapeo funcional se utiliza con más frecuencia debido a la supuesta invariancia temporal del sistema.
Un sistema continuo invariante en el tiempo con x ( t ) como entrada e y ( t ) como salida se puede expandir en la serie de Volterra como
Aquí, el término constante del lado derecho se suele tomar como cero mediante la elección adecuada del nivel de salida . La función se denomina núcleo de Volterra de orden n . Puede considerarse como una respuesta al impulso de orden superior del sistema. Para que la representación sea única, los núcleos deben ser simétricos en las n variables . Si no es simétrico, puede reemplazarse por un núcleo simetrizado, que es el promedio de las n permutaciones de estas n variables .
Si N es finito, se dice que la serie está truncada . Si a , b y N son finitos, la serie se llama doblemente finita .
A veces, el término de orden n se divide por n !, una convención que resulta conveniente cuando se toma la salida de un sistema Volterra como entrada de otro ("en cascada").
La condición de causalidad : dado que en cualquier sistema físicamente realizable la salida solo puede depender de valores previos de la entrada, los núcleos serán cero si alguna de las variables es negativa. Las integrales pueden entonces escribirse sobre la mitad del rango de cero a infinito. Por lo tanto, si el operador es causal, .
Teorema de aproximación de Fréchet : El uso de la serie de Volterra para representar una relación funcional invariante en el tiempo se justifica a menudo apelando a un teorema debido a Fréchet . Este teorema establece que una relación funcional invariante en el tiempo (que satisface ciertas condiciones muy generales) puede aproximarse de manera uniforme y con un grado arbitrario de precisión mediante una serie de Volterra de orden finito suficientemente alto. Entre otras condiciones, se requiere que el conjunto de funciones de entrada admisibles para las que se cumplirá la aproximación sea compacto . Por lo general, se considera que es un conjunto de funciones equicontinuo y uniformemente acotado , que es compacto según el teorema de Arzelà-Ascoli . En muchas situaciones físicas, esta suposición sobre el conjunto de entrada es razonable. Sin embargo, el teorema no da ninguna indicación sobre cuántos términos se necesitan para una buena aproximación, que es una cuestión esencial en las aplicaciones.
El caso de tiempo discreto es similar al caso de tiempo continuo, excepto que las integrales se reemplazan por sumas:
donde Cada función se denomina núcleo de Volterra de tiempo discreto . Si P es finito, se dice que el operador de serie está truncado . Si a , b y P son finitos, el operador de serie se denomina serie de Volterra doblemente finita . Si , se dice que el operador es causal .
Siempre podemos considerar, sin pérdida de generalidad, el núcleo como simétrico. De hecho, para la conmutatividad de la multiplicación siempre es posible simetrizarla formando un nuevo núcleo tomado como la media de los núcleos para todas las permutaciones de las variables .
Para un sistema causal con núcleos simétricos podemos reescribir el término n -ésimo aproximadamente en forma triangular
La estimación de los coeficientes de Volterra individualmente es complicada, ya que los funcionales de base de la serie de Volterra están correlacionados. Esto conduce al problema de resolver simultáneamente un conjunto de ecuaciones integrales para los coeficientes. Por lo tanto, la estimación de los coeficientes de Volterra generalmente se realiza estimando los coeficientes de una serie ortogonalizada, por ejemplo, la serie de Wiener , y luego recalculando los coeficientes de la serie de Volterra original. El principal atractivo de la serie de Volterra sobre la serie ortogonalizada radica en su estructura intuitiva y canónica, es decir, todas las interacciones de la entrada tienen un grado fijo. Los funcionales de base ortogonalizados generalmente serán bastante complicados.
Un aspecto importante, con respecto al cual difieren los siguientes métodos, es si la ortogonalización de los funcionales de base se debe realizar sobre la especificación idealizada de la señal de entrada (por ejemplo, gaussiana, ruido blanco ) o sobre la realización real de la entrada (es decir, la versión pseudoaleatoria, acotada y casi blanca del ruido blanco gaussiano, o cualquier otro estímulo). Se ha demostrado que los últimos métodos, a pesar de su falta de elegancia matemática, son más flexibles (ya que se pueden acomodar fácilmente entradas arbitrarias) y precisos (debido al efecto de que la versión idealizada de la señal de entrada no siempre es realizable).
Este método, desarrollado por Lee y Schetzen, ortogonaliza con respecto a la descripción matemática real de la señal, es decir, la proyección sobre los nuevos funcionales base se basa en el conocimiento de los momentos de la señal aleatoria.
Podemos escribir la serie de Volterra en términos de operadores homogéneos , como
dónde
Para permitir la ortogonalización de la identificación, las series de Volterra deben reorganizarse en términos de operadores G ortogonales no homogéneos ( series de Wiener ):
Los operadores G se pueden definir de la siguiente manera:
siempre que Volterra sea arbitrariamente homogéneo, x ( n ) es un ruido blanco estacionario (SWN) con media cero y varianza A .
Recordando que todo funcional de Volterra es ortogonal a todo funcional de Wiener de orden mayor, y considerando el siguiente funcional de Volterra:
podemos escribir
Si x es SWN, y dejando , tenemos
Entonces, si excluimos los elementos diagonales, es
Si queremos considerar los elementos diagonales, la solución propuesta por Lee y Schetzen es
El principal inconveniente de esta técnica es que los errores de estimación, cometidos sobre todos los elementos de los núcleos de orden inferior, afectarán a cada elemento diagonal de orden p mediante la suma , concebida como la solución para la estimación de los propios elementos diagonales. Existen fórmulas eficientes para evitar este inconveniente y referencias para la estimación de elementos del núcleo diagonal [7] [8]
Una vez identificados los núcleos de Wiener, los núcleos de Volterra se pueden obtener utilizando fórmulas de Wiener a Volterra, como se informa a continuación para una serie de Volterra de quinto orden:
En el algoritmo ortogonal tradicional, el uso de valores altos de entrada tiene la ventaja de estimular la no linealidad de orden alto, de modo de lograr una identificación más precisa de los núcleos de orden alto. Como desventaja, el uso de valores altos causa un alto error de identificación en los núcleos de orden inferior, [9] principalmente debido a la no idealidad de la entrada y a errores de truncamiento.
Por el contrario, el uso de números inferiores en el proceso de identificación puede conducir a una mejor estimación del kernel de orden inferior, pero puede ser insuficiente para estimular la no linealidad de orden superior.
Este fenómeno, que puede denominarse localidad de la serie de Volterra truncada, puede revelarse calculando el error de salida de una serie en función de diferentes varianzas de entrada. Esta prueba puede repetirse con series identificadas con diferentes varianzas de entrada, obteniéndose diferentes curvas, cada una con un mínimo en correspondencia con la varianza utilizada en la identificación.
Para superar esta limitación, se debe utilizar un valor bajo para el núcleo de orden inferior y aumentarlo gradualmente para los núcleos de orden superior. Este no es un problema teórico en la identificación del núcleo de Wiener, ya que los funcionales de Wiener son ortogonales entre sí, pero se necesita una normalización adecuada en las fórmulas de conversión de Wiener a Volterra para tener en cuenta el uso de diferentes varianzas. Además, se necesitan nuevas fórmulas de conversión de Wiener a Volterra.
La identificación tradicional del núcleo de Wiener debería modificarse de la siguiente manera: [9]
En las fórmulas anteriores se introducen las funciones impulso para la identificación de los puntos del núcleo diagonal. Si se extraen los núcleos de Wiener con las nuevas fórmulas, se necesitan las siguientes fórmulas de Wiener a Volterra (explicadas hasta el quinto orden):
Como se puede observar, el inconveniente con respecto a la fórmula anterior [8] es que para la identificación del núcleo de orden n , todos los núcleos inferiores deben identificarse nuevamente con la varianza más alta. Sin embargo, se obtendrá una mejora notable en el MSE de salida si se obtienen los núcleos de Wiener y Volterra con las nuevas fórmulas. [9]
Este método fue desarrollado por Wray y Green (1994) y utiliza el hecho de que una red neuronal simple de dos capas completamente conectadas (es decir, un perceptrón multicapa ) es computacionalmente equivalente a la serie Volterra y, por lo tanto, contiene los núcleos ocultos en su arquitectura. Una vez que se ha entrenado a una red de este tipo para predecir con éxito la salida en función del estado actual y la memoria del sistema, los núcleos se pueden calcular a partir de los pesos y sesgos de esa red.
La notación general para el núcleo Volterra de orden n está dada por
donde es el orden, los pesos del nodo de salida lineal, los coeficientes de la expansión polinómica de la función de salida de los nodos ocultos, y son los pesos de la capa de entrada a la capa oculta no lineal. Es importante destacar que este método permite la extracción del kernel hasta el número de retardos de entrada en la arquitectura de la red. Además, es vital construir cuidadosamente el tamaño de la capa de entrada de la red para que represente la memoria efectiva del sistema.
Este método y su versión más eficiente (algoritmo ortogonal rápido) fueron inventados por Korenberg. [10] En este método, la ortogonalización se realiza empíricamente sobre la entrada real. Se ha demostrado que funciona con mayor precisión que el método de correlación cruzada. Otra ventaja es que se pueden utilizar entradas arbitrarias para la ortogonalización y que son suficientes menos puntos de datos para alcanzar un nivel deseado de precisión. Además, la estimación se puede realizar de forma incremental hasta que se cumpla algún criterio.
La regresión lineal es una herramienta estándar del análisis lineal. Por lo tanto, una de sus principales ventajas es la existencia generalizada de herramientas estándar para resolver regresiones lineales de manera eficiente. Tiene cierto valor educativo, ya que resalta la propiedad básica de las series de Volterra: combinación lineal de funcionales de base no lineales. Para la estimación, se debe conocer el orden del original, ya que los funcionales de base de Volterra no son ortogonales y, por lo tanto, la estimación no se puede realizar de manera incremental.
Este método fue inventado por Franz y Schölkopf [11] y se basa en la teoría del aprendizaje estadístico . En consecuencia, este enfoque también se basa en la minimización del error empírico (a menudo llamado minimización del riesgo empírico ). Franz y Schölkopf propusieron que el método kernel podría reemplazar esencialmente la representación de la serie de Volterra, aunque notaron que esta última es más intuitiva. [12]
Este método fue desarrollado por van Hemmen y colaboradores [13] y utiliza funciones delta de Dirac para muestrear los coeficientes de Volterra.