Arquitectura de una red de funciones de base radial. Un vector de entrada se utiliza como entrada para todas las funciones de base radial, cada una con parámetros diferentes. La salida de la red es una combinación lineal de las salidas de funciones de base radial.
Las redes de función de base radial (RBF) suelen tener tres capas: una capa de entrada, una capa oculta con una función de activación RBF no lineal y una capa de salida lineal. La entrada se puede modelar como un vector de números reales . La salida de la red es entonces una función escalar del vector de entrada, y está dada por
donde es el número de neuronas en la capa oculta, es el vector central de la neurona y es el peso de la neurona en la neurona de salida lineal. Las funciones que dependen únicamente de la distancia desde un vector central son radialmente simétricas con respecto a ese vector, de ahí el nombre de función de base radial. En la forma básica, todas las entradas están conectadas a cada neurona oculta. Generalmente se considera que la norma es la distancia euclidiana (aunque la distancia de Mahalanobis parece funcionar mejor con el reconocimiento de patrones [4] [5] [ editorialización ] ) y la función de base radial comúnmente se considera gaussiana.
.
Las funciones de base gaussianas son locales al vector central en el sentido de que
es decir, cambiar los parámetros de una neurona tiene sólo un pequeño efecto para los valores de entrada que están lejos del centro de esa neurona.
Dadas ciertas condiciones leves sobre la forma de la función de activación, las redes RBF son aproximadores universales en un subconjunto compacto de . [6] Esto significa que una red RBF con suficientes neuronas ocultas puede aproximarse a cualquier función continua en un conjunto cerrado y acotado con precisión arbitraria.
Los parámetros , y se determinan de manera que se optimice el ajuste entre y los datos.
Dos funciones de base radial no normalizadas en una dimensión de entrada. Los centros de funciones básicas están ubicados en y .
Normalizado
Arquitectura normalizada
Además de la arquitectura no normalizada anterior , las redes RBF se pueden normalizar . En este caso el mapeo es
dónde
se conoce como función de base radial normalizada .
Motivación teórica para la normalización.
Existe una justificación teórica para esta arquitectura en el caso del flujo de datos estocástico. Suponga una aproximación kernel estocástica para la densidad de probabilidad conjunta
donde los pesos y son ejemplos de los datos y requerimos que los núcleos estén normalizados
y
.
Las densidades de probabilidad en los espacios de entrada y salida son
y
La expectativa de y dada una entrada es
dónde
es la probabilidad condicional de y dada . La probabilidad condicional está relacionada con la probabilidad conjunta mediante el teorema de Bayes.
cuyos rendimientos
.
esto se convierte
cuando se realizan las integraciones.
Modelos lineales locales
A veces es conveniente ampliar la arquitectura para incluir modelos lineales locales . En ese caso las arquitecturas se vuelven, de primer orden,
y
en los casos no normalizados y normalizados, respectivamente. Aquí hay pesos por determinar. También son posibles términos lineales de orden superior.
Las redes RBF normalmente se entrenan a partir de pares de valores de entrada y objetivo , mediante un algoritmo de dos pasos.
En el primer paso, se eligen los vectores centrales de las funciones RBF en la capa oculta. Este paso se puede realizar de varias maneras; Los centros se pueden muestrear aleatoriamente a partir de algún conjunto de ejemplos, o se pueden determinar mediante agrupación de k-medias . Tenga en cuenta que este paso no está supervisado .
El segundo paso simplemente ajusta un modelo lineal con coeficientes a las salidas de la capa oculta con respecto a alguna función objetivo. Una función objetivo común, al menos para la estimación de regresión/función, es la función de mínimos cuadrados:
dónde
.
Hemos incluido explícitamente la dependencia de los pesos. La minimización de la función objetivo de mínimos cuadrados mediante la elección óptima de pesos optimiza la precisión del ajuste.
Hay ocasiones en las que se deben optimizar múltiples objetivos, como la suavidad y la precisión. En ese caso es útil optimizar una función objetivo regularizada como
dónde
y
donde la optimización de S maximiza la suavidad y se conoce como parámetro de regularización .
Se puede realizar un tercer paso opcional de retropropagación para ajustar todos los parámetros de la red RBF. [3]
Interpolación
Las redes RBF se pueden utilizar para interpolar una función cuando los valores de esa función se conocen en un número finito de puntos: . Tomando los puntos conocidos como centros de las funciones de base radial y evaluando los valores de las funciones de base en los mismos puntos, los pesos se pueden resolver a partir de la ecuación
Se puede demostrar que la matriz de interpolación en la ecuación anterior no es singular, si los puntos son distintos y, por lo tanto, los pesos se pueden resolver mediante álgebra lineal simple:
dónde .
Aproximación de funciones
Si el propósito no es realizar una interpolación estricta sino una aproximación o clasificación de funciones más general , la optimización es algo más compleja porque no hay una elección obvia para los centros. El entrenamiento normalmente se realiza en dos fases, primero fijando el ancho y los centros y luego los pesos. Esto puede justificarse considerando la diferente naturaleza de las neuronas ocultas no lineales frente a la neurona de salida lineal.
Entrenamiento de los centros de funciones básicas.
Los centros de funciones básicas se pueden muestrear aleatoriamente entre las instancias de entrada, obtenerse mediante el algoritmo de aprendizaje de mínimos cuadrados ortogonales o encontrarse agrupando las muestras y eligiendo las medias del grupo como centros.
Los anchos de RBF generalmente se fijan todos en el mismo valor, que es proporcional a la distancia máxima entre los centros elegidos.
Solución pseudoinversa para los pesos lineales.
Una vez fijados los centros , los pesos que minimizan el error en la salida se pueden calcular con una solución pseudoinversa lineal :
,
donde las entradas de G son los valores de las funciones de base radial evaluadas en los puntos : .
La existencia de esta solución lineal significa que, a diferencia de las redes de perceptrones multicapa (MLP), las redes RBF tienen un minimizador explícito (cuando los centros son fijos).
Entrenamiento de descenso de gradiente de los pesos lineales.
Otro posible algoritmo de entrenamiento es el descenso de gradientes . En el entrenamiento de descenso de gradiente, los pesos se ajustan en cada paso de tiempo moviéndolos en una dirección opuesta al gradiente de la función objetivo (permitiendo así encontrar el mínimo de la función objetivo).
donde es un "parámetro de aprendizaje".
Para el caso de entrenar los pesos lineales, el algoritmo se convierte en
en el caso no normalizado y
en el caso normalizado.
Para arquitecturas lineales locales, el entrenamiento de descenso de gradiente es
Entrenamiento del operador de proyección de los pesos lineales.
Para el caso de entrenar los pesos lineales, y , el algoritmo se convierte en
en el caso no normalizado y
en el caso normalizado y
en el caso local-lineal.
Para una función básica, el entrenamiento del operador de proyección se reduce al método de Newton .
Figura 6: Serie temporal del mapa logístico. La iteración repetida del mapa logístico genera una serie de tiempo caótica. Los valores se encuentran entre cero y uno. Aquí se muestran los 100 puntos de entrenamiento utilizados para entrenar los ejemplos de esta sección. Los pesos c son los primeros cinco puntos de esta serie temporal.
Ejemplos
Mapa logístico
Las propiedades básicas de las funciones de base radial se pueden ilustrar con un mapa matemático simple, el mapa logístico , que mapea el intervalo unitario sobre sí mismo. Se puede utilizar para generar un flujo de datos prototipo conveniente. El mapa logístico se puede utilizar para explorar la aproximación de funciones , la predicción de series temporales y la teoría de control . El mapa surgió del campo de la dinámica de poblaciones y se convirtió en el prototipo de series temporales caóticas . El mapa, en el régimen totalmente caótico, está dado por
donde t es un índice de tiempo. El valor de x en el momento t+1 es una función parabólica de x en el momento t. Esta ecuación representa la geometría subyacente de la caótica serie temporal generada por el mapa logístico.
La generación de la serie temporal a partir de esta ecuación es el problema directo . Los ejemplos aquí ilustran el problema inverso ; identificación de la dinámica subyacente, o ecuación fundamental, del mapa logístico a partir de ejemplos de la serie temporal. El objetivo es encontrar una estimación.
para f.
Aproximación de funciones
Funciones de base radial no normalizadas
La arquitectura es
Figura 7: Funciones de base no normalizadas. El mapa logístico (azul) y la aproximación al mapa logístico (rojo) después de un paso por el conjunto de entrenamiento.
dónde
.
Dado que la entrada es un escalar en lugar de un vector , la dimensión de entrada es uno. Elegimos el número de funciones básicas como N = 5 y el tamaño del conjunto de entrenamiento para que sea 100 ejemplos generados por la caótica serie de tiempo. La ponderación se considera una constante igual a 5. Las ponderaciones son cinco ejemplos de la serie temporal. Los pesos se entrenan con el entrenamiento del operador de proyección:
donde la tasa de aprendizaje se considera 0,3. El entrenamiento se realiza con un paso por los 100 puntos de entrenamiento. El error rms es 0,15.
Figura 8: Funciones de base normalizadas. El mapa logístico (azul) y la aproximación al mapa logístico (rojo) después de un paso por el conjunto de entrenamiento. Observe la mejora con respecto al caso no normalizado.
Funciones de base radial normalizadas
La arquitectura RBF normalizada es
dónde
.
De nuevo:
.
Nuevamente, elegimos que el número de funciones básicas sea cinco y que el tamaño del conjunto de entrenamiento sea 100 ejemplos generados por la serie de tiempo caótica. La ponderación se considera una constante igual a 6. Las ponderaciones son cinco ejemplos de la serie temporal. Los pesos se entrenan con el entrenamiento del operador de proyección:
donde la tasa de aprendizaje se toma nuevamente como 0,3. El entrenamiento se realiza con un paso por los 100 puntos de entrenamiento. El error rms en un conjunto de prueba de 100 ejemplares es 0,084, menor que el error no normalizado. La normalización produce una mejora de la precisión. Normalmente, la precisión con funciones de base normalizadas aumenta aún más que con funciones no normalizadas a medida que aumenta la dimensionalidad de entrada.
Figura 9: Funciones de base normalizada. El mapa logístico (azul) y la aproximación al mapa logístico (rojo) en función del tiempo. Tenga en cuenta que la aproximación es válida sólo para unos pocos pasos de tiempo. Ésta es una característica general de las series temporales caóticas.
Predicción de series de tiempo
Una vez estimada la geometría subyacente de la serie temporal como en los ejemplos anteriores, se puede hacer una predicción para la serie temporal mediante iteración:
.
En la figura se muestra una comparación de la serie temporal real y estimada. La serie temporal estimada comienza en el tiempo cero con un conocimiento exacto de x(0). Luego utiliza la estimación de la dinámica para actualizar la estimación de la serie temporal para varios pasos de tiempo.
Tenga en cuenta que la estimación es precisa sólo para unos pocos pasos de tiempo. Ésta es una característica general de las series temporales caóticas. Esta es una propiedad de la dependencia sensible de las condiciones iniciales común a las series temporales caóticas. Un pequeño error inicial se amplifica con el tiempo. Una medida de la divergencia de series temporales con condiciones iniciales casi idénticas se conoce como exponente de Lyapunov .
Control de una serie temporal caótica
Figura 10: Control del mapa logístico. Se permite que el sistema evolucione naturalmente durante 49 pasos de tiempo. En el momento 50 se activa el control. La trayectoria deseada para la serie temporal es roja. El sistema bajo control aprende la dinámica subyacente y conduce la serie temporal al resultado deseado. La arquitectura es la misma que la del ejemplo de predicción de series temporales.
Suponemos que la salida del mapa logístico se puede manipular a través de un parámetro de control tal que
.
El objetivo es elegir el parámetro de control de tal manera que lleve la serie temporal a la salida deseada . Esto se puede hacer si elegimos el parámetro de control a ser
dónde
es una aproximación a la dinámica natural subyacente del sistema.
^ Cabeza de escoba, DS; Lowe, David (1988). Funciones de base radial, interpolación funcional multivariable y redes adaptativas (Informe técnico). RSRE . 4148. Archivado desde el original el 9 de abril de 2013.
^ Cabeza de escoba, DS; Lowe, David (1988). «Interpolación funcional multivariable y redes adaptativas» (PDF) . Sistemas complejos . 2 : 321–355. Archivado (PDF) desde el original el 1 de diciembre de 2020 . Consultado el 29 de enero de 2019 .
^ ab Schwenker, Friedhelm; Kestler, Hans A.; Palma, Günther (2001). "Tres fases de aprendizaje para redes de función de base radial". Redes neuronales . 14 (4–5): 439–458. CiteSeerX 10.1.1.109.312 . doi :10.1016/s0893-6080(01)00027-2. PMID 11411631.
^ Beheim, Larbi; Zitouni, Adel; Belloir, Fabien (enero de 2004). "Nuevo clasificador de redes neuronales RBF con número optimizado de neuronas ocultas".
^ Ibrikci, Turgay; Brandt, YO; Wang, Guanyu; Acikkar, Mustafa (23 a 26 de octubre de 2002). "Distancia de Mahalanobis con red de función de base radial en estructuras secundarias de proteínas" . Actas de la Segunda Conferencia Anual Conjunta 24 y la Reunión Anual de Otoño de la Sociedad de Ingeniería Biomédica. Sociedad de Ingeniería en Medicina y Biología, Actas de la Conferencia Internacional Anual del IEEE . vol. 3. Houston, TX, EE.UU. (publicado el 6 de enero de 2003). págs. 2184–5. doi :10.1109/IEMBS.2002.1053230. ISBN0-7803-7612-9. ISSN 1094-687X.
^ Parque, J.; IW Sandberg (verano de 1991). "Aproximación universal mediante redes de función de base radial". Computación neuronal . 3 (2): 246–257. doi :10.1162/neco.1991.3.2.246. PMID 31167308. S2CID 34868087.
Otras lecturas
J. Moody y CJ Darken, "Aprendizaje rápido en redes de unidades de procesamiento sintonizadas localmente", Neural Computation, 1, 281-294 (1989). Consulte también Redes de funciones de base radial según Moody y Darken.
T. Poggio y F. Girosi, "Redes de aproximación y aprendizaje", Proc. IEEE 78(9), 1484-1487 (1990).
Roger D. Jones , YC Lee, CW Barnes, GW Flake, K. Lee, PS Lewis y S. Qian, Aproximación de funciones y predicción de series temporales con redes neuronales, Actas de la Conferencia Internacional Conjunta sobre Redes Neuronales, 17 al 21 de junio , pag. I-649 (1990).
Martín D. Buhmann (2003). Funciones de base radial: teoría e implementaciones . Universidad de Cambridge. ISBN 0-521-63338-9.
Yee, Paul V. y Haykin, Simon (2001). Redes de funciones de base radial regularizadas: teoría y aplicaciones . Juan Wiley. ISBN 0-471-35349-3.
Davies, John R.; Coggeshall, Stephen V.; Jones, Roger D .; Schutzer, Daniel (1995). "Sistemas de Seguridad Inteligentes". En Freedman, Roy S.; Flein, Robert A.; Lederman, Jess (eds.). Inteligencia artificial en los mercados de capitales . Chicago: Irwin. ISBN 1-55738-811-3.
Simón Haykin (1999). Redes neuronales: una base integral (2ª ed.). Upper Saddle River, Nueva Jersey: Prentice Hall. ISBN 0-13-908385-5.
S. Chen, CFN Cowan y PM Grant, "Algoritmo de aprendizaje de mínimos cuadrados ortogonales para redes de funciones de base radial", IEEE Transactions on Neural Networks, Vol 2, No 2 (marzo de 1991).