Las redes con función de base radial (RBF) suelen tener tres capas: una capa de entrada, una capa oculta con una función de activación RBF no lineal y una capa de salida lineal. La entrada se puede modelar como un vector de números reales . La salida de la red es entonces una función escalar del vector de entrada, , y está dada por
donde es el número de neuronas en la capa oculta, es el vector central para la neurona y es el peso de la neurona en la neurona de salida lineal. Las funciones que dependen solo de la distancia desde un vector central son radialmente simétricas con respecto a ese vector, de ahí el nombre de función de base radial. En la forma básica, todas las entradas están conectadas a cada neurona oculta. La norma generalmente se toma como la distancia euclidiana (aunque la distancia de Mahalanobis parece funcionar mejor con el reconocimiento de patrones [4] [5] [ editorializing ] ) y la función de base radial se toma comúnmente como gaussiana
.
Las funciones base gaussianas son locales al vector central en el sentido de que
es decir, cambiar los parámetros de una neurona solo tiene un pequeño efecto para los valores de entrada que están lejos del centro de esa neurona.
Dadas ciertas condiciones leves en la forma de la función de activación, las redes RBF son aproximadores universales en un subconjunto compacto de . [6] Esto significa que una red RBF con suficientes neuronas ocultas puede aproximar cualquier función continua en un conjunto cerrado y acotado con precisión arbitraria.
Los parámetros , , y se determinan de manera que se optimice el ajuste entre y los datos.
Normalizado
Arquitectura normalizada
Además de la arquitectura no normalizada anterior , las redes RBF se pueden normalizar . En este caso, el mapeo es
dónde
se conoce como función de base radial normalizada .
Las redes RBF normalmente se entrenan a partir de pares de valores de entrada y destino , mediante un algoritmo de dos pasos.
En el primer paso, se eligen los vectores centrales de las funciones RBF en la capa oculta. Este paso se puede realizar de varias maneras; los centros se pueden muestrear aleatoriamente a partir de un conjunto de ejemplos, o se pueden determinar mediante el uso de agrupamiento de k-medias . Tenga en cuenta que este paso no está supervisado .
El segundo paso simplemente ajusta un modelo lineal con coeficientes a los resultados de la capa oculta con respecto a alguna función objetivo. Una función objetivo común, al menos para la estimación de regresión/función, es la función de mínimos cuadrados:
dónde
.
Hemos incluido explícitamente la dependencia de los pesos. La minimización de la función objetivo de mínimos cuadrados mediante la elección óptima de los pesos optimiza la precisión del ajuste.
Existen ocasiones en las que se deben optimizar múltiples objetivos, como la suavidad y la precisión. En ese caso, resulta útil optimizar una función objetivo regularizada, como
dónde
y
donde la optimización de S maximiza la suavidad y se conoce como parámetro de regularización .
Las redes RBF se pueden utilizar para interpolar una función cuando se conocen los valores de esa función en un número finito de puntos: . Si se toman los puntos conocidos como centros de las funciones de base radial y se evalúan los valores de las funciones de base en los mismos puntos, los pesos se pueden resolver a partir de la ecuación
Se puede demostrar que la matriz de interpolación en la ecuación anterior no es singular, si los puntos son distintos, y por lo tanto los pesos se pueden resolver mediante álgebra lineal simple:
dónde .
Aproximación de funciones
Si el objetivo no es realizar una interpolación estricta sino una aproximación o clasificación de funciones más generales, la optimización es algo más compleja porque no hay una elección obvia para los centros. El entrenamiento se realiza normalmente en dos fases: primero se fija el ancho y los centros y luego los pesos. Esto se puede justificar considerando la diferente naturaleza de las neuronas ocultas no lineales en comparación con la neurona de salida lineal.
Entrenamiento de los centros de funciones básicas
Los centros de funciones base se pueden muestrear aleatoriamente entre las instancias de entrada u obtenerse mediante el algoritmo de aprendizaje de mínimos cuadrados ortogonales o encontrarse agrupando las muestras y eligiendo las medias del grupo como centros.
Los anchos RBF generalmente se fijan todos en el mismo valor, que es proporcional a la distancia máxima entre los centros elegidos.
Solución pseudoinversa para los pesos lineales
Una vez fijados los centros , los pesos que minimizan el error en la salida se pueden calcular con una solución pseudoinversa lineal :
,
donde las entradas de G son los valores de las funciones de base radial evaluadas en los puntos : .
La existencia de esta solución lineal significa que, a diferencia de las redes de perceptrones multicapa (MLP), las redes RBF tienen un minimizador explícito (cuando los centros son fijos).
Entrenamiento de descenso de gradiente de pesos lineales
Otro posible algoritmo de entrenamiento es el descenso de gradiente . En el entrenamiento de descenso de gradiente, los pesos se ajustan en cada paso de tiempo moviéndolos en una dirección opuesta al gradiente de la función objetivo (lo que permite encontrar el mínimo de la función objetivo).
donde es un "parámetro de aprendizaje".
Para el caso del entrenamiento de los pesos lineales, , el algoritmo se convierte en
en el caso no normalizado y
en el caso normalizado.
Para arquitecturas lineales locales, el entrenamiento de descenso de gradiente es
Entrenamiento del operador de proyección de los pesos lineales
Para el caso de entrenamiento de los pesos lineales, y , el algoritmo se convierte en
en el caso no normalizado y
en el caso normalizado y
en el caso local-lineal.
Para una función base, el entrenamiento del operador de proyección se reduce al método de Newton .
Ejemplos
Mapa logístico
Las propiedades básicas de las funciones de base radial se pueden ilustrar con un mapa matemático simple, el mapa logístico , que mapea el intervalo unitario sobre sí mismo. Se puede utilizar para generar un flujo de datos prototipo conveniente. El mapa logístico se puede utilizar para explorar la aproximación de funciones , la predicción de series de tiempo y la teoría de control . El mapa se originó en el campo de la dinámica de poblaciones y se convirtió en el prototipo de las series de tiempo caóticas . El mapa, en el régimen completamente caótico, está dado por
donde t es un índice de tiempo. El valor de x en el tiempo t+1 es una función parabólica de x en el tiempo t. Esta ecuación representa la geometría subyacente de la serie temporal caótica generada por el mapa logístico.
La generación de la serie temporal a partir de esta ecuación es el problema de avance . Los ejemplos aquí ilustran el problema inverso : identificación de la dinámica subyacente, o ecuación fundamental, del mapa logístico a partir de ejemplos de la serie temporal. El objetivo es encontrar una estimación
para f.
Aproximación de funciones
Funciones de base radial no normalizadas
La arquitectura es
dónde
.
Dado que la entrada es un escalar en lugar de un vector , la dimensión de entrada es uno. Elegimos la cantidad de funciones base como N=5 y el tamaño del conjunto de entrenamiento como 100 ejemplares generados por la serie temporal caótica. El peso se toma como una constante igual a 5. Los pesos son cinco ejemplares de la serie temporal. Los pesos se entrenan con el operador de proyección:
donde la tasa de aprendizaje se considera 0,3. El entrenamiento se realiza con una pasada por los 100 puntos de entrenamiento. El error rms es 0,15.
Funciones de base radial normalizadas
La arquitectura RBF normalizada es
dónde
.
De nuevo:
.
Nuevamente, elegimos el número de funciones base como cinco y el tamaño del conjunto de entrenamiento como 100 ejemplares generados por la serie temporal caótica. El peso se toma como una constante igual a 6. Los pesos son cinco ejemplares de la serie temporal. Los pesos se entrenan con el operador de proyección:
donde la tasa de aprendizaje se toma nuevamente como 0,3. El entrenamiento se realiza con una pasada a través de los 100 puntos de entrenamiento. El error rms en un conjunto de prueba de 100 ejemplares es 0,084, menor que el error no normalizado. La normalización produce una mejora en la precisión. Normalmente, la precisión con funciones de base normalizadas aumenta aún más que con funciones no normalizadas a medida que aumenta la dimensionalidad de entrada.
Predicción de series temporales
Una vez estimada la geometría subyacente de la serie temporal como en los ejemplos anteriores, se puede realizar una predicción para la serie temporal mediante iteración:
.
En la figura se muestra una comparación de la serie temporal real y la estimada. La serie temporal estimada comienza en el momento cero con un conocimiento exacto de x(0). Luego, utiliza la estimación de la dinámica para actualizar la estimación de la serie temporal para varios pasos de tiempo.
Tenga en cuenta que la estimación es precisa solo para unos pocos pasos de tiempo. Esta es una característica general de las series temporales caóticas. Se trata de una propiedad de la dependencia sensible de las condiciones iniciales común a las series temporales caóticas. Un pequeño error inicial se amplifica con el tiempo. Una medida de la divergencia de las series temporales con condiciones iniciales casi idénticas se conoce como exponente de Lyapunov .
Control de una serie temporal caótica
Suponemos que la salida del mapa logístico se puede manipular a través de un parámetro de control tal que
.
El objetivo es elegir el parámetro de control de tal manera que lleve la serie temporal a un resultado deseado . Esto se puede hacer si elegimos que el parámetro de control sea
dónde
es una aproximación a la dinámica natural subyacente del sistema.
^ Broomhead, DS; Lowe, David (1988). Funciones de base radial, interpolación funcional multivariable y redes adaptativas (informe técnico). RSRE . 4148. Archivado desde el original el 9 de abril de 2013.
^ Broomhead, DS; Lowe, David (1988). «Interpolación funcional multivariable y redes adaptativas» (PDF) . Sistemas complejos . 2 : 321–355. Archivado (PDF) desde el original el 2020-12-01 . Consultado el 2019-01-29 .
^ ab Schwenker, Friedhelm; Kestler, Hans A.; Palm, Günther (2001). "Tres fases de aprendizaje para redes de función de base radial". Redes neuronales . 14 (4–5): 439–458. CiteSeerX 10.1.1.109.312 . doi :10.1016/s0893-6080(01)00027-2. PMID 11411631.
^ Beheim, Larbi; Zitouni, Adel; Belloir, Fabien (enero de 2004). "Nuevo clasificador de redes neuronales RBF con número optimizado de neuronas ocultas".
^ Ibrikci, Turgay; Brandt, ME; Wang, Guanyu; Acikkar, Mustafa (23–26 de octubre de 2002). Distancia de Mahalanobis con red de funciones de base radial en estructuras secundarias de proteínas . Actas de la Segunda 24.ª Conferencia Anual Conjunta y la Reunión Anual de Otoño de la Sociedad de Ingeniería Biomédica. Sociedad de Ingeniería en Medicina y Biología, Actas de la Conferencia Internacional Anual del IEEE . Vol. 3. Houston, TX, EE. UU. (publicado el 6 de enero de 2003). págs. 2184–5. doi :10.1109/IEMBS.2002.1053230. ISBN0-7803-7612-9. ISSN 1094-687X.
^ Park, J.; IW Sandberg (verano de 1991). "Aproximación universal mediante redes de función de base radial". Neural Computation . 3 (2): 246–257. doi :10.1162/neco.1991.3.2.246. PMID 31167308. S2CID 34868087.
Lectura adicional
J. Moody y CJ Darken, "Aprendizaje rápido en redes de unidades de procesamiento localmente ajustadas", Neural Computation, 1, 281-294 (1989). Véase también Redes de funciones de base radial según Moody y Darken
T. Poggio y F. Girosi, "Redes para aproximación y aprendizaje", Proc. IEEE 78(9), 1484-1487 (1990).
Roger D. Jones, YC Lee, CW Barnes, GW Flake, K. Lee, PS Lewis y S. Qian, Aproximación de funciones y predicción de series temporales con redes neuronales, Actas de la Conferencia Conjunta Internacional sobre Redes Neuronales, 17 al 21 de junio, pág. I-649 (1990).
Martin D. Buhmann (2003). Funciones de base radial: teoría e implementaciones . Universidad de Cambridge. ISBN 0-521-63338-9.
Yee, Paul V. y Haykin, Simon (2001). Redes de funciones de base radial regularizadas: teoría y aplicaciones . John Wiley. ISBN 0-471-35349-3.
Davies, John R.; Coggeshall, Stephen V.; Jones, Roger D.; Schutzer, Daniel (1995). "Sistemas de seguridad inteligentes". En Freedman, Roy S.; Flein, Robert A.; Lederman, Jess (eds.). Inteligencia artificial en los mercados de capitales . Chicago: Irwin. ISBN 1-55738-811-3.
Simon Haykin (1999). Redes neuronales: una base integral (2.ª ed.). Upper Saddle River, Nueva Jersey: Prentice Hall. ISBN 0-13-908385-5.
S. Chen, CFN Cowan y PM Grant, "Algoritmo de aprendizaje de mínimos cuadrados ortogonales para redes de funciones de base radial", IEEE Transactions on Neural Networks, vol. 2, n.º 2 (marzo) de 1991.