stringtranslate.com

Red de funciones de base radial

En el campo del modelado matemático , una red de función de base radial es una red neuronal artificial que utiliza funciones de base radial como funciones de activación . La salida de la red es una combinación lineal de funciones de base radial de las entradas y los parámetros de las neuronas. Las redes de función de base radial tienen muchos usos, incluida la aproximación de funciones , la predicción de series temporales , la clasificación y el control del sistema . Fueron formuladas por primera vez en un artículo de 1988 por Broomhead y Lowe, ambos investigadores del Royal Signals and Radar Establishment . [1] [2] [3]

Arquitectura de red

Arquitectura de una red de funciones de base radial. Se utiliza un vector de entrada como entrada para todas las funciones de base radial, cada una con diferentes parámetros. La salida de la red es una combinación lineal de las salidas de las funciones de base radial.

Las redes con función de base radial (RBF) suelen tener tres capas: una capa de entrada, una capa oculta con una función de activación RBF no lineal y una capa de salida lineal. La entrada se puede modelar como un vector de números reales . La salida de la red es entonces una función escalar del vector de entrada, , y está dada por

donde es el número de neuronas en la capa oculta, es el vector central para la neurona y es el peso de la neurona en la neurona de salida lineal. Las funciones que dependen solo de la distancia desde un vector central son radialmente simétricas con respecto a ese vector, de ahí el nombre de función de base radial. En la forma básica, todas las entradas están conectadas a cada neurona oculta. La norma generalmente se toma como la distancia euclidiana (aunque la distancia de Mahalanobis parece funcionar mejor con el reconocimiento de patrones [4] [5] [ editorializing ] ) y la función de base radial se toma comúnmente como gaussiana

.

Las funciones base gaussianas son locales al vector central en el sentido de que

es decir, cambiar los parámetros de una neurona solo tiene un pequeño efecto para los valores de entrada que están lejos del centro de esa neurona.

Dadas ciertas condiciones leves en la forma de la función de activación, las redes RBF son aproximadores universales en un subconjunto compacto de . [6] Esto significa que una red RBF con suficientes neuronas ocultas puede aproximar cualquier función continua en un conjunto cerrado y acotado con precisión arbitraria.

Los parámetros , , y se determinan de manera que se optimice el ajuste entre y los datos.

Dos funciones de base radiales no normalizadas en una dimensión de entrada. Los centros de las funciones de base se encuentran en y .

Normalizado

Arquitectura normalizada

Además de la arquitectura no normalizada anterior , las redes RBF se pueden normalizar . En este caso, el mapeo es

dónde

se conoce como función de base radial normalizada .

Motivación teórica para la normalización

Existe una justificación teórica para esta arquitectura en el caso de un flujo de datos estocástico. Supongamos una aproximación de kernel estocástico para la densidad de probabilidad conjunta

donde los pesos y son ejemplos de los datos y requerimos que los núcleos estén normalizados

y

.

Las densidades de probabilidad en los espacios de entrada y salida son

y

La expectativa de y dada una entrada es

dónde

es la probabilidad condicional de y dada . La probabilidad condicional está relacionada con la probabilidad conjunta a través del teorema de Bayes

que produce

.

Esto se convierte en

cuando se realizan las integraciones.

Modelos lineales locales

A veces es conveniente ampliar la arquitectura para incluir modelos lineales locales . En ese caso, las arquitecturas se convierten, en primer orden, en

y

En los casos normalizado y no normalizado, respectivamente. Aquí se determinan los pesos. También son posibles términos lineales de orden superior.

Este resultado se puede escribir

dónde

y

en el caso no normalizado y

en el caso normalizado.

Aquí hay una función delta de Kronecker definida como

.

Capacitación

Las redes RBF normalmente se entrenan a partir de pares de valores de entrada y destino , mediante un algoritmo de dos pasos.

En el primer paso, se eligen los vectores centrales de las funciones RBF en la capa oculta. Este paso se puede realizar de varias maneras; los centros se pueden muestrear aleatoriamente a partir de un conjunto de ejemplos, o se pueden determinar mediante el uso de agrupamiento de k-medias . Tenga en cuenta que este paso no está supervisado .

El segundo paso simplemente ajusta un modelo lineal con coeficientes a los resultados de la capa oculta con respecto a alguna función objetivo. Una función objetivo común, al menos para la estimación de regresión/función, es la función de mínimos cuadrados:

dónde

.

Hemos incluido explícitamente la dependencia de los pesos. La minimización de la función objetivo de mínimos cuadrados mediante la elección óptima de los pesos optimiza la precisión del ajuste.

Existen ocasiones en las que se deben optimizar múltiples objetivos, como la suavidad y la precisión. En ese caso, resulta útil optimizar una función objetivo regularizada, como

dónde

y

donde la optimización de S maximiza la suavidad y se conoce como parámetro de regularización .

Se puede realizar un tercer paso de retropropagación opcional para ajustar todos los parámetros de la red RBF. [3]

Interpolación

Las redes RBF se pueden utilizar para interpolar una función cuando se conocen los valores de esa función en un número finito de puntos: . Si se toman los puntos conocidos como centros de las funciones de base radial y se evalúan los valores de las funciones de base en los mismos puntos, los pesos se pueden resolver a partir de la ecuación

Se puede demostrar que la matriz de interpolación en la ecuación anterior no es singular, si los puntos son distintos, y por lo tanto los pesos se pueden resolver mediante álgebra lineal simple:

dónde .

Aproximación de funciones

Si el objetivo no es realizar una interpolación estricta sino una aproximación o clasificación de funciones más generales, la optimización es algo más compleja porque no hay una elección obvia para los centros. El entrenamiento se realiza normalmente en dos fases: primero se fija el ancho y los centros y luego los pesos. Esto se puede justificar considerando la diferente naturaleza de las neuronas ocultas no lineales en comparación con la neurona de salida lineal.

Entrenamiento de los centros de funciones básicas

Los centros de funciones base se pueden muestrear aleatoriamente entre las instancias de entrada u obtenerse mediante el algoritmo de aprendizaje de mínimos cuadrados ortogonales o encontrarse agrupando las muestras y eligiendo las medias del grupo como centros.

Los anchos RBF generalmente se fijan todos en el mismo valor, que es proporcional a la distancia máxima entre los centros elegidos.

Solución pseudoinversa para los pesos lineales

Una vez fijados los centros , los pesos que minimizan el error en la salida se pueden calcular con una solución pseudoinversa lineal :

,

donde las entradas de G son los valores de las funciones de base radial evaluadas en los puntos : .

La existencia de esta solución lineal significa que, a diferencia de las redes de perceptrones multicapa (MLP), las redes RBF tienen un minimizador explícito (cuando los centros son fijos).

Entrenamiento de descenso de gradiente de pesos lineales

Otro posible algoritmo de entrenamiento es el descenso de gradiente . En el entrenamiento de descenso de gradiente, los pesos se ajustan en cada paso de tiempo moviéndolos en una dirección opuesta al gradiente de la función objetivo (lo que permite encontrar el mínimo de la función objetivo).

donde es un "parámetro de aprendizaje".

Para el caso del entrenamiento de los pesos lineales, , el algoritmo se convierte en

en el caso no normalizado y

en el caso normalizado.

Para arquitecturas lineales locales, el entrenamiento de descenso de gradiente es

Entrenamiento del operador de proyección de los pesos lineales

Para el caso de entrenamiento de los pesos lineales, y , el algoritmo se convierte en

en el caso no normalizado y

en el caso normalizado y

en el caso local-lineal.

Para una función base, el entrenamiento del operador de proyección se reduce al método de Newton .

Figura 6: Serie temporal del mapa logístico. La iteración repetida del mapa logístico genera una serie temporal caótica. Los valores se encuentran entre cero y uno. Aquí se muestran los 100 puntos de entrenamiento utilizados para entrenar los ejemplos de esta sección. Los pesos c son los primeros cinco puntos de esta serie temporal.

Ejemplos

Mapa logístico

Las propiedades básicas de las funciones de base radial se pueden ilustrar con un mapa matemático simple, el mapa logístico , que mapea el intervalo unitario sobre sí mismo. Se puede utilizar para generar un flujo de datos prototipo conveniente. El mapa logístico se puede utilizar para explorar la aproximación de funciones , la predicción de series de tiempo y la teoría de control . El mapa se originó en el campo de la dinámica de poblaciones y se convirtió en el prototipo de las series de tiempo caóticas . El mapa, en el régimen completamente caótico, está dado por

donde t es un índice de tiempo. El valor de x en el tiempo t+1 es una función parabólica de x en el tiempo t. Esta ecuación representa la geometría subyacente de la serie temporal caótica generada por el mapa logístico.

La generación de la serie temporal a partir de esta ecuación es el problema de avance . Los ejemplos aquí ilustran el problema inverso : identificación de la dinámica subyacente, o ecuación fundamental, del mapa logístico a partir de ejemplos de la serie temporal. El objetivo es encontrar una estimación

para f.

Aproximación de funciones

Funciones de base radial no normalizadas

La arquitectura es

Figura 7: Funciones base no normalizadas. El mapa logístico (azul) y la aproximación al mapa logístico (rojo) después de una pasada por el conjunto de entrenamiento.

dónde

.

Dado que la entrada es un escalar en lugar de un vector , la dimensión de entrada es uno. Elegimos la cantidad de funciones base como N=5 y el tamaño del conjunto de entrenamiento como 100 ejemplares generados por la serie temporal caótica. El peso se toma como una constante igual a 5. Los pesos son cinco ejemplares de la serie temporal. Los pesos se entrenan con el operador de proyección:

donde la tasa de aprendizaje se considera 0,3. El entrenamiento se realiza con una pasada por los 100 puntos de entrenamiento. El error rms es 0,15.

Figura 8: Funciones de base normalizadas. El mapa logístico (azul) y la aproximación al mapa logístico (rojo) después de una pasada por el conjunto de entrenamiento. Nótese la mejora con respecto al caso no normalizado.

Funciones de base radial normalizadas

La arquitectura RBF normalizada es

dónde

.

De nuevo:

.

Nuevamente, elegimos el número de funciones base como cinco y el tamaño del conjunto de entrenamiento como 100 ejemplares generados por la serie temporal caótica. El peso se toma como una constante igual a 6. Los pesos son cinco ejemplares de la serie temporal. Los pesos se entrenan con el operador de proyección:

donde la tasa de aprendizaje se toma nuevamente como 0,3. El entrenamiento se realiza con una pasada a través de los 100 puntos de entrenamiento. El error rms en un conjunto de prueba de 100 ejemplares es 0,084, menor que el error no normalizado. La normalización produce una mejora en la precisión. Normalmente, la precisión con funciones de base normalizadas aumenta aún más que con funciones no normalizadas a medida que aumenta la dimensionalidad de entrada.

Figura 9: Funciones de base normalizadas. El mapa logístico (azul) y la aproximación al mapa logístico (rojo) en función del tiempo. Nótese que la aproximación es válida solo para unos pocos pasos de tiempo. Esta es una característica general de las series temporales caóticas.

Predicción de series temporales

Una vez estimada la geometría subyacente de la serie temporal como en los ejemplos anteriores, se puede realizar una predicción para la serie temporal mediante iteración:

.

En la figura se muestra una comparación de la serie temporal real y la estimada. La serie temporal estimada comienza en el momento cero con un conocimiento exacto de x(0). Luego, utiliza la estimación de la dinámica para actualizar la estimación de la serie temporal para varios pasos de tiempo.

Tenga en cuenta que la estimación es precisa solo para unos pocos pasos de tiempo. Esta es una característica general de las series temporales caóticas. Se trata de una propiedad de la dependencia sensible de las condiciones iniciales común a las series temporales caóticas. Un pequeño error inicial se amplifica con el tiempo. Una medida de la divergencia de las series temporales con condiciones iniciales casi idénticas se conoce como exponente de Lyapunov .

Control de una serie temporal caótica

Figura 10: Control del mapa logístico. Se permite que el sistema evolucione de forma natural durante 49 pasos de tiempo. En el tiempo 50 se activa el control. La trayectoria deseada para la serie temporal es roja. El sistema bajo control aprende la dinámica subyacente y conduce la serie temporal hasta el resultado deseado. La arquitectura es la misma que para el ejemplo de predicción de series temporales.

Suponemos que la salida del mapa logístico se puede manipular a través de un parámetro de control tal que

.

El objetivo es elegir el parámetro de control de tal manera que lleve la serie temporal a un resultado deseado . Esto se puede hacer si elegimos que el parámetro de control sea

dónde

es una aproximación a la dinámica natural subyacente del sistema.

El algoritmo de aprendizaje viene dado por

dónde

.

Véase también

Referencias

  1. ^ Broomhead, DS; Lowe, David (1988). Funciones de base radial, interpolación funcional multivariable y redes adaptativas (informe técnico). RSRE . 4148. Archivado desde el original el 9 de abril de 2013.
  2. ^ Broomhead, DS; Lowe, David (1988). «Interpolación funcional multivariable y redes adaptativas» (PDF) . Sistemas complejos . 2 : 321–355. Archivado (PDF) desde el original el 2020-12-01 . Consultado el 2019-01-29 .
  3. ^ ab Schwenker, Friedhelm; Kestler, Hans A.; Palm, Günther (2001). "Tres fases de aprendizaje para redes de función de base radial". Redes neuronales . 14 (4–5): 439–458. CiteSeerX 10.1.1.109.312 . doi :10.1016/s0893-6080(01)00027-2. PMID  11411631. 
  4. ^ Beheim, Larbi; Zitouni, Adel; Belloir, Fabien (enero de 2004). "Nuevo clasificador de redes neuronales RBF con número optimizado de neuronas ocultas".
  5. ^ Ibrikci, Turgay; Brandt, ME; Wang, Guanyu; Acikkar, Mustafa (23–26 de octubre de 2002). Distancia de Mahalanobis con red de funciones de base radial en estructuras secundarias de proteínas . Actas de la Segunda 24.ª Conferencia Anual Conjunta y la Reunión Anual de Otoño de la Sociedad de Ingeniería Biomédica. Sociedad de Ingeniería en Medicina y Biología, Actas de la Conferencia Internacional Anual del IEEE . Vol. 3. Houston, TX, EE. UU. (publicado el 6 de enero de 2003). págs. 2184–5. doi :10.1109/IEMBS.2002.1053230. ISBN 0-7803-7612-9. ISSN  1094-687X.
  6. ^ Park, J.; IW Sandberg (verano de 1991). "Aproximación universal mediante redes de función de base radial". Neural Computation . 3 (2): 246–257. doi :10.1162/neco.1991.3.2.246. PMID  31167308. S2CID  34868087.

Lectura adicional