stringtranslate.com

Red de funciones de base radial

En el campo del modelado matemático , una red de funciones de base radial es una red neuronal artificial que utiliza funciones de base radial como funciones de activación . La salida de la red es una combinación lineal de funciones de base radial de las entradas y parámetros de la neurona. Las redes de funciones de base radial tienen muchos usos, incluida la aproximación de funciones , la predicción de series temporales , la clasificación y el control del sistema . Fueron formulados por primera vez en un artículo de 1988 por Broomhead y Lowe, ambos investigadores del Royal Signals and Radar Establishment . [1] [2] [3]

Red de arquitectura

Arquitectura de una red de funciones de base radial. Un vector de entrada se utiliza como entrada para todas las funciones de base radial, cada una con parámetros diferentes. La salida de la red es una combinación lineal de las salidas de funciones de base radial.

Las redes de función de base radial (RBF) suelen tener tres capas: una capa de entrada, una capa oculta con una función de activación RBF no lineal y una capa de salida lineal. La entrada se puede modelar como un vector de números reales . La salida de la red es entonces una función escalar del vector de entrada, y está dada por

donde es el número de neuronas en la capa oculta, es el vector central de la neurona y es el peso de la neurona en la neurona de salida lineal. Las funciones que dependen únicamente de la distancia desde un vector central son radialmente simétricas con respecto a ese vector, de ahí el nombre de función de base radial. En la forma básica, todas las entradas están conectadas a cada neurona oculta. Generalmente se considera que la norma es la distancia euclidiana (aunque la distancia de Mahalanobis parece funcionar mejor con el reconocimiento de patrones [4] [5] [ editorialización ] ) y la función de base radial comúnmente se considera gaussiana.

.

Las funciones de base gaussianas son locales al vector central en el sentido de que

es decir, cambiar los parámetros de una neurona tiene sólo un pequeño efecto para los valores de entrada que están lejos del centro de esa neurona.

Dadas ciertas condiciones leves sobre la forma de la función de activación, las redes RBF son aproximadores universales en un subconjunto compacto de . [6] Esto significa que una red RBF con suficientes neuronas ocultas puede aproximarse a cualquier función continua en un conjunto cerrado y acotado con precisión arbitraria.

Los parámetros , y se determinan de manera que se optimice el ajuste entre y los datos.

Dos funciones de base radial no normalizadas en una dimensión de entrada. Los centros de funciones básicas están ubicados en y .

Normalizado

Arquitectura normalizada

Además de la arquitectura no normalizada anterior , las redes RBF se pueden normalizar . En este caso el mapeo es

dónde

se conoce como función de base radial normalizada .

Motivación teórica para la normalización.

Existe una justificación teórica para esta arquitectura en el caso del flujo de datos estocástico. Suponga una aproximación kernel estocástica para la densidad de probabilidad conjunta

donde los pesos y son ejemplos de los datos y requerimos que los núcleos estén normalizados

y

.

Las densidades de probabilidad en los espacios de entrada y salida son

y

La expectativa de y dada una entrada es

dónde

es la probabilidad condicional de y dada . La probabilidad condicional está relacionada con la probabilidad conjunta mediante el teorema de Bayes.

cuyos rendimientos

.

esto se convierte

cuando se realizan las integraciones.

Modelos lineales locales

A veces es conveniente ampliar la arquitectura para incluir modelos lineales locales . En ese caso las arquitecturas se vuelven, de primer orden,

y

en los casos no normalizados y normalizados, respectivamente. Aquí hay pesos por determinar. También son posibles términos lineales de orden superior.

Este resultado se puede escribir

dónde

y

en el caso no normalizado y

en el caso normalizado.

Aquí hay una función delta de Kronecker definida como

.

Capacitación

Las redes RBF normalmente se entrenan a partir de pares de valores de entrada y objetivo , mediante un algoritmo de dos pasos.

En el primer paso, se eligen los vectores centrales de las funciones RBF en la capa oculta. Este paso se puede realizar de varias maneras; Los centros se pueden muestrear aleatoriamente a partir de algún conjunto de ejemplos, o se pueden determinar mediante agrupación de k-medias . Tenga en cuenta que este paso no está supervisado .

El segundo paso simplemente ajusta un modelo lineal con coeficientes a las salidas de la capa oculta con respecto a alguna función objetivo. Una función objetivo común, al menos para la estimación de regresión/función, es la función de mínimos cuadrados:

dónde

.

Hemos incluido explícitamente la dependencia de los pesos. La minimización de la función objetivo de mínimos cuadrados mediante la elección óptima de pesos optimiza la precisión del ajuste.

Hay ocasiones en las que se deben optimizar múltiples objetivos, como la suavidad y la precisión. En ese caso es útil optimizar una función objetivo regularizada como

dónde

y

donde la optimización de S maximiza la suavidad y se conoce como parámetro de regularización .

Se puede realizar un tercer paso opcional de retropropagación para ajustar todos los parámetros de la red RBF. [3]

Interpolación

Las redes RBF se pueden utilizar para interpolar una función cuando los valores de esa función se conocen en un número finito de puntos: . Tomando los puntos conocidos como centros de las funciones de base radial y evaluando los valores de las funciones de base en los mismos puntos, los pesos se pueden resolver a partir de la ecuación

Se puede demostrar que la matriz de interpolación en la ecuación anterior no es singular, si los puntos son distintos y, por lo tanto, los pesos se pueden resolver mediante álgebra lineal simple:

dónde .

Aproximación de funciones

Si el propósito no es realizar una interpolación estricta sino una aproximación o clasificación de funciones más general , la optimización es algo más compleja porque no hay una elección obvia para los centros. El entrenamiento normalmente se realiza en dos fases, primero fijando el ancho y los centros y luego los pesos. Esto puede justificarse considerando la diferente naturaleza de las neuronas ocultas no lineales frente a la neurona de salida lineal.

Entrenamiento de los centros de funciones básicas.

Los centros de funciones básicas se pueden muestrear aleatoriamente entre las instancias de entrada, obtenerse mediante el algoritmo de aprendizaje de mínimos cuadrados ortogonales o encontrarse agrupando las muestras y eligiendo las medias del grupo como centros.

Los anchos de RBF generalmente se fijan todos en el mismo valor, que es proporcional a la distancia máxima entre los centros elegidos.

Solución pseudoinversa para los pesos lineales.

Una vez fijados los centros , los pesos que minimizan el error en la salida se pueden calcular con una solución pseudoinversa lineal :

,

donde las entradas de G son los valores de las funciones de base radial evaluadas en los puntos : .

La existencia de esta solución lineal significa que, a diferencia de las redes de perceptrones multicapa (MLP), las redes RBF tienen un minimizador explícito (cuando los centros son fijos).

Entrenamiento de descenso de gradiente de los pesos lineales.

Otro posible algoritmo de entrenamiento es el descenso de gradientes . En el entrenamiento de descenso de gradiente, los pesos se ajustan en cada paso de tiempo moviéndolos en una dirección opuesta al gradiente de la función objetivo (permitiendo así encontrar el mínimo de la función objetivo).

donde es un "parámetro de aprendizaje".

Para el caso de entrenar los pesos lineales, el algoritmo se convierte en

en el caso no normalizado y

en el caso normalizado.

Para arquitecturas lineales locales, el entrenamiento de descenso de gradiente es

Entrenamiento del operador de proyección de los pesos lineales.

Para el caso de entrenar los pesos lineales, y , el algoritmo se convierte en

en el caso no normalizado y

en el caso normalizado y

en el caso local-lineal.

Para una función básica, el entrenamiento del operador de proyección se reduce al método de Newton .

Figura 6: Serie temporal del mapa logístico. La iteración repetida del mapa logístico genera una serie de tiempo caótica. Los valores se encuentran entre cero y uno. Aquí se muestran los 100 puntos de entrenamiento utilizados para entrenar los ejemplos de esta sección. Los pesos c son los primeros cinco puntos de esta serie temporal.

Ejemplos

Mapa logístico

Las propiedades básicas de las funciones de base radial se pueden ilustrar con un mapa matemático simple, el mapa logístico , que mapea el intervalo unitario sobre sí mismo. Se puede utilizar para generar un flujo de datos prototipo conveniente. El mapa logístico se puede utilizar para explorar la aproximación de funciones , la predicción de series temporales y la teoría de control . El mapa surgió del campo de la dinámica de poblaciones y se convirtió en el prototipo de series temporales caóticas . El mapa, en el régimen totalmente caótico, está dado por

donde t es un índice de tiempo. El valor de x en el momento t+1 es una función parabólica de x en el momento t. Esta ecuación representa la geometría subyacente de la caótica serie temporal generada por el mapa logístico.

La generación de la serie temporal a partir de esta ecuación es el problema directo . Los ejemplos aquí ilustran el problema inverso ; identificación de la dinámica subyacente, o ecuación fundamental, del mapa logístico a partir de ejemplos de la serie temporal. El objetivo es encontrar una estimación.

para f.

Aproximación de funciones

Funciones de base radial no normalizadas

La arquitectura es

Figura 7: Funciones de base no normalizadas. El mapa logístico (azul) y la aproximación al mapa logístico (rojo) después de un paso por el conjunto de entrenamiento.

dónde

.

Dado que la entrada es un escalar en lugar de un vector , la dimensión de entrada es uno. Elegimos el número de funciones básicas como N = 5 y el tamaño del conjunto de entrenamiento para que sea 100 ejemplos generados por la caótica serie de tiempo. La ponderación se considera una constante igual a 5. Las ponderaciones son cinco ejemplos de la serie temporal. Los pesos se entrenan con el entrenamiento del operador de proyección:

donde la tasa de aprendizaje se considera 0,3. El entrenamiento se realiza con un paso por los 100 puntos de entrenamiento. El error rms es 0,15.

Figura 8: Funciones de base normalizadas. El mapa logístico (azul) y la aproximación al mapa logístico (rojo) después de un paso por el conjunto de entrenamiento. Observe la mejora con respecto al caso no normalizado.

Funciones de base radial normalizadas

La arquitectura RBF normalizada es

dónde

.

De nuevo:

.

Nuevamente, elegimos que el número de funciones básicas sea cinco y que el tamaño del conjunto de entrenamiento sea 100 ejemplos generados por la serie de tiempo caótica. La ponderación se considera una constante igual a 6. Las ponderaciones son cinco ejemplos de la serie temporal. Los pesos se entrenan con el entrenamiento del operador de proyección:

donde la tasa de aprendizaje se toma nuevamente como 0,3. El entrenamiento se realiza con un paso por los 100 puntos de entrenamiento. El error rms en un conjunto de prueba de 100 ejemplares es 0,084, menor que el error no normalizado. La normalización produce una mejora de la precisión. Normalmente, la precisión con funciones de base normalizadas aumenta aún más que con funciones no normalizadas a medida que aumenta la dimensionalidad de entrada.

Figura 9: Funciones de base normalizada. El mapa logístico (azul) y la aproximación al mapa logístico (rojo) en función del tiempo. Tenga en cuenta que la aproximación es válida sólo para unos pocos pasos de tiempo. Ésta es una característica general de las series temporales caóticas.

Predicción de series de tiempo

Una vez estimada la geometría subyacente de la serie temporal como en los ejemplos anteriores, se puede hacer una predicción para la serie temporal mediante iteración:

.

En la figura se muestra una comparación de la serie temporal real y estimada. La serie temporal estimada comienza en el tiempo cero con un conocimiento exacto de x(0). Luego utiliza la estimación de la dinámica para actualizar la estimación de la serie temporal para varios pasos de tiempo.

Tenga en cuenta que la estimación es precisa sólo para unos pocos pasos de tiempo. Ésta es una característica general de las series temporales caóticas. Esta es una propiedad de la dependencia sensible de las condiciones iniciales común a las series temporales caóticas. Un pequeño error inicial se amplifica con el tiempo. Una medida de la divergencia de series temporales con condiciones iniciales casi idénticas se conoce como exponente de Lyapunov .

Control de una serie temporal caótica

Figura 10: Control del mapa logístico. Se permite que el sistema evolucione naturalmente durante 49 pasos de tiempo. En el momento 50 se activa el control. La trayectoria deseada para la serie temporal es roja. El sistema bajo control aprende la dinámica subyacente y conduce la serie temporal al resultado deseado. La arquitectura es la misma que la del ejemplo de predicción de series temporales.

Suponemos que la salida del mapa logístico se puede manipular a través de un parámetro de control tal que

.

El objetivo es elegir el parámetro de control de tal manera que lleve la serie temporal a la salida deseada . Esto se puede hacer si elegimos el parámetro de control a ser

dónde

es una aproximación a la dinámica natural subyacente del sistema.

El algoritmo de aprendizaje viene dado por

dónde

.

Ver también

Referencias

  1. ^ Cabeza de escoba, DS; Lowe, David (1988). Funciones de base radial, interpolación funcional multivariable y redes adaptativas (Informe técnico). RSRE . 4148. Archivado desde el original el 9 de abril de 2013.
  2. ^ Cabeza de escoba, DS; Lowe, David (1988). «Interpolación funcional multivariable y redes adaptativas» (PDF) . Sistemas complejos . 2 : 321–355. Archivado (PDF) desde el original el 1 de diciembre de 2020 . Consultado el 29 de enero de 2019 .
  3. ^ ab Schwenker, Friedhelm; Kestler, Hans A.; Palma, Günther (2001). "Tres fases de aprendizaje para redes de función de base radial". Redes neuronales . 14 (4–5): 439–458. CiteSeerX 10.1.1.109.312 . doi :10.1016/s0893-6080(01)00027-2. PMID  11411631. 
  4. ^ Beheim, Larbi; Zitouni, Adel; Belloir, Fabien (enero de 2004). "Nuevo clasificador de redes neuronales RBF con número optimizado de neuronas ocultas".
  5. ^ Ibrikci, Turgay; Brandt, YO; Wang, Guanyu; Acikkar, Mustafa (23 a 26 de octubre de 2002). "Distancia de Mahalanobis con red de función de base radial en estructuras secundarias de proteínas" . Actas de la Segunda Conferencia Anual Conjunta 24 y la Reunión Anual de Otoño de la Sociedad de Ingeniería Biomédica. Sociedad de Ingeniería en Medicina y Biología, Actas de la Conferencia Internacional Anual del IEEE . vol. 3. Houston, TX, EE.UU. (publicado el 6 de enero de 2003). págs. 2184–5. doi :10.1109/IEMBS.2002.1053230. ISBN 0-7803-7612-9. ISSN  1094-687X.
  6. ^ Parque, J.; IW Sandberg (verano de 1991). "Aproximación universal mediante redes de función de base radial". Computación neuronal . 3 (2): 246–257. doi :10.1162/neco.1991.3.2.246. PMID  31167308. S2CID  34868087.

Otras lecturas