La adaptación gaussiana (GA) , también llamada adaptación normal o natural (NA), es un algoritmo evolutivo diseñado para maximizar el rendimiento de fabricación debido a la desviación estadística de los valores de los componentes de los sistemas de procesamiento de señales . En resumen, GA es un proceso adaptativo estocástico en el que se toman varias muestras de un vector n -dimensional x [ x T = ( x 1 , x 2 , ..., x n )] de una distribución gaussiana multivariante , N ( m , M ), que tiene una media m y una matriz de momentos M . Las muestras se prueban para determinar si son reprobadas o aprobadas. Los momentos de primer y segundo orden de la gaussiana restringidos a las muestras aprobadas son m* y M* .
El resultado de x como muestra de aprobación está determinado por una función s ( x ), 0 < s ( x ) < q ≤ 1, de modo que s ( x ) es la probabilidad de que x sea seleccionada como muestra de aprobación. La probabilidad promedio de encontrar muestras de aprobación (rendimiento) es
Entonces el teorema de GA establece:
Para cualquier s ( x ) y para cualquier valor de P < q , siempre existe una función de densidad de probabilidad gaussiana adaptada para una dispersión máxima. Las condiciones necesarias para un óptimo local son m = m * y M proporcional a M *. El problema dual también se resuelve: P se maximiza mientras se mantiene constante la dispersión (Kjellström, 1991).
Se pueden encontrar pruebas del teorema en los artículos de Kjellström, 1970, y Kjellström & Taxén, 1981.
Dado que la dispersión se define como la exponencial de entropía/desorden/ información promedio , se deduce inmediatamente que el teorema es válido también para esos conceptos. En conjunto, esto significa que la adaptación gaussiana puede llevar a cabo una maximización simultánea del rendimiento y la información promedio (sin necesidad de que el rendimiento o la información promedio se definan como funciones de criterio).
El teorema es válido para todas las regiones de aceptabilidad y todas las distribuciones gaussianas . Puede utilizarse mediante la repetición cíclica de variación y selección aleatorias (como la evolución natural). En cada ciclo se toma una muestra de un número suficientemente grande de puntos distribuidos gaussianos y se prueba su pertenencia a la región de aceptabilidad. El centro de gravedad del gaussiano, m , se mueve entonces al centro de gravedad de los puntos aprobados (seleccionados), m *. De este modo, el proceso converge a un estado de equilibrio que cumple el teorema. Una solución siempre es aproximada porque el centro de gravedad siempre se determina para un número limitado de puntos.
Se utilizó por primera vez en 1969 como un algoritmo de optimización puro que hacía que las regiones de aceptabilidad fueran cada vez más pequeñas (en analogía con el recocido simulado , Kirkpatrick 1983). Desde 1970 se ha utilizado tanto para la optimización ordinaria como para la maximización del rendimiento.
También se ha comparado con la evolución natural de poblaciones de organismos vivos. En este caso, s ( x ) es la probabilidad de que el individuo que tiene una serie x de fenotipos sobreviva dando descendencia a la siguiente generación; una definición de aptitud individual dada por Hartl 1981. El rendimiento, P , se reemplaza por la aptitud media determinada como una media sobre el conjunto de individuos en una población grande.
Los fenotipos suelen estar distribuidos de forma gaussiana en una gran población y una condición necesaria para que la evolución natural pueda cumplir el teorema de adaptación gaussiana, con respecto a todos los caracteres cuantitativos gaussianos, es que pueda empujar el centro de gravedad del gaussiano al centro de gravedad de los individuos seleccionados. Esto puede lograrse mediante la ley de Hardy-Weinberg . Esto es posible porque el teorema de adaptación gaussiana es válido para cualquier región de aceptabilidad independientemente de la estructura (Kjellström, 1996).
En este caso, las reglas de variación genética, como el entrecruzamiento, la inversión, la transposición, etcétera, pueden considerarse como generadores de números aleatorios para los fenotipos. Por lo tanto, en este sentido, la adaptación gaussiana puede considerarse como un algoritmo genético.
La aptitud media puede calcularse siempre que se conozca la distribución de parámetros y la estructura del paisaje. No se conoce el paisaje real, pero la figura siguiente muestra un perfil ficticio (azul) de un paisaje a lo largo de una línea (x) en una habitación abarcada por dichos parámetros. La curva roja es la media basada en la curva de campana roja de la parte inferior de la figura. Se obtiene dejando que la curva de campana se deslice a lo largo del eje x , calculando la media en cada ubicación. Como puede verse, los pequeños picos y hoyos se suavizan. Por lo tanto, si la evolución comienza en A con una varianza relativamente pequeña (la curva de campana roja), entonces el ascenso tendrá lugar en la curva roja. El proceso puede quedarse estancado durante millones de años en B o C, siempre que permanezcan los huecos a la derecha de estos puntos y la tasa de mutación sea demasiado pequeña.
Si la tasa de mutación es suficientemente alta, el desorden o la varianza pueden aumentar y el parámetro o los parámetros pueden distribuirse como la curva de campana verde. Entonces el ascenso tendrá lugar en la curva verde, que es aún más suave. Como los huecos a la derecha de B y C han desaparecido, el proceso puede continuar hasta los picos en D. Pero, por supuesto, el paisaje pone un límite al desorden o la variabilidad. Además, dependiendo del paisaje, el proceso puede volverse muy brusco y, si la relación entre el tiempo que el proceso pasa en un pico local y el tiempo de transición al siguiente pico es muy alta, también puede parecer un equilibrio puntuado como el sugerido por Gould (véase Ridley).
Hasta ahora, la teoría sólo considera valores medios de distribuciones continuas correspondientes a un número infinito de individuos. Sin embargo, en la realidad, el número de individuos siempre es limitado, lo que genera una incertidumbre en la estimación de m y M (la matriz de momentos de la gaussiana). Y esto también puede afectar a la eficiencia del proceso. Lamentablemente, se sabe muy poco sobre esto, al menos en teoría.
La implementación de la adaptación normal en una computadora es una tarea bastante sencilla. La adaptación de m puede realizarse con una muestra (individuo) a la vez, por ejemplo
donde x es una muestra aprobada y a < 1 es una constante adecuada para que la inversa de a represente el número de individuos en la población.
M puede, en principio, actualizarse después de cada paso y que conduzca a un punto factible
donde y T es la transpuesta de y y b << 1 es otra constante adecuada. Para garantizar un aumento adecuado de la información promedio , y debe distribuirse normalmente con una matriz de momentos μ 2 M , donde el escalar μ > 1 se utiliza para aumentar la información promedio ( entropía de la información , desorden, diversidad) a una tasa adecuada. Pero M nunca se utilizará en los cálculos. En su lugar, utilizamos la matriz W definida por WW T = M .
Por lo tanto, tenemos y = Wg , donde g se distribuye normalmente con la matriz de momentos μU , y U es la matriz unitaria. W y W T pueden actualizarse mediante las fórmulas
porque la multiplicación da
donde se han despreciado los términos que incluyen b 2 . Por lo tanto, M se adaptará indirectamente con una buena aproximación. En la práctica, bastará con actualizar W solamente
Esta es la fórmula utilizada en un modelo bidimensional simple de un cerebro que satisface la regla hebbiana de aprendizaje asociativo; consulte la siguiente sección (Kjellström, 1996 y 1999).
La figura siguiente ilustra el efecto del aumento de la información promedio en una función de densidad de probabilidad gaussiana utilizada para escalar la cresta de una montaña (las dos líneas representan la línea de contorno). Tanto el grupo rojo como el verde tienen una aptitud media igual, alrededor del 65%, pero el grupo verde tiene una información promedio mucho mayor , lo que hace que el proceso verde sea mucho más eficiente. El efecto de esta adaptación no es muy evidente en un caso bidimensional, pero en un caso de alta dimensión, la eficiencia del proceso de búsqueda puede aumentar en muchos órdenes de magnitud.
En el cerebro, la evolución de los mensajes de ADN se sustituye por una evolución de los patrones de señales y el paisaje fenotípico por un paisaje mental, cuya complejidad difícilmente será inferior a la del primero. La metáfora del paisaje mental se basa en la suposición de que determinados patrones de señales dan lugar a un mejor bienestar o rendimiento. Por ejemplo, el control de un grupo de músculos conduce a una mejor pronunciación de una palabra o a una mejor interpretación de una pieza musical.
En este modelo simple se supone que el cerebro está formado por componentes interconectados que pueden agregar, multiplicar y retrasar valores de señales.
Esta es la base de la teoría de filtros digitales y redes neuronales que consisten en componentes que pueden agregar, multiplicar y retrasar valores de señales y también de muchos modelos cerebrales, Levine 1991.
En la figura que aparece a continuación, se supone que el tronco encefálico emite patrones de señales distribuidos de forma gaussiana. Esto puede ser posible porque ciertas neuronas se activan de forma aleatoria (Kandel et al.). El tronco también constituye una estructura desordenada rodeada de capas más ordenadas (Bergström, 1969) y, según el teorema del límite central, la suma de las señales de muchas neuronas puede estar distribuida de forma gaussiana. Los cuadros triangulares representan sinapsis y los cuadros con el signo + son núcleos celulares.
En la corteza cerebral se supone que se prueba la viabilidad de las señales. Cuando se acepta una señal, las áreas de contacto en las sinapsis se actualizan según las fórmulas que se indican a continuación, de acuerdo con la teoría de Hebb. La figura muestra una simulación por ordenador bidimensional de la adaptación gaussiana según la última fórmula de la sección anterior.
m y W se actualizan según:
Como se puede ver, esto es muy parecido a un cerebro pequeño regido por la teoría del aprendizaje hebbiano (Kjellström, 1996, 1999 y 2002).
La adaptación gaussiana como modelo evolutivo del cerebro que obedece a la teoría hebbiana del aprendizaje asociativo ofrece una visión alternativa del libre albedrío debido a la capacidad del proceso de maximizar la aptitud media de los patrones de señales en el cerebro escalando un paisaje mental en analogía con la evolución fenotípica.
Un proceso aleatorio de este tipo nos da mucha libertad de elección, pero casi ninguna voluntad. Sin embargo, puede surgir una ilusión de voluntad de la capacidad del proceso para maximizar la aptitud media, lo que hace que el proceso busque un objetivo. Es decir, prefiere picos más altos en el paisaje antes que picos más bajos, o mejores alternativas antes que peores. De esta manera puede aparecer una voluntad ilusoria. Zohar 1990 ha dado una visión similar. Véase también Kjellström 1999.
La eficiencia de la adaptación gaussiana se basa en la teoría de la información de Claude E. Shannon (véase el contenido de la información ). Cuando ocurre un evento con probabilidad P , entonces se puede lograr la información −log( P ). Por ejemplo, si la aptitud media es P , la información obtenida para cada individuo seleccionado para la supervivencia será −log( P ) – en promedio - y el trabajo/tiempo necesario para obtener la información es proporcional a 1/ P . Por lo tanto, si la eficiencia, E, se define como la información dividida por el trabajo/tiempo necesario para obtenerla, tenemos:
Esta función alcanza su máximo cuando P = 1/ e = 0,37. Gaines obtuvo el mismo resultado con un método diferente.
E = 0 si P = 0, para un proceso con una tasa de mutación infinita, y si P = 1, para un proceso con una tasa de mutación = 0 (siempre que el proceso esté vivo). Esta medida de eficiencia es válida para una gran clase de procesos de búsqueda aleatoria , siempre que se cumplan ciertas condiciones.
1 La búsqueda debe ser estadísticamente independiente e igualmente eficiente en diferentes direcciones de parámetros. Esta condición puede cumplirse aproximadamente cuando la matriz de momentos de la gaussiana se ha adaptado para obtener la máxima información promedio en alguna región de aceptabilidad, porque las transformaciones lineales de todo el proceso no afectan la eficiencia.
2 Todos los individuos tienen el mismo costo y la derivada en P = 1 es < 0.
Entonces se puede demostrar el siguiente teorema:
Todas las medidas de eficiencia que satisfacen las condiciones anteriores son asintóticamente proporcionales a – P log( P/q ) cuando aumenta el número de dimensiones, y se maximizan mediante P = q exp(-1) (Kjellström, 1996 y 1999).
La figura anterior muestra una posible función de eficiencia para un proceso de búsqueda aleatoria como la adaptación gaussiana. A la izquierda, el proceso es más caótico cuando P = 0, mientras que hay un orden perfecto a la derecha, donde P = 1.
En un ejemplo de Rechenberg, 1971, 1973, se empuja a un paseo aleatorio a través de un corredor que maximiza el parámetro x 1 . En este caso, la región de aceptabilidad se define como un intervalo de dimensión ( n − 1) en los parámetros x 2 , x 3 , ..., x n , pero un valor de x 1 por debajo del último aceptado nunca será aceptado. Dado que P nunca puede superar 0,5 en este caso, la velocidad máxima hacia valores de x 1 más altos se alcanza para P = 0,5/ e = 0,18, de acuerdo con los hallazgos de Rechenberg.
Un punto de vista que también puede ser de interés en este contexto es que no se necesita ninguna definición de información (excepto que los puntos muestreados dentro de una región de aceptabilidad brindan información sobre la extensión de la región) para la prueba del teorema. Entonces, debido a que la fórmula puede interpretarse como información dividida por el trabajo necesario para obtener la información, esto también es una indicación de que −log( P ) es un buen candidato para ser una medida de información.
La adaptación gaussiana también se ha utilizado para otros fines, como por ejemplo la eliminación de sombras mediante el "algoritmo Stauffer-Grimson", que es equivalente a la adaptación gaussiana utilizada en la sección "Simulación por ordenador de la adaptación gaussiana" anterior. En ambos casos se utiliza el método de máxima verosimilitud para la estimación de los valores medios mediante la adaptación de una muestra a la vez.
Pero hay diferencias. En el caso de Stauffer-Grimson, la información no se utiliza para controlar un generador de números aleatorios para el centrado, la maximización de la aptitud media, la información media o el rendimiento de fabricación. La adaptación de la matriz de momentos también difiere mucho en comparación con "la evolución en el cerebro" antes mencionada.