El aprendizaje por refuerzo ( RL ) es un área interdisciplinaria del aprendizaje automático y el control óptimo que estudia cómo un agente inteligente debe actuar en un entorno dinámico para maximizar una señal de recompensa. El aprendizaje por refuerzo es uno de los tres paradigmas básicos del aprendizaje automático , junto con el aprendizaje supervisado y el aprendizaje no supervisado .
El aprendizaje Q en su forma más simple almacena datos en tablas. Este enfoque se vuelve inviable a medida que aumenta el número de estados/acciones (por ejemplo, si el espacio de estados o el espacio de acciones fueran continuos), ya que disminuye la probabilidad de que el agente visite un estado particular y realice una acción particular.
El aprendizaje por refuerzo se diferencia del aprendizaje supervisado en que no es necesario presentar pares de entrada y salida etiquetados ni corregir explícitamente acciones que no sean óptimas. En cambio, el enfoque se centra en encontrar un equilibrio entre la exploración (de territorio inexplorado) y la explotación (de los conocimientos actuales) con el objetivo de maximizar la recompensa acumulada (cuya retroalimentación puede ser incompleta o demorada). [1] La búsqueda de este equilibrio se conoce como el dilema de exploración-explotación .
El entorno se suele plantear en forma de un proceso de decisión de Markov (MDP), ya que muchos algoritmos de aprendizaje de refuerzo utilizan técnicas de programación dinámica . [2] La principal diferencia entre los métodos de programación dinámica clásicos y los algoritmos de aprendizaje de refuerzo es que estos últimos no presuponen el conocimiento de un modelo matemático exacto del proceso de decisión de Markov, y se centran en grandes MDP en los que los métodos exactos se vuelven inviables. [3]
Debido a su generalidad, el aprendizaje por refuerzo se estudia en muchas disciplinas, como la teoría de juegos , la teoría de control , la investigación de operaciones , la teoría de la información , la optimización basada en simulación , los sistemas multiagente , la inteligencia de enjambre y la estadística . En la literatura de investigación de operaciones y control, el RL se denomina programación dinámica aproximada o programación neurodinámica. Los problemas de interés en el RL también se han estudiado en la teoría del control óptimo , que se ocupa principalmente de la existencia y caracterización de soluciones óptimas y algoritmos para su cálculo exacto, y menos del aprendizaje o la aproximación (particularmente en ausencia de un modelo matemático del entorno).
El aprendizaje de refuerzo básico se modela como un proceso de decisión de Markov :
El objetivo del aprendizaje por refuerzo es que el agente aprenda una política óptima (o casi óptima) que maximice la función de recompensa u otra señal de refuerzo proporcionada por el usuario que se acumula a partir de recompensas inmediatas. Esto es similar a los procesos que parecen ocurrir en la psicología animal. Por ejemplo, los cerebros biológicos están programados para interpretar señales como el dolor y el hambre como refuerzos negativos, e interpretan el placer y la ingesta de alimentos como refuerzos positivos. En algunas circunstancias, los animales aprenden a adoptar comportamientos que optimizan estas recompensas. Esto sugiere que los animales son capaces de aprender por refuerzo. [4] [5]
Un agente de aprendizaje de refuerzo básico interactúa con su entorno en pasos de tiempo discretos. En cada paso de tiempo t , el agente recibe el estado actual y la recompensa . Luego elige una acción del conjunto de acciones disponibles, que posteriormente se envía al entorno. El entorno pasa a un nuevo estado y se determina la recompensa asociada con la transición . El objetivo de un agente de aprendizaje de refuerzo es aprender una política :
,
que maximiza la recompensa acumulada esperada.
La formulación del problema como un proceso de decisión de Markov supone que el agente observa directamente el estado ambiental actual; en este caso, se dice que el problema tiene una observabilidad completa . Si el agente solo tiene acceso a un subconjunto de estados, o si los estados observados están corrompidos por el ruido, se dice que el agente tiene una observabilidad parcial y formalmente el problema debe formularse como un proceso de decisión de Markov parcialmente observable . En ambos casos, el conjunto de acciones disponibles para el agente puede restringirse. Por ejemplo, el estado del saldo de una cuenta podría restringirse para que sea positivo; si el valor actual del estado es 3 y la transición de estado intenta reducir el valor en 4, no se permitirá la transición.
Cuando se compara el desempeño del agente con el de un agente que actúa de manera óptima, la diferencia en el desempeño genera la noción de arrepentimiento . Para actuar de manera casi óptima, el agente debe razonar sobre las consecuencias a largo plazo de sus acciones (es decir, maximizar las recompensas futuras), aunque la recompensa inmediata asociada con esto pueda ser negativa.
Por lo tanto, el aprendizaje por refuerzo es particularmente adecuado para problemas que incluyen un equilibrio entre recompensa a largo plazo y recompensa a corto plazo. Se ha aplicado con éxito a diversos problemas, incluidos el almacenamiento de energía , [6] el control de robots , [7] los generadores fotovoltaicos , [8] el backgammon , las damas , [9] el Go ( AlphaGo ) y los sistemas de conducción autónoma . [10]
Dos elementos hacen que el aprendizaje por refuerzo sea poderoso: el uso de muestras para optimizar el rendimiento y el uso de la aproximación de funciones para abordar entornos grandes. Gracias a estos dos componentes clave, el aprendizaje por refuerzo se puede utilizar en entornos grandes en las siguientes situaciones:
Los dos primeros de estos problemas podrían considerarse problemas de planificación (ya que existe algún tipo de modelo disponible), mientras que el último podría considerarse un verdadero problema de aprendizaje. Sin embargo, el aprendizaje por refuerzo convierte ambos problemas de planificación en problemas de aprendizaje automático .
El equilibrio entre exploración y explotación se ha estudiado más exhaustivamente a través del problema del bandido multiarmado y para los procesos de decisión de Markov en el espacio de estados finitos en Burnetas y Katehakis (1997). [12]
El aprendizaje por refuerzo requiere mecanismos de exploración ingeniosos; la selección aleatoria de acciones, sin referencia a una distribución de probabilidad estimada, muestra un rendimiento deficiente. El caso de los procesos de decisión de Markov (pequeños) y finitos se entiende relativamente bien. Sin embargo, debido a la falta de algoritmos que se adapten bien al número de estados (o se adapten a problemas con espacios de estados infinitos), los métodos de exploración simples son los más prácticos.
Un método de este tipo es -greedy, donde es un parámetro que controla la cantidad de exploración frente a explotación. Con probabilidad , se elige la explotación y el agente elige la acción que cree que tiene el mejor efecto a largo plazo (los empates entre acciones se rompen de manera uniforme al azar). Alternativamente, con probabilidad , se elige la exploración y la acción se elige de manera uniforme al azar. suele ser un parámetro fijo, pero se puede ajustar según un cronograma (haciendo que el agente explore progresivamente menos) o de manera adaptativa según heurísticas. [13]
Incluso si se descarta la cuestión de la exploración e incluso si el estado fuera observable (como se supone de ahora en adelante), el problema sigue siendo utilizar la experiencia pasada para descubrir qué acciones conducen a mayores recompensas acumulativas.
La selección de acciones del agente se modela como un mapa llamado política :
El mapa de políticas da la probabilidad de tomar acción cuando se está en el estado . [14] : 61 También existen políticas deterministas.
La función de valor del estado se define como el rendimiento descontado esperado a partir del estado , es decir , y siguiendo sucesivamente la política . Por lo tanto, en términos generales, la función de valor estima "qué tan bueno" es estar en un estado determinado. [14] : 60
donde la variable aleatoria denota el rendimiento descontado , y se define como la suma de las recompensas futuras descontadas:
donde es la recompensa por la transición del estado a , es la tasa de descuento . es menor que 1, por lo que las recompensas en el futuro distante tienen menor ponderación que las recompensas en el futuro inmediato.
El algoritmo debe encontrar una política con el máximo rendimiento descontado esperado. De la teoría de los procesos de decisión de Markov se sabe que, sin pérdida de generalidad, la búsqueda se puede restringir al conjunto de las llamadas políticas estacionarias . Una política es estacionaria si la distribución de acciones que devuelve depende solo del último estado visitado (del historial del agente de observación). La búsqueda se puede restringir aún más a políticas estacionarias deterministas . Una política estacionaria determinista selecciona determinísticamente las acciones en función del estado actual. Dado que cualquier política de este tipo se puede identificar con una asignación del conjunto de estados al conjunto de acciones, estas políticas se pueden identificar con dichas asignaciones sin pérdida de generalidad.
El enfoque de fuerza bruta implica dos pasos:
Un problema con esto es que el número de pólizas puede ser grande, o incluso infinito. Otro es que la varianza de los retornos puede ser grande, lo que requiere muchas muestras para estimar con precisión el retorno descontado de cada póliza.
Estos problemas se pueden solucionar si asumimos cierta estructura y permitimos que las muestras generadas a partir de una política influyan en las estimaciones realizadas para otras. Los dos enfoques principales para lograr esto son la estimación de la función de valor y la búsqueda directa de políticas.
Los enfoques de función de valor intentan encontrar una política que maximice el rendimiento descontado manteniendo un conjunto de estimaciones de rendimientos descontados esperados para alguna política (generalmente la "actual" [dentro de la política] o la óptima [fuera de la política]).
Estos métodos se basan en la teoría de los procesos de decisión de Markov, donde la optimalidad se define en un sentido más fuerte que el anterior: una política es óptima si logra el mejor rendimiento descontado esperado a partir de cualquier estado inicial (es decir, las distribuciones iniciales no desempeñan ningún papel en esta definición). Nuevamente, siempre se puede encontrar una política óptima entre políticas estacionarias.
Para definir la optimalidad de manera formal, defina el valor de estado de una política mediante
donde representa el rendimiento descontado asociado con el siguiente estado inicial . Definiendo como el valor de estado máximo posible de , donde se permite cambiar,
Una política que logra estos valores de estado óptimos en cada estado se denomina óptima . Claramente, una política que es óptima en este sentido también es óptima en el sentido de que maximiza el rendimiento descontado esperado, ya que , donde es un estado muestreado aleatoriamente de la distribución de estados iniciales (por lo que ).
Aunque los valores de estado son suficientes para definir la optimalidad, es útil definir los valores de acción. Dado un estado , una acción y una política , el valor de acción del par bajo se define por
donde ahora representa el rendimiento descontado aleatorio asociado con la primera acción tomada en el estado y las siguientes , de ahí en adelante.
La teoría de los procesos de decisión de Markov establece que si es una política óptima, actuamos de manera óptima (adoptamos la acción óptima) eligiendo la acción con el valor de acción más alto en cada estado, . La función de valor de acción de dicha política óptima ( ) se denomina función de valor de acción óptima y se denota comúnmente por . En resumen, el conocimiento de la función de valor de acción óptima por sí sola es suficiente para saber cómo actuar de manera óptima.
Suponiendo un conocimiento completo del proceso de decisión de Markov, los dos enfoques básicos para calcular la función acción-valor óptima son la iteración de valor y la iteración de política . Ambos algoritmos calculan una secuencia de funciones ( ) que convergen a . Calcular estas funciones implica calcular expectativas sobre todo el espacio de estados, lo que es poco práctico para todos los procesos de decisión de Markov, excepto los más pequeños (finitos). En los métodos de aprendizaje de refuerzo, las expectativas se aproximan promediando sobre muestras y utilizando técnicas de aproximación de funciones para hacer frente a la necesidad de representar funciones de valor sobre grandes espacios de estados-acción.
Los métodos de Monte Carlo [15] se utilizan para resolver problemas de aprendizaje de refuerzo mediante el promedio de los retornos de muestra. A diferencia de los métodos que requieren un conocimiento completo de la dinámica del entorno, los métodos de Monte Carlo se basan únicamente en la experiencia real o simulada (secuencias de estados, acciones y recompensas obtenidas de la interacción con un entorno). Esto los hace aplicables en situaciones en las que se desconoce la dinámica completa. El aprendizaje a partir de la experiencia real no requiere un conocimiento previo del entorno y aún puede conducir a un comportamiento óptimo. Cuando se utiliza la experiencia simulada, solo se requiere un modelo capaz de generar transiciones de muestra, en lugar de una especificación completa de las probabilidades de transición , que es necesaria para los métodos de programación dinámica .
Los métodos de Monte Carlo se aplican a tareas episódicas, donde la experiencia se divide en episodios que finalmente terminan. Las actualizaciones de las políticas y las funciones de valor se producen solo después de la finalización de un episodio, lo que hace que estos métodos sean incrementales episodio por episodio, aunque no paso a paso (en línea). El término "Monte Carlo" generalmente se refiere a cualquier método que implique un muestreo aleatorio ; sin embargo, en este contexto, se refiere específicamente a métodos que calculan promedios a partir de retornos completos , en lugar de retornos parciales .
Estos métodos funcionan de manera similar a los algoritmos de bandidos , en los que se promedian los retornos para cada par de estado-acción. La diferencia clave es que las acciones tomadas en un estado afectan los retornos de los estados subsiguientes dentro del mismo episodio, lo que hace que el problema no sea estacionario . Para abordar esta no estacionariedad, los métodos de Monte Carlo utilizan el marco de la iteración de política general (GPI). Mientras que la programación dinámica calcula funciones de valor utilizando el conocimiento completo del proceso de decisión de Markov (MDP), los métodos de Monte Carlo aprenden estas funciones a través de retornos de muestra. Las funciones de valor y las políticas interactúan de manera similar a la programación dinámica para lograr la optimalidad , primero abordando el problema de predicción y luego extendiéndose a la mejora y el control de políticas, todo basado en la experiencia muestreada. [14]
El primer problema se corrige permitiendo que el procedimiento cambie la política (en algunos o todos los estados) antes de que los valores se estabilicen. Esto también puede ser problemático, ya que podría impedir la convergencia. La mayoría de los algoritmos actuales hacen esto, dando lugar a la clase de algoritmos de iteración de políticas generalizados . Muchos métodos de actor-crítico pertenecen a esta categoría.
El segundo problema se puede corregir permitiendo que las trayectorias contribuyan a cualquier par estado-acción en ellas. Esto también puede ayudar hasta cierto punto con el tercer problema, aunque una mejor solución cuando los retornos tienen alta varianza son los métodos de diferencia temporal (TD) de Sutton que se basan en la ecuación recursiva de Bellman . [16] [17] El cálculo en los métodos TD puede ser incremental (cuando después de cada transición se cambia la memoria y se descarta la transición), o por lotes (cuando las transiciones se agrupan y las estimaciones se calculan una vez en función del lote). Los métodos por lotes, como el método de diferencia temporal de mínimos cuadrados, [18] pueden utilizar mejor la información en las muestras, mientras que los métodos incrementales son la única opción cuando los métodos por lotes son inviables debido a su alta complejidad computacional o de memoria. Algunos métodos intentan combinar los dos enfoques. Los métodos basados en diferencias temporales también superan el cuarto problema.
Otro problema específico de la TD proviene de su dependencia de la ecuación recursiva de Bellman. La mayoría de los métodos de TD tienen un denominado parámetro que puede interpolar continuamente entre los métodos de Monte Carlo que no se basan en las ecuaciones de Bellman y los métodos de TD básicos que se basan completamente en las ecuaciones de Bellman. Esto puede ser eficaz para paliar este problema.
Para abordar la quinta cuestión, se utilizan métodos de aproximación de funciones . La aproximación de funciones lineales comienza con una asignación que asigna un vector de dimensión finita a cada par estado-acción. Luego, los valores de acción de un par estado-acción se obtienen combinando linealmente los componentes de con algunos pesos :
Los algoritmos ajustan entonces los pesos, en lugar de ajustar los valores asociados con los pares individuales de estado-acción. Se han explorado métodos basados en ideas de estadísticas no paramétricas (que pueden verse como constructoras de sus propias características).
La iteración de valores también se puede utilizar como punto de partida, dando lugar al algoritmo Q-learning y sus muchas variantes. [19] Incluidos los métodos Deep Q-learning cuando se utiliza una red neuronal para representar Q, con diversas aplicaciones en problemas de búsqueda estocástica. [20]
El problema de utilizar valores de acción es que pueden requerir estimaciones muy precisas de los valores de acción en competencia, lo que puede resultar difícil de obtener cuando los retornos son ruidosos, aunque este problema se mitiga en cierta medida mediante métodos de diferencia temporal. El uso del llamado método de aproximación de funciones compatibles compromete la generalidad y la eficiencia.
Un método alternativo consiste en buscar directamente en (un subconjunto de) el espacio de políticas, en cuyo caso el problema se convierte en un caso de optimización estocástica . Los dos enfoques disponibles son los basados en gradientes y los libres de gradientes.
Los métodos basados en gradientes ( métodos de gradiente de políticas ) comienzan con una asignación de un espacio (de parámetros) de dimensión finita al espacio de políticas: dado el vector de parámetros , sea la política asociada a . Definiendo la función de rendimiento por en condiciones moderadas, esta función será diferenciable como una función del vector de parámetros . Si se conociera el gradiente de , se podría usar el ascenso del gradiente . Dado que no se dispone de una expresión analítica para el gradiente, solo se dispone de una estimación ruidosa. Dicha estimación se puede construir de muchas maneras, dando lugar a algoritmos como el método REINFORCE de Williams [21] (que se conoce como el método de razón de verosimilitud en la literatura de optimización basada en simulación ). [22]
Una amplia clase de métodos evita depender de la información de gradientes. Entre ellos se incluyen el recocido simulado , la búsqueda de entropía cruzada o los métodos de computación evolutiva . Muchos métodos sin gradientes pueden lograr (en teoría y en el límite) un óptimo global.
Los métodos de búsqueda de políticas pueden converger lentamente en caso de datos ruidosos. Por ejemplo, esto sucede en problemas episódicos cuando las trayectorias son largas y la varianza de los retornos es grande. Los métodos basados en funciones de valor que dependen de las diferencias temporales podrían ser útiles en este caso. En los últimos años, se han propuesto métodos actor-crítico que han tenido un buen desempeño en varios problemas. [23]
Se han utilizado métodos de búsqueda de políticas en el contexto de la robótica . [24] Muchos métodos de búsqueda de políticas pueden quedar estancados en óptimos locales (ya que se basan en la búsqueda local ).
Finalmente, todos los métodos anteriores se pueden combinar con algoritmos que primero aprenden un modelo del proceso de decisión de Markov , la probabilidad de cada estado siguiente dada una acción tomada a partir de un estado existente. Por ejemplo, el algoritmo Dyna [25] aprende un modelo de la experiencia y lo utiliza para proporcionar más transiciones modeladas para una función de valor, además de las transiciones reales. Dichos métodos a veces se pueden extender al uso de modelos no paramétricos, como cuando las transiciones simplemente se almacenan y se "reproducen" [26] en el algoritmo de aprendizaje.
Los métodos basados en modelos pueden requerir un mayor esfuerzo computacional que los enfoques sin modelos, y su utilidad puede verse limitada por el grado en que se pueda aprender el proceso de decisión de Markov. [27]
Hay otras formas de utilizar modelos además de actualizar una función de valor. [28] Por ejemplo, en el control predictivo de modelos, el modelo se utiliza para actualizar el comportamiento directamente.
Se entienden bien tanto los comportamientos asintóticos como los de muestras finitas de la mayoría de los algoritmos. Se conocen algoritmos con un rendimiento en línea demostrablemente bueno (que abordan el problema de la exploración).
En Burnetas y Katehakis (1997) se ofrece una exploración eficiente de los procesos de decisión de Markov. [12] También han aparecido límites de rendimiento de tiempo finito para muchos algoritmos, pero se espera que estos límites sean bastante flexibles y, por lo tanto, se necesita más trabajo para comprender mejor las ventajas y limitaciones relativas.
En el caso de los algoritmos incrementales, se han resuelto los problemas de convergencia asintótica [ se necesita una aclaración ] . Los algoritmos basados en diferencias temporales convergen en un conjunto más amplio de condiciones de lo que era posible anteriormente (por ejemplo, cuando se utilizan con una aproximación de función arbitraria y suave).
Los temas de investigación incluyen:
Las tareas de aprendizaje por refuerzo asociativo combinan aspectos de las tareas de aprendizaje estocástico con las tareas de clasificación de patrones de aprendizaje supervisado. En las tareas de aprendizaje por refuerzo asociativo, el sistema de aprendizaje interactúa en un circuito cerrado con su entorno. [46]
Este enfoque extiende el aprendizaje de refuerzo mediante el uso de una red neuronal profunda y sin diseñar explícitamente el espacio de estados. [47] El trabajo sobre el aprendizaje de juegos ATARI de Google DeepMind aumentó la atención al aprendizaje de refuerzo profundo o aprendizaje de refuerzo de extremo a extremo . [48]
El aprendizaje profundo por refuerzo adversarial es un área activa de investigación en el aprendizaje por refuerzo que se centra en las vulnerabilidades de las políticas aprendidas. En esta área de investigación, algunos estudios mostraron inicialmente que las políticas de aprendizaje por refuerzo son susceptibles a manipulaciones adversarias imperceptibles. [49] [50] [51] Si bien se han propuesto algunos métodos para superar estas susceptibilidades, en los estudios más recientes se ha demostrado que estas soluciones propuestas están lejos de proporcionar una representación precisa de las vulnerabilidades actuales de las políticas de aprendizaje profundo por refuerzo. [52]
Al introducir la inferencia difusa en el aprendizaje de refuerzo, [53] se hace posible aproximar la función de valor de estado-acción con reglas difusas en el espacio continuo. La forma IF-THEN de las reglas difusas hace que este enfoque sea adecuado para expresar los resultados en una forma cercana al lenguaje natural. Extender FRL con interpolación de reglas difusas [54] permite el uso de bases de reglas difusas dispersas de tamaño reducido para enfatizar las reglas cardinales (valores de estado-acción más importantes).
En el aprendizaje por refuerzo inverso (IRL), no se proporciona ninguna función de recompensa. En cambio, la función de recompensa se infiere a partir de un comportamiento observado de un experto. La idea es imitar el comportamiento observado, que a menudo es óptimo o cercano al óptimo. [55] Un paradigma popular de IRL se denomina aprendizaje por refuerzo inverso de máxima entropía (MaxEnt IRL). [56] MaxEnt IRL estima los parámetros de un modelo lineal de la función de recompensa maximizando la entropía de la distribución de probabilidad de las trayectorias observadas sujetas a restricciones relacionadas con la coincidencia de los recuentos de características esperados. Recientemente se ha demostrado que MaxEnt IRL es un caso particular de un marco más general denominado aprendizaje por refuerzo inverso de utilidad aleatoria (RU-IRL). [57] RU-IRL se basa en la teoría de la utilidad aleatoria y los procesos de decisión de Markov. Mientras que los enfoques IRL anteriores suponen que el comportamiento aparentemente aleatorio de un agente observado se debe a que sigue una política aleatoria, RU-IRL supone que el agente observado sigue una política determinista, pero la aleatoriedad del comportamiento observado se debe al hecho de que un observador solo tiene acceso parcial a las características que el agente observado utiliza en la toma de decisiones. La función de utilidad se modela como una variable aleatoria para tener en cuenta la ignorancia del observador con respecto a las características que el agente observado realmente considera en su función de utilidad.
El aprendizaje de refuerzo seguro (SRL) se puede definir como el proceso de aprendizaje de políticas que maximizan la expectativa de retorno en problemas en los que es importante asegurar un rendimiento razonable del sistema y/o respetar las restricciones de seguridad durante los procesos de aprendizaje y/o implementación. [58] Un enfoque alternativo es el aprendizaje de refuerzo con aversión al riesgo, donde en lugar del retorno esperado , se optimiza una medida de riesgo del retorno, como el Valor Condicional en Riesgo (CVaR). [59] Además de mitigar el riesgo, el objetivo CVaR aumenta la robustez a las incertidumbres del modelo. [60] [61] Sin embargo, la optimización del CVaR en el aprendizaje de refuerzo con aversión al riesgo requiere un cuidado especial, para evitar el sesgo de gradiente [62] y la ceguera al éxito. [63]
El aprendizaje por autorreforzamiento (o autoaprendizaje) es un paradigma de aprendizaje que no utiliza el concepto de recompensa inmediata Ra(s,s') tras la transición de s a s' con la acción a. No utiliza un refuerzo externo, sino únicamente el autorreforzamiento interno del agente. El autorreforzamiento interno lo proporciona el mecanismo de los sentimientos y las emociones. En el proceso de aprendizaje, las emociones se retropropagan mediante un mecanismo de refuerzo secundario. La ecuación de aprendizaje no incluye la recompensa inmediata, sino únicamente la evaluación del estado.
El algoritmo de autorreforzamiento actualiza una matriz de memoria W =||w(a,s)|| tal que en cada iteración ejecuta la siguiente rutina de aprendizaje automático: 1. en la situación s realiza la acción a 2. recibe una situación de consecuencia s' 3. calcula la evaluación de estado v(s') de lo bueno que es estar en la situación de consecuencia s' 4. actualiza la memoria de barras cruzadas w'(a,s) = w(a,s) + v(s')
Las condiciones iniciales de la memoria se reciben como entrada del entorno genético. Es un sistema con una sola entrada (situación) y una sola salida (acción o conducta).
El autorreforzamiento (autoaprendizaje) se introdujo en 1982 junto con una red neuronal capaz de aprender por autorreforzamiento, llamada Crossbar Adaptive Array (CAA). [64] [65] La CAA calcula, en forma de barras cruzadas, tanto las decisiones sobre acciones como las emociones (sentimientos) sobre los estados de consecuencia. El sistema está impulsado por la interacción entre la cognición y la emoción. [66]
La comparación eficiente de algoritmos de RL es esencial para la investigación, implementación y monitoreo de sistemas de RL. Para comparar diferentes algoritmos en un entorno determinado, se puede entrenar a un agente para cada algoritmo. Dado que el rendimiento es sensible a los detalles de implementación, todos los algoritmos deben implementarse lo más cerca posible entre sí. [67] Una vez finalizado el entrenamiento, los agentes se pueden ejecutar en una muestra de episodios de prueba y se pueden comparar sus puntajes (retornos). Dado que generalmente se supone que los episodios son iid , se pueden usar herramientas estadísticas estándar para probar hipótesis, como la prueba T y la prueba de permutación . [68] Esto requiere acumular todas las recompensas dentro de un episodio en un solo número: el retorno episódico. Sin embargo, esto causa una pérdida de información, ya que se promedian diferentes pasos de tiempo juntos, posiblemente con diferentes niveles de ruido. Siempre que el nivel de ruido varíe a lo largo del episodio, la potencia estadística se puede mejorar significativamente, ponderando las recompensas de acuerdo con su ruido estimado. [69]
{{cite book}}
: CS1 maint: location missing publisher (link){{cite book}}
: CS1 maint: location missing publisher (link){{cite book}}
: CS1 maint: multiple names: authors list (link)