stringtranslate.com

Aprendizaje por refuerzo

El aprendizaje por refuerzo ( RL ) es un área interdisciplinaria del aprendizaje automático y el control óptimo que estudia cómo un agente inteligente debe actuar en un entorno dinámico para maximizar una señal de recompensa. El aprendizaje por refuerzo es uno de los tres paradigmas básicos del aprendizaje automático , junto con el aprendizaje supervisado y el aprendizaje no supervisado .

El aprendizaje Q en su forma más simple almacena datos en tablas. Este enfoque se vuelve inviable a medida que aumenta el número de estados/acciones (por ejemplo, si el espacio de estados o el espacio de acciones fueran continuos), ya que disminuye la probabilidad de que el agente visite un estado particular y realice una acción particular.

El aprendizaje por refuerzo se diferencia del aprendizaje supervisado en que no es necesario presentar pares de entrada y salida etiquetados ni corregir explícitamente acciones que no sean óptimas. En cambio, el enfoque se centra en encontrar un equilibrio entre la exploración (de territorio inexplorado) y la explotación (de los conocimientos actuales) con el objetivo de maximizar la recompensa acumulada (cuya retroalimentación puede ser incompleta o demorada). [1] La búsqueda de este equilibrio se conoce como el dilema de exploración-explotación .

El entorno se suele plantear en forma de un proceso de decisión de Markov (MDP), ya que muchos algoritmos de aprendizaje de refuerzo utilizan técnicas de programación dinámica . [2] La principal diferencia entre los métodos de programación dinámica clásicos y los algoritmos de aprendizaje de refuerzo es que estos últimos no presuponen el conocimiento de un modelo matemático exacto del proceso de decisión de Markov, y se centran en grandes MDP en los que los métodos exactos se vuelven inviables. [3]

Introducción

El marco típico de un escenario de aprendizaje por refuerzo (RL): un agente realiza acciones en un entorno, que se interpretan en una recompensa y una representación del estado, que se devuelven al agente.

Debido a su generalidad, el aprendizaje por refuerzo se estudia en muchas disciplinas, como la teoría de juegos , la teoría de control , la investigación de operaciones , la teoría de la información , la optimización basada en simulación , los sistemas multiagente , la inteligencia de enjambre y la estadística . En la literatura de investigación de operaciones y control, el aprendizaje por refuerzo se denomina programación dinámica aproximada o programación neurodinámica. Los problemas de interés en el aprendizaje por refuerzo también se han estudiado en la teoría del control óptimo , que se ocupa principalmente de la existencia y caracterización de soluciones óptimas y algoritmos para su cálculo exacto, y menos del aprendizaje o la aproximación, particularmente en ausencia de un modelo matemático del entorno.

El aprendizaje de refuerzo básico se modela como un proceso de decisión de Markov :

El objetivo del aprendizaje por refuerzo es que el agente aprenda una política óptima, o casi óptima, que maximice la "función de recompensa" u otra señal de refuerzo proporcionada por el usuario que se acumula a partir de las recompensas inmediatas. Esto es similar a los procesos que parecen ocurrir en la psicología animal. (Véase Refuerzo .) Por ejemplo, los cerebros biológicos están programados para interpretar señales como el dolor y el hambre como refuerzos negativos, e interpretar el placer y la ingesta de alimentos como refuerzos positivos. En algunas circunstancias, los animales pueden aprender a participar en conductas que optimizan estas recompensas. Esto sugiere que los animales son capaces de aprender por refuerzo. [4] [5]

Un agente de IA de aprendizaje de refuerzo básico interactúa con su entorno en pasos de tiempo discretos. En cada momento t , el agente recibe el estado actual y la recompensa . Luego, elige una acción del conjunto de acciones disponibles, que posteriormente se envía al entorno. El entorno pasa a un nuevo estado y se determina la recompensa asociada con la transición . El objetivo de un agente de aprendizaje de refuerzo es aprender una política : , que maximice la recompensa acumulativa esperada.

La formulación del problema como un proceso de decisión de Markov supone que el agente observa directamente el estado ambiental actual; en este caso, se dice que el problema tiene una observabilidad completa . Si el agente solo tiene acceso a un subconjunto de estados, o si los estados observados están corrompidos por el ruido, se dice que el agente tiene una observabilidad parcial y, formalmente, el problema debe formularse como un proceso de decisión de Markov parcialmente observable . En ambos casos, el conjunto de acciones disponibles para el agente puede restringirse. Por ejemplo, el estado del saldo de una cuenta podría restringirse para que sea positivo; si el valor actual del estado es 3 y la transición de estado intenta reducir el valor en 4, no se permitirá la transición.

Cuando se compara el desempeño del agente con el de un agente que actúa de manera óptima, la diferencia en el desempeño da lugar a la noción de arrepentimiento . Para actuar de manera casi óptima, el agente debe razonar sobre las consecuencias a largo plazo de sus acciones (es decir, maximizar los ingresos futuros), aunque la recompensa inmediata asociada con esto pueda ser negativa.

Por lo tanto, el aprendizaje por refuerzo es particularmente adecuado para problemas que incluyen un equilibrio entre recompensa a largo plazo y recompensa a corto plazo. Se ha aplicado con éxito a diversos problemas, incluidos el funcionamiento del almacenamiento de energía, [6] el control de robots, [7] el despacho de generadores fotovoltaicos, [8] el backgammon , las damas , [9] el Go ( AlphaGo ) y los sistemas de conducción autónoma . [10]

Dos elementos hacen que el aprendizaje por refuerzo sea potente: el uso de muestras para optimizar el rendimiento y el uso de la aproximación de funciones para abordar entornos grandes. Gracias a estos dos componentes clave, el aprendizaje por refuerzo se puede utilizar en entornos grandes en las siguientes situaciones:

Los dos primeros de estos problemas podrían considerarse problemas de planificación (ya que existe algún tipo de modelo disponible), mientras que el último podría considerarse un verdadero problema de aprendizaje. Sin embargo, el aprendizaje por refuerzo convierte ambos problemas de planificación en problemas de aprendizaje automático .

Exploración

El equilibrio entre exploración y explotación se ha estudiado más exhaustivamente a través del problema del bandido multiarmado y para los procesos de decisión de Markov en el espacio de estados finitos en Burnetas y Katehakis (1997). [12]

El aprendizaje por refuerzo requiere mecanismos de exploración inteligentes; la selección aleatoria de acciones, sin referencia a una distribución de probabilidad estimada, muestra un rendimiento deficiente. El caso de los procesos de decisión de Markov (pequeños) y finitos se entiende relativamente bien. Sin embargo, debido a la falta de algoritmos que se adapten bien al número de estados (o se adapten a problemas con espacios de estados infinitos), los métodos de exploración simples son los más prácticos.

Un método de este tipo es -greedy, donde es un parámetro que controla la cantidad de exploración frente a explotación. Con probabilidad , se elige la explotación y el agente elige la acción que cree que tiene el mejor efecto a largo plazo (los empates entre acciones se rompen de manera uniforme al azar). Alternativamente, con probabilidad , se elige la exploración y la acción se elige de manera uniforme al azar. suele ser un parámetro fijo, pero se puede ajustar según un cronograma (haciendo que el agente explore progresivamente menos) o de manera adaptativa según heurísticas. [13]

Algoritmos para el aprendizaje de control

Incluso si se descarta la cuestión de la exploración e incluso si el estado fuera observable (como se supone de ahora en adelante), el problema sigue siendo utilizar la experiencia pasada para descubrir qué acciones conducen a mayores recompensas acumulativas.

Criterio de optimalidad

Política

La selección de acciones del agente se modela como un mapa llamado política :

El mapa de políticas da la probabilidad de tomar acción cuando se está en el estado . [14] : 61  También existen políticas deterministas.

Función de valor de estado

La función de valor del estado se define como el rendimiento descontado esperado a partir del estado , es decir , y siguiendo sucesivamente la política . Por lo tanto, en términos generales, la función de valor estima "qué tan bueno" es estar en un estado determinado. [14] : 60 

donde la variable aleatoria denota el rendimiento descontado , y se define como la suma de las recompensas futuras descontadas:

donde es la recompensa por la transición del estado a , es la tasa de descuento . es menor que 1, por lo que las recompensas en el futuro distante tienen menor ponderación que las recompensas en el futuro inmediato.

El algoritmo debe encontrar una política con el máximo rendimiento descontado esperado. De la teoría de los procesos de decisión de Markov se sabe que, sin pérdida de generalidad, la búsqueda se puede restringir al conjunto de las llamadas políticas estacionarias . Una política es estacionaria si la distribución de acciones que devuelve depende solo del último estado visitado (del historial del agente de observación). La búsqueda se puede restringir aún más a políticas estacionarias deterministas . Una política estacionaria determinista selecciona determinísticamente las acciones en función del estado actual. Dado que cualquier política de este tipo se puede identificar con una asignación del conjunto de estados al conjunto de acciones, estas políticas se pueden identificar con dichas asignaciones sin pérdida de generalidad.

Fuerza bruta

El enfoque de fuerza bruta implica dos pasos:

Un problema con esto es que el número de pólizas puede ser grande, o incluso infinito. Otro es que la varianza de los retornos puede ser grande, lo que requiere muchas muestras para estimar con precisión el retorno descontado de cada póliza.

Estos problemas se pueden solucionar si asumimos cierta estructura y permitimos que las muestras generadas a partir de una política influyan en las estimaciones realizadas para otras. Los dos enfoques principales para lograr esto son la estimación de la función de valor y la búsqueda directa de políticas.

Función de valor

Los enfoques de función de valor intentan encontrar una política que maximice el rendimiento descontado manteniendo un conjunto de estimaciones de rendimientos descontados esperados para alguna política (generalmente la "actual" [dentro de la política] o la óptima [fuera de la política]).

Estos métodos se basan en la teoría de los procesos de decisión de Markov, donde la optimalidad se define en un sentido más fuerte que el anterior: una política es óptima si logra el mejor rendimiento descontado esperado a partir de cualquier estado inicial (es decir, las distribuciones iniciales no desempeñan ningún papel en esta definición). Nuevamente, siempre se puede encontrar una política óptima entre políticas estacionarias.

Para definir la optimalidad de manera formal, defina el valor de estado de una política mediante

donde representa el rendimiento descontado asociado con el siguiente estado inicial . Definiendo como el valor de estado máximo posible de , donde se permite cambiar,

Una política que logra estos valores de estado óptimos en cada estado se denomina óptima . Claramente, una política que es óptima en este sentido también es óptima en el sentido de que maximiza el rendimiento descontado esperado, ya que , donde es un estado muestreado aleatoriamente de la distribución de estados iniciales (por lo que ).

Aunque los valores de estado son suficientes para definir la optimalidad, es útil definir los valores de acción. Dado un estado , una acción y una política , el valor de acción del par bajo se define por

donde ahora representa el rendimiento descontado aleatorio asociado con la primera acción tomada en el estado y las siguientes , de ahí en adelante.

La teoría de los procesos de decisión de Markov establece que si es una política óptima, actuamos de manera óptima (adoptamos la acción óptima) eligiendo la acción con el valor de acción más alto en cada estado, . La función de valor de acción de dicha política óptima ( ) se denomina función de valor de acción óptima y se denota comúnmente por . En resumen, el conocimiento de la función de valor de acción óptima por sí sola es suficiente para saber cómo actuar de manera óptima.

Suponiendo un conocimiento completo del proceso de decisión de Markov, los dos enfoques básicos para calcular la función acción-valor óptima son la iteración de valor y la iteración de política . Ambos algoritmos calculan una secuencia de funciones ( ) que convergen a . Calcular estas funciones implica calcular expectativas sobre todo el espacio de estados, lo que es poco práctico para todos los procesos de decisión de Markov, excepto los más pequeños (finitos). En los métodos de aprendizaje de refuerzo, las expectativas se aproximan promediando sobre muestras y utilizando técnicas de aproximación de funciones para hacer frente a la necesidad de representar funciones de valor sobre grandes espacios de estados-acción.

Métodos de Monte Carlo

Los métodos de Monte Carlo [15] se utilizan para resolver problemas de aprendizaje de refuerzo mediante el promedio de los retornos de muestra. A diferencia de los métodos que requieren un conocimiento completo de la dinámica del entorno, los métodos de Monte Carlo se basan únicamente en la experiencia real o simulada (secuencias de estados, acciones y recompensas obtenidas de la interacción con un entorno). Esto los hace aplicables en situaciones en las que se desconoce la dinámica completa. El aprendizaje a partir de la experiencia real no requiere un conocimiento previo del entorno y aún puede conducir a un comportamiento óptimo. Cuando se utiliza la experiencia simulada, solo se requiere un modelo capaz de generar transiciones de muestra, en lugar de una especificación completa de las probabilidades de transición , que es necesaria para los métodos de programación dinámica .

Los métodos de Monte Carlo se aplican a tareas episódicas, donde la experiencia se divide en episodios que finalmente terminan. Las actualizaciones de las políticas y las funciones de valor se producen solo después de la finalización de un episodio, lo que hace que estos métodos sean incrementales episodio por episodio, aunque no paso a paso (en línea). El término "Monte Carlo" generalmente se refiere a cualquier método que implique un muestreo aleatorio ; sin embargo, en este contexto, se refiere específicamente a métodos que calculan promedios a partir de retornos completos , en lugar de retornos parciales .

Estos métodos funcionan de manera similar a los algoritmos de bandidos , en los que se promedian los retornos para cada par de estado-acción. La diferencia clave es que las acciones tomadas en un estado afectan los retornos de los estados subsiguientes dentro del mismo episodio, lo que hace que el problema no sea estacionario . Para abordar esta no estacionariedad, los métodos de Monte Carlo utilizan el marco de la iteración de política general (GPI). Mientras que la programación dinámica calcula funciones de valor utilizando el conocimiento completo del proceso de decisión de Markov (MDP), los métodos de Monte Carlo aprenden estas funciones a través de retornos de muestra. Las funciones de valor y las políticas interactúan de manera similar a la programación dinámica para lograr la optimalidad , primero abordando el problema de predicción y luego extendiéndose a la mejora y el control de políticas, todo basado en la experiencia muestreada. [14]

Métodos de diferencia temporal

El primer problema se corrige permitiendo que el procedimiento cambie la política (en algunos o todos los estados) antes de que los valores se estabilicen. Esto también puede ser problemático, ya que podría impedir la convergencia. La mayoría de los algoritmos actuales hacen esto, dando lugar a la clase de algoritmos de iteración de políticas generalizados . Muchos métodos de actor-crítico pertenecen a esta categoría.

El segundo problema se puede corregir permitiendo que las trayectorias contribuyan a cualquier par estado-acción en ellas. Esto también puede ayudar hasta cierto punto con el tercer problema, aunque una mejor solución cuando los retornos tienen alta varianza son los métodos de diferencia temporal (TD) de Sutton que se basan en la ecuación recursiva de Bellman . [16] [17] El cálculo en los métodos TD puede ser incremental (cuando después de cada transición se cambia la memoria y se descarta la transición), o por lotes (cuando las transiciones se agrupan y las estimaciones se calculan una vez en función del lote). Los métodos por lotes, como el método de diferencia temporal de mínimos cuadrados, [18] pueden utilizar mejor la información en las muestras, mientras que los métodos incrementales son la única opción cuando los métodos por lotes son inviables debido a su alta complejidad computacional o de memoria. Algunos métodos intentan combinar los dos enfoques. Los métodos basados ​​en diferencias temporales también superan el cuarto problema.

Otro problema específico de la TD proviene de su dependencia de la ecuación recursiva de Bellman. La mayoría de los métodos de TD tienen un denominado parámetro que puede interpolar continuamente entre los métodos de Monte Carlo que no se basan en las ecuaciones de Bellman y los métodos de TD básicos que se basan completamente en las ecuaciones de Bellman. Esto puede ser eficaz para paliar este problema.

Métodos de aproximación de funciones

Para abordar la quinta cuestión, se utilizan métodos de aproximación de funciones . La aproximación de funciones lineales comienza con una asignación que asigna un vector de dimensión finita a cada par estado-acción. Luego, los valores de acción de un par estado-acción se obtienen combinando linealmente los componentes de con algunos pesos :

Los algoritmos ajustan entonces los pesos, en lugar de ajustar los valores asociados con los pares individuales de estado-acción. Se han explorado métodos basados ​​en ideas de estadísticas no paramétricas (que pueden verse como constructoras de sus propias características).

La iteración de valores también se puede utilizar como punto de partida, dando lugar al algoritmo Q-learning y sus muchas variantes. [19] Incluidos los métodos Deep Q-learning cuando se utiliza una red neuronal para representar Q, con diversas aplicaciones en problemas de búsqueda estocástica. [20]

El problema de utilizar valores de acción es que pueden requerir estimaciones muy precisas de los valores de acción en competencia, lo que puede resultar difícil de obtener cuando los retornos son ruidosos, aunque este problema se mitiga en cierta medida mediante métodos de diferencia temporal. El uso del llamado método de aproximación de funciones compatibles compromete la generalidad y la eficiencia.

Búsqueda directa de políticas

Un método alternativo consiste en buscar directamente en (un subconjunto de) el espacio de políticas, en cuyo caso el problema se convierte en un caso de optimización estocástica . Los dos enfoques disponibles son los basados ​​en gradientes y los libres de gradientes.

Los métodos basados ​​en gradientes ( métodos de gradiente de políticas ) comienzan con una asignación de un espacio (de parámetros) de dimensión finita al espacio de políticas: dado el vector de parámetros , sea la política asociada a . Definiendo la función de rendimiento por en condiciones moderadas, esta función será diferenciable como una función del vector de parámetros . Si se conociera el gradiente de , se podría usar el ascenso del gradiente . Dado que no se dispone de una expresión analítica para el gradiente, solo se dispone de una estimación ruidosa. Dicha estimación se puede construir de muchas maneras, dando lugar a algoritmos como el método REINFORCE de Williams [21] (que se conoce como el método de razón de verosimilitud en la literatura de optimización basada en simulación ). [22]

Una amplia clase de métodos evita depender de la información de gradientes. Entre ellos se incluyen el recocido simulado , la búsqueda de entropía cruzada o los métodos de computación evolutiva . Muchos métodos sin gradientes pueden lograr (en teoría y en el límite) un óptimo global.

Los métodos de búsqueda de políticas pueden converger lentamente en caso de datos ruidosos. Por ejemplo, esto sucede en problemas episódicos cuando las trayectorias son largas y la varianza de los retornos es grande. Los métodos basados ​​en funciones de valor que dependen de las diferencias temporales podrían ser útiles en este caso. En los últimos años, se han propuesto métodos actor-crítico que han tenido un buen desempeño en varios problemas. [23]

Se han utilizado métodos de búsqueda de políticas en el contexto de la robótica . [24] Muchos métodos de búsqueda de políticas pueden quedar estancados en óptimos locales (ya que se basan en la búsqueda local ).

Algoritmos basados ​​en modelos

Finalmente, todos los métodos anteriores se pueden combinar con algoritmos que primero aprenden un modelo del proceso de decisión de Markov , la probabilidad de cada estado siguiente dada una acción tomada a partir de un estado existente. Por ejemplo, el algoritmo Dyna [25] aprende un modelo de la experiencia y lo utiliza para proporcionar más transiciones modeladas para una función de valor, además de las transiciones reales. Dichos métodos a veces se pueden extender al uso de modelos no paramétricos, como cuando las transiciones simplemente se almacenan y se "reproducen" [26] en el algoritmo de aprendizaje.

Los métodos basados ​​en modelos pueden requerir un mayor esfuerzo computacional que los enfoques sin modelos, y su utilidad puede verse limitada por el grado en que se pueda aprender el proceso de decisión de Markov. [27]

Hay otras formas de utilizar modelos además de actualizar una función de valor. [28] Por ejemplo, en el control predictivo de modelos, el modelo se utiliza para actualizar el comportamiento directamente.

Teoría

Se entienden bien tanto los comportamientos asintóticos como los de muestras finitas de la mayoría de los algoritmos. Se conocen algoritmos con un rendimiento en línea demostrablemente bueno (que abordan el problema de la exploración).

En Burnetas y Katehakis (1997) se ofrece una exploración eficiente de los procesos de decisión de Markov. [12] También han aparecido límites de rendimiento de tiempo finito para muchos algoritmos, pero se espera que estos límites sean bastante flexibles y, por lo tanto, se necesita más trabajo para comprender mejor las ventajas y limitaciones relativas.

En el caso de los algoritmos incrementales, se han resuelto los problemas de convergencia asintótica [ se necesita una aclaración ] . Los algoritmos basados ​​en diferencias temporales convergen en un conjunto más amplio de condiciones de lo que era posible anteriormente (por ejemplo, cuando se utilizan con una aproximación de función arbitraria y suave).

Investigación

Los temas de investigación incluyen:

Comparación de algoritmos clave

Aprendizaje por refuerzo asociativo

Las tareas de aprendizaje por refuerzo asociativo combinan aspectos de las tareas de aprendizaje estocástico con las tareas de clasificación de patrones de aprendizaje supervisado. En las tareas de aprendizaje por refuerzo asociativo, el sistema de aprendizaje interactúa en un circuito cerrado con su entorno. [46]

Aprendizaje de refuerzo profundo

Este enfoque extiende el aprendizaje de refuerzo mediante el uso de una red neuronal profunda y sin diseñar explícitamente el espacio de estados. [47] El trabajo sobre el aprendizaje de juegos ATARI de Google DeepMind aumentó la atención al aprendizaje de refuerzo profundo o aprendizaje de refuerzo de extremo a extremo . [48]

Aprendizaje de refuerzo profundo adversarial

El aprendizaje profundo por refuerzo adversarial es un área activa de investigación en el aprendizaje por refuerzo que se centra en las vulnerabilidades de las políticas aprendidas. En esta área de investigación, algunos estudios mostraron inicialmente que las políticas de aprendizaje por refuerzo son susceptibles a manipulaciones adversarias imperceptibles. [49] [50] [51] Si bien se han propuesto algunos métodos para superar estas susceptibilidades, en los estudios más recientes se ha demostrado que estas soluciones propuestas están lejos de proporcionar una representación precisa de las vulnerabilidades actuales de las políticas de aprendizaje profundo por refuerzo. [52]

Aprendizaje por refuerzo difuso

Al introducir la inferencia difusa en el aprendizaje de refuerzo, [53] se hace posible aproximar la función de valor de estado-acción con reglas difusas en el espacio continuo. La forma IF-THEN de las reglas difusas hace que este enfoque sea adecuado para expresar los resultados en una forma cercana al lenguaje natural. Extender FRL con interpolación de reglas difusas [54] permite el uso de bases de reglas difusas dispersas de tamaño reducido para enfatizar las reglas cardinales (valores de estado-acción más importantes).

Aprendizaje por refuerzo inverso

En el aprendizaje por refuerzo inverso (IRL), no se proporciona ninguna función de recompensa. En cambio, la función de recompensa se infiere a partir de un comportamiento observado de un experto. La idea es imitar el comportamiento observado, que a menudo es óptimo o cercano al óptimo. [55] Un paradigma popular de IRL se denomina aprendizaje por refuerzo inverso de máxima entropía (MaxEnt IRL). [56] MaxEnt IRL estima los parámetros de un modelo lineal de la función de recompensa maximizando la entropía de la distribución de probabilidad de las trayectorias observadas sujetas a restricciones relacionadas con la coincidencia de los recuentos de características esperados. Recientemente se ha demostrado que MaxEnt IRL es un caso particular de un marco más general denominado aprendizaje por refuerzo inverso de utilidad aleatoria (RU-IRL). [57] RU-IRL se basa en la teoría de la utilidad aleatoria y los procesos de decisión de Markov. Mientras que los enfoques IRL anteriores suponen que el comportamiento aparentemente aleatorio de un agente observado se debe a que sigue una política aleatoria, RU-IRL supone que el agente observado sigue una política determinista, pero la aleatoriedad del comportamiento observado se debe al hecho de que un observador solo tiene acceso parcial a las características que el agente observado utiliza en la toma de decisiones. La función de utilidad se modela como una variable aleatoria para tener en cuenta la ignorancia del observador con respecto a las características que el agente observado realmente considera en su función de utilidad.

Aprendizaje de refuerzo seguro

El aprendizaje de refuerzo seguro (SRL) se puede definir como el proceso de aprendizaje de políticas que maximizan la expectativa de retorno en problemas en los que es importante asegurar un rendimiento razonable del sistema y/o respetar las restricciones de seguridad durante los procesos de aprendizaje y/o implementación. [58] Un enfoque alternativo es el aprendizaje de refuerzo con aversión al riesgo, donde en lugar del retorno esperado , se optimiza una medida de riesgo del retorno, como el Valor Condicional en Riesgo (CVaR). [59] Además de mitigar el riesgo, el objetivo CVaR aumenta la robustez a las incertidumbres del modelo. [60] [61] Sin embargo, la optimización del CVaR en el aprendizaje de refuerzo con aversión al riesgo requiere un cuidado especial, para evitar el sesgo de gradiente [62] y la ceguera al éxito. [63]

Aprendizaje por autorrefuerzo

El aprendizaje por autorreforzamiento (o autoaprendizaje) es un paradigma de aprendizaje que no utiliza el concepto de recompensa inmediata Ra(s,s') tras la transición de s a s' con la acción a. La ecuación de aprendizaje no incluye la recompensa inmediata, sólo incluye la evaluación del estado. La emoción se considera como la evaluación interna del estado y se utiliza como autorreforzamiento interno. En el proceso de aprendizaje, las emociones se retropropagan mediante un mecanismo de reforzamiento secundario.

El algoritmo de autorreforzamiento actualiza una matriz de memoria W =||w(a,s)|| tal que en cada iteración ejecuta la siguiente rutina de aprendizaje automático: 1. en la situación s realiza la acción a 2. recibe una situación de consecuencia s' 3. calcula la evaluación de estado v(s') de lo bueno que es estar en la situación de consecuencia s' 4. actualiza la memoria de barras cruzadas w'(a,s) = w(a,s) + v(s')

Las condiciones iniciales de la memoria se reciben como entrada del entorno genético. Es un sistema con una sola entrada (situación) y una sola salida (acción o conducta).

El autorreforzamiento (autoaprendizaje) se introdujo en 1982 junto con una red neuronal capaz de aprender por autorreforzamiento, llamada Crossbar Adaptive Array (CAA). [64] [65] La CAA calcula, en forma de barras cruzadas, tanto las decisiones sobre acciones como las emociones (sentimientos) sobre los estados de consecuencia. El sistema está impulsado por la interacción entre la cognición y la emoción. [66]

Comparación estadística de algoritmos de aprendizaje por refuerzo

La comparación eficiente de algoritmos de RL es esencial para la investigación, implementación y monitoreo de sistemas de RL. Para comparar diferentes algoritmos en un entorno determinado, se puede entrenar a un agente para cada algoritmo. Dado que el rendimiento es sensible a los detalles de implementación, todos los algoritmos deben implementarse lo más cerca posible entre sí. [67] Una vez finalizado el entrenamiento, los agentes se pueden ejecutar en una muestra de episodios de prueba y se pueden comparar sus puntajes (retornos). Dado que generalmente se supone que los episodios son iid , se pueden usar herramientas estadísticas estándar para probar hipótesis, como la prueba T y la prueba de permutación . [68] Esto requiere acumular todas las recompensas dentro de un episodio en un solo número: el retorno episódico. Sin embargo, esto causa una pérdida de información, ya que se promedian diferentes pasos de tiempo juntos, posiblemente con diferentes niveles de ruido. Siempre que el nivel de ruido varíe a lo largo del episodio, la potencia estadística se puede mejorar significativamente, ponderando las recompensas de acuerdo con su ruido estimado. [69]

Véase también

Referencias

  1. ^ Kaelbling, Leslie P. ; Littman, Michael L. ; Moore, Andrew W. (1996). "Aprendizaje por refuerzo: una encuesta". Revista de investigación en inteligencia artificial . 4 : 237–285. arXiv : cs/9605103 . doi :10.1613/jair.301. S2CID  1708582. Archivado desde el original el 20 de noviembre de 2001.
  2. ^ van Otterlo, M.; Wiering, M. (2012). "Aprendizaje por refuerzo y procesos de decisión de Markov". Aprendizaje por refuerzo . Adaptación, aprendizaje y optimización. Vol. 12. págs. 3–42. doi :10.1007/978-3-642-27645-3_1. ISBN 978-3-642-27644-6.
  3. ^ abcd Li, Shengbo (2023). Aprendizaje por refuerzo para la toma de decisiones secuenciales y el control óptimo (primera edición). Springer Verlag, Singapur. págs. 1–460. doi :10.1007/978-981-19-7784-8. ISBN 978-9-811-97783-1. Número de identificación del sujeto  257928563.{{cite book}}: CS1 maint: location missing publisher (link)
  4. ^ Russell, Stuart J.; Norvig, Peter (2010). Inteligencia artificial: un enfoque moderno (tercera edición). Upper Saddle River, Nueva Jersey. pp. 830, 831. ISBN 978-0-13-604259-4.{{cite book}}: CS1 maint: location missing publisher (link)
  5. ^ Lee, Daeyeol; Seo, Hyojung; Jung, Min Whan (21 de julio de 2012). "Bases neuronales del aprendizaje por refuerzo y la toma de decisiones". Revisión anual de neurociencia . 35 (1): 287–308. doi :10.1146/annurev-neuro-062111-150512. PMC 3490621 . PMID  22462543. 
  6. ^ Salazar Duque, Édgar Mauricio; Giraldo, Juan S.; Vergara, Pedro P.; Nguyen, Phuong; Van der Molen, Anne; Slootweg, Han (2022). "Operación comunitaria de almacenamiento de energía mediante aprendizaje reforzado con trazas de elegibilidad". Investigación de sistemas de energía eléctrica . 212 . Código Bib : 2022EPSR..21208515S. doi : 10.1016/j.epsr.2022.108515 . S2CID  250635151.
  7. ^ Xie, Zhaoming; Hung Yu Ling; Nam Hee Kim; Michiel van de Panne (2020). "ALLSTEPS: aprendizaje de habilidades de transición impulsado por el currículo". arXiv : 2005.04323 [cs.GR].
  8. ^ Vergara, Pedro P.; Salazar, Mauricio; Giraldo, Juan S.; Palensky, Peter (2022). "Despacho óptimo de inversores fotovoltaicos en sistemas de distribución desequilibrados mediante aprendizaje por refuerzo". Revista Internacional de Sistemas Eléctricos de Potencia y Energía . 136 . Código Bibliográfico :2022IJEPE.13607628V. doi : 10.1016/j.ijepes.2021.107628 . S2CID  244099841.
  9. ^ Sutton y Barto 2018, Capítulo 11.
  10. ^ Ren, Yangang; Jiang, Jianhua; Zhan, Guojian; Li, Shengbo Eben; Chen, Chen; Li, Keqiang; Duan, Jingliang (2022). "Inteligencia autodidacta para la toma de decisiones y el control integrados de vehículos automatizados en intersecciones señalizadas". Transacciones IEEE sobre sistemas de transporte inteligente . 23 (12): 24145–24156. arXiv : 2110.12359 . doi :10.1109/TITS.2022.3196167.
  11. ^ Gosavi, Abhijit (2003). Optimización basada en simulación: técnicas de optimización paramétrica y refuerzo. Serie de interfaces de investigación de operaciones/ciencia informática. Springer. ISBN 978-1-4020-7454-7.
  12. ^ ab Burnetas, Apostolos N.; Katehakis, Michael N. (1997), "Políticas adaptativas óptimas para procesos de decisión de Markov", Matemáticas de la investigación de operaciones , 22 (1): 222–255, doi :10.1287/moor.22.1.222, JSTOR  3690147
  13. ^ Tokic, Michel; Palm, Günther (2011), "Exploración basada en la diferencia de valores: control adaptativo entre Epsilon-Greedy y Softmax" (PDF) , KI 2011: Avances en inteligencia artificial , Lecture Notes in Computer Science, vol. 7006, Springer, págs. 335–346, ISBN 978-3-642-24455-1
  14. ^ abc "Aprendizaje por refuerzo: una introducción" (PDF) . Archivado desde el original (PDF) el 2017-07-12 . Consultado el 2017-07-23 .
  15. ^ Singh, Satinder P.; Sutton, Richard S. (1 de marzo de 1996). "Aprendizaje de refuerzo con reemplazo de rastros de elegibilidad". Aprendizaje automático . 22 (1): 123–158. doi :10.1007/BF00114726. ISSN  1573-0565.
  16. ^ Sutton, Richard S. (1984). Temporal Credit Assignment in Reinforcement Learning (tesis doctoral). Universidad de Massachusetts, Amherst, MA. Archivado desde el original el 2017-03-30 . Consultado el 2017-03-29 .
  17. ^ Sutton y Barto 2018, §6. Aprendizaje de diferencias temporales.
  18. ^ Bradtke, Steven J.; Barto, Andrew G. (1996). "Aprender a predecir mediante el método de diferencias temporales". Aprendizaje automático . 22 : 33–57. CiteSeerX 10.1.1.143.857 . doi :10.1023/A:1018056104778. S2CID  20327856. 
  19. ^ Watkins, Christopher JCH (1989). Aprendiendo de las recompensas retrasadas (PDF) (tesis doctoral). King's College, Cambridge, Reino Unido.
  20. ^ Matzliach, Barouch; Ben-Gal, Irad; Kagan, Evgeny (2022). "Detección de objetivos estáticos y móviles por un agente autónomo con capacidades de aprendizaje Q profundo". Entropy . 24 (8): 1168. Bibcode :2022Entrp..24.1168M. doi : 10.3390/e24081168 . PMC 9407070 . PMID  36010832. 
  21. ^ Williams, Ronald J. (1987). "Una clase de algoritmos de estimación de gradiente para el aprendizaje de refuerzo en redes neuronales". Actas de la Primera Conferencia Internacional IEEE sobre Redes Neuronales . CiteSeerX 10.1.1.129.8871 . 
  22. ^ Peters, Jan ; Vijayakumar, Sethu ; Schaal, Stefan (2003). Aprendizaje por refuerzo para robótica humanoide (PDF) . Conferencia internacional IEEE-RAS sobre robots humanoides. Archivado desde el original (PDF) el 12 de mayo de 2013.
  23. ^ Juliani, Arthur (17 de diciembre de 2016). "Aprendizaje por refuerzo simple con Tensorflow, parte 8: agentes críticos-actores asincrónicos (A3C)". Medium . Consultado el 22 de febrero de 2018 .
  24. ^ Deisenroth, Marc Peter; Neumann, Gerhard ; Peters, Jan (2013). Una encuesta sobre la búsqueda de políticas para la robótica (PDF) . Fundamentos y tendencias en robótica. Vol. 2. NOW Publishers. págs. 1–142. doi :10.1561/2300000021. hdl :10044/1/12051.
  25. ^ Sutton, Richard (1990). "Arquitecturas integradas para el aprendizaje, la planificación y la reacción basadas en programación dinámica". Aprendizaje automático: actas del séptimo taller internacional .
  26. ^ Lin, Long-Ji (1992). "Agentes reactivos automejorables basados ​​en aprendizaje por refuerzo, planificación y enseñanza" (PDF) . Aprendizaje automático, volumen 8. doi : 10.1007/BF00992699.
  27. ^ Zou, Lan (1 de enero de 2023), Zou, Lan (ed.), "Capítulo 7 - Aprendizaje por metarefuerzo", Meta-Learning , Academic Press, págs. 267–297, doi :10.1016/b978-0-323-89931-4.00011-0, ISBN 978-0-323-89931-4, consultado el 8 de noviembre de 2023
  28. ^ van Hasselt, Hado; Hessel, Matteo; Aslanides, John (2019). "¿Cuándo utilizar modelos paramétricos en el aprendizaje por refuerzo?" (PDF) . Avances en sistemas de procesamiento de información neuronal 32 .
  29. ^ Grondman, Ivo; Vaandrager, Martín; Busoniu, Luciano; Babuska, Robert; Schuitema, Erik (1 de junio de 2012). "Métodos eficientes de aprendizaje de modelos para el control entre actores y críticos". Trans. Sistema Hombre cibernético. Parte B. 42 (3): 591–602. doi :10.1109/TSMCB.2011.2170565. ISSN  1083-4419. PMID  22156998.
  30. ^ "Sobre el uso del aprendizaje por refuerzo para probar la mecánica de los juegos: ACM - Computadoras en el entretenimiento". cie.acm.org . Consultado el 27 de noviembre de 2018 .
  31. ^ Riveret, Regis; Gao, Yang (2019). "Un marco de argumentación probabilística para agentes de aprendizaje de refuerzo". Agentes autónomos y sistemas multiagente . 33 (1–2): 216–274. doi :10.1007/s10458-019-09404-2. S2CID  71147890.
  32. ^ Yamagata, Taku; McConville, Ryan; Santos-Rodriguez, Raul (16 de noviembre de 2021). "Aprendizaje de refuerzo con retroalimentación de múltiples humanos con diversas habilidades". arXiv : 2111.08596 [cs.LG].
  33. ^ Kulkarni, Tejas D.; Narasimhan, Karthik R.; Saeedi, Ardavan; Tenenbaum, Joshua B. (2016). "Aprendizaje jerárquico de refuerzo profundo: integración de la abstracción temporal y la motivación intrínseca". Actas de la 30.ª Conferencia internacional sobre sistemas de procesamiento de información neuronal . NIPS'16. EE. UU.: Curran Associates Inc.: 3682–3690. arXiv : 1604.06057 . Código Bibliográfico :2016arXiv160406057K. ISBN . 978-1-5108-3881-9.
  34. ^ "Aprendizaje por refuerzo / Éxitos del aprendizaje por refuerzo". umichrl.pbworks.com . Consultado el 6 de agosto de 2017 .
  35. ^ Dey, Somdip; Singh, Amit Kumar; Wang, Xiaohang; McDonald-Maier, Klaus (marzo de 2020). "Aprendizaje de refuerzo basado en la interacción del usuario para la eficiencia térmica y energética de MPSoC móviles con CPU-GPU". Conferencia y exposición de diseño, automatización y pruebas en Europa de 2020 (DATE) (PDF) . págs. 1728–1733. doi :10.23919/DATE48585.2020.9116294. ISBN 978-3-9819263-4-7.S2CID219858480  .​
  36. ^ Quested, Tony. "Los teléfonos inteligentes se vuelven más inteligentes con la innovación de Essex". Business Weekly . Consultado el 17 de junio de 2021 .
  37. ^ Williams, Rhiannon (21 de julio de 2020). "Los teléfonos inteligentes del futuro 'prolongarán la vida útil de su batería al monitorear el comportamiento de sus propietarios'". i . Consultado el 17 de junio de 2021 .
  38. ^ Kaplan, F.; Oudeyer, P. (2004). "Maximizar el progreso del aprendizaje: un sistema de recompensa interna para el desarrollo". En Iida, F.; Pfeifer, R.; Steels, L.; Kuniyoshi, Y. (eds.). Inteligencia artificial incorporada . Apuntes de clase en informática. Vol. 3139. Berlín; Heidelberg: Springer. págs. 259–270. doi :10.1007/978-3-540-27833-7_19. ISBN . 978-3-540-22484-6.S2CID 9781221  .
  39. ^ Klyubin, A.; Polani, D.; Nehaniv, C. (2008). "Mantenga abiertas sus opciones: un principio de conducción basado en la información para sistemas sensoriomotores". PLOS ONE . ​​3 (12): e4018. Bibcode :2008PLoSO...3.4018K. doi : 10.1371/journal.pone.0004018 . PMC 2607028 . PMID  19107219. 
  40. ^ Barto, AG (2013). "Motivación intrínseca y aprendizaje por refuerzo". Aprendizaje intrínsecamente motivado en sistemas naturales y artificiales (PDF) . Berlín; Heidelberg: Springer. págs. 17–47.
  41. ^ Dabérius, Kevin; Granat, Elvin; Karlsson, Patrik (2020). "Ejecución profunda: aprendizaje de refuerzo basado en políticas y valores para operar y superar los índices de referencia del mercado". The Journal of Machine Learning in Finance . 1 . SSRN  3374766.
  42. ^ George Karimpanal, Thommen; Bouffanais, Roland (2019). "Mapas autoorganizados para el almacenamiento y transferencia de conocimiento en el aprendizaje por refuerzo". Adaptive Behavior . 27 (2): 111–126. arXiv : 1811.08318 . doi :10.1177/1059712318818568. ISSN  1059-7123. S2CID  53774629.
  43. ^ J Duan; Y Guan; S Li (2021). "Actor-crítico blando distributivo: aprendizaje de refuerzo fuera de política para abordar errores de estimación de valor". IEEE Transactions on Neural Networks and Learning Systems . 33 (11): 6584–6598. arXiv : 2001.02811 . doi :10.1109/TNNLS.2021.3082568. PMID  34101599. S2CID  211259373.
  44. ^ Y Ren; J Duan; S Li (2020). "Mejora de la generalización del aprendizaje por refuerzo con el actor crítico blando distributivo Minimax". 2020 IEEE 23rd International Conference on Intelligent Transportation Systems (ITSC) . págs. 1–6. arXiv : 2002.05502 . doi :10.1109/ITSC45102.2020.9294300. ISBN 978-1-7281-4149-7.S2CID211096594  .​
  45. ^ Duan, J; Wang, W; Xiao, L (26 de octubre de 2023). "DSAC-T: actor crítico blando distributivo con tres refinamientos". arXiv : 2310.05858 [cs.LG].
  46. ^ Soucek, Branko (6 de mayo de 1992). Programación dinámica, genética y caótica: la serie de tecnología informática de sexta generación . John Wiley & Sons, Inc., pág. 38. ISBN 0-471-55717-X.
  47. ^ Francois-Lavet, Vincent; et al. (2018). "Introducción al aprendizaje por refuerzo profundo". Fundamentos y tendencias en aprendizaje automático . 11 (3–4): 219–354. arXiv : 1811.12560 . Código Bibliográfico :2018arXiv181112560F. doi :10.1561/2200000071. S2CID  54434537.
  48. ^ Mnih, Volodymyr; et al. (2015). "Control a nivel humano mediante aprendizaje de refuerzo profundo". Nature . 518 (7540): 529–533. Bibcode :2015Natur.518..529M. doi :10.1038/nature14236. PMID  25719670. S2CID  205242740.
  49. ^ Goodfellow, Ian; Shlens, Jonathan; Szegedy, Christian (2015). "Explicación y aprovechamiento de ejemplos adversarios". Conferencia internacional sobre representaciones de aprendizaje . arXiv : 1412.6572 .
  50. ^ Behzadan, Vahid; Munir, Arslan (2017). "Vulnerabilidad del aprendizaje por refuerzo profundo a los ataques de inducción de políticas". Aprendizaje automático y minería de datos en reconocimiento de patrones . Notas de clase en informática. Vol. 10358. págs. 262–275. arXiv : 1701.04143 . doi :10.1007/978-3-319-62416-7_19. ISBN . 978-3-319-62415-0. Número de identificación del sujeto  1562290.
  51. ^ Pieter, Huang, Sandy Papernot, Nicolas Goodfellow, Ian Duan, Yan Abbeel (7 de febrero de 2017). Ataques adversarios a políticas de redes neuronales. OCLC  1106256905.{{cite book}}: CS1 maint: multiple names: authors list (link)
  52. ^ Korkmaz, Ezgi (2022). "Las políticas de aprendizaje por refuerzo profundo aprenden características adversarias compartidas entre MDP". Trigésima sexta conferencia AAAI sobre inteligencia artificial (AAAI-22) . 36 (7): 7229–7238. arXiv : 2112.09025 . doi : 10.1609/aaai.v36i7.20684 . S2CID  : 245219157.
  53. ^ Berenji, HR (1994). "Q-learning difuso: un nuevo enfoque para la programación dinámica difusa". Actas de la 3.ª Conferencia Internacional de Sistemas Difusos del IEEE de 1994. Orlando, FL, EE. UU.: IEEE. págs. 486–491. doi :10.1109/FUZZY.1994.343737. ISBN . 0-7803-1896-X.S2CID56694947  .​
  54. ^ Vincze, David (2017). "Interpolación de reglas difusas y aprendizaje de refuerzo" (PDF) . 2017 IEEE 15th International Symposium on Applied Machine Intelligence and Informatics (SAMI) . IEEE. págs. 173–178. doi :10.1109/SAMI.2017.7880298. ISBN . 978-1-5090-5655-2.S2CID17590120  .​
  55. ^ Ng, AY; Russell, SJ (2000). "Algoritmos para el aprendizaje por refuerzo inverso" (PDF) . Actas ICML '00 Actas de la Decimoséptima Conferencia Internacional sobre Aprendizaje Automático . págs. 663–670. ISBN 1-55860-707-2.
  56. ^ Ziebart, Brian D.; Maas, Andrew; Bagnell, J. Andrew; Dey, Anind K. (13 de julio de 2008). "Aprendizaje de refuerzo inverso de máxima entropía". Actas de la 23.ª Conferencia Nacional sobre Inteligencia Artificial - Volumen 3. AAAI'08. Chicago, Illinois: AAAI Press: 1433–1438. ISBN 978-1-57735-368-3. Número de identificación del sujeto  336219.
  57. ^ Pitombeira-Neto, Anselmo R.; Santos, Helano P.; Coelho da Silva, Ticiana L.; de Macedo, José Antonio F. (marzo 2024). "Modelado de trayectoria mediante aprendizaje por refuerzo inverso de utilidad aleatoria". Ciencias de la Información . 660 : 120128. arXiv : 2105.12092 . doi :10.1016/j.ins.2024.120128. ISSN  0020-0255. S2CID  235187141.
  58. ^ García, Javier; Fernández, Fernando (1 de enero de 2015). "Una encuesta exhaustiva sobre aprendizaje por refuerzo seguro" (PDF) . The Journal of Machine Learning Research . 16 (1): 1437–1480.
  59. ^ Dabney, Will; Ostrovski, Georg; Silver, David; Munos, Remi (3 de julio de 2018). "Redes cuantiles implícitas para el aprendizaje por refuerzo distributivo". Actas de la 35.ª Conferencia internacional sobre aprendizaje automático . PMLR: 1096–1105. arXiv : 1806.06923 .
  60. ^ Chow, Yinlam; Tamar, Aviv; Mannor, Shie; Pavone, Marco (2015). "Toma de decisiones robusta y sensible al riesgo: un enfoque de optimización CVaR". Avances en sistemas de procesamiento de información neuronal . 28 . Curran Associates, Inc. arXiv : 1506.02188 .
  61. ^ "Entrena duro, lucha con calma: aprendizaje de refuerzo metabólico sólido". scholar.google.com . Consultado el 21 de junio de 2024 .
  62. ^ Tamar, Aviv; Glassner, Yonatan; Mannor, Shie (21 de febrero de 2015). "Optimización del CVaR mediante muestreo". Actas de la Conferencia AAAI sobre Inteligencia Artificial . 29 (1). arXiv : 1404.3862 . doi :10.1609/aaai.v29i1.9561. ISSN  2374-3468.
  63. ^ Greenberg, Ido; Chow, Yinlam; Ghavamzadeh, Mohammad; Mannor, Shie (6 de diciembre de 2022). "Aprendizaje por refuerzo eficiente con aversión al riesgo". Avances en sistemas de procesamiento de información neuronal . 35 : 32639–32652. arXiv : 2205.05138 .
  64. ^ Bozinovski, S. (1982). "Un sistema de autoaprendizaje mediante refuerzo secundario". En Trappl, Robert (ed.). Investigación en cibernética y sistemas: Actas de la sexta reunión europea sobre investigación en cibernética y sistemas. Holanda Septentrional. pp. 397–402. ISBN 978-0-444-86488-8
  65. ^ Bozinovski S. (1995) "Agentes neurogenéticos y teoría estructural de los sistemas de aprendizaje por autorreforzamiento". Informe técnico 95-107 del CMPSCI, Universidad de Massachusetts en Amherst [1]
  66. ^ Bozinovski, S. (2014) "Mecanismos de modelado de la interacción cognición-emoción en redes neuronales artificiales, desde 1981". Procedia Computer Science, pág. 255-263
  67. ^ Engstrom, Logan; Ilyas, Andrew; Santurkar, Shibani; Tsipras, Dimitris; Janoos, Firdaus; Rudolph, Larry; Madry, Aleksander (25 de septiembre de 2019). "La implementación importa en el aprendizaje profundo: un estudio de caso sobre PPO y TRPO". ICLR .
  68. ^ Colas, Cédric (6 de marzo de 2019). "Guía del autoestopista para comparaciones estadísticas de algoritmos de aprendizaje por refuerzo". Conferencia internacional sobre representaciones de aprendizaje . arXiv : 1904.06979 .
  69. ^ Greenberg, Ido; Mannor, Shie (1 de julio de 2021). "Detección del deterioro de las recompensas en el aprendizaje por refuerzo episódico". Actas de la 38.ª Conferencia internacional sobre aprendizaje automático . PMLR: 3842–3853. arXiv : 2010.11660 .
  70. ^ ab Guan, Yang; Li, Shengbo; Duan, Jiangliang (2021). "Aprendizaje por refuerzo directo e indirecto". Revista internacional de sistemas inteligentes . 36 (8): 4439–4467. arXiv : 1912.10600 . doi :10.1002/int.22466.

Fuentes

Lectura adicional

Enlaces externos