Aprendizaje reforzado

El aprendizaje por refuerzo ( RL ) es un área interdisciplinaria de aprendizaje automático y control óptimo que se ocupa de cómo un agente inteligente debe tomar acciones en un entorno dinámico para maximizar la recompensa acumulativa . El aprendizaje por refuerzo es uno de los tres paradigmas básicos del aprendizaje automático , junto con el aprendizaje supervisado y el aprendizaje no supervisado .

El aprendizaje por refuerzo se diferencia del aprendizaje supervisado en que no necesita que se presenten pares de entrada/salida etiquetados y en que no necesita que se corrijan explícitamente acciones subóptimas. En cambio, la atención se centra en encontrar un equilibrio entre la exploración (de territorio inexplorado) y la explotación (del conocimiento actual) con el objetivo de maximizar la recompensa a largo plazo, cuya retroalimentación podría ser incompleta o retrasada. ^[1]

El entorno suele expresarse en forma de proceso de decisión de Markov (MDP), porque muchos algoritmos de aprendizaje por refuerzo para este contexto utilizan técnicas de programación dinámica . ^[2] La principal diferencia entre los métodos clásicos de programación dinámica y los algoritmos de aprendizaje por refuerzo es que estos últimos no asumen el conocimiento de un modelo matemático exacto del proceso de decisión de Markov y se dirigen a grandes procesos de decisión de Markov donde los métodos exactos se vuelven inviables. ^[3]

Introducción

Debido a su generalidad, el aprendizaje por refuerzo se estudia en muchas disciplinas, como la teoría de juegos , la teoría del control , la investigación de operaciones , la teoría de la información , la optimización basada en simulación , los sistemas multiagente , la inteligencia de enjambre y la estadística . En la literatura de control e investigación de operaciones, el aprendizaje por refuerzo se denomina programación dinámica aproximada o programación neurodinámica. Los problemas de interés en el aprendizaje por refuerzo también se han estudiado en la teoría del control óptimo , que se ocupa principalmente de la existencia y caracterización de soluciones óptimas y algoritmos para su cálculo exacto, y menos del aprendizaje o la aproximación, particularmente en ausencia de un modelo matemático del medio ambiente.

El aprendizaje por refuerzo básico se modela como un proceso de decisión de Markov :

un conjunto de estados ambientales y agentes ; ${\mathcal {S}}$
un conjunto de acciones, , del agente; ${\mathcal {A}}$
$P_{a}(s,s')=\Pr(S_{t+1}=s'\mid S_{t}=s,A_{t}=a)$ , la probabilidad de transición (en el momento ) de un estado a otro bajo acción . $t$ $s$ $s'$ $a$
$R_{a}(s,s')$ , la recompensa inmediata después de la transición de a con acción . $s$ $s'$ $a$

El propósito del aprendizaje por refuerzo es que el agente aprenda una política óptima, o casi óptima, que maximice la "función de recompensa" u otra señal de refuerzo proporcionada por el usuario que se acumule a partir de las recompensas inmediatas. Esto es similar a procesos que parecen ocurrir en la psicología animal. Por ejemplo, los cerebros biológicos están programados para interpretar señales como el dolor y el hambre como refuerzos negativos, e interpretar el placer y la ingesta de alimentos como refuerzos positivos. En algunas circunstancias, los animales pueden aprender a adoptar comportamientos que optimicen estas recompensas. Esto sugiere que los animales son capaces de aprender por refuerzo. ^[4]^[5]

Un agente básico de aprendizaje por refuerzo, la IA, interactúa con su entorno en pasos de tiempo discretos. En cada momento $t$ , el agente recibe el estado actual y la recompensa . Luego elige una acción del conjunto de acciones disponibles, que posteriormente se envía al entorno. El entorno pasa a un nuevo estado y se determina la recompensa asociada con la transición . El objetivo de un agente de aprendizaje por refuerzo es aprender una política que maximice la recompensa acumulativa esperada. $S_{t}$ $R_{t}$ $A_{t}$ $S_{t+1}$ $R_{t+1}$ $(S_{t},A_{t},S_{t+1})$ $\pi :{\mathcal {S}}\times {\mathcal {A}}\rightarrow [0,1]$ $\pi (s,a)=\Pr(A_{t}=a\mid S_{t}=s)$

Formular el problema como un proceso de decisión de Markov supone que el agente observa directamente el estado ambiental actual; en este caso se dice que el problema tiene total observabilidad . Si el agente sólo tiene acceso a un subconjunto de estados, o si los estados observados están corrompidos por el ruido, se dice que el agente tiene observabilidad parcial y formalmente el problema debe formularse como un proceso de decisión de Markov parcialmente observable . En ambos casos, se puede restringir el conjunto de acciones disponibles para el agente. Por ejemplo, el estado del saldo de una cuenta podría restringirse para que sea positivo; si el valor actual del estado es 3 y la transición de estado intenta reducir el valor en 4, no se permitirá la transición.

Cuando se compara el desempeño del agente con el de un agente que actúa de manera óptima, la diferencia en el desempeño da lugar a la noción de arrepentimiento . Para actuar de manera casi óptima, el agente debe razonar sobre las consecuencias a largo plazo de sus acciones (es decir, maximizar los ingresos futuros), aunque la recompensa inmediata asociada con esto podría ser negativa.

Por lo tanto, el aprendizaje por refuerzo es particularmente adecuado para problemas que incluyen una compensación de recompensa a largo plazo versus a corto plazo. Se ha aplicado con éxito a diversos problemas, incluida la operación de almacenamiento de energía, ^[6] control de robots, ^[7] despacho de generadores fotovoltaicos, ^[8] backgammon , damas , ^[9] Go ( AlphaGo ) y sistemas de conducción autónoma. ^[10]

Dos elementos hacen que el aprendizaje por refuerzo sea poderoso: el uso de muestras para optimizar el rendimiento y el uso de la aproximación de funciones para lidiar con entornos grandes. Gracias a estos dos componentes clave, el aprendizaje por refuerzo se puede utilizar en entornos grandes en las siguientes situaciones:

Se conoce un modelo del entorno, pero no se dispone de una solución analítica ;
Sólo se proporciona un modelo de simulación del entorno (el tema de la optimización basada en simulación ); ^[11]
La única forma de recopilar información sobre el medio ambiente es interactuar con él.

Los dos primeros de estos problemas podrían considerarse problemas de planificación (dado que existe algún tipo de modelo disponible), mientras que el último podría considerarse un problema genuino de aprendizaje. Sin embargo, el aprendizaje por refuerzo convierte ambos problemas de planificación en problemas de aprendizaje automático .

Exploración

El equilibrio entre exploración y explotación se ha estudiado más a fondo a través del problema de los bandidos multiarmados y para los procesos de decisión de Markov en espacios de estados finitos en Burnetas y Katehakis (1997). ^[12]

El aprendizaje por refuerzo requiere mecanismos de exploración inteligentes; La selección aleatoria de acciones, sin referencia a una distribución de probabilidad estimada, muestra un desempeño deficiente. El caso de los (pequeños) procesos de decisión de Markov finitos se comprende relativamente bien. Sin embargo, debido a la falta de algoritmos que se adapten bien al número de estados (o que se adapten a problemas con espacios de estados infinitos), los métodos de exploración simples son los más prácticos.

Uno de esos métodos es -greedy, donde es un parámetro que controla la cantidad de exploración versus explotación. Con probabilidad , se elige la explotación y el agente elige la acción que cree que tiene el mejor efecto a largo plazo (los vínculos entre acciones se rompen uniformemente al azar). Alternativamente, con probabilidad , se elige la exploración y la acción se elige uniformemente al azar. Suele ser un parámetro fijo, pero se puede ajustar según un cronograma (haciendo que el agente explore cada vez menos) o de forma adaptativa según una heurística. ^[13] $\varepsilon$ $0<\varepsilon <1$ $1-\varepsilon$ $\varepsilon$ $\varepsilon$

Algoritmos para el aprendizaje de control.

Incluso si se ignora la cuestión de la exploración e incluso si el estado fuera observable (se asumirá de aquí en adelante), el problema sigue siendo utilizar la experiencia pasada para descubrir qué acciones conducen a mayores recompensas acumulativas.

Criterio de optimización

Política

La selección de acciones del agente se modela como un mapa llamado política :

\pi :{\mathcal {A}}\times {\mathcal {S}}\rightarrow [0,1]

\pi (a,s)=\Pr(A_{t}=a\mid S_{t}=s)

El mapa de políticas proporciona la probabilidad de tomar medidas cuando se esté en el estado . ^[14]^{: 61} También hay políticas deterministas. $a$ $s$

Función de valor de estado

La función de valor de estado se define como el rendimiento descontado esperado que comienza con el estado , es decir , y sigue sucesivamente la política . Por lo tanto, en términos generales, la función de valor estima "qué tan bueno" es estar en un estado determinado. ^[14]^{: 60} $V_{\pi }(s)$ $s$ $S_{0}=s$ $\pi$

V_{\pi }(s)=\operatorname {\mathbb {E} } [G\mid S_{0}=s]=\operatorname {\mathbb {E} } \left[\sum _{t=0}^{\infty }\gamma ^{t}R_{t+1}\mid S_{0}=s\right],

donde la variable aleatoria denota el rendimiento descontado y se define como la suma de recompensas descontadas futuras: $G$

G=\sum _{t=0}^{\infty }\gamma ^{t}R_{t+1}=R_{1}+\gamma R_{2}+\gamma ^{2}R_{3}+\dots ,

donde está la recompensa por la transición de un estado a otro , es la tasa de descuento . es menor que 1, por lo que las recompensas en el futuro lejano tienen menos peso que las recompensas en el futuro inmediato. $R_{t+1}$ $S_{t}$ $S_{t+1}$ $0\leq \gamma <1$ $\gamma$

El algoritmo debe encontrar una póliza con el máximo rendimiento descontado esperado. De la teoría de los procesos de decisión de Markov se sabe que, sin pérdida de generalidad, la búsqueda puede restringirse al conjunto de las llamadas políticas estacionarias . Una política es estacionaria si la distribución de acciones que devuelve depende únicamente del último estado visitado (del historial del agente de observación). La búsqueda puede restringirse aún más a políticas estacionarias deterministas . Una política estacionaria determinista selecciona de manera determinista acciones basadas en el estado actual. Dado que cualquier política de este tipo puede identificarse con un mapeo del conjunto de estados al conjunto de acciones, estas políticas pueden identificarse con dichos mapeos sin pérdida de generalidad.

Fuerza bruta

El enfoque de fuerza bruta implica dos pasos:

Para cada política posible, muestra devoluciones mientras se sigue.
Elija la póliza con el mayor rendimiento con descuento esperado

Un problema con esto es que la cantidad de políticas puede ser grande o incluso infinita. Otra es que la varianza de los rendimientos puede ser grande, lo que requiere muchas muestras para estimar con precisión el rendimiento descontado de cada póliza.

Estos problemas pueden mejorarse si asumimos alguna estructura y permitimos que las muestras generadas a partir de una política influyan en las estimaciones realizadas para otras. Los dos enfoques principales para lograr esto son la estimación de la función de valor y la búsqueda directa de políticas.

Función de valor

Los enfoques de función de valor intentan encontrar una política que maximice el rendimiento descontado manteniendo un conjunto de estimaciones de los rendimientos descontados esperados para alguna política (generalmente la "actual" [dentro de la política] o la óptima [fuera de la política]). $\operatorname {\mathbb {E} } [G]$

Estos métodos se basan en la teoría de los procesos de decisión de Markov, donde la optimización se define en un sentido más fuerte que el anterior: una política es óptima si logra el mejor rendimiento descontado esperado desde cualquier estado inicial (es decir, las distribuciones iniciales no desempeñan ningún papel en la decisión). esta definición). Una vez más, siempre se puede encontrar una política óptima entre las políticas estacionarias.

Para definir la optimización de manera formal, defina el valor estatal de una política mediante $\pi$

V^{\pi }(s)=\operatorname {\mathbb {E} } [G\mid s,\pi ],

donde representa el rendimiento descontado asociado con el seguimiento desde el estado inicial . Definiendo como el máximo valor de estado posible de , donde se permite cambiar, $G$ $\pi$ $s$ $V^{*}(s)$ $V^{\pi }(s)$ $\pi$

V^{*}(s)=\max _{\pi }V^{\pi }(s).

Una política que logra estos valores estatales óptimos en cada estado se llama óptima . Claramente, una política que es óptima en este sentido fuerte también lo es en el sentido de que maximiza el rendimiento descontado esperado , ya que , donde es un estado muestreado aleatoriamente de la distribución de estados iniciales (so ). $\rho ^{\pi }$ $\rho ^{\pi }=\operatorname {\mathbb {E} } [V^{\pi }(s)]$ $s$ $\mu$ $\mu (s)=\Pr(S_{0}=s)$

Aunque los valores de estado son suficientes para definir la optimización, es útil definir valores de acción. Dado un estado , una acción y una política , el valor de acción del par siguiente se define por $s$ $a$ $\pi$ $(s,a)$ $\pi$

Q^{\pi }(s,a)=\operatorname {\mathbb {E} } [G\mid s,a,\pi ],\,

donde ahora representa el rendimiento con descuento aleatorio asociado con la primera acción en el estado y la siguiente a partir de entonces. $G$ $a$ $s$ $\pi$

La teoría de los procesos de decisión de Markov establece que si es una política óptima, actuamos de manera óptima (tomamos la acción óptima) eligiendo la acción con el valor de acción más alto en cada estado . La función de valor de acción de dicha política óptima ( ) se denomina función de valor de acción óptima y comúnmente se denota por . En resumen, el conocimiento de la función óptima de acción-valor es suficiente por sí solo para saber cómo actuar de manera óptima. $\pi ^{*}$ $Q^{\pi ^{*}}(s,\cdot )$ $s$ $Q^{\pi ^{*}}$ $Q^{*}$

Suponiendo un conocimiento completo del proceso de decisión de Markov, los dos enfoques básicos para calcular la función de valor de acción óptima son la iteración de valores y la iteración de políticas . Ambos algoritmos calculan una secuencia de funciones ( ) que convergen a . Calcular estas funciones implica calcular las expectativas en todo el espacio de estados, lo cual no es práctico para todos los procesos de decisión de Markov excepto para los más pequeños (finitos). En los métodos de aprendizaje por refuerzo, las expectativas se aproximan promediando muestras y utilizando técnicas de aproximación de funciones para hacer frente a la necesidad de representar funciones de valor en grandes espacios de estado-acción. $Q_{k}$ $k=0,1,2,\ldots$ $Q^{*}$

Métodos de Montecarlo

Los métodos de Monte Carlo se pueden utilizar en un algoritmo que imite la iteración de políticas. La iteración de políticas consta de dos pasos: evaluación de políticas y mejora de políticas .

Monte Carlo se utiliza en el paso de evaluación de políticas. En este paso, dada una política determinista estacionaria , el objetivo es calcular los valores de la función (o una buena aproximación a ellos) para todos los pares estado-acción . Supongamos (para simplificar) que el proceso de decisión de Markov es finito, que hay suficiente memoria disponible para acomodar los valores de acción y que el problema es episódico y que después de cada episodio comienza uno nuevo desde algún estado inicial aleatorio. Luego, la estimación del valor de un determinado par estado-acción se puede calcular promediando los rendimientos muestreados que se originaron a lo largo del tiempo. Con tiempo suficiente, este procedimiento puede construir una estimación precisa de la función de valor de acción . Esto finaliza la descripción del paso de evaluación de políticas. $\pi$ $Q^{\pi }(s,a)$ $(s,a)$ $(s,a)$ $(s,a)$ $Q$ $Q^{\pi }$

En el paso de mejora de la política, la siguiente política se obtiene calculando una política codiciosa con respecto a : Dado un estado , esta nueva política devuelve una acción que maximiza . En la práctica, la evaluación perezosa puede diferir el cálculo de las acciones maximizadoras hasta el momento en que sean necesarias. $Q$ $s$ $Q(s,\cdot )$

Los problemas con este procedimiento incluyen:

El procedimiento puede dedicar demasiado tiempo a evaluar una política subóptima.
Utiliza muestras de manera ineficiente porque una trayectoria larga mejora la estimación solo del par estado-acción que inició la trayectoria.
Cuando los rendimientos a lo largo de las trayectorias tienen una varianza alta , la convergencia es lenta.
Funciona sólo en problemas episódicos .
Funciona únicamente en procesos de decisión de Markov pequeños y finitos.

Métodos de diferencia temporal

El primer problema se corrige permitiendo que el procedimiento cambie la política (en algunos o todos los estados) antes de que los valores se estabilicen. Esto también puede ser problemático ya que podría impedir la convergencia. La mayoría de los algoritmos actuales hacen esto, dando lugar a la clase de algoritmos de iteración de políticas generalizadas . Muchos métodos de crítica de actores pertenecen a esta categoría.

El segundo problema puede corregirse permitiendo que las trayectorias contribuyan a cualquier par estado-acción en ellas. Esto también puede ayudar hasta cierto punto con el tercer problema, aunque una mejor solución cuando los rendimientos tienen una alta varianza son los métodos de diferencia temporal (TD) de Sutton que se basan en la ecuación recursiva de Bellman . ^[15]^[16] El cálculo en los métodos TD puede ser incremental (cuando después de cada transición se cambia la memoria y la transición se desecha), o por lotes (cuando las transiciones se agrupan y las estimaciones se calculan una vez en función del lote) . Los métodos por lotes, como el método de diferencia temporal de mínimos cuadrados, ^[17] pueden utilizar mejor la información de las muestras, mientras que los métodos incrementales son la única opción cuando los métodos por lotes no son factibles debido a su alta complejidad computacional o de memoria. Algunos métodos intentan combinar los dos enfoques. Los métodos basados en diferencias temporales también superan el cuarto problema.

Otro problema específico de TD proviene de su dependencia de la ecuación recursiva de Bellman. La mayoría de los métodos TD tienen un llamado parámetro que puede interpolar continuamente entre los métodos de Monte Carlo que no se basan en las ecuaciones de Bellman y los métodos TD básicos que se basan completamente en las ecuaciones de Bellman. Esto puede resultar eficaz para paliar este problema. $\lambda$ $(0\leq \lambda \leq 1)$

Métodos de aproximación de funciones.

Para abordar el quinto problema, se utilizan métodos de aproximación de funciones . La aproximación de funciones lineales comienza con un mapeo que asigna un vector de dimensión finita a cada par estado-acción. Luego, los valores de acción de un par estado-acción se obtienen combinando linealmente los componentes de con algunos pesos : $\phi$ $(s,a)$ $\phi (s,a)$ $\theta$

Q(s,a)=\sum _{i=1}^{d}\theta _{i}\phi _{i}(s,a).

Luego, los algoritmos ajustan los pesos, en lugar de ajustar los valores asociados con los pares individuales de estado-acción. Se han explorado métodos basados en ideas de estadísticas no paramétricas (que se puede ver que construyen sus propias características).

La iteración de valores también se puede utilizar como punto de partida, dando lugar al algoritmo Q-learning y sus múltiples variantes. ^[18] Incluyendo métodos de aprendizaje profundo de Q cuando se utiliza una red neuronal para representar Q, con varias aplicaciones en problemas de búsqueda estocástica. ^[19]

El problema con el uso de valores de acción es que pueden necesitar estimaciones muy precisas de los valores de acción en competencia que pueden ser difíciles de obtener cuando los rendimientos son ruidosos, aunque este problema se mitiga hasta cierto punto mediante métodos de diferencias temporales. El uso del llamado método de aproximación de funciones compatibles compromete la generalidad y la eficiencia.

Búsqueda directa de políticas

Un método alternativo es buscar directamente en (algún subconjunto de) el espacio de políticas, en cuyo caso el problema se convierte en un caso de optimización estocástica . Los dos enfoques disponibles son los métodos basados en gradientes y los métodos sin gradientes.

Los métodos basados en gradiente ( métodos de gradiente de políticas ) comienzan con un mapeo desde un espacio (de parámetros) de dimensión finita al espacio de políticas: dado el vector de parámetros , denotemos la política asociada a . Al definir la función de rendimiento, en condiciones suaves esta función será diferenciable en función del vector de parámetros . Si se conociera el gradiente de , se podría utilizar el ascenso de gradiente . Dado que no se dispone de una expresión analítica para el gradiente, sólo está disponible una estimación ruidosa. Esta estimación se puede construir de muchas maneras, dando lugar a algoritmos como el método REINFORCE de Williams ^[20] (conocido como método de razón de verosimilitud en la literatura de optimización basada en simulación ). ^[21] $\theta$ $\pi _{\theta }$ $\theta$ $\rho (\theta )=\rho ^{\pi _{\theta }}$ $\theta$ $\rho$

Una gran clase de métodos evita depender de la información del gradiente. Estos incluyen recocido simulado , búsqueda de entropía cruzada o métodos de computación evolutiva . Muchos métodos sin gradiente pueden lograr (en teoría y en el límite) un óptimo global.

Los métodos de búsqueda de políticas pueden converger lentamente ante datos poco fiables. Por ejemplo, esto sucede en problemas episódicos cuando las trayectorias son largas y la varianza de los rendimientos es grande. En este caso, podrían ser útiles los métodos basados en funciones de valor que se basan en diferencias temporales. En los últimos años, se han propuesto métodos actor-crítico que han funcionado bien en diversos problemas. ^[22]

Se han utilizado métodos de búsqueda de políticas en el contexto de la robótica . ^[23] Muchos métodos de búsqueda de políticas pueden quedarse atascados en óptimos locales (ya que se basan en la búsqueda local ).

Algoritmos basados en modelos

Finalmente, todos los métodos anteriores se pueden combinar con algoritmos que primero aprenden un modelo del proceso de decisión de Markov , la probabilidad de cada estado siguiente dada una acción tomada a partir de un estado existente. Por ejemplo, el algoritmo Dyna ^[24] aprende un modelo a partir de la experiencia y lo utiliza para proporcionar más transiciones modeladas para una función de valor, además de las transiciones reales. En ocasiones, estos métodos pueden ampliarse al uso de modelos no paramétricos, como cuando las transiciones simplemente se almacenan y se "reproducen" ^[25] en el algoritmo de aprendizaje.

Los métodos basados en modelos pueden ser más intensivos desde el punto de vista computacional que los enfoques sin modelos, y su utilidad puede verse limitada por la medida en que se pueda aprender el proceso de decisión de Markov. ^[26]

Hay otras formas de utilizar modelos además de actualizar una función de valor. ^[27] Por ejemplo, en el control predictivo de modelos, el modelo se utiliza para actualizar el comportamiento directamente.

Teoría

Se comprenden bien tanto el comportamiento asintótico como el de muestras finitas de la mayoría de los algoritmos. Se conocen algoritmos con un rendimiento en línea demostrablemente bueno (que abordan el problema de la exploración).

Burnetas y Katehakis (1997) ofrecen una exploración eficiente de los procesos de decisión de Markov. ^[12] También han aparecido límites de rendimiento de tiempo finito para muchos algoritmos, pero se espera que estos límites sean bastante flexibles y, por lo tanto, se necesita más trabajo para comprender mejor las ventajas y limitaciones relativas.

Para los algoritmos incrementales, se han resuelto los problemas de convergencia asintótica ^{[ se necesita aclaración ]} . Los algoritmos basados en diferencias temporales convergen bajo un conjunto de condiciones más amplio de lo que era posible anteriormente (por ejemplo, cuando se usan con una aproximación de funciones arbitraria y suave).

Investigación

Los temas de investigación incluyen:

arquitectura actor-crítica
arquitectura actor-crítico-escenografía ^[3]
Métodos adaptativos que funcionan con menos (o ningún) parámetro bajo una gran cantidad de condiciones.
detección de errores en proyectos de software ^[28]
aprendizaje continuo
combinaciones con marcos basados en lógica ^[29]
exploración en grandes procesos de decisión de Markov
retroalimentación humana ^[30]
interacción entre el aprendizaje implícito y explícito en la adquisición de habilidades
Motivación intrínseca que diferencia las conductas de búsqueda de información y de tipo curiosidad de las conductas dirigidas a objetivos que dependen de una tarea. Evaluaciones empíricas a gran escala.
espacios de acción grandes (o continuos)
aprendizaje por refuerzo modular y jerárquico ^[31]
El aprendizaje por refuerzo distribuido/multiagente es un tema de interés. Las aplicaciones se están expandiendo. ^[32]
control centrado en el ocupante
optimización de los recursos informáticos ^[33]^[34]^[35]
información parcial (p. ej., utilizando representación de estado predictivo )
función de recompensa basada en maximizar información novedosa ^[36]^[37]^[38]
planificación basada en muestras (por ejemplo, basada en la búsqueda de árboles de Monte Carlo ).
negociación de valores ^[39]
transferir aprendizaje ^[40]
Aprendizaje TD que modela el aprendizaje basado en dopamina en el cerebro. Las proyecciones dopaminérgicas desde la sustancia negra a la función de los ganglios basales son el error de predicción.
métodos de búsqueda de políticas y funciones de valor

Comparación de algoritmos clave

Aprendizaje asociativo por refuerzo

Las tareas de aprendizaje por refuerzo asociativo combinan facetas de tareas de autómatas de aprendizaje estocástico y tareas de clasificación de patrones de aprendizaje supervisados. En las tareas de aprendizaje por refuerzo asociativo, el sistema de aprendizaje interactúa en un circuito cerrado con su entorno. ^[44]

Aprendizaje por refuerzo profundo

Este enfoque amplía el aprendizaje por refuerzo mediante el uso de una red neuronal profunda y sin diseñar explícitamente el espacio de estados. ^[45] El trabajo sobre el aprendizaje de juegos ATARI de Google DeepMind aumentó la atención al aprendizaje por refuerzo profundo o aprendizaje por refuerzo de un extremo a otro . ^[46]

Aprendizaje por refuerzo profundo adversario

El aprendizaje por refuerzo profundo adversario es un área activa de investigación en el aprendizaje por refuerzo que se centra en las vulnerabilidades de las políticas aprendidas. En esta área de investigación, algunos estudios mostraron inicialmente que las políticas de aprendizaje por refuerzo son susceptibles a manipulaciones adversas imperceptibles. ^[47]^[48]^[49] Si bien se han propuesto algunos métodos para superar estas susceptibilidades, en los estudios más recientes se ha demostrado que estas soluciones propuestas están lejos de proporcionar una representación precisa de las vulnerabilidades actuales de las políticas de aprendizaje por refuerzo profundo. ^[50]

Aprendizaje por refuerzo difuso

Al introducir la inferencia difusa en el aprendizaje por refuerzo, ^[51] se hace posible aproximar la función de valor de estado-acción con reglas difusas en un espacio continuo. La forma SI - ENTONCES de reglas difusas hace que este enfoque sea adecuado para expresar los resultados en una forma cercana al lenguaje natural. La extensión de FRL con interpolación de reglas difusas ^[52] permite el uso de bases de reglas difusas dispersas de tamaño reducido para enfatizar las reglas cardinales (los valores de estado-acción más importantes).

Aprendizaje por refuerzo inverso

En el aprendizaje por refuerzo inverso (IRL), no se proporciona ninguna función de recompensa. En cambio, la función de recompensa se infiere dado un comportamiento observado por parte de un experto. La idea es imitar el comportamiento observado, que a menudo es óptimo o cercano al óptimo. ^[53] Un paradigma IRL popular se denomina aprendizaje por refuerzo inverso de máxima entropía (MaxEnt IRL). ^[54] MaxEnt IRL estima los parámetros de un modelo lineal de la función de recompensa maximizando la entropía de la distribución de probabilidad de las trayectorias observadas sujetas a restricciones relacionadas con la coincidencia de recuentos de características esperadas. Recientemente se ha demostrado que MaxEnt IRL es un caso particular de un marco más general denominado aprendizaje por refuerzo inverso de utilidad aleatoria (RU-IRL). ^[55] RU-IRL se basa en la teoría de la utilidad aleatoria y los procesos de decisión de Markov. Mientras que los enfoques IRL anteriores suponen que el comportamiento aparentemente aleatorio de un agente observado se debe a que sigue una política aleatoria, RU-IRL supone que el agente observado sigue una política determinista, pero la aleatoriedad en el comportamiento observado se debe al hecho de que un observador sólo tiene Acceso parcial a las características que el agente observado utiliza en la toma de decisiones. La función de utilidad se modela como una variable aleatoria para dar cuenta de la ignorancia del observador con respecto a las características que el agente observado realmente considera en su función de utilidad.

Aprendizaje por refuerzo seguro

El aprendizaje por refuerzo seguro (SRL) se puede definir como el proceso de aprendizaje de políticas que maximizan la expectativa de retorno en problemas en los que es importante garantizar un rendimiento razonable del sistema y/o respetar las restricciones de seguridad durante los procesos de aprendizaje y/o implementación. ^[56]

Ver también

Aprendizaje de diferencias temporales
Q-aprendizaje
Estado-acción-recompensa-estado-acción (SARSA)
Aprendizaje reforzado a partir de la retroalimentación humana
Control óptimo
Aprendizaje basado en errores
Aprendizaje por refuerzo multiagente
Aprendizaje
Sin modelos (aprendizaje por refuerzo)
Aprendizaje por refuerzo basado en modelos
Aprendizaje por refuerzo directo ^[3] ^[57]
Aprendizaje por refuerzo indirecto ^[3] ^[57]
aprendizaje activo (aprendizaje automático)

Referencias

^ Kaelbling, Leslie P .; Littman, Michael L .; Moore, Andrew W. (1996). "Aprendizaje por refuerzo: una encuesta". Revista de investigación en inteligencia artificial . 4 : 237–285. arXiv : cs/9605103 . doi :10.1613/jair.301. S2CID 1708582. Archivado desde el original el 20 de noviembre de 2001.
^ van Otterlo, M.; Wiering, M. (2012). "Aprendizaje por refuerzo y procesos de decisión de Markov". Aprendizaje reforzado . Adaptación, Aprendizaje y Optimización. vol. 12. págs. 3–42. doi :10.1007/978-3-642-27645-3_1. ISBN 978-3-642-27644-6.
^ abcd Li, Shengbo (2023). Aprendizaje por refuerzo para decisiones secuenciales y control óptimo (Primera ed.). Springer Verlag, Singapur. págs. 1–460. doi :10.1007/978-981-19-7784-8. ISBN 978-9-811-97783-1. S2CID 257928563.{{cite book}}: CS1 maint: location missing publisher (link)
^ Russell, Stuart J.; Norvig, Peter (2010). Inteligencia artificial: un enfoque moderno (Tercera ed.). Río Upper Saddle, Nueva Jersey. págs.830, 831. ISBN 978-0-13-604259-4.{{cite book}}: CS1 maint: location missing publisher (link)
^ Lee, Daeyeol; Seo, Hyojung; Jung, Min Whan (21 de julio de 2012). "Base neuronal del aprendizaje por refuerzo y la toma de decisiones". Revista Anual de Neurociencia . 35 (1): 287–308. doi :10.1146/annurev-neuro-062111-150512. PMC 3490621 . PMID 22462543.
^ Salazar Duque, Édgar Mauricio; Giraldo, Juan S.; Vergara, Pedro P.; Nguyen, Phuong; Van der Molen, Anne; Slootweg, Han (2022). "Operación comunitaria de almacenamiento de energía mediante aprendizaje reforzado con trazas de elegibilidad". Investigación de sistemas de energía eléctrica . 212 . doi : 10.1016/j.epsr.2022.108515 . S2CID 250635151.
^ Xie, Zhaoming; Hung Yu Ling; Nam Hee Kim; Michiel van de Panne (2020). "ALLSTEPS: Aprendizaje de habilidades paso a paso impulsado por el plan de estudios". arXiv : 2005.04323 [cs.GR].
^ Vergara, Pedro P.; Salazar, Mauricio; Giraldo, Juan S.; Palensky, Peter (2022). "Despacho óptimo de inversores fotovoltaicos en sistemas de distribución desequilibrados mediante Aprendizaje por Refuerzo". Revista internacional de energía eléctrica y sistemas de energía . 136 . doi : 10.1016/j.ijepes.2021.107628 . S2CID 244099841.
^ Sutton y Barto 2018, Capítulo 11.
^ Ren, Yangang; Jiang, Jianhua; Zhan, Guojian; Li, Shengbo Eben; Chen, Chen; Li, Keqiang; Duan, Jingliang (2022). "Inteligencia autoaprendizaje para la decisión y control integrado de vehículos automatizados en intersecciones señalizadas". Transacciones IEEE sobre sistemas de transporte inteligentes . 23 (12): 24145–24156. arXiv : 2110.12359 . doi :10.1109/TITS.2022.3196167.
^ Gosavi, Abhijit (2003). Optimización basada en simulación: técnicas de optimización paramétrica y refuerzo. Serie de interfaces de investigación de operaciones/ciencias informáticas. Saltador. ISBN 978-1-4020-7454-7.
^ ab Burnetas, Apostolos N.; Katehakis, Michael N. (1997), "Políticas adaptativas óptimas para los procesos de decisión de Markov", Matemáticas de la investigación de operaciones , 22 (1): 222–255, doi :10.1287/moor.22.1.222, JSTOR 3690147
^ Tokic, Michel; Palm, Günther (2011), "Exploración basada en la diferencia de valores: control adaptativo entre Epsilon-Greedy y Softmax" (PDF) , KI 2011: Avances en inteligencia artificial , Apuntes de conferencias en informática, vol. 7006, Springer, págs. 335–346, ISBN 978-3-642-24455-1
^ ab "Aprendizaje por refuerzo: introducción" (PDF) . Archivado desde el original (PDF) el 12 de julio de 2017 . Consultado el 23 de julio de 2017 .
^ Sutton, Richard S. (1984). Asignación de crédito temporal en aprendizaje por refuerzo (tesis doctoral). Universidad de Massachusetts, Amherst, MA. Archivado desde el original el 30 de marzo de 2017 . Consultado el 29 de marzo de 2017 .
^ Sutton y Barto 2018, §6. Aprendizaje de diferencia temporal.
^ Bradtke, Steven J.; Barto, Andrés G. (1996). "Aprender a predecir por el método de las diferencias temporales". Aprendizaje automático . 22 : 33–57. CiteSeerX 10.1.1.143.857 . doi :10.1023/A:1018056104778. S2CID 20327856.
^ Watkins, Christopher JCH (1989). Aprender de las recompensas retrasadas (PDF) (tesis doctoral). King's College, Cambridge, Reino Unido.
^ Matzliach, Baruch; Ben-Gal, Irad; Kagan, Evgeny (2022). "Detección de objetivos estáticos y móviles mediante un agente autónomo con profundas capacidades de Q-Learning". Entropía . 24 (8): 1168. Bibcode : 2022Entrp..24.1168M. doi : 10.3390/e24081168 . PMC 9407070 . PMID 36010832.
^ Williams, Ronald J. (1987). "Una clase de algoritmos de estimación de gradientes para el aprendizaje por refuerzo en redes neuronales". Actas de la Primera Conferencia Internacional del IEEE sobre Redes Neuronales . CiteSeerX 10.1.1.129.8871 .
^ Peters, enero ; Vijayakumar, Sethu ; Schaal, Stefan (2003). Aprendizaje por refuerzo para robótica humanoide (PDF) . Conferencia internacional IEEE-RAS sobre robots humanoides. Archivado desde el original (PDF) el 12 de mayo de 2013.
^ Juliani, Arthur (17 de diciembre de 2016). "Aprendizaje por refuerzo simple con Tensorflow, parte 8: agentes actor-críticos asincrónicos (A3C)". Medio . Consultado el 22 de febrero de 2018 .
^ Deisenroth, Marc Peter; Neumann, Gerhard ; Peters, enero (2013). Una encuesta sobre búsqueda de políticas para la robótica (PDF) . Fundamentos y Tendencias en Robótica. vol. 2. AHORA Editores. págs. 1–142. doi :10.1561/2300000021. hdl : 10044/1/12051.
^ Sutton, Richard (1990). "Arquitecturas Integradas para Aprender, Planificar y Reaccionar basadas en Programación Dinámica". Aprendizaje automático: Actas del Séptimo Taller Internacional .
^ Lin, Long-Ji (1992). "Agentes reactivos de mejora personal basados en el aprendizaje, la planificación y la enseñanza por refuerzo" (PDF) . Aprendizaje automático volumen 8 . doi :10.1007/BF00992699.
^ Zou, Lan (1 de enero de 2023), Zou, Lan (ed.), "Capítulo 7: Metaaprendizaje por refuerzo", Metaaprendizaje , Academic Press, págs. 267–297, doi :10.1016/b978-0 -323-89931-4.00011-0, ISBN 978-0-323-89931-4, consultado el 8 de noviembre de 2023
^ van Hasselt, Hado; Hessel, Mateo; Aslanides, John (2019). "¿Cuándo utilizar modelos paramétricos en el aprendizaje por refuerzo?" (PDF) . Avances en los sistemas de procesamiento de información neuronal 32 .
^ "Sobre el uso del aprendizaje por refuerzo para probar la mecánica de los juegos: ACM - Computadoras en el entretenimiento". cie.acm.org . Consultado el 27 de noviembre de 2018 .
^ Riveret, Regis; Gao, Yang (2019). "Un marco de argumentación probabilística para agentes de aprendizaje por refuerzo". Agentes Autónomos y Sistemas Multiagente . 33 (1–2): 216–274. doi :10.1007/s10458-019-09404-2. S2CID 71147890.
^ Yamagata, Taku; McConville, Ryan; Santos-Rodríguez, Raúl (2021-11-16). "Aprendizaje por refuerzo con comentarios de varios seres humanos con diversas habilidades". arXiv : 2111.08596 [cs.LG].
^ Kulkarni, Tejas D.; Narasimhan, Karthik R.; Saeedi, Ardavan; Tenenbaum, Joshua B. (2016). "Aprendizaje jerárquico por refuerzo profundo: integración de la abstracción temporal y la motivación intrínseca". Actas de la 30ª Conferencia Internacional sobre Sistemas de Procesamiento de Información Neural . NIPS'16. Estados Unidos: Curran Associates Inc.: 3682–3690. arXiv : 1604.06057 . Código Bib : 2016arXiv160406057K. ISBN 978-1-5108-3881-9.
^ "Aprendizaje por refuerzo / Éxitos del aprendizaje por refuerzo". umihrl.pbworks.com . Consultado el 6 de agosto de 2017 .
^ Dey, Somdip; Singh, Amit Kumar; Wang, Xiaohang; McDonald-Maier, Klaus (marzo de 2020). "Aprendizaje reforzado consciente de la interacción del usuario para la energía y la eficiencia térmica de MPSoC móviles CPU-GPU". Conferencia y exposición de diseño, automatización y pruebas en Europa 2020 (FECHA) (PDF) . págs. 1728-1733. doi : 10.23919/FECHA48585.2020.9116294. ISBN 978-3-9819263-4-7. S2CID 219858480.
^ Preguntado, Tony. "Los teléfonos inteligentes se vuelven más inteligentes con la innovación de Essex". Semanario de negocios . Consultado el 17 de junio de 2021 .
^ Williams, Rhiannon (21 de julio de 2020). "Los futuros teléfonos inteligentes prolongarán la duración de su batería monitoreando el comportamiento de los propietarios'". i . Consultado el 17 de junio de 2021 .
^ Kaplan, F.; Oudeyer, P. (2004). "Maximizar el progreso del aprendizaje: un sistema de recompensa interno para el desarrollo". En Iida, F.; Pfeifer, R.; Aceros, L.; Kuniyoshi, Y. (eds.). Inteligencia artificial incorporada . Apuntes de conferencias sobre informática. vol. 3139. Berlín; Heidelberg: Springer. págs. 259-270. doi :10.1007/978-3-540-27833-7_19. ISBN 978-3-540-22484-6. S2CID 9781221.
^ Klyubin, A.; Polani, D.; Nehaniv, C. (2008). "Mantenga abiertas sus opciones: un principio de conducción basado en información para sistemas sensoriomotores". MÁS UNO . 3 (12): e4018. Código Bib : 2008PLoSO...3.4018K. doi : 10.1371/journal.pone.0004018 . PMC 2607028 . PMID 19107219.
^ Barto, AG (2013). "Motivación intrínseca y aprendizaje por refuerzo". Aprendizaje intrínsecamente motivado en sistemas naturales y artificiales (PDF) . Berlina; Heidelberg: Springer. págs. 17–47.
^ Dabérius, Kevin; Granat, Elvin; Karlsson, Patrik (2020). "Ejecución profunda: aprendizaje de refuerzo basado en políticas y valores para negociar y superar los puntos de referencia del mercado". La revista de aprendizaje automático en finanzas . 1 . SSRN 3374766.
^ George Karimpanal, Thommen; Bouffanais, Roland (2019). "Mapas autoorganizados para el almacenamiento y transferencia de conocimientos en el aprendizaje por refuerzo". Comportamiento adaptativo . 27 (2): 111–126. arXiv : 1811.08318 . doi :10.1177/1059712318818568. ISSN 1059-7123. S2CID 53774629.
^ J Duan; Y Guan; S Li (2021). "Actor-crítico distributivo suave: aprendizaje por refuerzo fuera de políticas para abordar errores de estimación de valor". Transacciones IEEE sobre redes neuronales y sistemas de aprendizaje . 33 (11): 6584–6598. arXiv : 2001.02811 . doi :10.1109/TNNLS.2021.3082568. PMID 34101599. S2CID 211259373.
^ Y Ren; J Duan; S Li (2020). "Mejora de la generalización del aprendizaje por refuerzo con actor-crítico suave distributivo Minimax". 2020 IEEE 23a Conferencia Internacional sobre Sistemas de Transporte Inteligentes (ITSC) . págs. 1–6. arXiv : 2002.05502 . doi :10.1109/ITSC45102.2020.9294300. ISBN 978-1-7281-4149-7. S2CID 211096594.
^ Duan, J; Wang, W; Xiao, L (26 de octubre de 2023). "DSAC-T: Actor-crítico distributivo suave con tres refinamientos". arXiv : 2310.05858 [cs.LG].
^ Soucek, Branko (6 de mayo de 1992). Programación dinámica, genética y caótica: la serie de tecnología informática de sexta generación . John Wiley & Sons, Inc. pág. 38.ISBN 0-471-55717-X.
^ Francois-Lavet, Vicente; et al. (2018). "Una introducción al aprendizaje por refuerzo profundo". Fundamentos y tendencias en aprendizaje automático . 11 (3–4): 219–354. arXiv : 1811.12560 . Código Bib : 2018arXiv181112560F. doi :10.1561/2200000071. S2CID 54434537.
^ Mnih, Volodymyr; et al. (2015). "Control a nivel humano mediante aprendizaje por refuerzo profundo". Naturaleza . 518 (7540): 529–533. Código Bib :2015Natur.518..529M. doi : 10.1038/naturaleza14236. PMID 25719670. S2CID 205242740.
^ Buen compañero, Ian; Shlens, Jonathan; Szegedy, cristiano (2015). "Explicar y aprovechar ejemplos contradictorios". Conferencia Internacional sobre Representaciones del Aprendizaje . arXiv : 1412.6572 .
^ Behzadan, Vahid; Munir, Arslan (2017). "Vulnerabilidad del aprendizaje por refuerzo profundo a los ataques de inducción de políticas". Aprendizaje automático y minería de datos en reconocimiento de patrones . Apuntes de conferencias sobre informática. vol. 10358. págs. 262–275. arXiv : 1701.04143 . doi :10.1007/978-3-319-62416-7_19. ISBN 978-3-319-62415-0. S2CID 1562290.
^ Pieter, Huang, Sandy Papernot, Nicolas Goodfellow, Ian Duan, Yan Abbeel (7 de febrero de 2017). Ataques adversarios a las políticas de redes neuronales. OCLC 1106256905.{{cite book}}: CS1 maint: multiple names: authors list (link)
^ Korkmaz, Ezgi (2022). "Las políticas de aprendizaje por refuerzo profundo aprenden características adversas compartidas entre los MDP". Trigésima Sexta Conferencia AAAI sobre Inteligencia Artificial (AAAI-22) . 36 (7): 7229–7238. arXiv : 2112.09025 . doi : 10.1609/aaai.v36i7.20684 . S2CID 245219157.
^ Berenji, recursos humanos (1994). "Fuzzy Q-learning: un nuevo enfoque para la programación dinámica difusa". Actas de la tercera conferencia internacional de sistemas difusos del IEEE de 1994 . Orlando, Florida, Estados Unidos: IEEE. págs. 486–491. doi :10.1109/FUZZY.1994.343737. ISBN 0-7803-1896-X. S2CID 56694947.
^ Vincze, David (2017). "Interpolación de reglas difusas y aprendizaje por refuerzo" (PDF) . 2017 IEEE 15º Simposio Internacional sobre Informática e Inteligencia de Máquinas Aplicadas (SAMI) . IEEE. págs. 173-178. doi :10.1109/SAMI.2017.7880298. ISBN 978-1-5090-5655-2. S2CID 17590120.
^ Ng, SÍ; Russell, SJ (2000). "Algoritmos para el aprendizaje por refuerzo inverso" (PDF) . Actas ICML '00 Actas de la Decimoséptima Conferencia Internacional sobre Aprendizaje Automático . págs. 663–670. ISBN 1-55860-707-2.
^ Ziebart, Brian D.; Maas, Andrés; Bagnell, J. Andrés; Dey, Anind K. (13 de julio de 2008). "Aprendizaje por refuerzo inverso de máxima entropía". Actas de la 23ª conferencia nacional sobre inteligencia artificial - Volumen 3 . AAAI'08. Chicago, Illinois: Prensa AAAI: 1433–1438. ISBN 978-1-57735-368-3. S2CID 336219.
^ Pitombeira-Neto, Anselmo R.; Santos, Helano P.; Coelho da Silva, Ticiana L.; de Macedo, José Antonio F. (marzo 2024). "Modelado de trayectoria mediante aprendizaje por refuerzo inverso de utilidad aleatoria". Ciencias de la Información . 660 : 120128. doi : 10.1016/j.ins.2024.120128. ISSN 0020-0255. S2CID 235187141.
^ García, Javier; Fernández, Fernando (1 de enero de 2015). "Una encuesta completa sobre el aprendizaje por refuerzo seguro" (PDF) . La revista de investigación sobre aprendizaje automático . 16 (1): 1437–1480.
^ ab Guan, Yang; Li, Shengbo; Duan, Jiangliang (2021). "Aprendizaje por refuerzo directo e indirecto". Revista Internacional de Sistemas Inteligentes . 36 (8): 4439–4467. arXiv : 1912.10600 . doi :10.1002/int.22466.

Fuentes

Sutton, Richard S .; Barto, Andrés G. (2018) [1998]. Aprendizaje por refuerzo: una introducción (2ª ed.). Prensa del MIT. ISBN 978-0-262-03924-6.
Li, Shengbo Eben (2023). Aprendizaje por refuerzo para decisiones secuenciales y control óptimo (1ª ed.). Springer Verlag, Singapur. doi :10.1007/978-981-19-7784-8. ISBN 978-9-811-97783-1.
Bertsekas, Dimitri P. (2023) [2019]. APRENDIZAJE POR REFUERZO Y CONTROL ÓPTIMO (1ª ed.). Atenas científica. ISBN 978-1-886-52939-7.

Otras lecturas

Annaswamy, Anuradha M. (3 de mayo de 2023). "Control adaptativo e intersecciones con aprendizaje por refuerzo". Revisión Anual de Control, Robótica y Sistemas Autónomos . 6 (1): 65–93. doi : 10.1146/annurev-control-062922-090153 . ISSN 2573-5144. S2CID 255702873.
Auer, Pedro ; Jaksch, Thomas; Ortner, Ronald (2010). "Límites de arrepentimiento casi óptimos para el aprendizaje por refuerzo". Revista de investigación sobre aprendizaje automático . 11 : 1563-1600.
Busoniu, Luciano; Babuska, Robert; De Schutter, Bart ; Ernst, Damián (2010). Aprendizaje por refuerzo y programación dinámica mediante aproximadores de funciones. Prensa CRC de Taylor y Francis. ISBN 978-1-4398-2108-4.
François-Lavet, Vicente; Henderson, Pedro; Islam, Riashat; Bellemare, Marc G.; Pineau, Joelle (2018). "Una introducción al aprendizaje por refuerzo profundo". Fundamentos y tendencias en aprendizaje automático . 11 (3–4): 219–354. arXiv : 1811.12560 . Código Bib : 2018arXiv181112560F. doi :10.1561/2200000071. S2CID 54434537.
Powell, Warren (2011). Programación dinámica aproximada: resolviendo las maldiciones de la dimensionalidad. Wiley-Interscience. Archivado desde el original el 31 de julio de 2016 . Consultado el 8 de septiembre de 2010 .
Sutton, Richard S. (1988). "Aprender a predecir por el método de las diferencias temporales". Aprendizaje automático . 3 : 9–44. doi : 10.1007/BF00115009 .
Szita, István; Szepesvari, Csaba (2010). "Aprendizaje por refuerzo basado en modelos con límites de complejidad de exploración casi estrictos" (PDF) . ICML 2010 . Omnipress. págs. 1031-1038. Archivado desde el original (PDF) el 14 de julio de 2010.

enlaces externos

Repositorio de aprendizaje por refuerzo
Aprendizaje por refuerzo e inteligencia artificial (RLAI, laboratorio de Rich Sutton en la Universidad de Alberta )
Laboratorio de Aprendizaje Autónomo (ALL, laboratorio de Andrew Barto en la Universidad de Massachusetts Amherst )
Experimentos de aprendizaje por refuerzo del mundo real Archivado el 8 de octubre de 2018 en Wayback Machine en la Universidad Tecnológica de Delft.
Conferencia Andrew Ng de la Universidad de Stanford sobre aprendizaje por refuerzo
Disección del aprendizaje por refuerzo Serie de publicaciones de blog sobre el aprendizaje por refuerzo con código Python
Un (largo) vistazo al aprendizaje por refuerzo