Aprendizaje de refuerzo profundo

El DRL se ha usado para diversas aplicaciones, incluyendo robótica, videojuegos,[2]​ procesamiento del lenguaje natural, visión artificial, educación, transporte, finanzas y salud, entre otros.A menudo, este problema es modelado matemáticamente como un proceso de decisión de Markov (MDP), donde un agente en cada paso de tiempo está en un estado s, toma una acción a, recibe una recompensa escalar y pasa al siguiente estado s’ en concordancia con las dinámicas medioambientales p(s’|s,a).Los algoritmos del DRL incorporan el aprendizaje profundo para resolver esos MDPs, a menudo representando la política π(a|s) u otras funciones aprendidas como una red neuronal, y desarrollando algoritmos especializados que funcionan bien en este entorno.Una de las primeras aplicaciones con éxito del aprendizaje por refuerzo con redes neuronales fue el TD-Gammon, un programa informático desarrollado en 1992 para jugar al backgammon.Utilizaron una red neuronal convolucional[7]​ profunda para procesar 4 cuadros de píxeles RGB (84x84) como entradas.[12]​ Por otro lado, otro hito lo consiguieron investigadores de la Universidad Carnegie Mellon[13]​ en 2019 al desarrollar Pluribus, un programa informático para jugar al póker que fue el primero en vencer a profesionales en partidas multijugador de Texas hold 'em sin límite.El RL profundo para la conducción autónoma es un área activa de investigación en el mundo académico y la industria.A continuación, las acciones se obtienen mediante el control predictivo por modelo aprendido.Dado que la dinámica real del entorno suele divergir de la dinámica aprendida, el agente vuelve a planificar con frecuencia cuando lleva a cabo acciones en el entorno.En los espacios de acción discretos, estos algoritmos suelen aprender una función Q Q(s,a) de la red neuronal que estima los rendimientos futuros tomando una acción a a partir del estado s. En los espacios continuos, estos algoritmos suelen aprender tanto una estimación del valor como una política.El aprendizaje multiagente estudia los problemas que se presentan en este entorno.Por ejemplo, las redes neuronales entrenadas para el reconocimiento de imágenes pueden detectar que una imagen contiene un pájaro aunque nunca hayan visto esa imagen en particular o incluso ese pájaro en concreto.Dado que la RL profunda admite datos brutos (por ejemplo, píxeles) como entrada, se reduce la necesidad de predefinir el entorno, lo que permite generalizar el modelo a múltiples aplicaciones.