Aprendizaje por refuerzo profundo

El aprendizaje por refuerzo profundo ( RL profundo ) es un subcampo del aprendizaje automático que combina el aprendizaje por refuerzo (RL) y el aprendizaje profundo . RL considera el problema de un agente computacional que aprende a tomar decisiones mediante prueba y error. Deep RL incorpora el aprendizaje profundo en la solución, lo que permite a los agentes tomar decisiones a partir de datos de entrada no estructurados sin ingeniería manual del espacio de estados . Los algoritmos de RL profundo son capaces de recibir entradas muy grandes (por ejemplo, cada píxel representado en la pantalla de un videojuego) y decidir qué acciones realizar para optimizar un objetivo (por ejemplo, maximizar la puntuación del juego). El aprendizaje por refuerzo profundo se ha utilizado para un conjunto diverso de aplicaciones que incluyen, entre otras, robótica , videojuegos , procesamiento del lenguaje natural , visión por computadora , ^[1] educación, transporte, finanzas y atención médica . ^[2]

Descripción general

Aprendizaje profundo

El aprendizaje profundo es una forma de aprendizaje automático que utiliza una red neuronal para transformar un conjunto de entradas en un conjunto de salidas a través de una red neuronal artificial . Se ha demostrado que los métodos de aprendizaje profundo, que a menudo utilizan aprendizaje supervisado con conjuntos de datos etiquetados, resuelven tareas que implican el manejo de datos de entrada sin procesar complejos y de alta dimensión (como imágenes) con menos ingeniería de funciones manual que los métodos anteriores, lo que permite un progreso significativo en varios campos, incluido Visión por computadora y procesamiento del lenguaje natural . En la última década, la RL profunda ha logrado resultados notables en una variedad de problemas, desde juegos para un solo jugador y multijugador como GO , Atari Games y Dota 2 hasta la robótica. ^[3]

Aprendizaje reforzado

El aprendizaje por refuerzo es un proceso en el que un agente aprende a tomar decisiones mediante prueba y error. Este problema a menudo se modela matemáticamente como un proceso de decisión de Markov (MDP), donde un agente en cada paso de tiempo está en un estado , toma una acción , recibe una recompensa escalar y pasa al siguiente estado de acuerdo con la dinámica del entorno . El agente intenta aprender una política , o mapear desde observaciones hasta acciones, para maximizar sus retornos (suma esperada de recompensas). En el aprendizaje por refuerzo (a diferencia del control óptimo ), el algoritmo solo tiene acceso a la dinámica a través del muestreo. $s$ $a$ $s'$ $p(s'|s,a)$ $\pi (a|s)$ $p(s'|s,a)$

Aprendizaje por refuerzo profundo

En muchos problemas prácticos de toma de decisiones, los estados del MDP son de alta dimensión (por ejemplo, imágenes de una cámara o el flujo de sensor sin procesar de un robot) y no pueden resolverse mediante algoritmos RL tradicionales. Los algoritmos de aprendizaje por refuerzo profundo incorporan aprendizaje profundo para resolver dichos MDP, a menudo representando la política u otras funciones aprendidas como una red neuronal y desarrollando algoritmos especializados que funcionan bien en este entorno. $s$ $\pi (a|s)$

Historia

Junto con el creciente interés en las redes neuronales a partir de mediados de la década de 1980, creció el interés en el aprendizaje por refuerzo profundo, donde se utiliza una red neuronal en el aprendizaje por refuerzo para representar políticas o funciones de valor. Debido a que en un sistema de este tipo, todo el proceso de toma de decisiones, desde los sensores hasta los motores de un robot o agente, implica una única red neuronal , a veces también se le denomina aprendizaje por refuerzo de un extremo a otro. ^[4] Una de las primeras aplicaciones exitosas del aprendizaje por refuerzo con redes neuronales fue TD-Gammon , un programa informático desarrollado en 1992 para jugar al backgammon . ^[5] Se utilizaron cuatro entradas para el número de piezas de un color determinado en una ubicación determinada del tablero, con un total de 198 señales de entrada. Sin ningún conocimiento incorporado, la red aprendió a jugar en un nivel intermedio mediante el juego autónomo y TD( ) $\lambda$ .

Libros de texto fundamentales de Sutton y Barto sobre aprendizaje por refuerzo, ^[6] Bertsekas y Tsitiklis sobre programación neurodinámica, ^[7] y otros ^[8] conocimientos e interés avanzados en el campo.

El grupo de Katsunari Shibata demostró que en este marco surgen varias funciones, ^[9]^[10]^[11] incluyendo el reconocimiento de imágenes, la constancia del color, el movimiento del sensor (reconocimiento activo), la coordinación ojo-mano y el movimiento de alcance de la mano, la explicación de las actividades cerebrales, el conocimiento. transferencia, memoria, ^[12] atención selectiva, predicción y exploración. ^[10]^[13]

A partir de 2012, la llamada revolución del aprendizaje profundo generó un mayor interés en el uso de redes neuronales profundas como aproximadores de funciones en una variedad de dominios. Esto llevó a un renovado interés en los investigadores que utilizan redes neuronales profundas para aprender las funciones de política, valor y/o Q presentes en los algoritmos de aprendizaje por refuerzo existentes.

A partir de 2013, DeepMind mostró resultados de aprendizaje impresionantes utilizando RL profunda para jugar videojuegos de Atari . ^[14]^[15] El jugador de la computadora entrenó una red neuronal utilizando un algoritmo RL profundo, una versión profunda de Q-learning que denominaron redes Q profundas (DQN), con la puntuación del juego como recompensa. Utilizaron una red neuronal convolucional profunda para procesar 4 fotogramas de píxeles RGB (84x84) como entradas. Los 49 juegos se aprendieron utilizando la misma arquitectura de red y con un conocimiento previo mínimo, superando los métodos de la competencia en casi todos los juegos y funcionando a un nivel comparable o superior al de un probador de juegos humano profesional. ^[15]

El aprendizaje por refuerzo profundo alcanzó otro hito en 2015 cuando AlphaGo , ^[16] un programa informático entrenado con RL profundo para jugar Go , se convirtió en el primer programa informático de Go en vencer a un jugador humano profesional de Go sin discapacidad en un tablero de tamaño completo de 19×19. En un proyecto posterior en 2017, AlphaZero mejoró el rendimiento en Go y al mismo tiempo demostró que podían usar el mismo algoritmo para aprender a jugar ajedrez y shogi a un nivel competitivo o superior a los programas informáticos existentes para esos juegos, y nuevamente mejoró en 2019 con MuZero . ^{[17] Por otra parte, investigadores de}la Universidad Carnegie Mellon lograron otro hito en 2019 al desarrollar Pluribus , un programa informático para jugar al póquer que fue el primero en vencer a los profesionales en juegos multijugador de Texas Hold'em sin límite . OpenAI Five , un programa para jugar Dota 2 cinco contra cinco, venció a los anteriores campeones del mundo en un partido de demostración en 2019.

El aprendizaje por refuerzo profundo también se ha aplicado a muchos ámbitos más allá de los juegos. En robótica, se ha utilizado para permitir que los robots realicen tareas domésticas sencillas ^[18] y resuelvan un cubo de Rubik con una mano de robot. ^[19]^[20] Deep RL también ha encontrado aplicaciones de sostenibilidad, utilizadas para reducir el consumo de energía en los centros de datos. ^[21] La RL profunda para la conducción autónoma es un área activa de investigación en el mundo académico y la industria. ^[22] Loon exploró RL profundo para navegar de forma autónoma sus globos de gran altitud. ^[23]

Algoritmos

Existen varias técnicas para entrenar políticas para resolver tareas con algoritmos de aprendizaje por refuerzo profundo, cada una con sus propios beneficios. En el nivel más alto, existe una distinción entre aprendizaje por refuerzo basado en modelos y sin modelos, que se refiere a si el algoritmo intenta aprender un modelo directo de la dinámica del entorno.

En los algoritmos de aprendizaje por refuerzo profundo basados en modelos , se estima un modelo directo de la dinámica del entorno, generalmente mediante aprendizaje supervisado utilizando una red neuronal. Luego, las acciones se obtienen mediante el uso de control predictivo del modelo utilizando el modelo aprendido. Dado que la verdadera dinámica del entorno generalmente diverge de la dinámica aprendida, el agente a menudo vuelve a planificar cuando lleva a cabo acciones en el entorno. Las acciones seleccionadas se pueden optimizar utilizando métodos de Monte Carlo, como el método de entropía cruzada , o una combinación de aprendizaje de modelos con métodos sin modelos.

En los algoritmos de aprendizaje por refuerzo profundo sin modelos , se aprende una política sin modelar explícitamente la dinámica directa. Una política se puede optimizar para maximizar los rendimientos estimando directamente el gradiente de la política ^[24], pero adolece de una alta varianza, lo que la hace poco práctica para su uso con aproximación de funciones en RL profundo. Se han desarrollado algoritmos posteriores para un aprendizaje más estable y se han aplicado ampliamente. ^[25]^[26] Otra clase de algoritmos de aprendizaje por refuerzo profundo sin modelos se basan en la programación dinámica , inspirada en el aprendizaje por diferencias temporales y el Q-learning . En espacios de acción discretos, estos algoritmos generalmente aprenden una función Q de red neuronal que estima los retornos futuros al realizar acciones desde el estado . ^[14] En espacios continuos, estos algoritmos a menudo aprenden tanto una estimación de valor como una política. ^[27]^[28]^[29] $\pi (a|s)$ $Q(s,a)$ $a$ $s$

Investigación

El aprendizaje por refuerzo profundo es un área activa de investigación, con varias líneas de investigación.

Exploración

Un agente de RL debe equilibrar el equilibrio entre exploración y explotación: el problema de decidir si realizar acciones que ya se sabe que producen altas recompensas o explorar otras acciones para descubrir recompensas mayores. Los agentes de RL suelen recopilar datos con algún tipo de política estocástica, como una distribución de Boltzmann en espacios de acción discretos o una distribución gaussiana en espacios de acción continuos, lo que induce un comportamiento de exploración básico. La idea detrás de la exploración basada en la novedad o impulsada por la curiosidad es darle al agente un motivo para explorar resultados desconocidos con el fin de encontrar las mejores soluciones. Esto se hace "modificando la función de pérdida (o incluso la arquitectura de la red) agregando términos para incentivar la exploración". ^[30] Un agente también puede recibir ayuda en la exploración mediante la utilización de demostraciones de trayectorias exitosas o la configuración de recompensas, otorgando al agente recompensas intermedias que se personalizan para adaptarse a la tarea que intenta completar. ^[31]

Aprendizaje por refuerzo fuera de políticas

Una distinción importante en RL es la diferencia entre los algoritmos dentro de la política que requieren evaluar o mejorar la política que recopila datos y los algoritmos fuera de la política que pueden aprender una política a partir de los datos generados por una política arbitraria. Generalmente, los métodos basados en funciones de valor, como Q-learning, son más adecuados para el aprendizaje fuera de políticas y tienen una mayor eficiencia de muestra: la cantidad de datos necesarios para aprender una tarea se reduce porque los datos se reutilizan para el aprendizaje. En el extremo, la RL fuera de línea (o "por lotes") considera aprender una política a partir de un conjunto de datos fijo sin interacción adicional con el entorno.

Aprendizaje por refuerzo inverso

RL inverso se refiere a inferir la función de recompensa de un agente dado el comportamiento del agente. El aprendizaje por refuerzo inverso se puede utilizar para aprender de demostraciones (o aprendizaje de aprendizaje ) infiriendo la recompensa del demostrador y luego optimizando una política para maximizar los retornos con RL. Se han utilizado enfoques de aprendizaje profundo para diversas formas de aprendizaje por imitación y RL inverso. ^[32]

Aprendizaje por refuerzo condicionado a objetivos

Otra área activa de investigación es el aprendizaje de políticas condicionadas por objetivos, también llamadas políticas contextuales o universales, que toman un objetivo adicional como entrada para comunicar un objetivo deseado al agente. ^[33] La repetición de experiencias en retrospectiva es un método para la RL condicionada por objetivos que implica almacenar y aprender de intentos fallidos anteriores de completar una tarea. ^[34] Si bien es posible que un intento fallido no haya alcanzado el objetivo previsto, puede servir como lección sobre cómo lograr el resultado no deseado mediante el reetiquetado en retrospectiva. $\pi (a|s,g)$ $g$

Aprendizaje por refuerzo multiagente

Muchas aplicaciones del aprendizaje por refuerzo no implican un solo agente, sino más bien un conjunto de agentes que aprenden juntos y se coadaptan. Estos agentes pueden ser competitivos, como en muchos juegos, o cooperativos, como en muchos sistemas multiagente del mundo real. El aprendizaje por refuerzo multiagente estudia los problemas introducidos en este entorno.

Generalización

La promesa de utilizar herramientas de aprendizaje profundo en el aprendizaje por refuerzo es la generalización: la capacidad de operar correctamente con entradas nunca antes vistas. Por ejemplo, las redes neuronales entrenadas para el reconocimiento de imágenes pueden reconocer que una imagen contiene un pájaro incluso si nunca ha visto esa imagen en particular o incluso ese pájaro en particular. Dado que la RL profunda permite datos sin procesar (por ejemplo, píxeles) como entrada, existe una menor necesidad de predefinir el entorno, lo que permite generalizar el modelo a múltiples aplicaciones. Con esta capa de abstracción, los algoritmos de aprendizaje por refuerzo profundo se pueden diseñar de una manera que les permita ser generales y que el mismo modelo pueda usarse para diferentes tareas. ^[35] Un método para aumentar la capacidad de generalización de las políticas formadas con políticas de RL profundas es incorporar el aprendizaje de representación .

Referencias

^ Le, Ngan; Rathour, Vidhiwar Singh; Yamazaki, Kashu; Luu, Khoa; Savvides, Marios (01/04/2022). "Aprendizaje por refuerzo profundo en visión por computadora: una encuesta completa". Revisión de inteligencia artificial . 55 (4): 2733–2819. arXiv : 2108.11510 . doi :10.1007/s10462-021-10061-9. ISSN 1573-7462.
^ Francois-Lavet, Vicente; Henderson, Pedro; Islam, Riashat; Bellemare, Marc G.; Pineau, Joelle (2018). "Una introducción al aprendizaje por refuerzo profundo". Fundamentos y tendencias en aprendizaje automático . 11 (3–4): 219–354. arXiv : 1811.12560 . Código Bib : 2018arXiv181112560F. doi :10.1561/2200000071. ISSN 1935-8237. S2CID 54434537.
^ Graesser, Laura. "Fundamentos del aprendizaje por refuerzo profundo: teoría y práctica en Python". Biblioteca abierta de la Universidad de Telkom . Consultado el 1 de julio de 2023 .
^ Demis, Hassabis (11 de marzo de 2016). La inteligencia artificial y el futuro (discurso).
^ Tesauro, Gerald (marzo de 1995). "Aprendizaje de diferencias temporales y TD-Gammon". Comunicaciones de la ACM . 38 (3): 58–68. doi : 10.1145/203330.203343 . S2CID 8763243. Archivado desde el original el 9 de febrero de 2010 . Consultado el 10 de marzo de 2017 .
^ Sutton, Richard; Barto, Andrew (septiembre de 1996). Aprendizaje por refuerzo: una introducción . Atenas científica.
^ Bertsekas, Juan; Tsitsiklis, Dimitri (septiembre de 1996). Programación Neurodinámica. Atenas científica. ISBN 1-886529-10-8.
^ Molinero, W. Thomas; Werbos, Paul; Sutton, Richard (1990). Redes Neuronales para el Control .
^ Shibata, Katsunari; Okabe, Yoichi (1997). Aprendizaje por refuerzo cuando las señales sensoriales visuales se dan directamente como entradas (PDF) . Conferencia internacional sobre redes neuronales (ICNN) 1997. Archivado desde el original (PDF) el 9 de diciembre de 2020 . Consultado el 1 de diciembre de 2020 .
^ ab Shibata, Katsunari; Iida, Masaru (2003). Adquisición de Box Pushing mediante aprendizaje por refuerzo basado en visión directa (PDF) . Conferencia Anual SICE 2003. Archivado desde el original (PDF) el 9 de diciembre de 2020 . Consultado el 1 de diciembre de 2020 .
^ Shibata, Katsunari (7 de marzo de 2017). "Funciones que surgen a través del aprendizaje por refuerzo de un extremo a otro". arXiv : 1703.02239 [cs.AI].
^ Utsunomiya, Hiroki; Shibata, Katsunari (2008). Comportamiento contextual y representaciones internas adquiridas mediante el aprendizaje por refuerzo con una red neuronal recurrente en una tarea de estado continuo y espacio de acción (PDF) . Conferencia internacional sobre procesamiento de información neuronal (ICONIP) '08. Archivado desde el original (PDF) el 10 de agosto de 2017 . Consultado el 14 de diciembre de 2020 .
^ Shibata, Katsunari; Kawano, Tomohiko (2008). Aprendizaje de la generación de acción a partir de imágenes de cámara sin procesar en un entorno similar al del mundo real mediante una combinación simple de aprendizaje por refuerzo y una red neuronal (PDF) . Conferencia internacional sobre procesamiento de información neuronal (ICONIP) '08. Archivado desde el original (PDF) el 11 de diciembre de 2020 . Consultado el 1 de diciembre de 2020 .
^ ab Mnih, Volodymyr; et al. (Diciembre 2013). Jugar a Atari con aprendizaje por refuerzo profundo (PDF) . Taller de aprendizaje profundo NIPS 2013.
^ ab Mnih, Volodymyr; et al. (2015). "Control a nivel humano mediante aprendizaje por refuerzo profundo". Naturaleza . 518 (7540): 529–533. Código Bib :2015Natur.518..529M. doi : 10.1038/naturaleza14236. PMID 25719670. S2CID 205242740.
^ Plata, David ; Huang, Aja ; Maddison, Chris J.; Guez, Arturo; Sifré, Laurent; Driessche, George van den; Schrittwieser, Julián; Antonoglou, Ioannis; Panneershelvam, Veda; Lanctot, Marc; Dieleman, Sander; Grewe, Dominik; Nham, Juan; Kalchbrenner, Nal; Sutskever, Ilya ; Lillicrap, Timoteo; Lixiviación, Madeleine; Kavukcuoglu, Koray; Graepel, Thore; Hassabis, Demis (28 de enero de 2016). "Dominar el juego de Go con redes neuronales profundas y búsqueda de árboles". Naturaleza . 529 (7587): 484–489. Código Bib :2016Natur.529..484S. doi : 10.1038/naturaleza16961. ISSN 0028-0836. PMID 26819042. S2CID 515925.
^ Schrittwieser, Julián; Antonoglou, Ioannis; Hubert, Thomas; Simonyan, Karen; Sifré, Laurent; Schmitt, Simón; Guez, Arturo; Lockhart, Eduardo; Hassabis, Demis; Graepel, Thore; Lillicrap, Timoteo; Plata, David (23 de diciembre de 2020). "Dominar Atari, Go, ajedrez y shogi planificando con un modelo aprendido". Naturaleza . 588 (7839): 604–609. arXiv : 1911.08265 . Código Bib :2020Natur.588..604S. doi :10.1038/s41586-020-03051-4. PMID 33361790. S2CID 208158225.
^ Levine, Sergey; finlandés, Chelsea ; Darrell, Trevor; Abbeel, Pieter (enero de 2016). «Formación de principio a fin de políticas visomotoras profundas» (PDF) . JMLR . 17 . arXiv : 1504.00702 .
^ "OpenAI: resolución del cubo de Rubik con una mano de robot". AbiertoAI .
^ Abierto AI; et al. (2019). Resolver el cubo de Rubik con una mano de robot . arXiv : 1910.07113 .
^ "DeepMind AI reduce la factura de refrigeración del centro de datos de Google en un 40%". Mente profunda .
^ "Taller de aprendizaje automático para conducción autónoma @ NeurIPS 2021". NeuroIPS 2021 . Diciembre de 2021.
^ Bellamare, Marc; Cándido, Salvatore; Castro, Pablo; Gong, junio; Machado, Marlos; Moitra, Subhodeep; Ponda, Sameera; Wang, Ziyu (2 de diciembre de 2020). "Navegación autónoma de globos estratosféricos mediante aprendizaje por refuerzo". Naturaleza . 588 (7836): 77–82. Código Bib :2020Natur.588...77B. doi :10.1038/s41586-020-2939-8. PMID 33268863. S2CID 227260253.
^ Williams, Ronald J. (1992). "Algoritmos estadísticos simples de seguimiento de gradientes para el aprendizaje por refuerzo conexionista". Aprendizaje automático . 8 (3–4): 229–256. doi : 10.1007/BF00992696 . S2CID 2332513.
^ Schulman, Juan; Levine, Sergey; Moritz, Philipp; Jordán, Michael; Abbeel, Pieter (2015). Optimización de políticas de región de confianza . Conferencia Internacional sobre Aprendizaje Automático (ICML). arXiv : 1502.05477 .
^ Schulman, Juan; Wolski, Filip; Dhariwal, Prafulla; Radford, Alec; Klímov, Oleg (2017). Algoritmos de optimización de políticas próximas . arXiv : 1707.06347 .
^ Lillicrap, Timoteo; Cazar, Jonathan; Pritzel, Alejandro; Heess, Nicolás; Erez, Tom; Tassa, Yuval; Plata, David; Wierstra, Daan (2016). Control continuo con aprendizaje por refuerzo profundo . Conferencia Internacional sobre Representaciones del Aprendizaje (ICLR). arXiv : 1509.02971 .
^ Mnih, Volodymyr; Puigdomenech Badia, Adrià; Mirzi, Mehdi; Tumbas, Alex; Harley, Tim; Lillicrap, Timoteo; Plata, David; Kavukcuoglu, Koray (2016). Métodos asincrónicos para el aprendizaje por refuerzo profundo . Conferencia Internacional sobre Aprendizaje Automático (ICML). arXiv : 1602.01783 .
^ Haarnoja, Tuomas; Zhou, Aurick; Levine, Sergey; Abbeel, Pieter (2018). "Actor-crítico suave: aprendizaje por refuerzo profundo de máxima entropía fuera de políticas con un actor estocástico" . Conferencia Internacional sobre Aprendizaje Automático (ICML). arXiv : 1801.01290 .
^ Reizinger, Patrik; Szemenyei, Márton (23 de octubre de 2019). "Exploración impulsada por la curiosidad basada en la atención en el aprendizaje por refuerzo profundo". ICASSP 2020 - 2020 Conferencia internacional IEEE sobre acústica, habla y procesamiento de señales (ICASSP) . págs. 3542–3546. arXiv : 1910.10840 . doi : 10.1109/ICASSP40776.2020.9054546. ISBN 978-1-5090-6631-5. S2CID 204852215.
^ Wiewiora, Eric (2010), "Conformación de recompensas", en Sammut, Claude; Webb, Geoffrey I. (eds.), Enciclopedia de aprendizaje automático , Boston, MA: Springer US, págs. 863–865, doi :10.1007/978-0-387-30164-8_731, ISBN 978-0-387-30164-8, recuperado el 16 de noviembre de 2020
^ Wulfmeier, Markus; Ondruska, Peter; Posner, Ingmar (2015). "Aprendizaje por refuerzo inverso profundo de máxima entropía". arXiv : 1507.04888 [cs.LG].
^ Schaul, Tom; Horgan, Daniel; Gregor, Karol; Plata, David (2015). Aproximadores de funciones de valor universal. Conferencia Internacional sobre Aprendizaje Automático (ICML).
^ Andrychowicz, Marcin; Wolski, Filip; Rayo, Alex; Schneider, Jonás; Fong, Raquel; Welinder, Peter; McGrew, Bob; Tobin, Josh; Abbeel, Pieter; Zaremba, Wojciech (2018). "Repetición de la experiencia en retrospectiva" . Avances en los sistemas de procesamiento de información neuronal (NeurIPS). arXiv : 1707.01495 .
^ Empacador, Charles; Gao, Katelyn; Cos, Jernej; Krähenbühl, Philipp; Koltun, Vladlen; Canción, amanecer (15 de marzo de 2019). "Evaluación de la generalización en el aprendizaje por refuerzo profundo". arXiv : 1810.12282 [cs.LG].