stringtranslate.com

Aprendizaje por refuerzo de múltiples agentes

Dos equipos rivales de agentes se enfrentan en un experimento MARL

El aprendizaje por refuerzo multiagente (MARL) es un subcampo del aprendizaje por refuerzo . Se centra en el estudio del comportamiento de múltiples agentes de aprendizaje que coexisten en un entorno compartido. [1] Cada agente está motivado por sus propias recompensas y realiza acciones para promover sus propios intereses; en algunos entornos, estos intereses se oponen a los intereses de otros agentes, lo que da lugar a dinámicas de grupo complejas .

El aprendizaje por refuerzo multiagente está estrechamente relacionado con la teoría de juegos y especialmente con los juegos repetidos , así como con los sistemas multiagente . Su estudio combina la búsqueda de algoritmos ideales que maximicen las recompensas con un conjunto de conceptos más sociológicos. Mientras que la investigación en aprendizaje por refuerzo de un solo agente se ocupa de encontrar el algoritmo que obtenga la mayor cantidad de puntos para un agente, la investigación en aprendizaje por refuerzo multiagente evalúa y cuantifica métricas sociales, como la cooperación, [2] reciprocidad, [3] equidad, [4] influencia social, [5] lenguaje [6] y discriminación. [7]

Definición

De manera similar al aprendizaje de refuerzo de un solo agente , el aprendizaje de refuerzo de múltiples agentes se modela como una forma de proceso de decisión de Markov (MDP) . Por ejemplo,

En escenarios con información perfecta , como los juegos de ajedrez y Go , el MDP sería completamente observable. En escenarios con información imperfecta, especialmente en aplicaciones del mundo real como los autos autónomos , cada agente accedería a una observación que solo tiene parte de la información sobre el estado actual. En el escenario parcialmente observable, el modelo central es el juego estocástico parcialmente observable en el caso general y el POMDP descentralizado en el caso cooperativo.

Cooperación vs. competencia

Cuando varios agentes actúan en un entorno compartido, sus intereses pueden estar alineados o no. MARL permite explorar todas las diferentes alineaciones y cómo afectan el comportamiento de los agentes:

Configuraciones de competencia pura

Cuando dos agentes juegan un juego de suma cero , compiten entre sí. Muchos juegos tradicionales como el ajedrez y el Go entran en esta categoría, al igual que las variantes para dos jugadores de juegos modernos como StarCraft . Como cada agente solo puede ganar a expensas del otro, se eliminan muchas complejidades. No hay posibilidad de comunicación ni dilemas sociales, ya que ninguno de los agentes tiene incentivos para realizar acciones que beneficien a su oponente.

Los proyectos Deep Blue [8] y AlphaGo demuestran cómo optimizar el rendimiento de los agentes en entornos de competencia pura.

Una complejidad que no se elimina en los entornos de competencia pura es el autocurricula. A medida que se mejora la política de los agentes mediante el juego autónomo , pueden darse múltiples capas de aprendizaje.

Configuraciones de cooperación pura

MARL se utiliza para explorar cómo agentes separados con intereses idénticos pueden comunicarse y trabajar juntos. Los entornos de cooperación pura se exploran en juegos cooperativos recreativos como Overcooked [9] , así como en escenarios del mundo real en robótica [10] .

En entornos de cooperación pura, todos los agentes obtienen recompensas idénticas, lo que significa que no se producen dilemas sociales.

En entornos de cooperación pura, a menudo hay un número arbitrario de estrategias de coordinación y los agentes convergen hacia "convenciones" específicas cuando se coordinan entre sí. La noción de convenciones se ha estudiado en el lenguaje [11] y también se ha hecho alusión a ella en tareas colaborativas multiagente más generales. [12] [13] [14] [15]

Configuraciones de suma mixta

En este contexto de suma mixta, cada uno de los cuatro agentes intenta alcanzar un objetivo diferente. El éxito de cada agente depende de que los demás agentes le despejen el camino, aunque no tengan incentivos directos para ayudarse entre sí. [16]

La mayoría de los escenarios del mundo real que involucran a múltiples agentes tienen elementos tanto de cooperación como de competencia. Por ejemplo, cuando varios autos autónomos planean sus respectivas rutas, cada uno de ellos tiene intereses divergentes pero no exclusivos: cada auto minimiza el tiempo que le toma llegar a su destino, pero todos los autos tienen el interés compartido de evitar una colisión de tránsito . [17]

Las configuraciones de suma cero con tres o más agentes a menudo exhiben propiedades similares a las configuraciones de suma mixta, ya que cada par de agentes puede tener una suma de utilidad distinta de cero entre ellos.

Se pueden explorar configuraciones de suma mixta utilizando juegos matriciales clásicos como el dilema del prisionero , dilemas sociales secuenciales más complejos y juegos recreativos como Among Us , [18] Diplomacy [19] y StarCraft II . [20] [21]

Los entornos de suma mixta pueden dar lugar a dilemas comunicativos y sociales.

Dilemas sociales

Al igual que en la teoría de juegos , gran parte de la investigación en MARL gira en torno a dilemas sociales , como el dilema del prisionero , [22] la caza del pollo y del ciervo . [23]

Mientras que la investigación de la teoría de juegos puede centrarse en los equilibrios de Nash y en cuál sería la política ideal para un agente, la investigación MARL se centra en cómo los agentes aprenderían estas políticas ideales mediante un proceso de ensayo y error. Los algoritmos de aprendizaje de refuerzo que se utilizan para entrenar a los agentes maximizan la propia recompensa del agente; el conflicto entre las necesidades de los agentes y las necesidades del grupo es un tema de investigación activa. [24]

Se han explorado varias técnicas para inducir la cooperación en los agentes: modificando las reglas del entorno, [25] añadiendo recompensas intrínsecas, [4] y más.

Dilemas sociales secuenciales

Los dilemas sociales como el dilema del prisionero o la caza del ciervo o la gallina son "juegos de matriz". Cada agente realiza una sola acción entre dos posibles opciones y se utiliza una matriz simple de 2x2 para describir la recompensa que obtendrá cada agente, dadas las acciones que realizó.

En los seres humanos y en otras criaturas vivientes, los dilemas sociales tienden a ser más complejos. Los agentes realizan múltiples acciones a lo largo del tiempo y la distinción entre cooperar y desertar no es tan clara como en los juegos de matriz. El concepto de dilema social secuencial (SSD, por sus siglas en inglés) se introdujo en 2017 [26] como un intento de modelar esa complejidad. Hay investigaciones en curso para definir diferentes tipos de SSD y mostrar el comportamiento cooperativo en los agentes que actúan en ellos. [27]

Autocurricula

Un autocurriculum [28] (plural: autocurricula) es un concepto de aprendizaje de refuerzo que es importante en experimentos con múltiples agentes. A medida que los agentes mejoran su desempeño, cambian su entorno; este cambio en el entorno los afecta a ellos mismos y a los otros agentes. El ciclo de retroalimentación da como resultado varias fases distintas de aprendizaje, cada una de las cuales depende de la anterior. Las capas apiladas de aprendizaje se denominan autocurriculum. Los autocurriculums son especialmente evidentes en entornos adversarios, [29] donde cada grupo de agentes compite para contrarrestar la estrategia actual del grupo oponente.

El juego del escondite es un ejemplo accesible de un autocurriculum que se desarrolla en un contexto adversario. En este experimento, un equipo de buscadores compite contra un equipo de escondidos. Cada vez que uno de los equipos aprende una nueva estrategia, el equipo contrario adapta su estrategia para ofrecer la mejor respuesta posible. Cuando los escondidos aprenden a usar cajas para construir un refugio, los buscadores responden aprendiendo a usar una rampa para entrar en ese refugio. Los escondidos responden bloqueando las rampas, lo que hace que no estén disponibles para que los buscadores las usen. Los buscadores luego responden "surfeando en las cajas", explotando un fallo en el juego para penetrar en el refugio. Cada "nivel" de aprendizaje es un fenómeno emergente, con el nivel anterior como premisa. Esto da como resultado una pila de comportamientos, cada uno dependiente de su predecesor.

Los autocurrículos en los experimentos de aprendizaje de refuerzo se comparan con las etapas de la evolución de la vida en la Tierra y el desarrollo de la cultura humana . Una etapa importante en la evolución ocurrió hace 2-3 mil millones de años, cuando las formas de vida fotosintéticas comenzaron a producir cantidades masivas de oxígeno , cambiando el equilibrio de gases en la atmósfera. [30] En las siguientes etapas de la evolución, evolucionaron formas de vida que respiraban oxígeno, que finalmente condujeron a los mamíferos terrestres y los seres humanos. Estas etapas posteriores solo pudieron ocurrir después de que la etapa de la fotosíntesis hiciera que el oxígeno estuviera ampliamente disponible. De manera similar, la cultura humana no podría haber atravesado la Revolución Industrial en el siglo XVIII sin los recursos y los conocimientos adquiridos por la revolución agrícola alrededor del año 10.000 a. C. [31]

Aplicaciones

El aprendizaje de refuerzo de múltiples agentes se ha aplicado a una variedad de casos de uso en la ciencia y la industria:

Alineación de IA

El aprendizaje por refuerzo multiagente se ha utilizado en la investigación sobre la alineación de la IA . La relación entre los diferentes agentes en un entorno MARL se puede comparar con la relación entre un humano y un agente de IA. Los esfuerzos de investigación en la intersección de estos dos campos intentan simular posibles conflictos entre las intenciones de un humano y las acciones de un agente de IA, y luego explorar qué variables podrían cambiarse para prevenir estos conflictos. [45] [46]

Limitaciones

El aprendizaje de refuerzo profundo de múltiples agentes presenta algunas dificultades inherentes . [47] El entorno ya no es estacionario, por lo que se viola la propiedad de Markov : las transiciones y las recompensas no dependen únicamente del estado actual de un agente.

Lectura adicional

Referencias

  1. ^ Stefano V. Albrecht, Filippos Christianos, Lukas Schäfer. Aprendizaje por refuerzo de múltiples agentes: fundamentos y enfoques modernos. MIT Press, 2024. https://www.marl-book.com/
  2. ^ Lowe, Ryan; Wu, Yi (2020). "Actor-crítico multiagente para entornos mixtos cooperativos-competitivos". arXiv : 1706.02275v4 [cs.LG].
  3. ^ Baker, Bowen (2020). "Reciprocidad emergente y formación de equipos a partir de preferencias sociales inciertas aleatorias". Actas de NeurIPS 2020 . arXiv : 2011.05373 .
  4. ^ ab Hughes, Edward; Leibo, Joel Z.; et al. (2018). "La aversión a la inequidad mejora la cooperación en dilemas sociales intertemporales". Actas de NeurIPS 2018 . arXiv : 1803.08884 .
  5. ^ Jaques, Natasha; Lazaridou, Angeliki; Hughes, Edward; et al. (2019). "Influencia social como motivación intrínseca para el aprendizaje de refuerzo profundo multiagente". Actas de la 35.ª Conferencia internacional sobre aprendizaje automático . arXiv : 1810.08647 .
  6. ^ Lazaridou, Angeliki (2017). "Cooperación entre múltiples agentes y el surgimiento del lenguaje (natural)". ICLR 2017 . arXiv : 1612.07182 .
  7. ^ Duéñez-Guzmán, Edgar; et al. (2021). "Discriminación estadística en agentes de aprendizaje". arXiv : 2110.11404v1 [cs.LG].
  8. ^ Campbell, Murray; Hoane, A. Joseph Jr.; Hsu, Feng-hsiung (2002). "Azul profundo". Inteligencia artificial . 134 (1–2). Elsevier: 57–83. doi :10.1016/S0004-3702(01)00129-1. ISSN  0004-3702.
  9. ^ Carroll, Micah; et al. (2019). "Sobre la utilidad del aprendizaje sobre los humanos para la coordinación entre humanos e IA". arXiv : 1910.05789 [cs.LG].
  10. ^ Xie, Annie; Losey, Dylan; Tolsma, Ryan; Finn, Chelsea ; Sadigh, Dorsa (noviembre de 2020). Aprendizaje de representaciones latentes para influir en la interacción entre múltiples agentes (PDF) . CoRL.
  11. ^ Clark, Herbert; Wilkes-Gibbs, Deanna (febrero de 1986). "Referring as a collaborative process" (La referencia como proceso colaborativo). Cognición . 22 (1): 1–39. doi :10.1016/0010-0277(86)90010-7. PMID  3709088. S2CID  204981390.
  12. ^ Boutilier, Craig (17 de marzo de 1996). "Planificación, aprendizaje y coordinación en procesos de decisión multiagente". Actas de la 6ª Conferencia sobre Aspectos Teóricos de la Racionalidad y el Conocimiento : 195–210.
  13. ^ Stone, Peter; Kaminka, Gal A.; Kraus, Sarit; Rosenschein, Jeffrey S. (julio de 2010). Equipos de agentes autónomos ad hoc: colaboración sin precoordinación. AAAI 11.
  14. ^ Foerster, Jakob N.; Song, H. Francis; Hughes, Edward; Burch, Neil; Dunning, Iain; Whiteson, Shimon; Botvinick, Matthew M; Bowling, Michael H. Decodificador de acción bayesiano para aprendizaje de refuerzo multiagente profundo . ICML 2019. arXiv : 1811.01458 .
  15. ^ Shih, Andy; Sawhney, Arjun; Kondic, Jovana; Ermon, Stefano; Sadigh, Dorsa. Sobre el papel fundamental de las convenciones en la colaboración adaptativa entre humanos e IA . ICLR 2021. arXiv : 2104.02871 .
  16. ^ Bettini, Matteo; Kortvelesy, Ryan; Blumenkamp, ​​Jan; Prorok, Amanda (2022). "VMAS: un simulador multiagente vectorizado para el aprendizaje colectivo de robots". El 16.º Simposio Internacional sobre Sistemas Robóticos Autónomos Distribuidos . Springer. arXiv : 2207.03530 .
  17. ^ Shalev-Shwartz, Shai; Shammah, Shaked; Shashua, Amnon (2016). "Aprendizaje de refuerzo seguro y multiagente para conducción autónoma". arXiv : 1610.03295 [cs.AI].
  18. ^ Kopparapu, Kavya; Duéñez-Guzmán, Edgar A.; Matías, Jayd; Vezhnevets, Alexander Sasha; Agapiou, John P.; McKee, Kevin R.; Everett, Richard; Marecki, Janusz; Leibo, Joel Z.; Graepel, Thore (2022). "Agenda oculta: un juego de deducción social con diversos equilibrios aprendidos". arXiv : 2201.01816 [cs.AI].
  19. ^ Bakhtin, Anton; Brown, Noam; et al. (2022). "Juego a nivel humano en el juego de la diplomacia mediante la combinación de modelos de lenguaje con razonamiento estratégico". Science . 378 (6624). Springer: 1067–1074. Bibcode :2022Sci...378.1067M. doi :10.1126/science.ade9097. PMID  36413172. S2CID  253759631.
  20. ^ Samvelyan, Mikayel; Rashid, Tabish; de Witt, Christian Schroeder; Farquhar, Gregory; Nardelli, Nantas; Rudner, Tim GJ; Hung, Chia-Man; Torr, Philip HS; Foerster, Jakob; Whiteson, Shimon (2019). "El desafío de múltiples agentes de StarCraft". arXiv : 1902.04043 [cs.LG].
  21. ^ Ellis, Benjamin; Moalla, Skander; Samvelyan, Mikayel; Sun, Mingfei; Mahajan, Anuj; Foerster, Jakob N.; Whiteson, Shimon (2022). "SMACv2: un punto de referencia mejorado para el aprendizaje de refuerzo multiagente cooperativo". arXiv : 2212.07489 [cs.LG].
  22. ^ Sandholm, Toumas W.; Crites, Robert H. (1996). "Aprendizaje de refuerzo multiagente en el dilema del prisionero iterado". Biosystems . 37 (1–2): 147–166. Bibcode :1996BiSys..37..147S. doi :10.1016/0303-2647(95)01551-5. PMID  8924633.
  23. ^ Peysakhovich, Alexander; Lerer, Adam (2018). "Los agentes de aprendizaje prosocial resuelven las cacerías de ciervos generalizadas mejor que los egoístas". AAMAS 2018 . arXiv : 1709.02865 .
  24. ^ Dafoe, Allan; Hughes, Edward; Bachrach, Yoram; et al. (2020). "Problemas abiertos en IA cooperativa". NeurIPS 2020 . arXiv : 2012.08630 .
  25. ^ Köster, Raphael; Hadfield-Menell, Dylan; Hadfield, Gillian K.; Leibo, Joel Z. "Las reglas tontas mejoran la capacidad de los agentes para aprender comportamientos estables de cumplimiento y aplicación". AAMAS 2020 . arXiv : 2001.09318 .
  26. ^ Leibo, Joel Z.; Zambaldi, Vinicius; Lanctot, Marc; Marecki, Janusz; Graepel, Thore (2017). "Aprendizaje por refuerzo de múltiples agentes en dilemas sociales secuenciales". AAMAS 2017 . arXiv : 1702.03037 .
  27. ^ Badjatiya, Pinkesh; Sarkar, Mausoom (2020). "Inducción de comportamiento cooperativo en dilemas secuenciales-sociales mediante aprendizaje por refuerzo de múltiples agentes utilizando pérdida de status quo". arXiv : 2001.05458 [cs.AI].
  28. ^ Leibo, Joel Z.; Hughes, Edward; et al. (2019). "Autocurricula y el surgimiento de la innovación a partir de la interacción social: un manifiesto para la investigación de la inteligencia multiagente". arXiv : 1903.00742v2 [cs.AI].
  29. ^ Baker, Bowen; et al. (2020). "Uso emergente de herramientas a partir de currículos automáticos multiagente". ICLR 2020 . arXiv : 1909.07528 .
  30. ^ Kasting, James F; Siefert, Janet L (2002). "La vida y la evolución de la atmósfera terrestre". Science . 296 (5570): 1066–1068. Bibcode :2002Sci...296.1066K. doi :10.1126/science.1071184. PMID  12004117. S2CID  37190778.
  31. ^ Clark, Gregory (2008). Adiós a las limosnas: una breve historia económica del mundo . Princeton University Press. ISBN 978-0-691-14128-2.
  32. ^ abcdefgh Li, Tianxu; Zhu, Kun; Luong, Nguyen Cong; Niyato, Dusit; Wu, Qihui; Zhang, Yang; Chen, Bing (2021). "Aplicaciones del aprendizaje por refuerzo de múltiples agentes en la Internet del futuro: un estudio exhaustivo". arXiv : 2110.13484 [cs.AI].
  33. ^ Le, Ngan; Rathour, Vidhiwar Singh; Yamazaki, Kashu; Luu, Khoa; Savvides, Marios (2021). "Aprendizaje de refuerzo profundo en visión artificial: un estudio exhaustivo". arXiv : 2108.11510 [cs.CV].
  34. ^ Moulin-Frier, Clément; Oudeyer, Pierre-Yves (2020). "Aprendizaje por refuerzo de múltiples agentes como herramienta computacional para la investigación de la evolución del lenguaje: contexto histórico y desafíos futuros". arXiv : 2002.08878 [cs.MA].
  35. ^ Killian, Jackson; Xu, Lily; Biswas, Arpita; Verma, Shresth; et al. (2023). Planificación sólida en grupos inquietos: intervenciones de participación para un programa de telesalud materna a gran escala . AAAI.
  36. ^ Krishnan, Srivatsan; Jaques, Natasha; Omidshafiei, Shayegan; Zhang, Dan; Gur, Izzeddin; Reddi, Vijay Janapa; Faust, Aleksandra (2022). "Aprendizaje de refuerzo de múltiples agentes para la exploración espacial del diseño de microprocesadores". arXiv : 2211.16385 [cs.AR].
  37. ^ Li, Yuanzheng; He, Shangyang; Li, Yang; Shi, Yang; Zeng, Zhigang (2023). "Enfoque de aprendizaje de refuerzo profundo multiagente federado a través de recompensa basada en la física para la gestión de energía multimicrorred". Transacciones IEEE sobre redes neuronales y sistemas de aprendizaje . PP (5): 5902–5914. arXiv : 2301.00641 . doi :10.1109/TNNLS.2022.3232630. PMID  37018258. S2CID  255372287.
  38. ^ Ci, Hai; Liu, Mickel; Pan, Xuehai; Zhong, Fangwei; Wang, Yizhou (2023). Colaboración proactiva entre múltiples cámaras para la estimación de la postura humana en 3D. Conferencia internacional sobre representaciones de aprendizaje.
  39. ^ Vinitsky, Eugene; Kreidieh, Aboudy; Le Flem, Luc; Kheterpal, Nishant; Jang, Kathy; Wu, Fangyu; Liaw, Richard; Liang, Eric; Bayen, Alexandre M. (2018). Puntos de referencia para el aprendizaje de refuerzo en el tráfico de autonomía mixta (PDF) . Conferencia sobre aprendizaje robótico.
  40. Tuyls, Karl; Omidshafiei, Shayegan; Muller, Paul; Wang, Zhe; Connor, Jerome; Hennes, Daniel; Graham, Ian; Spearman, William; Waskett, Tim; Steele, Dafydd; Luc, Pauline; Recasens, Adria; Galashov, Alexandre; Thornton, Gregory; Elie, Romuald; Sprechmann, Pablo; Moreno, Pol; Cao, Kris; Garnelo, Marta; Dutta, Praneet; Valko, Michal; Heess, Nicolas; Bridgland, Alex; Perolat, Julien; De Vylder, Bart; Eslami, Ali; Rowland, Mark; Jaegle, Andrew; Munos, Remi; Back, Trevor; Ahamed, Razia; Bouton, Simon; Beauguerlange, Nathalie; Broshear, Jackson; Graepel, Thore; Hassabis, Demis (2020). "Plan de juego: lo que la IA puede hacer por el fútbol y lo que el fútbol puede hacer por la IA". arXiv : 2011.09192 [cs.AI].
  41. ^ Chu, Tianshu; Wang, Jie; Codec├á, Lara; Li, Zhaojian (2019). "Aprendizaje de refuerzo profundo multiagente para el control de señales de tráfico a gran escala". arXiv : 1903.04527 [cs.LG].
  42. ^ Belletti, Francois; Haziza, Daniel; Gomes, Gabriel; Bayen, Alexandre M. (2017). "Control de nivel experto de medición de rampa basado en aprendizaje de refuerzo profundo multitarea". arXiv : 1701.08832 [cs.AI].
  43. ^ Ding, Yahao; Yang, Zhaohui; Pham, Quoc-Viet; Zhang, Zhaoyang; Shikh-Bahaei, Mohammad (2023). "Aprendizaje automático distribuido para enjambres de vehículos aéreos no tripulados: computación, detección y semántica". arXiv : 2301.00912 [cs.LG].
  44. ^ Xu, Lily; Perrault, Andrew; Fang, Fei; Chen, Haipeng; Tambe, Milind (2021). "Aprendizaje de refuerzo robusto en condiciones de arrepentimiento mínimo para la seguridad ecológica". arXiv : 2106.08413 [cs.LG].
  45. ^ Leike, enero; Martic, Miljan; Cracovia, Victoria; Ortega, Pedro A.; Everitt, Tom; Lefrancq, Andrés; Orseau, Laurent; Legg, Shane (2017). "Mundos de red de seguridad de IA". arXiv : 1711.09883 [cs.AI].
  46. ^ Hadfield-Menell, Dylan; Dragan, Anca; Abbeel, Pieter; Russell, Stuart (2016). "El juego del interruptor de apagado". arXiv : 1611.08219 [cs.AI].
  47. ^ Hernandez-Leal, Pablo; Kartal, Bilal; Taylor, Matthew E. (1 de noviembre de 2019). "Una encuesta y crítica del aprendizaje de refuerzo profundo multiagente". Agentes autónomos y sistemas multiagente . 33 (6): 750–797. arXiv : 1810.05587 . doi :10.1007/s10458-019-09421-1. ISSN  1573-7454. S2CID  52981002.