stringtranslate.com

Aprendizaje por refuerzo multiagente

Dos equipos rivales de agentes se enfrentan en un experimento MARL

El aprendizaje por refuerzo multiagente (MARL) es un subcampo del aprendizaje por refuerzo . Se centra en estudiar el comportamiento de múltiples agentes de aprendizaje que coexisten en un entorno compartido. [1] Cada agente está motivado por sus propias recompensas y realiza acciones para promover sus propios intereses; en algunos entornos estos intereses se oponen a los intereses de otros agentes, lo que resulta en dinámicas de grupo complejas .

El aprendizaje por refuerzo multiagente está muy relacionado con la teoría de juegos y especialmente con los juegos repetidos , así como con los sistemas multiagente . Su estudio combina la búsqueda de algoritmos ideales que maximicen las recompensas con un conjunto de conceptos más sociológicos. Mientras que la investigación en aprendizaje por refuerzo con un solo agente se ocupa de encontrar el algoritmo que obtenga la mayor cantidad de puntos para un agente, la investigación en aprendizaje por refuerzo con múltiples agentes evalúa y cuantifica métricas sociales, como la cooperación, [2] la reciprocidad, [3] equidad, [4] influencia social, [5] lenguaje [6] y discriminación. [7]

Definición

De manera similar al aprendizaje por refuerzo con un solo agente , el aprendizaje por refuerzo con múltiples agentes se modela como alguna forma de proceso de decisión de Markov (MDP) . Por ejemplo,

En entornos con información perfecta , como las partidas de ajedrez y Go , el MDP sería totalmente observable. En entornos con información imperfecta, especialmente en aplicaciones del mundo real como automóviles autónomos , cada agente accedería a una observación que solo tiene parte de la información sobre el estado actual. En el escenario parcialmente observable, el modelo central es el juego estocástico parcialmente observable en el caso general, y el POMDP descentralizado en el caso cooperativo.

Cooperación versus competencia

Cuando múltiples agentes actúan en un entorno compartido, sus intereses pueden estar alineados o desalineados. MARL permite explorar los diferentes alineamientos y cómo afectan el comportamiento de los agentes:

Entornos de pura competición

Cuando dos agentes juegan un juego de suma cero , están en pura competencia entre sí. Muchos juegos tradicionales como el ajedrez y el Go entran en esta categoría, al igual que las variantes para dos jugadores de juegos modernos como StarCraft . Como cada agente sólo puede ganar a expensas del otro, se eliminan muchas complejidades. No hay perspectivas de comunicación o dilemas sociales, ya que ninguno de los agentes está incentivado a realizar acciones que beneficien a su oponente.

Los proyectos Deep Blue [8] y AlphaGo demuestran cómo optimizar el rendimiento de los agentes en entornos puramente competitivos.

Una complejidad que no se elimina en entornos puramente competitivos es el autocurricula. A medida que se mejora la política de los agentes mediante el juego autónomo , pueden ocurrir múltiples capas de aprendizaje.

Entornos de pura cooperación

MARL se utiliza para explorar cómo agentes separados con intereses idénticos pueden comunicarse y trabajar juntos. Los entornos de cooperación pura se exploran en juegos cooperativos recreativos como Overcooked , [9] así como escenarios del mundo real en robótica . [10]

En entornos de cooperación pura, todos los agentes obtienen recompensas idénticas, lo que significa que no ocurren dilemas sociales.

En entornos de cooperación pura, a menudo hay un número arbitrario de estrategias de coordinación y los agentes convergen en "convenciones" específicas cuando se coordinan entre sí. La noción de convenciones se ha estudiado en el lenguaje [11] y también se ha aludido a ella en tareas colaborativas multiagente más generales. [12] [13] [14] [15]

Configuraciones de suma mixta

En este escenario de suma mixta, cada uno de los cuatro agentes intenta alcanzar un objetivo diferente. El éxito de cada agente depende de que los demás le abran el camino, aunque no estén directamente incentivados a ayudarse entre sí. [dieciséis]

La mayoría de los escenarios del mundo real que involucran a múltiples agentes tienen elementos tanto de cooperación como de competencia. Por ejemplo, cuando varios vehículos autónomos planifican sus respectivas rutas, cada uno de ellos tiene intereses divergentes pero no excluyentes: cada automóvil minimiza la cantidad de tiempo que tarda en llegar a su destino, pero todos los automóviles tienen el interés compartido de evitando una colisión de tráfico . [17]

Los entornos de suma cero con tres o más agentes a menudo exhiben propiedades similares a los entornos de suma mixta, ya que cada par de agentes puede tener una suma de utilidad distinta de cero entre ellos.

Los entornos de suma mixta se pueden explorar utilizando juegos matriciales clásicos como el dilema del prisionero , dilemas sociales secuenciales más complejos y juegos recreativos como Among Us , [18] Diplomacy [19] y StarCraft II . [20] [21]

Los entornos de suma mixta pueden dar lugar a dilemas sociales y de comunicación.

Dilemas sociales

Como en la teoría de juegos , gran parte de la investigación en MARL gira en torno a dilemas sociales , como el dilema del prisionero , [22] la caza de la gallina y el ciervo . [23]

Mientras que la investigación de la teoría de juegos podría centrarse en los equilibrios de Nash y cuál sería una política ideal para un agente, la investigación de MARL se centra en cómo los agentes aprenderían estas políticas ideales mediante un proceso de prueba y error. Los algoritmos de aprendizaje por refuerzo que se utilizan para entrenar a los agentes maximizan la propia recompensa del agente; el conflicto entre las necesidades de los agentes y las necesidades del grupo es un tema de investigación activa. [24]

Se han explorado varias técnicas para inducir la cooperación en los agentes: modificar las reglas del entorno, [25] agregar recompensas intrínsecas, [4] y más.

Dilemas sociales secuenciales

Los dilemas sociales como el dilema del prisionero, la caza de la gallina y el ciervo son "juegos de matrices". Cada agente realiza solo una acción entre dos acciones posibles, y se utiliza una matriz simple de 2x2 para describir la recompensa que obtendrá cada agente, dadas las acciones que realizó cada agente.

En los seres humanos y otros seres vivos, los dilemas sociales tienden a ser más complejos. Los agentes realizan múltiples acciones a lo largo del tiempo y la distinción entre cooperar y desertar no es tan clara como en los juegos matriciales. El concepto de dilema social secuencial (SSD) se introdujo en 2017 [26] como un intento de modelar esa complejidad. Se están realizando investigaciones para definir diferentes tipos de SSD y mostrar un comportamiento cooperativo en los agentes que actúan en ellos. [27]

Autocurricula

Un autocurriculum [28] (plural: autocurricula) es un concepto de aprendizaje por refuerzo que destaca en experimentos con múltiples agentes. A medida que los agentes mejoran su desempeño, cambian su entorno; este cambio en el entorno les afecta a ellos mismos y a los demás agentes. El circuito de retroalimentación da como resultado varias fases distintas de aprendizaje, cada una dependiendo de la anterior. Las capas apiladas de aprendizaje se denominan autocurriculum. Los autocurricula son especialmente evidentes en entornos adversarios, [29] donde cada grupo de agentes corre para contrarrestar la estrategia actual del grupo contrario.

El juego del escondite es un ejemplo accesible de un autocurriculum que ocurre en un entorno adversario. En este experimento, un equipo de buscadores compite contra un equipo de escondidos. Cada vez que uno de los equipos aprende una nueva estrategia, el equipo contrario adapta su estrategia para ofrecer el mejor contraataque posible. Cuando los escondidos aprenden a usar cajas para construir un refugio, los buscadores responden aprendiendo a usar una rampa para entrar en ese refugio. Los escondidos responden cerrando las rampas, haciéndolas no disponibles para el uso de los buscadores. Luego, los buscadores responden "surfeando por la caja", aprovechando un error en el juego para penetrar el refugio. Cada "nivel" de aprendizaje es un fenómeno emergente, que tiene como premisa el nivel anterior. Esto da como resultado una serie de comportamientos, cada uno de los cuales depende de su predecesor.

Los autocurricula en experimentos de aprendizaje por refuerzo se comparan con las etapas de la evolución de la vida en la tierra y el desarrollo de la cultura humana . Una etapa importante en la evolución ocurrió hace 2 mil o 3 mil millones de años, cuando las formas de vida fotosintetizadoras comenzaron a producir cantidades masivas de oxígeno , cambiando el equilibrio de los gases en la atmósfera. [30] En las siguientes etapas de la evolución, evolucionaron formas de vida que respiraban oxígeno, lo que eventualmente condujo a los mamíferos terrestres y los seres humanos. Estas últimas etapas sólo pudieron ocurrir después de que la etapa de fotosíntesis hiciera que el oxígeno estuviera ampliamente disponible. De manera similar, la cultura humana no podría haber pasado por la revolución industrial del siglo XVIII sin los recursos y conocimientos adquiridos por la revolución agrícola alrededor del año 10.000 a.C. [31]

Aplicaciones

El aprendizaje por refuerzo multiagente se ha aplicado a una variedad de casos de uso en la ciencia y la industria:

Alineación de IA

El aprendizaje por refuerzo de múltiples agentes se ha utilizado en la investigación sobre la alineación de la IA . La relación entre los diferentes agentes en un entorno MARL se puede comparar con la relación entre un humano y un agente de IA. Los esfuerzos de investigación en la intersección de estos dos campos intentan simular posibles conflictos entre las intenciones de un ser humano y las acciones de un agente de IA, y luego explorar qué variables podrían cambiarse para prevenir estos conflictos. [45] [46]

Limitaciones

Existen algunas dificultades inherentes al aprendizaje por refuerzo profundo con múltiples agentes . [47] El entorno ya no es estacionario, por lo que se viola la propiedad de Markov : las transiciones y recompensas no dependen sólo del estado actual de un agente.

Otras lecturas

Referencias

  1. ^ Stefano V. Albrecht, Filippos Christianos, Lukas Schäfer. Aprendizaje por refuerzo de múltiples agentes: fundamentos y enfoques modernos. Prensa del MIT, 2024. https://www.marl-book.com/
  2. ^ Lowe, Ryan; Wu, Yi (2020). "Actor-crítico multiagente para entornos mixtos cooperativos y competitivos". arXiv : 1706.02275v4 [cs.LG].
  3. ^ Panadero, Bowen (2020). "Reciprocidad emergente y formación de equipos a partir de preferencias sociales inciertas aleatorias". Actas NeurIPS 2020 . arXiv : 2011.05373 .
  4. ^ ab Hughes, Edward; Leibo, Joel Z.; et al. (2018). "La aversión a la desigualdad mejora la cooperación en dilemas sociales intertemporales". Actas NeurIPS 2018 . arXiv : 1803.08884 .
  5. ^ Jacques, Natasha; Lazaridou, Angeliki; Hughes, Eduardo; et al. (2019). "La influencia social como motivación intrínseca para el aprendizaje por refuerzo profundo de múltiples agentes". Actas de la 35ª Conferencia Internacional sobre Aprendizaje Automático . arXiv : 1810.08647 .
  6. ^ Lazaridou, Angeliki (2017). "Cooperación entre agentes y el surgimiento del lenguaje (natural)". ICLR 2017 . arXiv : 1612.07182 .
  7. ^ Duéñez-Guzmán, Edgar; et al. (2021). "Discriminación estadística en agentes de aprendizaje". arXiv : 2110.11404v1 [cs.LG].
  8. ^ Campbell, Murray; Hoane, A. José hijo; Hsu, Feng-hsiung (2002). "Azul profundo". Inteligencia artificial . 134 (1–2). Elsevier: 57–83. doi :10.1016/S0004-3702(01)00129-1. ISSN  0004-3702.
  9. ^ Carroll, Miqueas; et al. (2019). "Sobre la utilidad del aprendizaje sobre humanos para la coordinación entre humanos y IA". arXiv : 1910.05789 [cs.LG].
  10. ^ Xie, Annie; Losey, Dylan; Tolsma, Ryan; finlandés, Chelsea ; Sadigh, Dorsa (noviembre de 2020). Aprendizaje de representaciones latentes para influir en la interacción entre múltiples agentes (PDF) . CoRL.
  11. ^ Clark, Herbert; Wilkes-Gibbs, Deanna (febrero de 1986). "En referencia como un proceso de colaboración". Cognición . 22 (1): 1–39. doi :10.1016/0010-0277(86)90010-7. PMID  3709088. S2CID  204981390.
  12. ^ Boutilier, Craig (17 de marzo de 1996). "Planificación, aprendizaje y coordinación en procesos de decisión multiagente". Actas de la VI Conferencia sobre Aspectos Teóricos de la Racionalidad y el Conocimiento : 195–210.
  13. ^ Piedra, Pedro; Kaminka, Gal A.; Kraus, Sarit; Rosenschein, Jeffrey S. (julio de 2010). Equipos de agentes autónomos ad hoc: colaboración sin coordinación previa. AAAI 11.
  14. ^ Foerster, Jakob N.; Canción, H. Francis; Hughes, Eduardo; Burch, Neil; Dunning, Iain; Whiteson, Shimón; Botvinick, Mateo M; Bowling, Michael H. Decodificador de acción bayesiano para un aprendizaje profundo por refuerzo de múltiples agentes . ICML 2019. arXiv : 1811.01458 .
  15. ^ Shih, Andy; Sawhney, Arjun; Kondic, Jovana; Ermón, Stefano; Sadigh, Dorsa. Sobre el papel fundamental de las convenciones en la colaboración adaptativa entre humanos y IA . ICLR 2021. arXiv : 2104.02871 .
  16. ^ Bettini, Mateo; Kortvelesy, Ryan; Blumenkamp, ​​enero; Prorok, Amanda (2022). "VMAS: un simulador multiagente vectorizado para el aprendizaje colectivo de robots". El XVI Simposio Internacional sobre Sistemas Robóticos Autónomos Distribuidos . Saltador. arXiv : 2207.03530 .
  17. ^ Shalev-Shwartz, Shai; Shammah, sacudida; Shashua, Amnón (2016). "Aprendizaje reforzado, seguro y multiagente para la conducción autónoma". arXiv : 1610.03295 [cs.AI].
  18. ^ Kopparapu, Kavya; Duéñez-Guzmán, Edgar A.; Matías, Jayd; Vezhnevets, Alexander Sasha; Agapiou, John P.; McKee, Kevin R.; Everett, Richard; Marecki, Janusz; Leibo, Joel Z.; Graepel, Thore (2022). "Agenda oculta: un juego de deducción social con diversos equilibrios aprendidos". arXiv : 2201.01816 [cs.AI].
  19. ^ Bajtin, Anton; Marrón, Noam; et al. (2022). "Juego a nivel humano en el juego de la diplomacia combinando modelos lingüísticos con razonamiento estratégico". Ciencia . 378 (6624). Saltador: 1067–1074. Código Bib : 2022 Ciencia... 378.1067M. doi : 10.1126/science.ade9097. PMID  36413172. S2CID  253759631.
  20. ^ Samvelyan, Mikayel; Rashid, Tabish; de Witt, Christian Schroeder; Farquhar, Gregorio; Nardelli, Nantas; Rudner, Tim GJ; Hung, Chia-Man; Torr, Philip HS; Foerster, Jakob; Whiteson, Shimon (2019). "El desafío multiagente de StarCraft". arXiv : 1902.04043 [cs.LG].
  21. ^ Ellis, Benjamín; Moalla, Skander; Samvelyan, Mikayel; Sol, Mingfei; Mahajan, Anuj; Foerster, Jakob N.; Whiteson, Shimon (2022). "SMACv2: un punto de referencia mejorado para el aprendizaje cooperativo por refuerzo de múltiples agentes". arXiv : 2212.07489 [cs.LG].
  22. ^ Sandholm, Toumas W.; Crites, Robert H. (1996). "Aprendizaje por refuerzo multiagente en el dilema del prisionero iterado". Biosistemas . 37 (1–2): 147–166. Código Bib : 1996BiSys..37..147S. doi :10.1016/0303-2647(95)01551-5. PMID  8924633.
  23. ^ Peysakhovich, Alejandro; Lerer, Adam (2018). "Los agentes de aprendizaje prosocial resuelven la caza de ciervos generalizada mejor que las egoístas". AAMAS 2018 . arXiv : 1709.02865 .
  24. ^ Dafoe, Allan; Hughes, Eduardo; Bachrac, Yoram; et al. (2020). "Problemas abiertos en la IA cooperativa". NeuroIPS 2020 . arXiv : 2012.08630 .
  25. ^ Köster, Rafael; Hadfield-Menell, Dylan; Hadfield, Gillian K.; Leibo, Joel Z. "Las reglas tontas mejoran la capacidad de los agentes para aprender comportamientos estables de aplicación y cumplimiento". AAMAS 2020 . arXiv : 2001.09318 .
  26. ^ Leibo, Joel Z.; Zambaldi, Vinicius; Lanctot, Marc; Marecki, Janusz; Graepel, Thore (2017). "Aprendizaje por refuerzo multiagente en dilemas sociales secuenciales". AAMAS 2017 . arXiv : 1702.03037 .
  27. ^ Badjatiya, Pinkesh; Sarkar, Mausoom (2020). "Inducir el comportamiento cooperativo en dilemas sociales secuenciales mediante el aprendizaje por refuerzo de múltiples agentes utilizando la pérdida de status quo". arXiv : 2001.05458 [cs.AI].
  28. ^ Leibo, Joel Z.; Hughes, Eduardo; et al. (2019). "Autocurricula y el surgimiento de la innovación a partir de la interacción social: un manifiesto para la investigación de inteligencia multiagente". arXiv : 1903.00742v2 [cs.AI].
  29. ^ Panadero, Bowen; et al. (2020). "Uso de herramientas emergentes de los autocurrículos de agentes múltiples". ICLR 2020 . arXiv : 1909.07528 .
  30. ^ Casting, James F; Siefert, Janet L. (2002). "La vida y la evolución de la atmósfera terrestre". Ciencia . 296 (5570): 1066–1068. Código Bib : 2002 Ciencia... 296.1066K. doi : 10.1126/ciencia.1071184. PMID  12004117. S2CID  37190778.
  31. ^ Clark, Gregorio (2008). Un adiós a la limosna: una breve historia económica del mundo . Prensa de la Universidad de Princeton. ISBN 978-0-691-14128-2.
  32. ^ abcdefgh Li, Tianxu; Zhu, Kun; Luong, Nguyen Cong; Niyato, Dusit; Wu, Qihui; Zhang, Yang; Chen, Bing (2021). "Aplicaciones del aprendizaje por refuerzo de múltiples agentes en la Internet del futuro: una encuesta completa". arXiv : 2110.13484 [cs.AI].
  33. ^ Le, Ngan; Rathour, Vidhiwar Singh; Yamazaki, Kashu; Luu, Khoa; Savvides, Marios (2021). "Aprendizaje por refuerzo profundo en visión por computadora: una encuesta completa". arXiv : 2108.11510 [cs.CV].
  34. ^ Moulin-Frier, Clément; Oudeyer, Pierre-Yves (2020). "Aprendizaje por refuerzo de múltiples agentes como herramienta computacional para la investigación de la evolución del lenguaje: contexto histórico y desafíos futuros". arXiv : 2002.08878 [cs.MA].
  35. ^ Killian, Jackson; Xu, lirio; Biswas, Arpita; Verma, Shresth; et al. (2023). Planificación sólida en grupos inquietos: intervenciones de participación para un programa de telesalud materna a gran escala . AAAI.
  36. ^ Krishnan, Srivatsan; Jacques, Natasha; Omidshafiei, Shayegan; Zhang, Dan; Gur, Izzeddin; Reddi, Vijay Janapa; Fausto, Aleksandra (2022). "Aprendizaje por refuerzo de múltiples agentes para la exploración espacial de diseño de microprocesadores". arXiv : 2211.16385 [cs.AR].
  37. ^ Li, Yuanzheng; Él, Shangyang; Li, Yang; Shi, Yang; Zeng, Zhigang (2023). "Enfoque de aprendizaje por refuerzo profundo de múltiples agentes federados a través de recompensas basadas en la física para la gestión de energía de múltiples microrredes". Transacciones IEEE sobre redes neuronales y sistemas de aprendizaje . PP (5): 5902–5914. arXiv : 2301.00641 . doi :10.1109/TNNLS.2022.3232630. PMID  37018258. S2CID  255372287.
  38. ^ Ci, Hai; Liu, Mickel; Pan, Xuehai; Zhong, Fangwei; Wang, Yizhou (2023). Colaboración proactiva multicámara para la estimación de la postura humana en 3D. Conferencia Internacional sobre Representaciones del Aprendizaje.
  39. ^ Vinitsky, Eugenio; Kreidieh, Aboudy; Le Flem, Luc; Kheterpal, Nishant; Jang, Kathy; Wu, Fangyu; Liaw, Richard; Liang, Eric; Bayén, Alexandre M. (2018). Puntos de referencia para el aprendizaje por refuerzo en tráfico de autonomía mixta (PDF) . Jornada sobre aprendizaje de robots.
  40. ^ Tuyls, Karl; Omidshafiei, Shayegan; Müller, Paul; Wang, Zhe; Connor, Jerome; Hennes, Daniel; Graham, Ian; Lancero, William; Waskett, Tim; Steele, Dafydd; Luc, Paulina; Recasens, Adriá; Galashov, Alexandre; Thornton, Gregorio; Elie, Romualdo; Sprechmann, Pablo; Moreno, Pol; Cao, Kris; Garnelo, Marta; Dutta, Praneet; Valko, Michal; Heess, Nicolás; Bridgland, Alex; Perolat, Julien; De Vylder, Bart; Eslami, Ali; Rowland, Marcos; Jaegle, Andrés; Munos, Remi; Atrás, Trevor; Ahamed, Razia; Bouton, Simón; Beauguerlange, Nathalie; Broshear, Jackson; Graepel, Thore; Hassabis, Demis (2020). "Plan de juego: qué puede hacer la IA por el fútbol y qué puede hacer el fútbol por la IA". arXiv : 2011.09192 [cs.AI].
  41. ^ Chu, Tianshu; Wang, Jie; Codec├á, Lara; Li, Zhaojian (2019). "Aprendizaje por refuerzo profundo de múltiples agentes para el control de señales de tráfico a gran escala". arXiv : 1903.04527 [cs.LG].
  42. ^ Belletti, Francois; Haziza, Daniel; Gómez, Gabriel; Bayén, Alexandre M. (2017). "Control de nivel experto de medición de rampa basado en aprendizaje por refuerzo profundo multitarea". arXiv : 1701.08832 [cs.AI].
  43. ^ Ding, Yao; Yang, Zhaohui; Pham, Quoc-Viet; Zhang, Zhaoyang; Shikh-Bahaei, Mohammad (2023). "Aprendizaje automático distribuido para enjambres de vehículos aéreos no tripulados: informática, detección y semántica". arXiv : 2301.00912 [cs.LG].
  44. ^ Xu, lirio; Perrault, Andrés; Colmillo, Fei; Chen, Haipeng; Tambe, Milind (2021). "Aprendizaje de refuerzo sólido bajo el arrepentimiento de Minimax por la seguridad ecológica". arXiv : 2106.08413 [cs.LG].
  45. ^ Leike, enero; Martic, Miljan; Cracovia, Victoria; Ortega, Pedro A.; Everitt, Tom; Lefrancq, Andrés; Orseau, Laurent; Legg, Shane (2017). "Mundos de red de seguridad de IA". arXiv : 1711.09883 [cs.AI].
  46. ^ Hadfield-Menell, Dylan; Dragán, Anca; Abbeel, Pieter; Russell, Estuardo (2016). "El juego del interruptor". arXiv : 1611.08219 [cs.AI].
  47. ^ Hernández-Leal, Pablo; Kartal, Bilal; Taylor, Matthew E. (1 de noviembre de 2019). "Un estudio y crítica del aprendizaje por refuerzo profundo multiagente". Agentes Autónomos y Sistemas Multiagente . 33 (6): 750–797. arXiv : 1810.05587 . doi :10.1007/s10458-019-09421-1. ISSN  1573-7454. S2CID  52981002.