stringtranslate.com

Juego propio

El juego autónomo es una técnica para mejorar el rendimiento de los agentes de aprendizaje por refuerzo . Intuitivamente, los agentes aprenden a mejorar su rendimiento jugando "contra sí mismos".

Definición y motivación

En los experimentos de aprendizaje por refuerzo con múltiples agentes , los investigadores intentan optimizar el rendimiento de un agente de aprendizaje en una tarea determinada, en cooperación o competencia con uno o más agentes. Estos agentes aprenden por ensayo y error, y los investigadores pueden optar por que el algoritmo de aprendizaje desempeñe el papel de dos o más de los diferentes agentes. Cuando se ejecuta con éxito, esta técnica tiene una doble ventaja:

  1. Proporciona una forma sencilla de determinar las acciones de los demás agentes, lo que resulta en un desafío significativo.
  2. Aumenta la cantidad de experiencia que puede utilizarse para mejorar la política, en un factor de dos o más, ya que los puntos de vista de cada uno de los diferentes agentes pueden utilizarse para el aprendizaje.

Czarnecki et al [1] sostienen que la mayoría de los juegos que la gente juega por diversión son "juegos de habilidad", es decir, juegos cuyo espacio de todas las estrategias posibles parece un trompo. Con más detalle, podemos dividir el espacio de estrategias en conjuntos , de modo que cualquier , la estrategia supere a la estrategia . Entonces, en el juego autónomo basado en la población, si la población es mayor que , entonces el algoritmo convergería a la mejor estrategia posible.

Uso

El programa AlphaZero utiliza el autojuego para mejorar su rendimiento en las partidas de ajedrez , shogi y go . [2]

El juego autónomo también se utiliza para entrenar al sistema de inteligencia artificial Cicero para que supere a los humanos en el juego Diplomacy . La técnica también se utiliza para entrenar al sistema DeepNash para que juegue al juego Stratego . [3] [4]

Conexiones con otras disciplinas

El juego personal se ha comparado con el concepto epistemológico de tabula rasa que describe la forma en que los humanos adquieren conocimiento a partir de una "pizarra en blanco". [5]

Lectura adicional

Referencias

  1. ^ Czarnecki, Wojciech M.; Gidel, Gauthier; Tracey, Brendan; Tuyls, Karl; Omidshafiei, Shayegan; Balduzzi, David; Jaderberg, Max (2020). "Los juegos del mundo real parecen peonzas". Avances en sistemas de procesamiento de información neuronal . 33 . Curran Associates, Inc.: 17443–17454.
  2. ^ Silver, David ; Hubert, Thomas; Schrittwieser, Julian; Antonoglou, Ioannis; Lai, Matthew; Guez, Arthur; Lanctot, Marc; Sifre, Laurent; Kumaran, Dharshan ; Graepel, Thore; Lillicrap, Timothy; Simonyan, Karen; Hassabis, Demis (5 de diciembre de 2017). "Dominar el ajedrez y el shogi mediante el juego propio con un algoritmo general de aprendizaje por refuerzo". arXiv : 1712.01815 [cs.AI].
  3. ^ Snyder, Alison (1 de diciembre de 2022). «Dos nuevos sistemas de IA superan a los humanos en juegos complejos». Axios . Consultado el 29 de diciembre de 2022 .
  4. ^ Erich_Grunewald, "Notas sobre la IA que juega con la diplomacia en Meta", LessWrong
  5. ^ Laterre, Alexandre (2018). "Recompensa clasificada: habilitación del aprendizaje de refuerzo de juego propio para la optimización combinatoria". arXiv : 1712.01815 [cs.AI].