OpenAI Cinco

OpenAI Five es un programa informático de OpenAI que juega al videojuego de cinco contra cinco Dota 2. Su primera aparición pública se produjo en 2017, donde se demostró en una partida uno contra uno en directo contra el jugador profesional Dendi , que perdió contra él. Al año siguiente, el sistema había avanzado hasta el punto de funcionar como un equipo completo de cinco, y comenzó a jugar contra equipos profesionales y a demostrar su capacidad para derrotarlos.

Al elegir un juego tan complejo como Dota 2 para estudiar el aprendizaje automático , OpenAI pensó que podría capturar con mayor precisión la imprevisibilidad y la continuidad observadas en el mundo real, construyendo así sistemas de resolución de problemas más generales. Los algoritmos y el código utilizados por OpenAI Five fueron finalmente tomados prestados por otra red neuronal en desarrollo por la empresa, una que controlaba una mano robótica física. OpenAI Five ha sido comparado con otros casos similares de inteligencia artificial (IA) jugando contra humanos y derrotándolos, como AlphaStar en el videojuego StarCraft II , AlphaGo en el juego de mesa Go , Deep Blue en ajedrez y Watson en el programa de televisión Jeopardy !.

Historia

El desarrollo de los algoritmos utilizados para los bots comenzó en noviembre de 2016. OpenAI decidió utilizar Dota 2 , un videojuego competitivo de cinco contra cinco, como base debido a que era popular en la plataforma de transmisión en vivo Twitch , tenía soporte nativo para Linux y tenía una interfaz de programación de aplicaciones (API) disponible. ^[1] Antes de convertirse en un equipo de cinco, la primera demostración pública ocurrió en The International 2017 en agosto, el torneo de campeonato de estreno anual para el juego, donde Dendi , un jugador profesional ucraniano, perdió contra un bot de OpenAI en un enfrentamiento uno contra uno en vivo. ^[2]^[3] Después del partido, el CTO Greg Brockman explicó que el bot había aprendido jugando contra sí mismo durante dos semanas en tiempo real , y que el software de aprendizaje era un paso en la dirección de crear software que pueda manejar tareas complejas "como ser un cirujano". ^[4]^[5] OpenAI utiliza una metodología llamada aprendizaje de refuerzo , ya que los bots aprenden con el tiempo jugando contra sí mismos cientos de veces al día durante meses, en los que son recompensados por acciones como matar a un enemigo y destruir torres. ^[6]^[7]^[8]

En junio de 2018, la capacidad de los bots se expandió para jugar juntos como un equipo completo de cinco y pudieron derrotar a equipos de jugadores amateurs y semiprofesionales. ^[9]^[6]^[10]^[11] En The International 2018 , OpenAI Five jugó en dos juegos contra equipos profesionales, uno contra paiN Gaming con sede en Brasil y el otro contra un equipo estelar de exjugadores chinos. ^[12]^[13] Aunque los bots perdieron ambos partidos, OpenAI todavía lo consideró una empresa exitosa, afirmando que jugar contra algunos de los mejores jugadores de Dota 2 les permitió analizar y ajustar sus algoritmos para juegos futuros. ^[14] La demostración pública final de los bots ocurrió en abril de 2019, donde ganaron una serie al mejor de tres contra los campeones de The International 2018, OG, en un evento en vivo en San Francisco . ^[15] Un evento en línea de cuatro días para jugar contra los bots, abierto al público, ocurrió el mismo mes. ^[16] Allí, los bots jugaron en 42.729 juegos públicos, ganando el 99,4% de esos juegos. ^[17]

Arquitectura

Cada bot OpenAI Five es una red neuronal que contiene una sola capa con un LSTM de 4096 unidades ^[18] que observa el estado actual del juego extraído de la API del desarrollador de Dota. La red neuronal realiza acciones a través de numerosos posibles cabezales de acción (sin datos humanos involucrados), y cada cabezal tiene un significado. Por ejemplo, la cantidad de ticks para retrasar una acción, qué acción seleccionar: la coordenada X o Y de esta acción en una cuadrícula alrededor de la unidad. Además, los cabezales de acción se calculan de forma independiente. El sistema de IA observa el mundo como una lista de 20 000 números y realiza una acción realizando una lista de ocho valores de enumeración. Además, selecciona diferentes acciones y objetivos para comprender cómo codificar cada acción y observar el mundo. ^[19]

OpenAI Five se ha desarrollado como un sistema de entrenamiento de aprendizaje de refuerzo de propósito general en la infraestructura "Rapid". Rapid consta de dos capas: pone en marcha miles de máquinas y las ayuda a "hablar" entre sí y una segunda capa ejecuta el software. En 2018, OpenAI Five había jugado alrededor de 180 años de juegos de aprendizaje de refuerzo ejecutándose en 256 GPU y 128.000 núcleos de CPU , ^[20] utilizando la optimización de políticas proximales , un método de gradiente de políticas . ^[19]^[21]

Comparaciones con otros sistemas de IA de juegos

Antes de OpenAI Five, se habían utilizado con éxito otros experimentos y sistemas de IA contra humanos, como Jeopardy! con Watson , ajedrez con Deep Blue y Go con AlphaGo . ^[22]^[23]^[24] En comparación con otros juegos que han utilizado sistemas de IA para jugar contra jugadores humanos, Dota 2 se diferencia como se explica a continuación: ^[19]

Visión de largo plazo : los robots funcionan a 30 cuadros por segundo durante un tiempo de partida promedio de 45 minutos, lo que da como resultado 80 000 ticks por partida. OpenAI Five observa cada cuarto cuadro, lo que genera 20 000 movimientos. En comparación, el ajedrez generalmente termina antes de 40 movimientos, mientras que el Go termina antes de 150 movimientos.

Estado del juego parcialmente observado : los jugadores y sus aliados solo pueden ver el mapa que los rodea directamente. El resto está cubierto por una niebla de guerra que oculta las unidades enemigas y sus movimientos. Por lo tanto, jugar Dota 2 requiere hacer inferencias basadas en estos datos incompletos, así como predecir lo que su oponente podría estar haciendo al mismo tiempo. En comparación, el ajedrez y el Go son "juegos de información completa", ya que no ocultan elementos al jugador oponente. ^[25]

Espacio de acción continua : cada personaje jugable en una partida de Dota 2 , conocido como héroe, puede realizar docenas de acciones que tienen como objetivo a otra unidad o a una posición. Los desarrolladores de OpenAI Five permiten un espacio de 170.000 acciones posibles por héroe. Sin contar los aspectos perpetuos del juego, hay un promedio de ~1.000 acciones válidas por tick. En comparación, el número promedio de acciones en ajedrez es 35 y 250 en Go.

Espacio de observación continua : Dota 2 se juega en un gran mapa con diez héroes, cinco en cada equipo, junto con docenas de edificios y unidades de personajes no jugadores (NPC). El sistema OpenAI observa el estado de un juego a través de la API del bot de los desarrolladores, como 20.000 números que constituyen toda la información a la que un humano puede acceder. Un tablero de ajedrez se representa con unas 70 listas, mientras que un tablero de Go tiene unas 400 enumeraciones.

Recepción

OpenAI Five ha recibido el reconocimiento de la comunidad de IA, tecnología y videojuegos en general. El fundador de Microsoft, Bill Gates, lo calificó como un "gran logro", ya que sus victorias "requerían trabajo en equipo y colaboración". ^[8]^[26] El ajedrecista Garry Kasparov , que perdió contra Deep Blue AI en 1997, afirmó que a pesar de su desempeño perdedor en The International 2018, los robots eventualmente "llegarían allí, y antes de lo esperado". ^[27]

En una conversación con MIT Technology Review , los expertos en IA también consideraron el sistema OpenAI Five como un logro significativo, ya que señalaron que Dota 2 era un "juego extremadamente complicado", por lo que incluso vencer a jugadores no profesionales era impresionante. ^[25] PC Gamer escribió que sus victorias contra jugadores profesionales fueron un evento significativo en el aprendizaje automático. ^[28] Por el contrario, Motherboard escribió que la victoria fue "básicamente una trampa" debido a los grupos de héroes simplificados en ambos lados, así como al hecho de que a los bots se les dio acceso directo a la API, en lugar de usar la visión por computadora para interpretar los píxeles en la pantalla. ^[29] The Verge escribió que los bots eran evidencia de que el enfoque de la compañía hacia el aprendizaje por refuerzo y su filosofía general sobre la IA estaba "dando hitos". ^[16]

En 2019, DeepMind presentó un bot similar para Starcraft II , AlphaStar . Al igual que OpenAI Five, AlphaStar utilizó el aprendizaje por refuerzo y el juego autónomo. The Verge informó que "el objetivo de este tipo de investigación de IA no es solo aplastar a los humanos en varios juegos solo para demostrar que se puede hacer. En cambio, es demostrar que, con suficiente tiempo, esfuerzo y recursos, el software de IA sofisticado puede superar a los humanos en prácticamente cualquier desafío cognitivo competitivo, ya sea un juego de mesa o un videojuego moderno". Agregaron que las victorias de DeepMind y OpenAI también fueron un testimonio del poder de ciertos usos del aprendizaje por refuerzo. ^[30]

OpenAI tenía la esperanza de que la tecnología pudiera tener aplicaciones fuera del ámbito digital. En 2018, pudieron reutilizar los mismos algoritmos de aprendizaje de refuerzo y el código de entrenamiento de OpenAI Five para Dactyl , una mano robótica similar a la humana con una red neuronal diseñada para manipular objetos físicos. ^[31] En 2019, Dactyl resolvió el cubo de Rubik . ^[32]

Referencias

^ OpenAI. «OpenAI Five». openai.com/five . Archivado desde el original el 1 de septiembre de 2018. Consultado el 10 de octubre de 2018 .
^ Savov, Vlad (14 de agosto de 2017). «Mi juego favorito ha sido invadido por robots asesinos de IA y por el bombo publicitario de Elon Musk». The Verge . Archivado desde el original el 26 de junio de 2018. Consultado el 25 de junio de 2018 .
^ Frank, Blair Hanley. «El bot de OpenAI derrota tan duramente al mejor jugador de Dota 2 que abandona el juego». Venture Beat . Archivado desde el original el 12 de agosto de 2017. Consultado el 12 de agosto de 2017 .
^ OpenAI (11 de agosto de 2017). «Dota 2». blog.openai.com . Archivado desde el original el 11 de agosto de 2017. Consultado el 12 de agosto de 2017 .
^ OpenAI (16 de agosto de 2017). «Más sobre Dota 2». blog.openai.com . Archivado desde el original el 16 de agosto de 2017. Consultado el 16 de agosto de 2017 .
^ ab Simonite, Tom (25 de junio de 2018). "¿Pueden los bots ser más listos que los humanos en uno de los juegos de deportes electrónicos más importantes?". Wired . Archivado desde el original el 25 de junio de 2018. Consultado el 25 de junio de 2018 .
^ Kahn, Jeremy (25 de junio de 2018). "Un robot respaldado por Elon Musk ha logrado un gran avance en inteligencia artificial en el mundo de los videojuegos". Bloomberg.com . Archivado desde el original el 27 de junio de 2018. Consultado el 27 de junio de 2018 .
^ ab "Bill Gates dice que los bots de los jugadores de una organización sin fines de lucro respaldada por Elon Musk son un 'gran hito' en la IA" CNBC . 28 de junio de 2018. Archivado desde el original el 28 de junio de 2018 . Consultado el 28 de junio de 2018 .
^ OpenAI (18 de julio de 2018). «OpenAI Five Benchmark». blog.openai.com . Archivado desde el original el 26 de agosto de 2018. Consultado el 25 de agosto de 2018 .
^ Vincent, James (25 de junio de 2018). «Bots de IA entrenados durante 180 años al día para vencer a humanos en Dota 2». The Verge . Archivado desde el original el 25 de junio de 2018. Consultado el 25 de junio de 2018 .
^ Savov, Vlad (6 de agosto de 2018). «Los bots de Dota 2 de OpenAI acaban de derrotar a un equipo de antiguos profesionales». The Verge . Archivado desde el original el 7 de agosto de 2018. Consultado el 7 de agosto de 2018 .
^ Simonite, Tom. "Los jugadores profesionales se defienden de los robots de inteligencia artificial respaldados por Elon Musk, por ahora". Wired . Archivado desde el original el 24 de agosto de 2018. Consultado el 25 de agosto de 2018 .
^ Quach, Katyanna. «Game over, machines: Humans derrota a los bots de OpenAI una vez más en los Juegos Olímpicos de videojuegos». The Register . Archivado desde el original el 25 de agosto de 2018. Consultado el 25 de agosto de 2018 .
^ OpenAI (24 de agosto de 2018). «The International 2018: Resultados». blog.openai.com . Archivado desde el original el 24 de agosto de 2018 . Consultado el 25 de agosto de 2018 .
^ Wiggers, Kyle (13 de abril de 2019). «OpenAI Five derrota a un equipo profesional de Dota 2, dos veces». Venture Beat . Archivado desde el original el 13 de abril de 2019. Consultado el 13 de abril de 2019 .
^ ab Statt, Nick (13 de abril de 2019). «La IA de Dota 2 de OpenAI aplasta al equipo campeón mundial de deportes electrónicos con victorias consecutivas». The Verge . Vox Media. Archivado desde el original el 15 de abril de 2019 . Consultado el 15 de abril de 2019 .
^ Wiggers, Kyle (22 de abril de 2019). «El bot de Dota 2 de OpenAI derrotó al 99,4 % de los jugadores en partidas públicas». Venture Beat . Consultado el 22 de abril de 2019 .
^ "Dota 2 con aprendizaje por refuerzo profundo a gran escala" (PDF) . OpenAI . Archivado (PDF) del original el 26 de septiembre de 2024 . Consultado el 29 de septiembre de 2024 .
^ abc OpenAI (25 de junio de 2018). «OpenAI Five». blog.openai.com . Archivado desde el original el 25 de junio de 2018 . Consultado el 25 de junio de 2018 .
^ "¿Por qué los investigadores de IA están tan obsesionados con los juegos?". QUARTZ . 4 de agosto de 2018. Archivado desde el original el 4 de agosto de 2018 . Consultado el 4 de agosto de 2018 .
^ Schulman, John; Wolski, Filip; Dhariwal, Prafulla; Radford, Alec; Klimov, Oleg (2017). "Algoritmos de optimización de políticas proximales". arXiv : 1707.06347 [cs.LG].
^ Gabbatt, Adam (17 de febrero de 2011). «IBM computer Watson wins Jeopardy clash». The Guardian . Archivado desde el original el 21 de septiembre de 2013. Consultado el 17 de febrero de 2011 .
^ "El gran maestro de ajedrez Garry Kasparov habla de lo que ocurre cuando las máquinas 'alcanzan un nivel con el que es imposible que los humanos compitan'". Business Insider . Archivado desde el original el 29 de diciembre de 2017. Consultado el 29 de diciembre de 2017 .
^ "La IA de DeepMind que juega al Go ya no necesita ayuda humana para vencernos". Verge . 18 de octubre de 2017. Archivado desde el original el 18 de octubre de 2017 . Consultado el 18 de octubre de 2017 .
^ ab Knight, Will (25 de junio de 2018). «Un equipo de algoritmos de IA acaba de aplastar a los humanos en un complejo juego de ordenador». MIT Tech Review . Consultado el 25 de junio de 2018 .
^ "Bill Gates celebra un 'enorme hito' para la IA: los robots trabajan en equipo para destruir a los humanos en el videojuego 'Dota 2'". Business Insider . Archivado desde el original el 27 de junio de 2018. Consultado el 27 de junio de 2018 .
^ "El Twitter de Garry Kasparov". 24 de agosto de 2018. Consultado el 24 de agosto de 2018 .
^ Park, Morgan (11 de agosto de 2018). «Cómo los cinco de OpenAI destrozaron a un equipo de profesionales de Dota 2». PC Gamer . Consultado el 25 de mayo de 2020 .
^ Gault, Matthew (17 de agosto de 2018). «OpenAI está venciendo a los humanos en 'Dota 2' porque básicamente está haciendo trampa». Vice . Consultado el 25 de mayo de 2020 .
^ Statt, Nick (30 de octubre de 2019). «La IA de DeepMind en StarCraft 2 es ahora mejor que el 99,8 por ciento de todos los jugadores humanos». The Verge . Consultado el 25 de mayo de 2020 .
^ Abierto AI; Andrychowicz, Marcin; Panadero, Bowen; Chociej, Maciek; Józefowicz, Rafał; McGrew, Bob; Pachocki, Jakub; Petron, Arthur; Plappert, Matías; Powell, Glenn; Rayo, Alex; Schneider, Jonás; Sidor, Szymon; Tobin, Josh; Welinder, Peter; Weng, Lilian; Zaremba, Wojciech (2019). "Aprendiendo a manipular con destreza las manos". arXiv : 1808.00177v5 [cs.LG].
^ Abierto AI; Akkaya, Ilge; Andrychowicz, Marcin; Chociej, Maciek; Litwin, Mateusz; McGrew, Bob; Petron, Arturo; Dolor, Alex; Plappert, Matías; Powell, Glenn; Ribas, Rafael (2019). "Resolver el cubo de Rubik con una mano de robot". arXiv : 1910.07113v1 [cs.LG].

Enlaces externos

Sitio web oficial
Blog oficial