AlphaGo Cero

AlphaGo Zero es una versión del software Go AlphaGo de DeepMind . El equipo de AlphaGo publicó un artículo en la revista Nature el 19 de octubre de 2017, presentando AlphaGo Zero, una versión creada sin usar datos de juegos humanos, y más fuerte que cualquier versión anterior. ^[1] Al jugar partidas contra sí mismo, AlphaGo Zero superó la fuerza de AlphaGo Lee en tres días al ganar 100 partidas a 0, alcanzó el nivel de AlphaGo Master en 21 días y superó a todas las versiones anteriores en 40 días. ^[2]

El entrenamiento de inteligencia artificial (IA) sin conjuntos de datos derivados de expertos humanos tiene implicaciones significativas para el desarrollo de IA con habilidades sobrehumanas porque los datos de expertos "a menudo son caros, poco confiables o simplemente no están disponibles". ^[3] Demis Hassabis , cofundador y director ejecutivo de DeepMind, dijo que AlphaGo Zero era tan poderoso porque "ya no estaba restringido por los límites del conocimiento humano". ^[4] Además, AlphaGo Zero funcionó mejor que los modelos de aprendizaje profundo de refuerzo estándar (como las implementaciones de DQN ^[5] ) debido a su integración de la búsqueda de árboles de Monte Carlo. David Silver , uno de los primeros autores de los artículos de DeepMind publicados en Nature sobre AlphaGo, dijo que es posible tener algoritmos de IA generalizados eliminando la necesidad de aprender de los humanos. ^[6]

Google desarrolló más tarde AlphaZero , una versión generalizada de AlphaGo Zero que podía jugar ajedrez y Shōgi además de Go. ^[7] En diciembre de 2017, AlphaZero venció a la versión de 3 días de AlphaGo Zero al ganar 60 partidas a 40, y con 8 horas de entrenamiento superó a AlphaGo Lee en una escala Elo . AlphaZero también derrotó a un programa de ajedrez de primer nivel ( Stockfish ) y a un programa de Shōgi de primer nivel ( Elmo ). ^[8]^[9]

Arquitectura

La red en AlphaGo Zero es una ResNet con dos cabezas. ^[1]^{: Apéndice: Métodos}

El eje de la red toma como entrada una representación tensorial de 17x19x19 del tablero de Go.
- Los 8 canales son las posiciones de las piedras del jugador actual en los últimos ocho pasos de tiempo. (1 si hay una piedra, 0 en caso contrario. Si el paso de tiempo es anterior al comienzo del juego, entonces 0 en todas las posiciones).
- 8 canales son las posiciones de las piedras del otro jugador en los últimos ocho pasos de tiempo.
- 1 canal es 1 si las negras deben moverse, y 0 en caso contrario.
El cuerpo es una ResNet con 20 o 40 bloques residuales y 256 canales.
Hay dos cabezas, una cabeza de política y una cabeza de valor.
- El encabezado de política genera una matriz logit de tamaño , que representa el logit de realizar un movimiento en uno de los puntos, más el logit de pasar . $19\times 19+1$
- El valor principal genera un número en el rango , que representa el puntaje esperado para el jugador actual. -1 representa que el jugador actual está perdiendo y +1 representa que está ganando. $(-1,+1)$

Capacitación

La red neuronal de AlphaGo Zero se entrenó utilizando TensorFlow , con 64 trabajadores de GPU y 19 servidores de parámetros de CPU. Solo se utilizaron cuatro TPU para la inferencia. La red neuronal inicialmente no sabía nada sobre Go más allá de las reglas . A diferencia de las versiones anteriores de AlphaGo, Zero solo percibía las piedras del tablero, en lugar de tener algunos casos extremos raros programados por humanos para ayudar a reconocer posiciones inusuales en el tablero de Go. La IA participó en el aprendizaje de refuerzo , jugando contra sí misma hasta que pudo anticipar sus propios movimientos y cómo esos movimientos afectarían el resultado del juego. ^[10] En los primeros tres días, AlphaGo Zero jugó 4,9 millones de juegos contra sí mismo en rápida sucesión. ^[11] Pareció desarrollar las habilidades necesarias para vencer a los mejores humanos en solo unos días, mientras que el AlphaGo anterior tardó meses de entrenamiento en alcanzar el mismo nivel. ^[12]

A modo de comparación, los investigadores también entrenaron una versión de AlphaGo Zero usando juegos humanos, AlphaGo Master, y descubrieron que aprendía más rápido, pero en realidad su rendimiento era peor a largo plazo. ^[13] DeepMind presentó sus hallazgos iniciales en un artículo a Nature en abril de 2017, que luego se publicó en octubre de 2017. ^[1]

Costo del hardware

El costo del hardware para un solo sistema AlphaGo Zero en 2017, incluidas las cuatro TPU, se ha estimado en alrededor de 25 millones de dólares. ^[14]

Aplicaciones

Según Hassabis, es probable que los algoritmos de AlphaGo sean de mayor beneficio para los dominios que requieren una búsqueda inteligente a través de un enorme espacio de posibilidades, como el plegamiento de proteínas (ver AlphaFold ) o la simulación precisa de reacciones químicas. ^[15] Las técnicas de AlphaGo son probablemente menos útiles en dominios que son difíciles de simular, como aprender a conducir un automóvil. ^[16] DeepMind declaró en octubre de 2017 que ya había comenzado a trabajar activamente para intentar utilizar la tecnología AlphaGo Zero para el plegamiento de proteínas, y afirmó que pronto publicaría nuevos hallazgos. ^[17]^[18]

Recepción

AlphaGo Zero fue ampliamente considerado como un avance significativo, incluso cuando se lo compara con su innovador predecesor, AlphaGo. Oren Etzioni, del Instituto Allen de Inteligencia Artificial, calificó a AlphaGo Zero como "un resultado técnico muy impresionante" tanto por "su capacidad para hacerlo como por su capacidad para entrenar el sistema en 40 días, en cuatro TPU". ^[10] The Guardian lo calificó como un "gran avance para la inteligencia artificial", citando a Eleni Vasilaki, de la Universidad de Sheffield , y Tom Mitchell, de la Universidad Carnegie Mellon , quienes lo calificaron de hazaña impresionante y "logro de ingeniería sobresaliente", respectivamente. ^[16] Mark Pesce, de la Universidad de Sydney, calificó a AlphaGo Zero como "un gran avance tecnológico" que nos lleva a un "territorio no descubierto". ^[19]

Gary Marcus , psicólogo de la Universidad de Nueva York , ha advertido de que, por lo que sabemos, AlphaGo puede contener "conocimiento implícito que tienen los programadores sobre cómo construir máquinas para jugar a problemas como Go" y será necesario probarlo en otros dominios antes de estar seguros de que su arquitectura básica es eficaz para mucho más que jugar a Go. Por el contrario, DeepMind está "confiado en que este enfoque se puede generalizar a una gran cantidad de dominios". ^[11]

En respuesta a los informes, el profesional de Go surcoreano Lee Sedol dijo: "La versión anterior de AlphaGo no era perfecta, y creo que por eso se creó AlphaGo Zero". Sobre el potencial de desarrollo de AlphaGo, Lee dijo que tendrá que esperar y ver, pero también dijo que afectará a los jugadores jóvenes de Go. Mok Jin-seok , quien dirige el equipo nacional de Go de Corea del Sur, dijo que el mundo del Go ya ha estado imitando los estilos de juego de versiones anteriores de AlphaGo y creando nuevas ideas a partir de ellos, y tiene la esperanza de que surjan nuevas ideas de AlphaGo Zero. Mok también agregó que las tendencias generales en el mundo del Go ahora están siendo influenciadas por el estilo de juego de AlphaGo. "Al principio, fue difícil de entender y casi sentí que estaba jugando contra un extraterrestre. Sin embargo, después de haber tenido una gran cantidad de experiencia, me he acostumbrado", dijo Mok. "Ahora hemos superado el punto en el que debatimos la brecha entre la capacidad de AlphaGo y los humanos. Ahora es entre computadoras". Según se informa, Mok ya ha comenzado a analizar el estilo de juego de AlphaGo Zero junto con jugadores de la selección nacional. "Aunque sólo hemos visto unos pocos partidos, nos ha dado la impresión de que AlphaGo Zero juega más como un humano que sus predecesores", dijo Mok. ^[20] El profesional chino de Go, Ke Jie, comentó sobre los notables logros del nuevo programa: "Un AlphaGo de autoaprendizaje puro es el más fuerte. Los humanos parecen redundantes frente a su automejora". ^[21]

Comparación con sus predecesores

Alfa Cero

El 5 de diciembre de 2017, el equipo de DeepMind publicó una preimpresión en arXiv , presentando AlphaZero, un programa que utiliza el enfoque generalizado de AlphaGo Zero, que logró en 24 horas un nivel de juego sobrehumano en ajedrez , shogi y Go , derrotando a los programas campeones mundiales, Stockfish , Elmo y la versión de 3 días de AlphaGo Zero en cada caso. ^[8]

AlphaZero (AZ) es una variante más generalizada del algoritmo AlphaGo Zero (AGZ) y es capaz de jugar shogi y ajedrez además de Go. Las diferencias entre AZ y AGZ incluyen: ^[8]

AZ tiene reglas codificadas para configurar hiperparámetros de búsqueda .
La red neuronal ahora se actualiza continuamente.
El ajedrez (a diferencia del Go) puede terminar en empate; por lo tanto, AZ puede tener en cuenta la posibilidad de un juego de empate.

Hay disponible un programa de código abierto , Leela Zero , basado en las ideas de los artículos de AlphaGo. Utiliza una GPU en lugar de las TPU de las que dependen las versiones recientes de AlphaGo.

Referencias

^ abcdefg Silver, David ; Schrittwieser, Julian; Simonyan, Karen; Antonoglou, Ioannis; Huang, Aja ; Guez, Arthur; Hubert, Thomas; Baker, Lucas; Lai, Matthew; Bolton, Adrian; Chen, Yutian ; Lillicrap, Timothy; Fan, Hui ; Sifre, Laurent; Driessche, George van den; Graepel, Thore; Hassabis, Demis (19 de octubre de 2017). "Dominar el juego de Go sin conocimiento humano" (PDF) . Naturaleza . 550 (7676): 354–359. Código Bibliográfico :2017Natur.550..354S. doi :10.1038/nature24270. ISSN 0028-0836. PMID 29052630. S2CID 205261034. Archivado (PDF) del original el 18 de julio de 2018. Consultado el 2 de septiembre de 2019 .
^ abcde Hassabis, Demis ; Siver, David (18 de octubre de 2017). «AlphaGo Zero: Aprendiendo desde cero». Sitio web oficial de DeepMind . Archivado desde el original el 19 de octubre de 2017 . Consultado el 19 de octubre de 2017 .
^ "El nuevo avance AlphaGo de Google podría llevar a los algoritmos a donde ningún ser humano ha llegado". Yahoo! Finance . 19 de octubre de 2017. Archivado desde el original el 19 de octubre de 2017 . Consultado el 19 de octubre de 2017 .
^ Knapton, Sarah (18 de octubre de 2017). «AlphaGo Zero: la supercomputadora Google DeepMind aprende 3.000 años de conocimiento humano en 40 días». The Telegraph . Archivado desde el original el 19 de octubre de 2017. Consultado el 19 de octubre de 2017 .
^ mnj12 (7 de julio de 2021), mnj12/chessDeepLearning , consultado el 7 de julio de 2021{{citation}}: CS1 maint: numeric names: authors list (link)
^ "DeepMind AlphaGo Zero aprende por sí solo sin la intervención de un idiota". ZDNet . 19 de octubre de 2017. Archivado desde el original el 20 de octubre de 2017 . Consultado el 20 de octubre de 2017 .
^ https://www.idi.ntnu.no/emner/it3105/materials/neural/silver-2017b.pdf
^ abcde Silver, David ; Hubert, Thomas; Schrittwieser, Julian; Antonoglou, Ioannis; Lai, Matthew; Guez, Arthur; Lanctot, Marc; Sifre, Laurent; Kumaran, Dharshan ; Graepel, Thore; Lillicrap, Timothy; Simonyan, Karen; Hassabis, Demis (5 de diciembre de 2017). "Dominar el ajedrez y el shogi mediante el juego propio con un algoritmo general de aprendizaje por refuerzo". arXiv : 1712.01815 [cs.AI].
^ Knapton, Sarah; Watson, Leon (6 de diciembre de 2017). «Todo el conocimiento del ajedrez humano aprendido y superado por AlphaZero de DeepMind en cuatro horas». The Telegraph . Archivado desde el original el 2 de diciembre de 2020. Consultado el 5 de abril de 2018 .
^ ab Greenemeier, Larry. «AI versus AI: el AlphaGo Zero autodidacta vence a su predecesor». Scientific American . Archivado desde el original el 19 de octubre de 2017. Consultado el 20 de octubre de 2017 .
^ ab "Computer Learns To Play Go At Superhuman Levels 'Without Human Knowledge'" (Una computadora aprende a jugar al Go a niveles sobrehumanos 'sin conocimiento humano'). NPR . 18 de octubre de 2017. Archivado desde el original el 20 de octubre de 2017 . Consultado el 20 de octubre de 2017 .
^ "El nuevo avance AlphaGo de Google podría llevar a los algoritmos a donde ningún ser humano ha llegado". Fortune . 19 de octubre de 2017. Archivado desde el original el 19 de octubre de 2017 . Consultado el 20 de octubre de 2017 .
^ "Este programa informático puede vencer a los humanos en Go, sin necesidad de instrucciones humanas". Ciencia | AAAS . 18 de octubre de 2017. Archivado desde el original el 2 de febrero de 2022 . Consultado el 20 de octubre de 2017 .
^ Gibney, Elizabeth (18 de octubre de 2017). «La IA autodidacta es la mejor hasta ahora en el juego de estrategia Go». Nature News . doi :10.1038/nature.2017.22858. Archivado desde el original el 1 de mayo de 2020 . Consultado el 10 de mayo de 2020 .
^ "La última inteligencia artificial puede resolver problemas sin necesidad de que se le enseñe". The Economist . Archivado desde el original el 19 de octubre de 2017. Consultado el 20 de octubre de 2017 .
^ ab Sample, Ian (18 de octubre de 2017). «'Es capaz de crear conocimiento por sí misma': Google presenta una IA que aprende por sí sola». The Guardian . Archivado desde el original el 19 de octubre de 2017. Consultado el 20 de octubre de 2017 .
^ "'Es capaz de crear conocimiento por sí misma': Google presenta una IA que aprende por sí sola". The Guardian . 18 de octubre de 2017. Archivado desde el original el 19 de octubre de 2017 . Consultado el 26 de diciembre de 2017 .
^ Knapton, Sarah (18 de octubre de 2017). «AlphaGo Zero: la supercomputadora Google DeepMind aprende 3.000 años de conocimiento humano en 40 días». The Telegraph . Archivado desde el original el 15 de diciembre de 2017. Consultado el 26 de diciembre de 2017 .
^ "Cómo la nueva IA de Google puede aprender por sí sola a vencerte en los juegos más complejos". Australian Broadcasting Corporation . 19 de octubre de 2017. Archivado desde el original el 20 de octubre de 2017. Consultado el 20 de octubre de 2017 .
^ "Los jugadores de Go están entusiasmados con el AlphaGo Zero 'más parecido a un humano'". Korea Bizwire . 19 de octubre de 2017. Archivado desde el original el 21 de octubre de 2017 . Consultado el 21 de octubre de 2017 .
^ "La nueva versión de AlphaGo puede dominar el Weiqi sin ayuda humana". Servicio de noticias de China . 19 de octubre de 2017. Archivado desde el original el 19 de octubre de 2017. Consultado el 21 de octubre de 2017 .
^ "【柯洁战败解密】AlphaGo Master最新架构和算法，谷歌云与TPU拆解" (en chino). Sohu . 24 de mayo de 2017. Archivado desde el original el 17 de septiembre de 2017 . Consultado el 1 de junio de 2017 .
^ El hardware utilizado durante el entrenamiento puede ser sustancialmente más potente

Enlaces externos y lectura adicional

«AlphaGo Zero: Empezando desde cero». Archivado desde el original el 3 de enero de 2020.
Singh, S.; Okun, A.; Jackson, A. (2017). "AOP". Nature . 550 (7676): 336–337. Bibcode :2017Natur.550..336S. doi : 10.1038/550336a . PMID 29052631. S2CID 4447445.
Silver, David; Schrittwieser, Julian; Simonyan, Karen; Antonoglou, Ioannis; Huang, Aja; Guez, Arthur; Hubert, Thomas; Baker, Lucas; Lai, Matthew; Bolton, Adrian; Chen, Yutian; Lillicrap, Timothy; Hui, Fan; Sifre, Laurent; Van Den Driessche, George; Graepel, Thore; Hassabis, Demis (2017). "Dominar el juego de Go sin conocimiento humano" (PDF) . Naturaleza . 550 (7676): 354–359. Bibcode :2017Natur.550..354S. doi :10.1038/nature24270. PMID 29052630. S2CID 205261034.
Juegos de AlphaGo Zero