stringtranslate.com

alfacero

AlphaZero es un programa informático desarrollado por la empresa de investigación de inteligencia artificial DeepMind para dominar los juegos de ajedrez , shogi y go . Este algoritmo utiliza un enfoque similar a AlphaGo Zero .

El 5 de diciembre de 2017, el equipo de DeepMind publicó un artículo preimpreso que presentaba AlphaZero, que dentro de las 24 horas de entrenamiento logró un nivel de juego sobrehumano en estos tres juegos al derrotar a los programas campeones mundiales Stockfish , Elmo y la versión de tres días de AlphaGo. Cero. En cada caso, utilizó unidades de procesamiento tensorial (TPU) personalizadas para las que los programas de Google fueron optimizados. [1] AlphaZero se entrenó únicamente mediante el juego automático utilizando 5.000 TPU de primera generación para generar los juegos y 64 TPU de segunda generación para entrenar las redes neuronales , todo en paralelo , sin acceso a libros de apertura ni a mesas de finales . Después de cuatro horas de entrenamiento, DeepMind estimó que AlphaZero estaba jugando ajedrez con una calificación Elo más alta que Stockfish 8; Después de nueve horas de entrenamiento, el algoritmo derrotó a Stockfish 8 en un torneo de 100 juegos con tiempo controlado (28 victorias, 0 derrotas y 72 empates). [1] [2] [3] El algoritmo entrenado se reprodujo en una sola máquina con cuatro TPU.

El artículo de DeepMind sobre AlphaZero se publicó en la revista Science el 7 de diciembre de 2018; [4] sin embargo, el programa AlphaZero en sí no se ha puesto a disposición del público. [5] En 2019, DeepMind publicó un nuevo artículo que detalla MuZero , un nuevo algoritmo capaz de generalizar el trabajo de AlphaZero, jugando tanto a Atari como a juegos de mesa sin conocimiento de las reglas o representaciones del juego. [6]

Relación con AlphaGo Zero

AlphaZero (AZ) es una variante más generalizada del algoritmo AlphaGo Zero (AGZ) y es capaz de jugar shogi y ajedrez además de Go . Las diferencias entre AZ y AGZ incluyen: [1]

Stockfish y Elmo

Comparando las búsquedas de árbol de Monte Carlo , AlphaZero busca sólo 80.000 posiciones por segundo en ajedrez y 40.000 en shogi, en comparación con 70 millones de Stockfish y 35 millones de Elmo. AlphaZero compensa el menor número de evaluaciones utilizando su red neuronal profunda para centrarse de forma mucho más selectiva en la variación más prometedora. [1]

Capacitación

AlphaZero se entrenó únicamente mediante el juego automático , utilizando 5.000 TPU de primera generación para generar los juegos y 64 TPU de segunda generación para entrenar las redes neuronales . Paralelamente, el AlphaZero en entrenamiento se comparó periódicamente con su punto de referencia (Stockfish, Elmo o AlphaGo Zero) en breves juegos de un segundo por movimiento para determinar qué tan bien estaba progresando el entrenamiento. DeepMind consideró que el rendimiento de AlphaZero superó el punto de referencia después de aproximadamente cuatro horas de entrenamiento para Stockfish, dos horas para Elmo y ocho horas para AlphaGo Zero. [1]

Resultados preliminares

Resultado

Ajedrez

En el partido de ajedrez de AlphaZero contra Stockfish 8 ( campeón mundial de TCEC 2016 ), a cada programa se le dio un minuto por movimiento. AlphaZero enarbolaba bandera inglesa, mientras que Stockfish la noruega. [7] A Stockfish se le asignaron 64 subprocesos y un tamaño de hash de 1 GB, [1] una configuración que Tord Romstad de Stockfish criticó más tarde como subóptima. [8] [nota 1] AlphaZero fue entrenado en ajedrez durante un total de nueve horas antes del partido. Durante el partido, AlphaZero se ejecutó en una sola máquina con cuatro TPU de aplicaciones específicas . En 100 juegos desde la posición inicial normal, AlphaZero ganó 25 juegos con blancas, ganó 3 con negras y empató los 72 restantes. [9] En una serie de doce, partidos de 100 juegos (con limitaciones de tiempo o recursos no especificados) contra Stockfish Partiendo de las 12 aperturas humanas más populares, AlphaZero ganó 290, empató 886 y perdió 24. [1]

shogui

AlphaZero entrenó en shogi durante un total de dos horas antes del torneo. En 100 partidas de shogi contra Elmo (versión del torneo World Computer Shogi Championship 27 de verano de 2017 con búsqueda de YaneuraOu 4.73), AlphaZero ganó 90 veces, perdió 8 veces y empató dos veces. [9] Al igual que en los juegos de ajedrez, cada programa obtuvo un minuto por movimiento, y Elmo recibió 64 subprocesos y un tamaño de hash de 1 GB. [1]

Ir

Después de 34 horas de autoaprendizaje de Go y contra AlphaGo Zero, AlphaZero ganó 60 juegos y perdió 40. [1] [9]

Análisis

DeepMind declaró en su preimpresión: "El juego de ajedrez representó el pináculo de la investigación de la IA durante varias décadas. Los programas de última generación se basan en potentes motores que buscan muchos millones de posiciones, aprovechando la experiencia en dominios artesanales y adaptaciones sofisticadas de dominios. AlphaZero es un algoritmo genérico de aprendizaje por refuerzo , originalmente ideado para el juego de go, que logró resultados superiores en unas pocas horas, buscando mil veces menos posiciones, sin ningún conocimiento del dominio excepto las reglas. [1] Demis Hassabis de DeepMind , un jugador de ajedrez, calificó el estilo de juego de AlphaZero como "extraño": a veces gana ofreciendo sacrificios contrarios a la intuición, como ofrecer una reina y un alfil para explotar una ventaja posicional. "Es como ajedrez de otra dimensión". [10]

Dada la dificultad en el ajedrez de forzar una victoria contra un oponente fuerte , el resultado +28 –0 =72 es un margen de victoria significativo. Sin embargo, algunos grandes maestros, como Hikaru Nakamura y el desarrollador de Komodo Larry Kaufman , restaron importancia a la victoria de AlphaZero, argumentando que el partido habría sido más reñido si los programas hubieran tenido acceso a una base de datos de apertura (ya que Stockfish estaba optimizado para ese escenario). [11] Romstad señaló además que Stockfish no está optimizado para movimientos de tiempo estrictamente fijo y que la versión utilizada tenía un año de antigüedad. [8] [12]

De manera similar, algunos observadores de shogi argumentaron que el tamaño del hash de Elmo era demasiado bajo, que las configuraciones de renuncia y las configuraciones de "EnteringKingRule" (cf. shogi § Entering King ) pueden haber sido inapropiadas y que Elmo ya está obsoleto en comparación con programas más nuevos. [13] [14]

Reacción y crítica

Los periódicos titularon que el entrenamiento de ajedrez duró sólo cuatro horas: "Se realizó en poco más que el tiempo entre el desayuno y el almuerzo". [2] [15] Wired describió a AlphaZero como "el primer campeón de juegos de mesa de IA con múltiples habilidades". [16] La experta en inteligencia artificial Joanna Bryson señaló que la "habilidad para la buena publicidad" de Google lo estaba colocando en una posición fuerte frente a sus rivales. "No se trata sólo de contratar a los mejores programadores. También es muy político, ya que ayuda a que Google sea lo más fuerte posible a la hora de negociar con gobiernos y reguladores que analizan el sector de la IA". [9]

Los grandes maestros de ajedrez humanos generalmente expresaron entusiasmo por AlphaZero. El gran maestro danés Peter Heine Nielsen comparó el juego de AlphaZero con el de una especie alienígena superior. [9] El gran maestro noruego Jon Ludvig Hammer caracterizó el juego de AlphaZero como "ajedrez de ataque loco" con una profunda comprensión posicional. [2] El ex campeón Garry Kasparov dijo: "Es un logro notable, incluso si deberíamos haberlo esperado después de AlphaGo". [11] [17]

El Gran Maestro Hikaru Nakamura quedó menos impresionado y afirmó: "No necesariamente doy mucha credibilidad a los resultados simplemente porque tengo entendido que AlphaZero básicamente usa la supercomputadora de Google y Stockfish no se ejecuta en ese hardware; Stockfish básicamente estaba ejecutando en lo que sería mi computadora portátil. Si quieres tener una coincidencia que sea comparable, también debes tener Stockfish ejecutándose en una supercomputadora". [8]

El mejor jugador de ajedrez por correspondencia de EE. UU., Wolff Morrow, tampoco se mostró impresionado y afirmó que AlphaZero probablemente no llegaría a las semifinales de una competencia justa como TCEC , donde todos los motores juegan en el mismo hardware. Morrow declaró además que aunque podría no ser capaz de vencer a AlphaZero si AlphaZero jugara aperturas con tablas como la Defensa Petroff , AlphaZero tampoco podría vencerlo en una partida de ajedrez por correspondencia . [18]

Motohiro Isozaki, autor de YaneuraOu, señaló que aunque AlphaZero venció ampliamente a Elmo, la calificación de AlphaZero en shogi dejó de crecer en un punto que es, como máximo, entre 100 y 200 puntos más alto que Elmo. Esta brecha no es tan grande, y Elmo y otros programas de shogi deberían poder alcanzarla en 1 o 2 años. [19]

Resultados finales

DeepMind abordó muchas de las críticas en su versión final del artículo, publicado en diciembre de 2018 en Science . [4] Aclararon además que AlphaZero no se estaba ejecutando en una supercomputadora; fue entrenado utilizando 5000 unidades de procesamiento tensorial (TPU), pero solo se ejecutó en cuatro TPU y una CPU de 44 núcleos en sus partidos. [20]

Ajedrez

En los resultados finales, la versión 8 de Stockfish se ejecutó en las mismas condiciones que en la superfinal de TCEC : 44 núcleos de CPU, bases de datos de finales Syzygy y un tamaño de hash de 32 GB. En lugar de un control de tiempo fijo de un movimiento por minuto, a ambos motores se les dio 3 horas más 15 segundos por movimiento para terminar el juego. En un partido de 1000 juegos, AlphaZero ganó con una puntuación de 155 victorias, 6 derrotas y 839 empates. DeepMind también jugó una serie de juegos utilizando las posiciones iniciales de TCEC; AlphaZero también ganó de manera convincente. Stockfish necesitaba probabilidades de tiempo de 10 a 1 para igualar a AlphaZero. [21]

shogui

Al igual que Stockfish, Elmo corrió en las mismas condiciones que en el campeonato CSA de 2017. La versión de Elmo utilizada fue WCSC27 en combinación con YaneuraOu 2017 Early KPPT 4.79 64AVX2 TOURNAMENT. Elmo operaba con el mismo hardware que Stockfish: 44 núcleos de CPU y un tamaño de hash de 32 GB. AlphaZero ganó el 98,2% de las partidas jugando sente (es decir, haciendo el primer movimiento) y el 91,2% en general.

Reacciones y críticas

Los grandes maestros humanos en general quedaron impresionados con las partidas de AlphaZero contra Stockfish. [21] El ex campeón mundial Garry Kasparov dijo que era un placer ver jugar a AlphaZero, especialmente porque su estilo era abierto y dinámico como el suyo. [22] [23]

En la comunidad de ajedrez informático, el desarrollador de Komodo, Mark Lefler, lo calificó como un "logro bastante sorprendente", pero también señaló que los datos eran antiguos, ya que Stockfish había ganado mucha fuerza desde enero de 2018 (cuando se lanzó Stockfish 8). Su compañero desarrollador Larry Kaufman dijo que AlphaZero probablemente perdería una partida contra la última versión de Stockfish, Stockfish 10, bajo las condiciones del Top Chess Engine Championship (TCEC). Kaufman argumentó que la única ventaja de los motores basados ​​en redes neuronales era que usaban una GPU, por lo que si no se tenía en cuenta el consumo de energía (por ejemplo, en una competencia de hardware igual donde ambos motores tenían acceso a la misma CPU y GPU), entonces cualquier cosa la GPU conseguida fue "gratuita". En base a esto, afirmó que el motor más potente probablemente sería un híbrido con redes neuronales y búsqueda alfa-beta estándar . [24]

AlphaZero inspiró a la comunidad de ajedrez informático a desarrollar Leela Chess Zero , utilizando las mismas técnicas que AlphaZero. Leela disputó varios campeonatos contra Stockfish, donde mostró una fuerza más o menos similar a la de Stockfish, aunque desde entonces Stockfish se ha alejado. [25]

En 2019, DeepMind publicó MuZero , un sistema unificado que jugaba excelente ajedrez, shogi y go, así como juegos en el entorno de aprendizaje Atari , sin estar preprogramado con sus reglas. [26] [27]

Ver también

Notas

  1. ^ El desarrollador de Stockfish, Tord Romstad, respondió con

    Los resultados de las partidas por sí solos no son particularmente significativos debido a la elección bastante extraña de los controles de tiempo y la configuración de los parámetros de Stockfish: Las partidas se jugaron a un tiempo fijo de 1 minuto/movimiento, lo que significa que Stockfish no puede utilizar su heurística de gestión del tiempo ( Se ha puesto mucho esfuerzo en hacer que Stockfish identifique los puntos críticos del juego y decida cuándo dedicar más tiempo a un movimiento; en un tiempo fijo por movimiento, la fuerza se verá afectada significativamente). La versión de Stockfish utilizada tiene un año de antigüedad, jugaba con muchos más hilos de búsqueda de los que jamás se habían sometido a una cantidad significativa de pruebas y tenía tablas hash demasiado pequeñas para la cantidad de hilos. Creo que el porcentaje de empates hubiera sido mucho mayor en un partido en condiciones más normales. [8]

Referencias

  1. ^ abcdefghij Plata, David ; Hubert, Thomas; Schrittwieser, Julián; Antonoglou, Ioannis; Lai, Mateo; Guez, Arturo; Lanctot, Marc; Sifré, Laurent; Kumaran, Dharshan ; Graepel, Thore; Lillicrap, Timoteo; Simonyan, Karen; Hassabis, Demis (5 de diciembre de 2017). "Dominar el ajedrez y el shogi mediante el juego autónomo con un algoritmo de aprendizaje por refuerzo general". arXiv : 1712.01815 [cs.AI].
  2. ^ abc Knapton, Sarah; Watson, León (6 de diciembre de 2017). "Todo el conocimiento humano del ajedrez aprendido y superado por AlphaZero de DeepMind en cuatro horas". Telegraph.co.uk . Consultado el 6 de diciembre de 2017 .
  3. ^ Vincent, James (6 de diciembre de 2017). "La IA de DeepMind se convirtió en un jugador de ajedrez sobrehumano en unas pocas horas, sólo por diversión". El borde . Consultado el 6 de diciembre de 2017 .
  4. ^ ab Plata, David ; Hubert, Thomas; Schrittwieser, Julián; Antonoglou, Ioannis; Lai, Mateo; Guez, Arturo; Lanctot, Marc; Sifré, Laurent; Kumaran, Dharshan; Graepel, Thore; Lillicrap, Timoteo; Simonyan, Karen; Hassabis, Demis (7 de diciembre de 2018). "Un algoritmo general de aprendizaje por refuerzo que domina el ajedrez, el shogi y practica el juego autónomo". Ciencia . 362 (6419): 1140–1144. Código Bib : 2018 Ciencia... 362.1140S. doi : 10.1126/science.aar6404 . PMID  30523106.
  5. ^ "Términos de ajedrez: AlphaZero". Ajedrez.com . Consultado el 30 de julio de 2022 .
  6. ^ Schrittwieser, Julián; Antonoglou, Ioannis; Hubert, Thomas; Simonyan, Karen; Sifré, Laurent; Schmitt, Simón; Guez, Arturo; Lockhart, Eduardo; Hassabis, Demis; Graepel, Thore; Lillicrap, Timoteo (2020). "Dominar Atari, Go, ajedrez y shogi planificando con un modelo aprendido". Naturaleza . 588 (7839): 604–609. arXiv : 1911.08265 . Código Bib :2020Natur.588..604S. doi :10.1038/s41586-020-03051-4. PMID  33361790. S2CID  208158225.
  7. ^ "AlphaZero contra Stockfish 2017".
  8. ^ abcd "AlphaZero: reacciones de los principales transgénicos, autor de Stockfish". ajedrez.com . 8 de diciembre de 2017 . Consultado el 9 de diciembre de 2017 .
  9. ^ abcde "La IA de Google 'sobrehumana' reclama la corona del ajedrez" . Noticias de la BBC . 6 de diciembre de 2017 . Consultado el 7 de diciembre de 2017 .
  10. ^ Caballero, Will (8 de diciembre de 2017). "El ajedrez" alienígena "de Alpha Zero muestra el poder y la peculiaridad de la IA". Revisión de tecnología del MIT . Consultado el 11 de diciembre de 2017 .
  11. ^ ab "AlphaZero de Google destruye Stockfish en una partida de 100 juegos". Ajedrez.com . Consultado el 7 de diciembre de 2017 .
  12. ^ Katyanna Quach. "La IA AlphaZero de DeepMind derrotó a la aplicación de ajedrez rival en un tablero de juego sin niveles". El Registro (14 de diciembre de 2017).
  13. ^ "Algunas preocupaciones sobre las condiciones de coincidencia entre el motor AlphaZero y Shogi".コンピュータ将棋 レーティング. "uuunuuun" (un blogger que califica motores de shogi gratuitos) . Consultado el 9 de diciembre de 2017 .(a través de "瀧澤 誠@elmo (@mktakizawa) | Twitter". mktakizawa (desarrollador de elmo) . 9 de diciembre de 2017. Consultado el 11 de diciembre de 2017 .)
  14. ^ "DeepMind 社 が や ね う ら 王 に 注 目 し 始 め た よ う で す". El desarrollador de YaneuraOu, un componente de búsqueda utilizado por elmo. 7 de diciembre de 2017 . Consultado el 9 de diciembre de 2017 .
  15. ^ Badshah, Nadeem (7 de diciembre de 2017). "El robot DeepMind de Google se convierte en gran maestro de ajedrez mundial en cuatro horas". Los tiempos de Londres . Consultado el 7 de diciembre de 2017 .
  16. ^ "El último programa de inteligencia artificial de Alphabet, Pony, tiene más de un truco". CABLEADO . 6 de diciembre de 2017 . Consultado el 7 de diciembre de 2017 .
  17. ^ Gibbs, Samuel (7 de diciembre de 2017). "AlphaZero AI vence al programa campeón de ajedrez después de aprender solo en cuatro horas". El guardián . Consultado el 8 de diciembre de 2017 .
  18. ^ "Hablando de ajedrez por correspondencia moderno". Base de ajedrez. 26 de junio de 2018 . Consultado el 11 de julio de 2018 .
  19. ^ DeepMind 社 が や ね う ら 王 に 注 目 し 始 め た よ う で す | やねうら王 公式サイト, 2017年12月7日
  20. ^ Como se indica en el artículo de Science , una TPU es "más o menos similar en velocidad de inferencia a una GPU Titan V, aunque las arquitecturas no son directamente comparables" (Ref. 24).
  21. ^ ab "AlphaZero aplasta el stockfish en una nueva partida de 1000 juegos". 6 de diciembre de 2018.
  22. ^ Sean Ingle (11 de diciembre de 2018). "'El creativo AlphaZero abre el camino a las computadoras de ajedrez y, tal vez, a la ciencia ". El guardián .
  23. ^ Albert Silver (7 de diciembre de 2018). "Dentro de la mente (profunda) de AlphaZero". Base de ajedrez.
  24. ^ "Komodo MCTS (Monte Carlo Tree Search) es la nueva estrella de TCEC". Ajedrez. 18 de diciembre de 2018.
  25. ^ Ver TCEC y Leela Chess Zero .
  26. ^ "¿Podría la inteligencia artificial salvarnos de sí misma?". Fortuna . 2019 . Consultado el 29 de febrero de 2020 .
  27. ^ "MuZero de DeepMind aprende por sí solo cómo ganar en Atari, ajedrez, shogi y Go". VentureBeat . 20 de noviembre de 2019 . Consultado el 29 de febrero de 2020 .

enlaces externos