stringtranslate.com

TD-Gammon

TD-Gammon es un programa informático de backgammon desarrollado en 1992 por Gerald Tesauro en el Centro de Investigación Thomas J. Watson de IBM . Su nombre proviene del hecho de que se trata de una red neuronal artificial entrenada mediante una forma de aprendizaje por diferencia temporal , concretamente TD-Lambda .

La versión final de TD-Gammon (2.1) se entrenó con 1,5 millones de partidas de backgammon autodidactas y alcanzó un nivel de juego apenas inferior al de los mejores jugadores de backgammon humanos de la época. Exploró estrategias que los humanos no habían seguido y condujo a avances en la teoría del juego correcto del backgammon.

En 1998, durante una serie de 100 partidas, fue derrotado por el campeón mundial por un margen de apenas 8 puntos. Su evaluación poco convencional de algunas estrategias de apertura había sido aceptada y adoptada por jugadores expertos. [1]

Algoritmo para jugar y aprender

Durante el juego, TD-Gammon examina en cada turno todos los movimientos legales posibles y todas sus posibles respuestas (two- ply lookahead ), introduce cada posición del tablero resultante en su función de evaluación y elige el movimiento que lleva a la posición del tablero que obtuvo la puntuación más alta. En este sentido, TD-Gammon no se diferencia de casi cualquier otro programa de juegos de mesa de ordenador. La innovación de TD-Gammon estuvo en cómo aprendió su función de evaluación.

El algoritmo de aprendizaje de TD-Gammon consiste en actualizar los pesos de su red neuronal después de cada turno para reducir la diferencia entre su evaluación de las posiciones del tablero de los turnos anteriores y su evaluación de la posición del tablero del turno actual (de ahí el " aprendizaje por diferencia temporal "). La puntuación de cualquier posición del tablero es un conjunto de cuatro números que reflejan la estimación del programa de la probabilidad de cada posible resultado del juego: las blancas ganan normalmente, las negras ganan normalmente, las blancas ganan un gammon, las negras ganan un gammon. Para la posición final del tablero del juego, el algoritmo compara con el resultado real del juego en lugar de su propia evaluación de la posición del tablero. [2]

Después de cada turno, el algoritmo de aprendizaje actualiza cada peso en la red neuronal de acuerdo con la siguiente regla:

dónde:

Experimentos y etapas del entrenamiento

A diferencia de los programas de backgammon basados ​​en redes neuronales anteriores, como Neurogammon (también escrito por Tesauro), en los que un experto entrenaba al programa proporcionándole la evaluación "correcta" de cada posición, TD-Gammon se programó inicialmente "sin conocimiento". [2] En sus primeras pruebas, utilizando únicamente una codificación de tablero sin características diseñadas por humanos, TD-Gammon alcanzó un nivel de juego comparable al de Neurogammon: el de un jugador de backgammon humano de nivel intermedio.

Aunque TD-Gammon descubrió características reveladoras por sí solo, Tesauro se preguntó si su juego podría mejorarse utilizando características diseñadas a mano como las de Neurogammon. De hecho, el TD-Gammon de autoaprendizaje con características diseñadas por expertos pronto superó a todos los programas de backgammon informáticos anteriores. Dejó de mejorar después de aproximadamente 1.500.000 juegos (juegos autodidactas) utilizando una red neuronal de tres capas, con 198 unidades de entrada que codifican características diseñadas por expertos, 80 unidades ocultas y una unidad de salida que representa la probabilidad predicha de ganar. [3]

Avances en la teoría del backgammon

El entrenamiento exclusivo de TD-Gammon a través del juego propio (en lugar de la tutela) le permitió explorar estrategias que los humanos no habían considerado anteriormente o que habían descartado erróneamente. Su éxito con estrategias poco ortodoxas tuvo un impacto significativo en la comunidad del backgammon. [2]

Por ejemplo, en la jugada de apertura, la sabiduría convencional era que, dado un resultado de 2-1, 4-1 o 5-1, las blancas debían mover una sola ficha del punto 6 al punto 5. Esta técnica, conocida como "slotting", intercambia el riesgo de un golpe por la oportunidad de desarrollar una posición agresiva. TD-Gammon descubrió que la jugada más conservadora de 24-23 era superior. Los jugadores de torneos comenzaron a experimentar con la jugada de TD-Gammon y tuvieron éxito. En pocos años, el "slotting" había desaparecido del juego de torneos, aunque en 2006 reapareció para el 2-1. [4]

El experto en backgammon Kit Woolsey descubrió que el juicio posicional de TD-Gammon, especialmente su evaluación del riesgo frente a la seguridad, era superior al suyo o al de cualquier humano. [2]

El excelente juego posicional de TD-Gammon se vio socavado por un juego de final de partida mediocre. El final de partida requiere un enfoque más analítico, a veces con una amplia previsión. La limitación de TD-Gammon a la previsión de dos capas puso un límite a lo que podía lograr en esta parte del juego. Las fortalezas y debilidades de TD-Gammon eran las opuestas a los programas de inteligencia artificial simbólica y a la mayoría del software informático en general: era bueno en cuestiones que requieren una "sensación" intuitiva, pero malo en el análisis sistemático.

Véase también

Referencias

  1. ^ Sammut, Claude; Webb, Geoffrey I., eds. (2010), "TD-Gammon", Enciclopedia de aprendizaje automático , Boston, MA: Springer US, págs. 955-956, doi :10.1007/978-0-387-30164-8_813, ISBN 978-0-387-30164-8, consultado el 25 de diciembre de 2023
  2. ^ abcde Tesauro (1995)
  3. ^ Sutton y Barto (2018), 11.1.
  4. ^ "Backgammon: cómo jugar los tiros iniciales".

Obras citadas

Enlaces externos