TD-Gammon

Su nombre se debe a que es una red neuronal artificial entrenada mediante una forma de aprendizaje por diferencia temporal, concretamente TD-Lambda.

[1] Durante el juego, TD-Gammon examina en cada turno todas las posibles jugadas legales y todas sus posibles respuestas (dos niveles de anticipación), introduce cada posición del tablero resultante en su función de evaluación y elige la jugada que conduce a la posición del tablero que ha obtenido la puntuación más alta.

[3] El entrenamiento exclusivo de TD-Gammon a través del auto juego (en lugar de la tutela) le permitió explorar estrategias que los humanos no habían considerado previamente o habían descartado erróneamente.

[4] El experto en backgammon Kit Woolsey descubrió que el juicio posicional de TD-Gammon, especialmente su ponderación del riesgo frente a la seguridad, era superior al suyo o al de cualquier humano.

El final de la partida requiere un enfoque más analítico, a veces con amplias previsiones.

Los puntos fuertes y débiles de TD-Gammon eran los opuestos a los programas de inteligencia artificial simbólica y a la mayoría del software informático en general: era bueno en cuestiones que requieren un "tacto" intuitivo, pero malo en el análisis sistemático.