stringtranslate.com

Matchbox Educative Motor de tres en raya

Recreación de MENACE
Una recreación del MENACE construido en 2015

El Matchbox Educable Noughts and Crosses Engine (a veces llamado Machine Educable Noughts and Crosses Engine o MENACE ) fue una computadora mecánica hecha de 304 cajas de cerillas diseñada y construida por el investigador de inteligencia artificial Donald Michie en 1961. Fue diseñado para jugar con oponentes humanos en juegos de tres en raya devolviendo un movimiento para cualquier estado de juego dado y para refinar su estrategia a través del aprendizaje de refuerzo .

Michie no tenía una computadora disponible, así que resolvió esta restricción construyéndola con cajas de cerillas. Las cajas de cerillas que utilizó Michie representaban cada una una única disposición posible de una cuadrícula de tres en raya. Cuando la computadora jugó por primera vez, elegía movimientos al azar en función de la disposición actual. A medida que jugaba más partidas, a través de un ciclo de refuerzo, descalificaba las estrategias que conducían a partidas perdedoras y complementaba las estrategias que conducían a partidas ganadoras. Michie organizó un torneo contra MENACE en 1961, en el que experimentó con diferentes aperturas.

Tras el primer torneo de MENACE contra Michie, la inteligencia artificial demostró ser eficaz en su estrategia. Los ensayos de Michie sobre la inicialización del peso de MENACE y el algoritmo BOXES utilizado por MENACE se hicieron populares en el campo de la investigación informática. Michie fue galardonado por su contribución a la investigación del aprendizaje automático y recibió dos encargos para programar una simulación de MENACE en una computadora real.

Origen

Donald Michie , 1986

Donald Michie (1923–2007) había formado parte del equipo que descifró el código alemán Tunny durante la Segunda Guerra Mundial . [1] Quince años después, quiso demostrar aún más su destreza matemática y computacional con una red neuronal convolucional temprana . Como no se podía conseguir equipo informático para tales usos, [2] y Michie no tenía un ordenador disponible, [2] decidió mostrar y demostrar la inteligencia artificial en un formato más esotérico y construyó un ordenador mecánico funcional a partir de cajas de cerillas y cuentas. [3] [4]

MENACE fue construido como resultado de una apuesta con un colega informático que postuló que una máquina así era imposible. [5] Michie emprendió la tarea de recolectar y definir cada caja de cerillas como un "proyecto divertido", que luego se convirtió en una herramienta de demostración. [6] Michie completó su ensayo sobre MENACE en 1963, [4] "Experimentos sobre la mecanización del aprendizaje de juegos", así como su ensayo sobre el algoritmo BOXES, escrito con RA Chambers [6] y había construido una unidad de investigación de IA en Hope Park Square, Edimburgo , Escocia . [7]

MENACE aprendió a jugar partidas cada vez más largas de ceros y cruces. Cada vez, eliminaba una estrategia perdedora, ya que el jugador humano confiscaba las cuentas que correspondían a cada movimiento. [4] Reforzaba las estrategias ganadoras haciendo que los movimientos fueran más probables, al proporcionar cuentas adicionales. [8] Esta fue una de las primeras versiones del Reinforcement Loop , el algoritmo esquemático de bucle del algoritmo, descartando las estrategias fallidas hasta que solo quedan las ganadoras. [4] Este modelo comienza como completamente aleatorio y aprende gradualmente. [9]

Composición

MENACE se creó a partir de 304 cajas de cerillas pegadas entre sí en una disposición similar a la de una cómoda. [10] Cada caja tenía un número de código, que se introducía en un diagrama. Este diagrama tenía dibujos de cuadrículas de juego de tres en raya con varias configuraciones de X , O y casillas vacías, [4] correspondientes a todas las posibles permutaciones por las que podía pasar un juego a medida que avanzaba. [11] Después de eliminar las configuraciones duplicadas (las que eran simplemente rotaciones o imágenes especulares de otras configuraciones), MENACE utilizó 304 permutaciones en su diagrama y, por lo tanto, esa misma cantidad de cajas de cerillas. [12]

Cada bandeja individual de la caja de cerillas contenía una colección de cuentas de colores. [13] Cada color representaba un movimiento en un cuadrado de la cuadrícula de juego, por lo que las cajas de cerillas con disposiciones en las que las posiciones en la cuadrícula ya estaban ocupadas no tendrían cuentas para esa posición. Además, en la parte delantera de la bandeja había dos piezas de cartón adicionales en forma de "V", [10] la punta de la "V" apuntando hacia la parte delantera de la caja de cerillas. [11] Michie y su equipo de inteligencia artificial llamaron al algoritmo de MENACE "Cajas", [7] en honor al aparato utilizado para la máquina. La primera etapa, "Cajas", funcionó en cinco fases, cada una de las cuales estableció una definición y un precedente para las reglas del algoritmo en relación con el juego. [14]

Operación

Un ejemplo de juego jugado por MENACE (O) y un humano (X) usando cuentas de los colores originales de Michie; como MENACE perdió este juego, todas las cuentas mostradas se sacaron de sus respectivas cajas [15] [16]

MENACE jugó primero, como O, ya que todas las cajas de cerillas representaban permutaciones solo relevantes para el jugador "X". [12] [17] Para recuperar la elección de movimiento de MENACE, el oponente u operador localizaba la caja de cerillas que coincidía con el estado actual del juego, o una rotación o imagen reflejada de la misma. Por ejemplo, al comienzo de un juego, esta sería la caja de cerillas para una cuadrícula vacía. Se quitaría la bandeja y se agitaría ligeramente para mover las cuentas. [4] Luego, la cuenta que había rodado hasta la punta de la forma de "V" en la parte delantera de la bandeja era el movimiento que MENACE había elegido hacer. [4] Luego, su color se usaba como la posición para jugar y, después de tener en cuenta las rotaciones o giros necesarios según la relación de la configuración de la caja de cerillas elegida con la cuadrícula actual, se colocaba la O en esa casilla. Luego, el jugador realizaba su movimiento, se localizaba el nuevo estado, se seleccionaba un nuevo movimiento, y así sucesivamente, hasta que terminaba el juego. [12]

Cuando el juego había terminado, el jugador humano observaba el resultado del juego. A medida que se jugaba, cada caja de cerillas que se usaba para el turno de MENACE tenía su bandeja devuelta a ella entreabierta, y la cuenta utilizada se dejaba a un lado, de modo que la elección de movimientos de MENACE y los estados del juego a los que pertenecían quedaban registrados. Michie describió su sistema de refuerzo con "recompensa" y "castigo". Una vez que el juego terminaba, si MENACE había ganado, recibiría una "recompensa" por su victoria. Las cuentas retiradas mostraban la secuencia de los movimientos ganadores. [17] Estas se devolvían a sus respectivas bandejas, fácilmente identificables ya que estaban ligeramente abiertas, así como tres cuentas de bonificación del mismo color. [11] De esta manera, en futuras partidas MENACE tendría más probabilidades de repetir esos movimientos ganadores, reforzando las estrategias ganadoras. Si perdía, las cuentas retiradas no se devolvían, "castigando" a MENACE, y significando que en el futuro sería menos probable, y eventualmente incapaz si ese color de cuenta desapareciera, de repetir los movimientos que causan una pérdida. [3] [8] Si el juego era un empate, se añadía una cuenta adicional a cada casilla. [11]

Resultados en la práctica

Estrategia óptima

Estrategia óptima de ceros y cruces
Estrategia óptima para el jugador X si comienza en una esquina. En cada cuadrícula, la X roja sombreada indica el movimiento óptimo y la ubicación del próximo movimiento de O indica la siguiente subcuadrícula a examinar.

El juego de tres en raya tiene una estrategia óptima bien conocida. [18] Un jugador debe colocar su símbolo de manera que impida que el otro jugador complete filas y, al mismo tiempo, él mismo complete una fila. Sin embargo, si ambos jugadores usan esta estrategia, el juego siempre termina en empate. [18] Si el jugador humano está familiarizado con la estrategia óptima y MENACE puede aprenderla rápidamente, entonces los juegos eventualmente terminarán solo en empate. La probabilidad de que la computadora gane aumenta rápidamente cuando la computadora juega contra un oponente que juega al azar. [3]

Cuando se juega contra un jugador que utiliza una estrategia óptima, las probabilidades de un empate aumentan al 100%. En el torneo oficial de Donald Michie contra MENACE en 1961 [4] utilizó una estrategia óptima, y ​​él y la computadora comenzaron a empatar consistentemente después de veinte juegos. El torneo de Michie [19] tuvo los siguientes hitos: Michie comenzó abriendo consistentemente con la "Variante 0", la casilla central. A los 15 juegos, MENACE abandonó todas las aperturas que no fueran de esquina. A poco más de 20, Michie cambió a usar consistentemente la "Variante 1", la casilla inferior derecha. A los 60, regresó a la Variante 0. Cuando se acercaba a los 80 juegos, pasó a la "Variante 2", la casilla superior central. A los 110, cambió a la "Variante 3", la casilla superior derecha. A los 135, cambió a la "Variante 4", la casilla central derecha. A los 190, regresó a la Variante 1, y a los 210, regresó a la Variante 0.

La tendencia en los cambios de cuentas en las cajas "2" es: [19]

Correlación

Gráfico de dispersión del torneo de Michie.
Un gráfico de dispersión que muestra los resultados de los juegos de Donald Michie contra MENACE

Dependiendo de la estrategia empleada por el jugador humano, MENACE produce una tendencia diferente en los gráficos de dispersión de victorias. [4] El uso de un turno aleatorio del jugador humano da como resultado una tendencia positiva casi perfecta. Jugar con la estrategia óptima da como resultado un aumento ligeramente más lento. [3] El refuerzo no crea un estándar perfecto de victorias; el algoritmo extraerá conclusiones aleatorias e inciertas cada vez. Después de la ronda j , la correlación del juego casi perfecto es:

Donde V i es el resultado (+1 es victoria, 0 es empate y -1 es derrota) y D es el factor de decaimiento (promedio de los valores pasados ​​de victorias y derrotas). A continuación, M n es el multiplicador para la ronda n del juego. [4]

Legado

El algoritmo MENACE de Donald Michie demostró que un ordenador podía aprender de los fracasos y los éxitos para convertirse en un buen ordenador en una tarea. [17] Utilizó lo que se convertirían en principios básicos en el campo del aprendizaje automático antes de que se hubieran teorizado adecuadamente. Por ejemplo, la combinación de cómo MENACE comienza con la misma cantidad de tipos de cuentas en cada caja de cerillas y cómo se seleccionan al azar, crea un comportamiento de aprendizaje similar a la inicialización del peso en las redes neuronales artificiales modernas . [20] En 1968, Donald Michie y RA Chambers crearon otro algoritmo basado en BOXES llamado GLEE (Game Learning Expectimaxing Engine) que tenía que aprender a equilibrar un palo en un carro. [21]

Después de la resonante recepción de MENACE, Michie fue invitado a la Oficina de Investigación Naval de los EE. UU., donde se le encargó construir un programa que ejecutara BOXES para una computadora IBM para su uso en la Universidad de Stanford . [22] Michie creó un programa de simulación de MENACE en una computadora Pegasus 2 con la ayuda de D. Martin. [4] Ha habido múltiples recreaciones de MENACE en años más recientes, tanto en su forma física original como como programa de computadora. [12] Su algoritmo fue posteriormente convergido en el algoritmo Q-Learning de Christopher Watkin. [23] Aunque no como una computadora funcional, en ejemplos de demostración, MENACE se ha utilizado como ayuda didáctica para varias clases de redes neuronales, [24] [25] [26] incluida una demostración pública del investigador del University College de Londres, Matthew Scroggs. [27] [28] Una copia de MENACE construida por Scroggs apareció en las Conferencias de Navidad de la Royal Institution de 2019 , [29] [30] y en un episodio de 2023 de QI XL . [31]

La amenaza en la cultura popular

MENACE se menciona en el cuento Without A Thought de Fred Saberhagen de 1963 y en la novela The Adolescence of P-1 de Thomas J. Ryan de 1977. [32] En su libro de 2023 The Future , la autora Naomi Alderman incluye una conferencia ficticia con una descripción detallada de MENACE.

Véase también

Referencias

  1. ^ Boden, Margaret (15 de agosto de 2007). "Donald Michie (1923–2007)". Nature . 448 (7155): 765. doi :10.1038/448765a. ISSN  1476-4687. PMID  17700692. S2CID  5239830.
  2. ^ ab Wright, Matt (31 de marzo de 2020). «Donald Michie: el pionero de la IA que probó su programa informático con una caja de cerillas y unas cuentas». Scroll.in . Archivado desde el original el 20 de octubre de 2020. Consultado el 18 de octubre de 2020 .
  3. ^ abcd Child, Oliver (13 de marzo de 2016). "Amenaza: la máquina de ceros y cruces educable". Chalkdust . Archivado desde el original el 12 de mayo de 2020 . Consultado el 17 de mayo de 2020 .
  4. ^ abcdefghijk Michie, Donald. "Experimentos sobre la mecanización del aprendizaje de juegos Parte 1. Caracterización del modelo y sus parámetros" (PDF) . Archivado (PDF) del original el 21 de noviembre de 2019 . Consultado el 1 de junio de 2020 .
  5. ^ "Daily Telegraph obituary for Donald Michie" (Obituario de Donald Michie en el Daily Telegraph). The Daily Telegraph . 9 de julio de 2007. Archivado desde el original el 11 de junio de 2020 . Consultado el 25 de mayo de 2021 .
  6. ^ ab Donald, Michie (1968). BOXES: Un experimento en control adaptativo. Universidad de Edimburgo. p. 137. CiteSeerX 10.1.1.474.2430 . Archivado desde el original el 26 de junio de 2020 . Consultado el 31 de julio de 2020 . 
  7. ^ ab Muggleton, Stephen (10 de julio de 2007). «Obituario de Donald Michie, un artículo en The Guardian de 2007». The Guardian . Archivado desde el original el 1 de octubre de 2020. Consultado el 22 de mayo de 2021 .
  8. ^ ab Hardingham, Samantha; Frazer, John; Jones, Emma Letizia (2012). "John Frazer en conversación con Samantha Hardingham". Archivos AA (64): 69–77. ISSN  0261-6823. JSTOR  41762307.
  9. ^ Wylie, Caspar (5 de octubre de 2018). «Cómo 300 cajas de cerillas aprendieron a jugar al tres en raya con MENACE». Open Data Science . Archivado desde el original el 15 de mayo de 2021 . Consultado el 15 de mayo de 2021 .
  10. ^ ab The Science Book, segunda edición, Dorling Kindersley Ltd., 2015, pág. 288
  11. ^ abcd Gardner, Martin (1962). "Juegos matemáticos". Scientific American . 206 (3): 138–154. Código Bibliográfico :1962SciAm.206c.138G. doi :10.1038/scientificamerican0362-138. JSTOR  24937263.
  12. ^ abcd "Matchbox Educable Noughts And Crosses Engine In Empirical Modelling" (PDF) . Universidad de Warwick . Consultado el 22 de mayo de 2021 .
  13. ^ De Raedt, Luc. "La revolución del aprendizaje automático en la IA". Archivado desde el original el 12 de junio de 2020.
  14. ^ Russel, David (2012). Extracto de "La metodología BOXES". (Capítulo 2. La metáfora del juego) . Londres: Springer Professional. ISBN 978-1849965279.
  15. ^ "Amenaza: La máquina de ceros y cruces educable". 13 de marzo de 2016.
  16. ^ Michie, Donald (noviembre de 1963). "Experimentos sobre la mecanización del aprendizaje de juegos, parte I: caracterización del modelo y sus parámetros". The Computer Journal . 6 (3): 232–236. doi :10.1093/comjnl/6.3.232 . Consultado el 28 de agosto de 2024 .
  17. ^ abc «MENACE 2, una inteligencia artificial hecha de cajones de madera y cuentas de colores». 12 de abril de 2016. Archivado desde el original el 12 de julio de 2020. Consultado el 22 de mayo de 2021 .
  18. ^ ab Cappiell, Emily (30 de noviembre de 2020). «Cómo ganar al tres en raya: las estrategias que debes dominar». Reader's Digest . Archivado desde el original el 22 de enero de 2021. Consultado el 6 de febrero de 2021 .
  19. ^ ab Prueba y error, Michie Donald, Penguin Science Surveys 1961 Vol 2
  20. ^ Yam, Jim YF; Chow, Tommy WS (1 de enero de 2000). "Un método de inicialización de peso para mejorar la velocidad de entrenamiento en redes neuronales de propagación hacia adelante". Neurocomputing . 30 (1): 219–232. doi :10.1016/S0925-2312(99)00127-7. ISSN  0925-2312.
  21. ^ Sutton, Richard S.; Barto, Andrew G. (2018). Aprendizaje por refuerzo: una introducción. MIT Press. pág. 753. ISBN 978-0262039246.
  22. ^ "El profesor Donald Michie". The Daily Telegraph . 8 de julio de 2007. ISSN  0307-1235. Archivado desde el original el 11 de junio de 2020 . Consultado el 11 de junio de 2020 .
  23. ^ Scaruffi, Piero (2014). La inteligencia no es artificial: por qué la singularidad no llegará pronto y otras reflexiones sobre la condición poshumana y el futuro de la inteligencia. Omniware. pág. 27. ISBN 978-0976553199.
  24. ^ Zhao, Yibo (1 de diciembre de 2013). "Estudio de modelado de motores de aprendizaje automático en ceros y cruces". Universidad de Warwick. Archivado desde el original el 11 de junio de 2020. Consultado el 22 de mayo de 2021 .
  25. ^ "Temas de IA... Estrategia del tres en raya en el pensamiento computacional, Introducción, MENACE". Archivado desde el original el 8 de febrero de 2021 . Consultado el 22 de mayo de 2021 .
  26. ^ Ute Schmid – "Aprendizaje interactivo con explicaciones mutuas" (Cómo los humanos y los sistemas de aprendizaje automático pueden beneficiarse mutuamente) – Universidad de Bamberg, Alemania Enlace
  27. ^ Scroggs, Matthew (3 de julio de 2017). 'Construyendo una máquina MENACE', Matthew Scroggs, University College London (Youtube).
  28. ^ "Inspirando a la próxima generación de científicos informáticos | King's Worcester". King's Worcester . 11 de noviembre de 2019. Archivado desde el original el 12 de junio de 2020 . Consultado el 12 de junio de 2020 .
  29. ^ Scroggs, Matthew (27 de diciembre de 2019). "Visualización del aprendizaje de MENACE". mscroggs.co.uk . Archivado desde el original el 11 de julio de 2020 . Consultado el 30 de julio de 2020 .
  30. ^ @rsi_science (27 de diciembre de 2019). "El creador de la máquina de la amenaza apareció con sus 304 cajas de cerillas para explicar cómo la hizo" ( Tweet ) . Consultado el 14 de octubre de 2020 – vía Twitter .
  31. ^ "QI XL Series T, Ticks Tax Toes". BBC . 6 de enero de 2023 . Consultado el 4 de febrero de 2023 .
  32. ^ Scroggs, Matthew (16 de diciembre de 2018). «MENACE in fiction». mscroggs.co.uk . Archivado desde el original el 11 de julio de 2020. Consultado el 18 de marzo de 2020 .

Fuentes

Enlaces externos