Selección de acciones en las que el ganador se lleva todo

El concepto de "ganador se lleva todo" es un concepto de la ciencia informática que se ha aplicado ampliamente en la robótica basada en el comportamiento como método de selección de acciones para agentes inteligentes . Los sistemas de "ganador se lleva todo" funcionan conectando módulos (áreas designadas para tareas) de tal manera que cuando se realiza una acción, se detiene la realización de todas las demás acciones, de modo que solo se realiza una acción a la vez. El nombre proviene de la idea de que la acción del "ganador" consume toda la potencia del sistema motor.^[1]^[2]^[3]

Historia

En los años 1980 y 1990, muchos robots y científicos cognitivos intentaron encontrar alternativas más rápidas y eficientes al método tradicional de selección de acciones basado en modelos del mundo. ^[4] En 1982 , Jerome A. Feldman y DH Ballard publicaron " Connectionist Models and Their Properties", en el que se hace referencia y explica el método de selección de acciones de "el ganador se lo lleva todo". La arquitectura de Feldman funcionaba según la sencilla regla de que, en una red de módulos de acción interconectados, cada módulo establecerá su propia salida en cero si lee una entrada superior a la suya en cualquier otro módulo. ^[5] En 1986 , Rodney Brooks introdujo la inteligencia artificial basada en el comportamiento . ^{[ aclaración necesaria ]} Las arquitecturas de "el ganador se lo lleva todo" para la selección de acciones pronto se convirtieron en una característica común de los robots basados en el comportamiento, porque la selección se producía a nivel de los módulos de acción (de abajo a arriba) en lugar de a un nivel cognitivo separado (de arriba a abajo), lo que producía un acoplamiento estrecho entre estímulo y reacción. ^[6]

Tipos de arquitecturas en las que el ganador se lleva todo

Jerarquía

En la arquitectura jerárquica, las acciones o conductas se programan en una lista de prioridad alta a baja, con conexiones inhibitorias entre todos los módulos de acción. El agente realiza conductas de baja prioridad hasta que se estimula una conducta de mayor prioridad, momento en el cual la conducta de mayor prioridad inhibe todas las demás conductas y se apodera por completo del sistema motor. Las conductas priorizadas suelen ser clave para la supervivencia inmediata del agente, mientras que las conductas de menor prioridad son menos sensibles al tiempo. Por ejemplo, "huir de un depredador" estaría por encima de "dormir". ^[4] Si bien esta arquitectura permite una programación clara de objetivos, muchos especialistas en robótica se han alejado de la jerarquía debido a su inflexibilidad. ^[7]

Heterarquía y distribución total

En la arquitectura heterárquica y completamente distribuida, cada comportamiento tiene un conjunto de precondiciones que deben cumplirse antes de que pueda realizarse, y un conjunto de poscondiciones que serán verdaderas después de que se haya realizado la acción. Estas precondiciones y poscondiciones determinan el orden en que deben realizarse los comportamientos y se utilizan para conectar causalmente los módulos de acción. Esto permite que cada módulo reciba información de otros módulos, así como de los sensores, de modo que los módulos puedan reclutarse entre sí. Por ejemplo, si el objetivo del agente fuera reducir la sed, el comportamiento "beber" requeriría la precondición de tener agua disponible, por lo que el módulo activaría el módulo a cargo de "encontrar agua". Las activaciones organizan los comportamientos en una secuencia, aunque solo se realice una acción a la vez. La distribución de comportamientos más grandes entre los módulos hace que este sistema sea flexible y robusto al ruido. ^[8] Algunos críticos de este modelo sostienen que cualquier conjunto existente de reglas de división para las conexiones predecesoras y conflictivas entre módulos produce una selección de acciones deficiente. Además, el bucle de retroalimentación utilizado en el modelo puede, en algunas circunstancias, conducir a una selección de acciones incorrecta. ^[9]

Árbitro y coordinado centralmente

En la arquitectura de árbitro y coordinada centralmente, los módulos de acción no están conectados entre sí, sino a un árbitro central. Cuando se activan los comportamientos, comienzan a "votar" enviando señales al árbitro, y se selecciona el comportamiento con el mayor número de votos. En estos sistemas, el sesgo se crea a través del "peso de la votación", o la frecuencia con la que se permite votar a un módulo. Algunos sistemas de árbitro adoptan un enfoque diferente en este tipo de "el ganador se lleva todo" mediante el uso de una función de "compromiso" en el árbitro. Cada módulo puede votar a favor o en contra de cada acción más pequeña en un conjunto de acciones, y el árbitro selecciona la acción con más votos, lo que significa que beneficia a la mayoría de los módulos de comportamiento.

Esto puede considerarse una violación de la regla general contra la creación de representaciones del mundo en la IA basada en el comportamiento, establecida por Brooks. Al realizar la fusión de comandos, el sistema crea un conjunto de conocimientos más grande que el que se obtiene de los sensores solos, formando una representación interna compuesta del entorno. Los defensores de estos sistemas argumentan que prohibir el modelado del mundo impone restricciones innecesarias a la robótica basada en el comportamiento y que los agentes se benefician de la formación de representaciones y aún pueden seguir siendo reactivos. ^[7]

Véase también

Referencias

^ Schilling, M., Paskarbeit, J., Hoinville, T., Hüffmeier, A., Schneider, A., Schmitz, J., Cruse, H. (17 de septiembre de 2013). Un caminante hexápodo que utiliza una estructura heterárquica para la selección de acciones. Frontiers in Computational Neuroscience, 7. doi :10.3389/fncom.2013.00126
^ Öztürk, P. (2009). Niveles y tipos de selección de acciones: la sopa de selección de acciones. Adaptive Behavior, 17. doi :10.1177/1059712309339854
^ Koch, C., Ullman, S. (1985). Cambios en la atención visual selectiva: hacia el circuito neuronal subyacente. Recuperado de [1].
^ ab Jones, JL (2004). Programación de robots: una guía práctica para la robótica basada en el comportamiento. The McGraw Hill Companies, Inc.
^ Ballard, DH, Feldman, JA (1982). Modelos conexionistas y sus propiedades. Cognitive Science, 6, 205-54.
^ Brooks, RA (1986). Un sistema de control robusto en capas para un robot móvil. IEEE Journal of Robotics and Automation, 2, 14-23. Recuperado de [2].
^ ab Rosenblatt, JK (1995). DAMN: Una arquitectura distribuida para la navegación móvil. Recuperado de [3].
^ Blumberg, BM (1996). Viejos trucos, nuevos perros: Etología y criaturas interactivas. Recuperado de la base de datos de tesis y disertaciones de ProQuest .
^ Tyrrell, T. (1 de marzo de 1994). Una evaluación del mecanismo ascendente de Maes para la selección de conducta. Adaptive Behavior, 2, 307-348. doi :10.1177/105971239400200401