El empoderamiento en el campo de la inteligencia artificial formaliza y cuantifica (a través de la teoría de la información ) el potencial que un agente percibe que tiene para influir en su entorno. [1] [2] Un agente que sigue una política de maximización del empoderamiento, actúa para maximizar las opciones futuras (normalmente hasta un horizonte limitado). El empoderamiento puede utilizarse como una función de (pseudo)utilidad que depende únicamente de la información obtenida del entorno local para guiar la acción, en lugar de buscar un objetivo impuesto externamente, por lo que es una forma de motivación intrínseca . [3]
El formalismo de empoderamiento depende de un modelo probabilístico comúnmente utilizado en inteligencia artificial. Un agente autónomo opera en el mundo tomando información sensorial y actuando para cambiar su estado, o el del entorno, en un ciclo de percepción y acción conocido como bucle de percepción-acción . El estado y las acciones del agente se modelan mediante variables aleatorias ( ) y tiempo ( ). La elección de la acción depende del estado actual, y el estado futuro depende de la elección de la acción, por lo que el bucle de percepción-acción desenrollado en el tiempo forma una red bayesiana causal .
El empoderamiento ( ) se define como la capacidad del canal ( ) del canal de actuación del agente, y se formaliza como el flujo de información máximo posible entre las acciones del agente y el efecto de esas acciones algún tiempo después. El empoderamiento puede considerarse como el potencial futuro del agente para afectar su entorno, medido por sus sensores. [3]
En un modelo de tiempo discreto, el empoderamiento se puede calcular para un número determinado de ciclos en el futuro, lo que en la literatura se denomina empoderamiento de "n pasos". [4]
La unidad de potenciación depende de la base logarítmica. Se utiliza comúnmente la base 2, en cuyo caso la unidad son bits .
En general, la elección de la acción (distribución de la acción) que maximiza el empoderamiento varía de un estado a otro. Conocer el empoderamiento de un agente en un estado específico es útil, por ejemplo, para construir una política que maximice el empoderamiento. El empoderamiento específico del estado se puede encontrar utilizando el formalismo más general para el "empoderamiento contextual". [4] es una variable aleatoria que describe el contexto (por ejemplo, el estado).
La maximización del empoderamiento se puede utilizar como una función de pseudo-utilidad para permitir que los agentes exhiban un comportamiento inteligente sin requerir la definición de objetivos externos, por ejemplo, equilibrar un poste en un escenario de equilibrio de un carro con un poste donde no se proporciona ninguna indicación de la tarea al agente. [4] El empoderamiento se ha aplicado en estudios de comportamiento colectivo [5] y en dominios continuos. [6] [7] Como es el caso con los métodos bayesianos en general, el cálculo del empoderamiento se vuelve computacionalmente costoso a medida que se extiende el número de acciones y el horizonte temporal, pero los enfoques para mejorar la eficiencia han llevado al uso en el control en tiempo real. [8] El empoderamiento se ha utilizado para agentes de aprendizaje de refuerzo intrínsecamente motivados que juegan videojuegos, [9] y en el control de vehículos submarinos. [10]