Empoderamiento (inteligencia artificial)

El empoderamiento en el campo de la inteligencia artificial formaliza y cuantifica (a través de la teoría de la información ) el potencial que un agente percibe que tiene para influir en su entorno. ^[1]^[2] Un agente que sigue una política de maximización del empoderamiento, actúa para maximizar las opciones futuras (normalmente hasta un horizonte limitado). El empoderamiento puede utilizarse como una función de (pseudo)utilidad que depende únicamente de la información obtenida del entorno local para guiar la acción, en lugar de buscar un objetivo impuesto externamente, por lo que es una forma de motivación intrínseca . ^[3]

El formalismo de empoderamiento depende de un modelo probabilístico comúnmente utilizado en inteligencia artificial. Un agente autónomo opera en el mundo tomando información sensorial y actuando para cambiar su estado, o el del entorno, en un ciclo de percepción y acción conocido como bucle de percepción-acción . El estado y las acciones del agente se modelan mediante variables aleatorias ( ) y tiempo ( ). La elección de la acción depende del estado actual, y el estado futuro depende de la elección de la acción, por lo que el bucle de percepción-acción desenrollado en el tiempo forma una red bayesiana causal . $S:s\en {\mathcal {S}},A:a\en {\mathcal {A}}$ ${\estilo de visualización t}$

Definición

El empoderamiento ( ) se define como la capacidad del canal ( ) del canal de actuación del agente, y se formaliza como el flujo de información máximo posible entre las acciones del agente y el efecto de esas acciones algún tiempo después. El empoderamiento puede considerarse como el potencial futuro del agente para afectar su entorno, medido por sus sensores. ^[3] ${\mathfrak {E}}$ ${\estilo de visualización C}$

${\mathfrak {E}}:=C(A_{t}\longrightarrow S_{t+1})\equiv \max _{p(a_{t})}I(A_{t};S_{t+1})$

En un modelo de tiempo discreto, el empoderamiento se puede calcular para un número determinado de ciclos en el futuro, lo que en la literatura se denomina empoderamiento de "n pasos". ^[4]

${\mathfrak {E}}(A_{t}^{n}\longrightarrow S_{t+n})=\max _{p(a_{t},...,a_{t+n-1})}I(A_{t},...,A_{t+n-1};S_{t+n})$

La unidad de potenciación depende de la base logarítmica. Se utiliza comúnmente la base 2, en cuyo caso la unidad son bits .

Empoderamiento contextual

En general, la elección de la acción (distribución de la acción) que maximiza el empoderamiento varía de un estado a otro. Conocer el empoderamiento de un agente en un estado específico es útil, por ejemplo, para construir una política que maximice el empoderamiento. El empoderamiento específico del estado se puede encontrar utilizando el formalismo más general para el "empoderamiento contextual". ^[4] es una variable aleatoria que describe el contexto (por ejemplo, el estado). ${\estilo de visualización C}$

${\mathfrak {E}}(A_{t}^{n}\longrightarrow S_{t+n}{\mid }C)=\sum _{c{\in }C}p(c){\mathfrak {E}}(A_{t}^{n}\longrightarrow S_{t+n}{\mid }C=c)$

Solicitud

La maximización del empoderamiento se puede utilizar como una función de pseudo-utilidad para permitir que los agentes exhiban un comportamiento inteligente sin requerir la definición de objetivos externos, por ejemplo, equilibrar un poste en un escenario de equilibrio de un carro con un poste donde no se proporciona ninguna indicación de la tarea al agente. ^[4] El empoderamiento se ha aplicado en estudios de comportamiento colectivo ^[5] y en dominios continuos. ^[6]^[7] Como es el caso con los métodos bayesianos en general, el cálculo del empoderamiento se vuelve computacionalmente costoso a medida que se extiende el número de acciones y el horizonte temporal, pero los enfoques para mejorar la eficiencia han llevado al uso en el control en tiempo real. ^[8] El empoderamiento se ha utilizado para agentes de aprendizaje de refuerzo intrínsecamente motivados que juegan videojuegos, ^[9] y en el control de vehículos submarinos. ^[10]

Referencias

^ Klyubin, A., Polani, D. y Nehaniv, C. (2005a). En igualdad de condiciones, se debe empoderar a las personas. Advances in Artificial Life, páginas 744–753.
^ Klyubin, A., Polani, D. y Nehaniv, C. (2005b). Empoderamiento: una medida universal de control centrada en el agente. En Evolutionary Computation, 2005. Congreso IEEE 2005, volumen 1, páginas 128-135. IEEE.
^ ab Salge, C; Glackin, C; Polani, D (2014). "Empoderamiento: una introducción". En Prokopenko, M (ed.). Autoorganización guiada: origen. Emergencia, complejidad y computación . Vol. 9. Springer. págs. 67–114. arXiv : 1310.1863 . doi :10.1007/978-3-642-53734-9_4. ISBN 978-3-642-53733-2.S2CID 9662065 .
^ abc Klyubin, A., Polani, D. y Nehaniv, C. (2008). Mantenga abiertas sus opciones: un principio de conducción basado en la información para sistemas sensoriomotores. PLOS ONE, 3(12):e4018. https://dx.doi.org/10.1371%2Fjournal.pone.0004018
^ Capdepuy, P., Polani, D., y Nehaniv, CL (abril de 2007). Maximización del flujo de información potencial como una utilidad universal para el comportamiento colectivo. En el Simposio IEEE sobre vida artificial de 2007 (pp. 207-213). Ieee.
^ Jung, T., Polani, D. y Stone, P. (2011). Empoderamiento para sistemas continuos de agente-entorno. Adaptive Behavior, 19(1), 16-39.
^ Salge, C., Glackin, C. y Polani, D. (2013). Aproximación del empoderamiento en el dominio continuo. Advances in Complex Systems, 16(02n03), 1250079.
^ Karl, M., Soelch, M., Becker-Ehmck, P., Benbouzid, D., van der Smagt, P. y Bayer, J. (2017). Control en tiempo real no supervisado mediante potenciación variacional. Preimpresión de arXiv arXiv:1710.05101.
^ Mohamed, S., y Rezende, DJ (2015). Maximización de la información variacional para el aprendizaje de refuerzo intrínsecamente motivado. Preimpresión arXiv arXiv:1509.08731.
^ Volpi, NC, De Palma, D., Polani, D., & Indiveri, G. (2016). Cálculo de potenciación para un vehículo submarino autónomo. IFAC-PapersOnLine, 49(15), 81-87.