Planificación inversa

La planificación inversa se refiere al proceso de inferir los estados mentales de un agente, como metas, creencias, emociones, etc., a partir de acciones, asumiendo que los agentes son planificadores racionales. ^[1]^[2] Es un método comúnmente utilizado en ciencia cognitiva computacional e inteligencia artificial para modelar la teoría de la mente de los agentes .

La planificación inversa está estrechamente relacionada con el aprendizaje por refuerzo inverso , que intenta aprender una función de recompensa basada en el comportamiento de los agentes, y el reconocimiento de planes , que encuentra objetivos lógicamente consistentes dadas las observaciones de la acción.

Planificación inversa bayesiana

Un diagrama causal del objetivo y las acciones del agente.

La Planificación Inversa suele enmarcarse con una formulación bayesiana, como los métodos secuenciales de Monte Carlo . El proceso de inferencia se puede representar con un modelo gráfico que se muestra a la derecha. En este diagrama causal, un agente racional con una meta g produce un plan con una secuencia de acciones , donde $a_{1:t}$

$a_{1:t}\sim P(a_{1:t}|g,s_{0})$

En el modelo de planificación anticipada, a menudo se supone que el agente es racional. Las acciones de los agentes pueden entonces derivarse de una distribución de acción racional de Boltzmann ,

$P(a_{i}|g,s_{0})={\frac {\exp({\frac {1}{\beta }}Q(s_{0},a_{i}))} {\sum _{a_{j}}{\exp({\frac {1}{\beta }}Q(s_{0},a_{j})))}}}$

donde es el costo del plan óptimo para lograr el objetivo realizando primero la acción y es el parámetro de temperatura de Boltzmann. $Q(s_{0},a)$ $g$ $a$ ${\displaystyle\beta}$

Luego, al dar observaciones de acción de , la planificación inversa aplica la regla de Bayes para invertir la probabilidad condicional y encontrar la probabilidad posterior del objetivo del agente. $a_{1:t}$

$P(g|a_{1:t},s_{0})\propto P(a_{1:t}|g,s_{0})P(g)$

La planificación inversa también se puede aplicar para inferir las creencias, emociones, preferencias, etc. de los agentes. El trabajo reciente en planificación inversa bayesiana también ha podido dar cuenta del comportamiento de los agentes racionalmente limitado, las interacciones multimodales y las acciones de equipo en sistemas de múltiples agentes. ^[3]^[4]^[5]

Solicitud

La planificación inversa se ha utilizado ampliamente para modelar el comportamiento de los agentes en la ciencia cognitiva para comprender la capacidad humana para interpretar e inferir los estados mentales latentes de otros agentes. ^[1]^[2]^[6] Se ha aplicado cada vez más en las interacciones humano-IA y humano-robot, permitiendo a los agentes artificiales reconocer los objetivos y creencias de los usuarios humanos para brindar asistencia. ^[7]^[8]^[9]

Referencias

^ ab Baker, Chris L.; Sajonia, Rebecca; Tenenbaum, Joshua B. (diciembre de 2009). "Entendimiento de la acción como planificación inversa". Cognición . 113 (3): 329–349. doi : 10.1016/j.cognition.2009.07.005. ISSN 0010-0277. PMID 19729154.
^ ab Baker, Chris L.; Tenenbaum, JB; Sajonia, Rebecca R. (2007). "Inferencia de objetivos como planificación inversa". Actas de la reunión anual de la Sociedad de Ciencias Cognitivas . 29 (29).
^ Ying, lanza; Zhi-Xuan, Tan; Mansinghka, Vikash; Tenenbaum, Joshua B. (2023). "Inferir los objetivos de los agentes comunicantes a partir de acciones e instrucciones". Actas de la serie de simposios AAAI . 2 (1): 26–33. arXiv : 2306.16207 . doi : 10.1609/aaaiss.v2i1.27645. ISSN 2994-4317.
^ Zhi-Xuan, bronceado; Mann, Jordyn L.; Plata, Tom; Tenenbaum, Josué B.; Mansinghka, Vikash K. (6 de diciembre de 2020). "Inferencia de objetivos bayesianos en línea para agentes de planificación racionales acotados". Actas de la 34ª Conferencia Internacional sobre Sistemas de Procesamiento de Información Neural . NIPS'20. Red Hook, Nueva York, EE. UU.: Curran Associates Inc.: 19238–19250. ISBN 978-1-7138-2954-6. S2CID 219687443.
^ Shum, Michael; Kleiman-Weiner, Max; Littman, Michael L.; Tenenbaum, Joshua B. (17 de julio de 2019). "Teoría de la mente: comprensión del comportamiento en grupos mediante la planificación inversa". Actas de la Conferencia AAAI sobre Inteligencia Artificial . 33 (1): 6163–6170. arXiv : 1901.06085 . doi : 10.1609/aaai.v33i01.33016163. ISSN 2374-3468.
^ Panadero, Chris L.; Jara-Ettinger, Julián; Sajonia, Rebecca; Tenenbaum, Joshua B. (13 de marzo de 2017). "Atribución racional cuantitativa de creencias, deseos y percepciones en la mentalización humana". Naturaleza Comportamiento Humano . 1 (4): 1–10. doi :10.1038/s41562-017-0064. ISSN 2397-3374.
^ Puig, Javier; Shu, Tianmin; Tenenbaum, Josué B.; Torralba, Antonio (29-05-2023). "NOPA: asistencia probabilística en línea guiada neuronalmente para crear asistentes domésticos socialmente inteligentes". 2023 Conferencia Internacional IEEE sobre Robótica y Automatización (ICRA) . IEEE. págs. 7628–7634. arXiv : 2301.05223 . doi :10.1109/ICRA48891.2023.10161352. ISBN 979-8-3503-2365-8.
^ Zhi-Xuan, bronceado; Ying, Lanza; Mansinghka, Vikash; Tenenbaum, Joshua B. (27 de febrero de 2024), Seguimiento de instrucción pragmática y asistencia de objetivos mediante planificación inversa guiada por lenguaje cooperativo , arXiv : 2402.17930
^ Wu, Sarah A.; Wang, Rosa E.; Evans, James A.; Tenenbaum, Josué B.; Parkes, David C.; Kleiman-Weiner, Max (7 de abril de 2021). "Demasiados cocineros: inferencia bayesiana para coordinar la colaboración entre múltiples agentes". Temas de ciencia cognitiva . 13 (2): 414–432. arXiv : 2003.11778 . doi :10.1111/tops.12525. ISSN 1756-8757. PMID 33829670.