stringtranslate.com

Teoría de juegos de campo medio

La teoría de juegos de campo medio es el estudio de la toma de decisiones estratégicas por parte de pequeños agentes que interactúan en poblaciones muy grandes. Se encuentra en la intersección de la teoría de juegos con el análisis estocástico y la teoría de control . El uso del término "campo medio" se inspira en la teoría de campo medio en física, que considera el comportamiento de sistemas de grandes cantidades de partículas donde las partículas individuales tienen impactos insignificantes sobre el sistema. En otras palabras, cada agente actúa de acuerdo con su problema de minimización o maximización teniendo en cuenta las decisiones de otros agentes y, debido a que su población es grande, podemos suponer que el número de agentes tiende al infinito y existe un agente representativo. [1]

En la teoría de juegos tradicional , el objeto de estudio suele ser un juego con dos jugadores y espacio temporal discreto, y se extienden los resultados a situaciones más complejas por inducción. Sin embargo, para juegos en tiempo continuo con estados continuos (juegos diferenciales o juegos diferenciales estocásticos) no se puede utilizar esta estrategia debido a la complejidad que generan las interacciones dinámicas. En cambio con los MFG podemos manejar grandes cantidades de jugadores a través del agente representativo de la media y al mismo tiempo describir dinámicas de estados complejas.

Esta clase de problemas fue considerada en la literatura económica por Boyan Jovanovic y Robert W. Rosenthal , [2] en la literatura de ingeniería por Minyi Huang, Roland Malhame y Peter E. Caines [3] [4] [5] e independientemente y casi al mismo tiempo por los matemáticos Jean-Michel Lasry  [fr] y Pierre-Louis Lions . [6] [7]

En tiempo continuo, un juego de campo medio se compone típicamente de una ecuación de Hamilton-Jacobi-Bellman que describe el problema de control óptimo de un individuo y una ecuación de Fokker-Planck que describe la dinámica de la distribución agregada de agentes. Bajo supuestos bastante generales, se puede demostrar que una clase de juegos de campo medio es el límite de un equilibrio de Nash de N jugadores . [8]

Un concepto relacionado con el de los juegos de campo medio es el de "control de tipo campo medio". En este caso, un planificador social controla la distribución de estados y elige una estrategia de control. La solución a un problema de control de tipo campo medio puede expresarse típicamente como una ecuación de Hamilton-Jacobi-Bellman doble adjunta acoplada con la ecuación de Kolmogorov . La teoría de juegos de tipo campo medio es la generalización multiagente del control de tipo campo medio de un solo agente. [9]

Forma general de un juego de campo medio

El siguiente sistema de ecuaciones [10] se puede utilizar para modelar un juego de campo medio típico:

La dinámica básica de este conjunto de ecuaciones se puede explicar mediante un problema de control óptimo de un agente promedio. En un juego de campo medio, un agente promedio puede controlar su movimiento para influir en la ubicación general de la población mediante:

donde es un parámetro y es un movimiento browniano estándar. Al controlar su movimiento, el agente busca minimizar su costo general esperado a lo largo del período de tiempo :

donde es el costo de funcionamiento en el momento y es el costo terminal en el momento . Por esta definición, en el momento y la posición , la función de valor se puede determinar como:

Dada la definición de la función de valor , se puede rastrear mediante la ecuación de Hamilton-Jacobi (1). La acción óptima de los jugadores promedio se puede determinar como . Como todos los agentes son relativamente pequeños y no pueden cambiar por sí solos la dinámica de la población, adaptarán individualmente el control óptimo y la población se moverá de esa manera. Esto es similar a un equilibrio de Nash, en el que todos los agentes actúan en respuesta a un conjunto específico de estrategias de otros. La solución de control óptima conduce entonces a la ecuación de Kolmogorov-Fokker-Planck (2).

Juegos de estados finitos

Una categoría destacada de campo medio son los juegos con un número finito de estados y un número finito de acciones por jugador. Para esos juegos, el análogo de la ecuación de Hamilton-Jacobi-Bellman es la ecuación de Bellman, y la versión discreta de la ecuación de Fokker-Planck es la ecuación de Kolmogorov. Específicamente, para los modelos de tiempo discreto, la estrategia de los jugadores es la matriz de probabilidad de la ecuación de Kolmogorov. En los modelos de tiempo continuo, los jugadores tienen la capacidad de controlar la matriz de velocidad de transición.

Un juego de campo medio discreto puede definirse mediante una tupla , donde es el espacio de estados, el conjunto de acciones, las matrices de tasas de transición, el estado inicial, las funciones de costo y un factor de descuento. Además, una estrategia mixta es una función medible , que asocia a cada estado y cada tiempo una medida de probabilidad sobre el conjunto de acciones posibles. Por lo tanto , es la probabilidad de que, en el momento en que un jugador en el estado realice la acción , bajo la estrategia . Además, las matrices de tasas definen la evolución a lo largo del tiempo de la distribución de la población, donde es la distribución de la población en el momento . [11]

Problema de juego gaussiano lineal-cuadrático

Según Caines (2009), un modelo relativamente simple de juegos a gran escala es el modelo gaussiano lineal-cuadrático . La dinámica de los agentes individuales se modela como una ecuación diferencial estocástica.

donde es el estado del -ésimo agente, es el control del -ésimo agente y son procesos de Wiener independientes para todos . El costo del agente individual es

El acoplamiento entre agentes se produce en la función de costes.

Uso general y aplicado

El paradigma de los juegos de campo medio se ha convertido en un vínculo importante entre la toma de decisiones distribuidas y el modelado estocástico. Comenzó en la literatura sobre control estocástico y está ganando una rápida adopción en una variedad de aplicaciones, entre ellas:

a. Mercado financiero Carmona analiza las aplicaciones en ingeniería financiera y economía que pueden formularse y abordarse en el marco del paradigma MFG. [12] Carmona sostiene que los modelos en macroeconomía, teoría de contratos, finanzas, …, se benefician enormemente del cambio al tiempo continuo desde los modelos de tiempo discreto más tradicionales. Considera solo modelos de tiempo continuo en su capítulo de revisión, incluido el riesgo sistémico, el impacto de los precios, la ejecución óptima, los modelos para corridas bancarias, el comercio de alta frecuencia y las criptomonedas.

b. Movimientos de multitudes MFG asume que los individuos son jugadores inteligentes que intentan optimizar su estrategia y trayectoria con respecto a ciertos costos (enfoque de equilibrio con expectativas racionales). Los modelos MFG son útiles para describir el fenómeno de la anticipación: la parte hacia adelante describe la evolución de la multitud mientras que la parte hacia atrás da el proceso de cómo se construyen las anticipaciones. Además, en comparación con los cálculos de modelos microscópicos de múltiples agentes, MFG solo requiere costos computacionales más bajos para las simulaciones macroscópicas. Algunos investigadores han recurrido a MFG para modelar la interacción entre poblaciones y estudiar el proceso de toma de decisiones de agentes inteligentes, incluyendo el comportamiento de aversión y congestión entre dos grupos de peatones, [13] la elección de la hora de salida de los viajeros matutinos, [14] y los procesos de toma de decisiones para vehículos autónomos. [15]

c. Control y mitigación de epidemias Dado que la epidemia ha afectado significativamente a la sociedad y a los individuos, los controles de campo medio (MFG) y los controles de campo medio (MFC) brindan una perspectiva para estudiar y comprender la dinámica poblacional subyacente, especialmente en el contexto de la respuesta a la pandemia de Covid-19. Los MFG se han utilizado para extender la dinámica de tipo SIR con efectos espaciales o permitir que los individuos elijan sus comportamientos y controlen sus contribuciones a la propagación de la enfermedad. Los MFC se aplican para diseñar la estrategia óptima para controlar la propagación del virus dentro de un dominio espacial, [16] controlar las decisiones de los individuos para limitar sus interacciones sociales, [17] y apoyar las intervenciones no farmacéuticas del gobierno. [18]

Véase también

Referencias

  1. ^ Vasiliadis, Athanasios (2019). "Introducción a los juegos de campo medio utilizando métodos probabilísticos". arXiv : 1907.01411 [math.OC].
  2. ^ Jovanovic, Boyan; Rosenthal, Robert W. (1988). "Juegos secuenciales anónimos". Revista de economía matemática . 17 (1): 77–87. doi :10.1016/0304-4068(88)90029-8.
  3. ^ Huang, MY; Malhame, RP; Caines, PE (2006). "Juegos dinámicos estocásticos de gran población: sistemas McKean-Vlasov de bucle cerrado y el principio de equivalencia de certeza de Nash". Comunicaciones en información y sistemas . 6 (3): 221–252. doi : 10.4310/CIS.2006.v6.n3.a5 . Zbl  1136.91349.
  4. ^ Nourian, M.; Caines, PE (2013). "Teoría de juegos de campo medio ε–Nash para sistemas dinámicos estocásticos no lineales con agentes mayores y menores". Revista SIAM sobre control y optimización . 51 (4): 3302–3331. arXiv : 1209.5684 . doi :10.1137/120889496. S2CID  36197045.
  5. ^ Djehiche, Boualem; Tcheukam, Alain; Tembine, Hamidou (2017). "Juegos de tipo campo medio en ingeniería". AIMS Electronics and Electrical Engineering . 1 (1): 18–73. arXiv : 1605.03281 . doi :10.3934/ElectrEng.2017.1.18. S2CID  16055840.
  6. ^ Leones, Pierre-Louis; Lasry, Jean-Michel (marzo de 2007). "El comercio de grandes inversores impacta la volatilidad". Annales de l'Institut Henri Poincaré C. 24 (2): 311–323. Código Bib : 2007AIHPC..24..311L. doi : 10.1016/j.anihpc.2005.12.006 .
  7. ^ Lasry, Jean-Michel; Lions, Pierre-Louis (28 de marzo de 2007). "Juegos de campo medio". Revista Japonesa de Matemáticas . 2 (1): 229–260. doi :10.1007/s11537-007-0657-8. S2CID  1963678.
  8. ^ Cardaliaguet, Pierre (27 de septiembre de 2013). "Notas sobre los juegos de campo medio" (PDF) .
  9. ^ Bensoussan, Alain; Frehse, Jens; Yam, Phillip (2013). Juegos de campo medio y teoría de control de tipo de campo medio. Springer Briefs in Mathematics. Nueva York: Springer-Verlag. ISBN 9781461485070.[ página necesaria ]
  10. ^ Achdou, Yves (2020). Media de juegos de campo: Cetraro, Italia 2019. Pierre Cardaliaguet, F. Delarue, Alessio Porretta, Filippo Santambrogio. Cham. ISBN 978-3-030-59837-2.OCLC 1238206187  .{{cite book}}: CS1 maint: location missing publisher (link)
  11. ^ Doncel, Josu; Gast, Nicolas; Gaujal, Bruno (2019). "Juegos de campo de media discreta: Existencia de equilibrios y convergencia". Journal of Dynamics & Games : 1–19. arXiv : 1909.01209 . doi :10.3934/jdg.2019016. S2CID  197507580.
  12. ^ Carmona, Rene (2020). "Aplicaciones de los juegos de campo medio en ingeniería financiera y teoría económica". arXiv : 2012.05237 [q-fin.GN].
  13. ^ Lachapelle, Aimé; Wolfram, Marie-Therese (2011). "Modelado de la congestión y la aversión en multitudes de peatones mediante un enfoque de juego de campo medio". Investigación en transporte, parte B: Metodología . 45 (10): 1572–1589. doi :10.1016/j.trb.2011.07.011. S2CID  55991774.
  14. ^ Feinstein, Zachary; Sojmark, Andreas (2019). "Un modelo dinámico de contagio por defecto: de Eisenberg-Noe al campo medio". arXiv : 1912.08695 [q-fin.MF].
  15. ^ Huang, Kuang; Chen, Xu; Di, Xuan; Du, Qiang (2021). "Juegos de conducción y enrutamiento dinámicos para vehículos autónomos en redes: un enfoque de juego de campo medio". Transportation Research Part C: Emerging Technologies . 128 : 103189. arXiv : 2012.08388 . doi :10.1016/j.trc.2021.103189. S2CID  235436377.
  16. ^ Lee, Wonjun; Liu, Siting; Tembine, Hamidou; Li, Wuchen; Osher, Stanley (2021). "Control de la propagación de epidemias mediante el control del campo medio". Revista SIAM de Matemáticas Aplicadas . 81 (1): 190–207. arXiv : 2006.01249 . doi :10.1137/20M1342690. S2CID  226299517.
  17. ^ Aurell, Alexander; Carmona, Rene; Dayanikli, Gokce; Lauriere, Mathieu (2022). "Incentivos óptimos para mitigar epidemias: un enfoque de juego de campo medio de Stackelberg". Revista SIAM sobre control y optimización . 60 (2): S294–S322. arXiv : 2011.03105 . doi :10.1137/20M1377862. S2CID  226278147.
  18. ^ Elie, Romuald; Hubert, Emma; Turinici, Gabriel (2020). "Control de la epidemia de COVID-19 mediante la tasa de contacto: una visión de equilibrio". Modelado matemático de fenómenos naturales . 15 : 35. arXiv : 2004.08221 . doi : 10.1051/mmnp/2020022 . S2CID  215814201.

Enlaces externos