stringtranslate.com

Teoría de juegos de campo medio

La teoría de juegos de campo medio es el estudio de la toma de decisiones estratégicas por parte de pequeños agentes que interactúan en poblaciones muy grandes. Se encuentra en la intersección de la teoría de juegos con el análisis estocástico y la teoría del control. El uso del término "campo medio" está inspirado en la teoría del campo medio en física, que considera el comportamiento de sistemas de grandes cantidades de partículas donde las partículas individuales tienen impactos insignificantes sobre el sistema. En otras palabras, cada agente actúa de acuerdo con su problema de minimización o maximización teniendo en cuenta las decisiones de otros agentes y debido a que su población es grande podemos asumir que el número de agentes llega al infinito y existe un agente representativo. [1]

En la teoría de juegos tradicional, el tema de estudio suele ser un juego con dos jugadores y espacio temporal discreto, y extiende los resultados a situaciones más complejas por inducción. Sin embargo, para juegos en tiempo continuo con estados continuos (juegos diferenciales o juegos diferenciales estocásticos) esta estrategia no se puede utilizar debido a la complejidad que generan las interacciones dinámicas. Por otro lado, con los MFG podemos manejar un gran número de jugadores a través del agente representativo medio y al mismo tiempo describir dinámicas estatales complejas.

Esta clase de problemas fue considerada en la literatura de economía por Boyan Jovanovic y Robert W. Rosenthal , [2] en la literatura de ingeniería por Minyi Huang, Roland Malhame y Peter E. Caines [3] [4] [5] e independientemente y casi al mismo tiempo por los matemáticos Jean-Michel Lasry  [fr] y Pierre-Louis Lions . [6] [7]

En tiempo continuo, un juego de campo medio normalmente se compone de una ecuación de Hamilton-Jacobi-Bellman que describe el problema de control óptimo de un individuo y una ecuación de Fokker-Planck que describe la dinámica de la distribución agregada de agentes. Bajo supuestos bastante generales, se puede demostrar que una clase de juegos de campo medio es el límite de un equilibrio de Nash de N jugadores . [8]

Un concepto relacionado con el de los juegos de campo medio es el "control de tipo de campo medio". En este caso, un planificador social controla la distribución de estados y elige una estrategia de control. La solución a un problema de control de tipo de campo medio normalmente se puede expresar como una ecuación adjunta dual de Hamilton-Jacobi-Bellman junto con la ecuación de Kolmogorov . La teoría de juegos de tipo campo medio es la generalización multiagente del control de tipo campo medio de un solo agente. [9]

Forma general de un juego de campo medio

El siguiente sistema de ecuaciones [10] se puede utilizar para modelar un juego de campo medio típico:

La dinámica básica de este conjunto de ecuaciones puede explicarse mediante el problema de control óptimo de un agente promedio. En un juego de campo medio, un agente promedio puede controlar su movimiento para influir en la ubicación general de la población mediante:

donde es un parámetro y es un movimiento browniano estándar. Al controlar su movimiento, el agente pretende minimizar su coste global esperado a lo largo del periodo de tiempo :

donde es el costo de funcionamiento en el momento y es el costo terminal en el momento . Según esta definición, en el tiempo y la posición , la función de valor se puede determinar como:

Dada la definición de la función de valor , se puede rastrear mediante la ecuación de Hamilton-Jacobi (1). La acción óptima de los jugadores promedio se puede determinar como . Como todos los agentes son relativamente pequeños y no pueden cambiar por sí solos la dinámica de la población, adaptarán individualmente el control óptimo y la población se moverá de esa manera. Esto es similar al equilibrio de Nash, en el que todos los agentes actúan en respuesta a un conjunto específico de estrategias de otros. La solución de control óptima conduce entonces a la ecuación de Kolmogorov-Fokker-Planck (2).

Juegos de estados finitos

Una categoría destacada de campo medio son los juegos con un número finito de estados y un número finito de acciones por jugador. Para esos juegos, el análogo de la ecuación de Hamilton-Jacobi-Bellman es la ecuación de Bellman, y la versión discreta de la ecuación de Fokker-Planck es la ecuación de Kolmogorov. Específicamente, para los modelos de tiempo discreto, la estrategia de los jugadores es la matriz de probabilidad de la ecuación de Kolmogorov. En los modelos de tiempo continuo, los jugadores tienen la capacidad de controlar la matriz de tasas de transición.

Un juego de campo medio discreto se puede definir mediante una tupla , donde está el espacio de estados, el conjunto de acciones, las matrices de tasas de transición, el estado inicial, las funciones de costos y un factor de descuento. Además, una estrategia mixta es una función medible , que asocia a cada estado y cada momento una medida de probabilidad sobre el conjunto de acciones posibles. Así es la probabilidad de que, en el momento en que un jugador en estado actúe , bajo estrategia . Además, las matrices de tasas definen la evolución en el tiempo de la distribución de la población, donde es la distribución de la población en el tiempo . [11]

Problema del juego gaussiano lineal-cuadrático

Según Caines (2009), un modelo relativamente simple de juegos a gran escala es el modelo gaussiano lineal-cuadrático . La dinámica del agente individual se modela como una ecuación diferencial estocástica.

donde es el estado del -ésimo agente, es el control del -ésimo agente y son procesos de Wiener independientes para todos . El costo del agente individual es

El acoplamiento entre agentes ocurre en la función de costos.

Uso general y aplicado

El paradigma de Mean Field Games se ha convertido en una conexión importante entre la toma de decisiones distribuida y el modelado estocástico. Comenzando en la literatura sobre control estocástico, está ganando una rápida adopción en una variedad de aplicaciones, que incluyen:

a. Mercado financiero Carmona revisa aplicaciones en ingeniería financiera y economía que pueden plantearse y abordarse en el marco del paradigma MFG. [12] Carmona sostiene que los modelos en macroeconomía, teoría de contratos, finanzas,…, se benefician enormemente del cambio al tiempo continuo desde los modelos de tiempo discreto más tradicionales. En su capítulo de revisión solo considera modelos de tiempo continuo, incluido el riesgo sistémico, el impacto en los precios, la ejecución óptima, los modelos para corridas bancarias, el comercio de alta frecuencia y las criptomonedas.

b. Crowd motions MFG supone que los individuos son jugadores inteligentes que intentan optimizar su estrategia y su camino con respecto a ciertos costos (enfoque de equilibrio con expectativas racionales). Los modelos MFG son útiles para describir el fenómeno de la anticipación: la parte delantera describe la evolución de la multitud mientras que la parte trasera muestra el proceso de cómo se construyen las anticipaciones. Además, en comparación con los cálculos de modelos microscópicos de múltiples agentes, MFG solo requiere costos computacionales más bajos para las simulaciones macroscópicas. Algunos investigadores han recurrido a MFG para modelar la interacción entre poblaciones y estudiar el proceso de toma de decisiones de agentes inteligentes, incluido el comportamiento de aversión y congestión entre dos grupos de peatones, [13] la elección de la hora de salida de los viajeros matutinos, [14] y Procesos de toma de decisiones para vehículos autónomos. [15]

C. Control y mitigación de epidemias Dado que la epidemia ha afectado significativamente a la sociedad y a los individuos, los MFG y los controles de campo medio (MFC) brindan una perspectiva para estudiar y comprender la dinámica poblacional subyacente, especialmente en el contexto de la respuesta a la pandemia de Covid-19. MFG se ha utilizado para ampliar la dinámica de tipo SIR con efectos espaciales o permitir que los individuos elijan sus comportamientos y controlen sus contribuciones a la propagación de la enfermedad. MFC se aplica para diseñar la estrategia óptima para controlar la propagación del virus dentro de un dominio espacial, [16] controlar las decisiones de los individuos para limitar sus interacciones sociales, [17] y apoyar las intervenciones no farmacéuticas del gobierno. [18]

Ver también

Referencias

  1. ^ Vasiliadis, Atanasios (2019). "Una introducción a los juegos de campo medio utilizando métodos probabilísticos". arXiv : 1907.01411 [matemáticas.OC].
  2. ^ Jovanovic, Boyan; Rosenthal, Robert W. (1988). "Juegos secuenciales anónimos". Revista de Economía Matemática . 17 (1): 77–87. doi :10.1016/0304-4068(88)90029-8.
  3. ^ Huang, MI; Malhame, RP; Caines, PE (2006). "Juegos dinámicos estocásticos de gran población: sistemas McKean-Vlasov de circuito cerrado y el principio de equivalencia de certeza de Nash". Comunicaciones en Información y Sistemas . 6 (3): 221–252. doi : 10.4310/CIS.2006.v6.n3.a5 . Zbl  1136.91349.
  4. ^ Nourian, M.; Caines, PE (2013). "Teoría de juegos de campo medio ε-Nash para sistemas dinámicos estocásticos no lineales con agentes mayores y menores". Revista SIAM de Control y Optimización . 51 (4): 3302–3331. arXiv : 1209.5684 . doi :10.1137/120889496. S2CID  36197045.
  5. ^ Djehiche, Boualem; Cheukam, Alain; Tembine, Hamidou (2017). "Juegos de campo medio en ingeniería". OBJETIVOS Electrónica e Ingeniería Eléctrica . 1 (1): 18–73. arXiv : 1605.03281 . doi :10.3934/ElectrEng.2017.1.18. S2CID  16055840.
  6. ^ Leones, Pierre-Louis; Lasry, Jean-Michel (marzo de 2007). "El comercio de grandes inversores impacta en la volatilidad". Annales de l'Institut Henri Poincaré C. 24 (2): 311–323. Código Bib : 2007AIHPC..24..311L. doi : 10.1016/j.anihpc.2005.12.006 .
  7. ^ Lasry, Jean-Michel; Leones, Pierre-Louis (28 de marzo de 2007). "Juegos de campo malos". Revista Japonesa de Matemáticas . 2 (1): 229–260. doi :10.1007/s11537-007-0657-8. S2CID  1963678.
  8. ^ Cardaliaguet, Pierre (27 de septiembre de 2013). "Notas sobre juegos de campo medios" (PDF) .
  9. ^ Bensoussan, Alain; Fresco, Jens; Ñame, Phillip (2013). Juegos de campo medio y teoría del control del tipo de campo medio. Springer Briefs en Matemáticas. Nueva York: Springer-Verlag. ISBN 9781461485070.[ página necesaria ]
  10. ^ Achdou, Yves (2020). Media de juegos de campo: Cetraro, Italia 2019. Pierre Cardaliaguet, F. Delarue, Alessio Porretta, Filippo Santambrogio. Cham. ISBN 978-3-030-59837-2. OCLC  1238206187.{{cite book}}: CS1 maint: location missing publisher (link)
  11. ^ Doncel, Josu; Gast, Nicolás; Gaujal, Bruno (2019). "Juegos de campos medios discretos: existencia de equilibrios y convergencia". Diario de dinámicas y juegos : 1–19. arXiv : 1909.01209 . doi :10.3934/jdg.2019016. S2CID  197507580.
  12. ^ Carmona, René (2020). "Aplicaciones de los juegos de campo medios en ingeniería financiera y teoría económica". arXiv : 2012.05237 [q-fin.GN].
  13. ^ Lachapelle, Aimé; Wolfram, Marie-Thérèse (2011). "Sobre un enfoque de juego de campo medio que modela la congestión y la aversión en las multitudes de peatones". Investigación sobre transporte Parte B: Metodológica . 45 (10): 1572-1589. doi :10.1016/j.trb.2011.07.011. S2CID  55991774.
  14. ^ Feinstein, Zachary; Sojmark, Andreas (2019). "Un modelo dinámico de contagio predeterminado: de Eisenberg-Noe al campo medio". arXiv : 1912.08695 [q-fin.MF].
  15. ^ Huang, Kuang; Chen, Xu; Di, Xuan; Du, Qiang (2021). "Juegos dinámicos de conducción y rutas para vehículos autónomos en redes: un enfoque de juego de campo medio". Investigación en transporte, parte C: tecnologías emergentes . 128 : 103189. arXiv : 2012.08388 . doi : 10.1016/j.trc.2021.103189. S2CID  235436377.
  16. ^ Lee, Wonjun; Liu, Ubicación; Tembine, Hamidou; Li, Wuchen; Osher, Stanley (2021). "Controlar la propagación de epidemias mediante el control de campo medio". Revista SIAM de Matemática Aplicada . 81 (1): 190–207. arXiv : 2006.01249 . doi :10.1137/20M1342690. S2CID  226299517.
  17. ^ Aurell, Alejandro; Carmona, René; Dayanikli, Gökce; Laurière, Mathieu (2022). "Incentivos óptimos para mitigar las epidemias: un enfoque de juego de campo medio de Stackelberg". Revista SIAM de Control y Optimización . 60 (2): S294–S322. arXiv : 2011.03105 . doi :10.1137/20M1377862. S2CID  226278147.
  18. ^ Elie, Romualdo; Hubert, Emma; Turinici, Gabriel (2020). "Control epidémico de la tasa de contacto de COVID-19: una visión de equilibrio". Modelización matemática de fenómenos naturales . 15 : 35. arXiv : 2004.08221 . doi : 10.1051/mmnp/2020022 . S2CID  215814201.

enlaces externos