Juego bayesiano

En teoría de juegos , un juego bayesiano es un modelo de toma de decisiones estratégicas que supone que los jugadores tienen información incompleta. Los jugadores pueden tener información privada relevante para el juego, lo que significa que los pagos no son de conocimiento público. ^[1] Los juegos bayesianos modelan el resultado de las interacciones de los jugadores utilizando aspectos de la probabilidad bayesiana . Son notables porque permitieron, por primera vez en la teoría de juegos, la especificación de las soluciones a los juegos con información incompleta .

El economista húngaro John C. Harsanyi introdujo el concepto de juegos bayesianos en tres artículos de 1967 y 1968: ^[2]^[3]^[4] Recibió el Premio Nobel de Economía por estas y otras contribuciones a la teoría de juegos en 1994. En términos generales, Harsanyi definió los juegos bayesianos de la siguiente manera: a los jugadores se les asigna por naturaleza al comienzo del juego un conjunto de características. Al asignar distribuciones de probabilidad a estas características y calcular el resultado del juego utilizando la probabilidad bayesiana, el resultado es un juego cuya solución es, por razones técnicas, mucho más fácil de calcular que un juego similar en un contexto no bayesiano. Para esas razones técnicas, consulte la sección Especificación de juegos en este artículo.

Juegos en forma normal con información incompleta

Elementos

Un juego bayesiano se define por (N,A,T,p,u) , donde consta de los siguientes elementos: ^[5]

Conjunto de jugadores, N : El conjunto de jugadores dentro del juego.
Conjuntos de acciones, a _i : El conjunto de acciones disponibles para el jugador i . Un perfil de acción a = (a ₁ , . . . , a _N ) es una lista de acciones, una para cada jugador
Conjuntos de tipos, t _i : El conjunto de tipos de jugadores i . Los "tipos" capturan la información privada que puede tener un jugador. Un perfil de tipo t = (t ₁ , . . . , t _N ) es una lista de tipos, uno para cada jugador
Funciones de pago, u : Asigna un pago a un jugador dado su tipo y perfil de acción. Una función de pago, u = (u ₁ , . . . , u _N ) denota las utilidades del jugador i
Prior, p : Una distribución de probabilidad sobre todos los perfiles de tipo posibles, donde p(t) = p(t ₁ , . . . ,t _N ) es la probabilidad de que el Jugador 1 tenga el tipo t ₁ y el Jugador N tenga el tipo t _N .

Estrategias puras

En un juego estratégico, una estrategia pura es la elección de acción de un jugador en cada punto en el que debe tomar una decisión. ^[6]

Tres etapas

Hay tres etapas en los juegos bayesianos, cada una de las cuales describe el conocimiento de los jugadores sobre los tipos dentro del juego.

Juego de fase ex ante. Los jugadores no conocen sus propios tipos ni los de los otros jugadores. Un jugador reconoce los pagos como valores esperados en función de una distribución previa de todos los tipos posibles.
Juego de fase intermedia. Los jugadores conocen su propio tipo, pero solo una distribución de probabilidad de los otros jugadores. Un jugador estudia el valor esperado del tipo del otro jugador al considerar los pagos.
Juego de fase ex post. Los jugadores conocen sus propios tipos y los de los demás jugadores. Los jugadores conocen las recompensas. ^[7]

Mejoras con respecto a los juegos no bayesianos

Hay dos aspectos importantes y novedosos de los juegos bayesianos que fueron especificados por Harsanyi. ^[8] El primero es que los juegos bayesianos deben considerarse y estructurarse de manera idéntica a los juegos de información completa. Excepto que, al adjuntar probabilidad al juego, el juego final funciona como si fuera un juego de información incompleta. Por lo tanto, los jugadores pueden ser modelados esencialmente como si tuvieran información incompleta y el espacio de probabilidad del juego aún sigue la ley de probabilidad total . Los juegos bayesianos también son útiles porque no requieren cálculos secuenciales infinitos. Los cálculos secuenciales infinitos surgirían donde los jugadores (esencialmente) intentan "meterse en la cabeza de los demás". Por ejemplo, uno puede hacer preguntas y decidir "Si espero alguna acción del jugador B, entonces el jugador B anticipará que espero esa acción, por lo que entonces debería anticipar esa anticipación" ad infinitum . Los juegos bayesianos permiten el cálculo de estos resultados en un movimiento al asignar simultáneamente diferentes pesos de probabilidad a diferentes resultados. El efecto de esto es que los juegos bayesianos permiten modelar una cantidad de juegos que en un entorno no bayesiano serían irracionales de calcular.

Equilibrio de Nash bayesiano

Un equilibrio bayesiano-Nash de un juego bayesiano es un equilibrio de Nash de su juego de forma normal ex ante asociado.

En un juego no bayesiano, un perfil de estrategia es un equilibrio de Nash si cada estrategia en ese perfil es la mejor respuesta a todas las demás estrategias en el perfil; es decir, no hay ninguna estrategia que un jugador pueda jugar que produzca un pago mayor, dadas todas las estrategias jugadas por los otros jugadores.

Se puede definir un concepto análogo para un juego bayesiano, con la diferencia de que la estrategia de cada jugador maximiza su beneficio esperado dadas sus creencias sobre el estado de la naturaleza. Las creencias de un jugador sobre el estado de la naturaleza se forman condicionando las probabilidades previas al tipo de jugador según la regla de Bayes. $p$

Un equilibrio de Nash bayesiano (BNE) se define como un perfil de estrategia que maximiza el resultado esperado para cada jugador dadas sus creencias y dadas las estrategias utilizadas por los otros jugadores. Es decir, un perfil de estrategia es un equilibrio de Nash bayesiano si y solo si para cada jugador, manteniendo fijas las estrategias de todos los demás jugadores, la estrategia maximiza el resultado esperado del jugador de acuerdo con las creencias de ese jugador. ^[5] $\sigma$ $i,$ $\sigma _{i}$ $i$

Para los juegos bayesianos finitos, es decir, tanto la acción como el espacio de tipos son finitos, hay dos representaciones equivalentes. La primera se llama juego en forma de agente (ver Teorema 9.51 del libro de Teoría de juegos ^[9] ) que expande el número de jugadores de a , es decir, cada tipo de cada jugador se convierte en un jugador. La segunda se llama forma normal inducida (ver Sección 6.3.3 de Sistemas multiagente ^[10] ) que todavía tiene jugadores pero expande el número de acciones de cada jugador i de a , es decir, la política pura es una combinación de acciones que el jugador debe tomar para diferentes tipos. El Equilibrio de Nash (EN) se puede calcular en estas dos representaciones equivalentes, y el BNE se puede recuperar a partir del EN. $|N|$ ${\textstyle \sum _{i=1}^{|N|}|\Theta _{i}|}$ $|N|$ $|A_{i}|$ ${\textstyle |A_{i}|^{|\Theta _{i}|}}$

Consideremos dos jugadores con una función objetivo de suma cero. Se puede formar un programa lineal para calcular la BNE. ^[11]

Juegos de formato extenso con información incompleta

Elementos de los juegos de forma extensiva

Los juegos de forma extensiva con información perfecta o imperfecta, tienen los siguientes elementos: ^[12]

Conjunto de jugadores
Conjunto de nodos de decisión
Una función de jugador que asigna un jugador a cada nodo de decisión
Conjunto de acciones para cada jugador en cada uno de sus nodos de decisión
Conjunto de nodos terminales
Una función de pago para cada jugador

Naturaleza y conjuntos de información

El nodo de la Naturaleza suele estar representado por un círculo vacío. Su estrategia siempre está especificada y siempre es completamente mixta. Normalmente, la Naturaleza está en la raíz del árbol, pero también puede moverse en otros puntos.

Un conjunto de información del jugador i es un subconjunto de los nodos de decisión del jugador i entre los cuales no puede distinguir. Es decir, si el jugador i está en uno de sus nodos de decisión en un conjunto de información, no sabe en qué nodo del conjunto de información se encuentra.

Para que dos nodos de decisión estén en el mismo conjunto de información , deben ^[13]

Pertenecen al mismo jugador; y
Tener el mismo conjunto de acciones

Los conjuntos de información se indican mediante líneas de puntos, que es la notación más común hoy en día.

El papel de las creencias

En los juegos bayesianos, las creencias de los jugadores sobre el juego se denotan mediante una distribución de probabilidad de varios tipos.

Si los jugadores no tienen información privada, la distribución de probabilidad sobre los tipos se conoce como prior común . ^[1]

Regla de Bayes

Una evaluación de un juego en forma extensiva es un par <b, μ>

Perfil de estrategia de comportamiento ; y
Sistema de creencias

Una evaluación <b, μ> satisface la regla de Bayes si ^[14] μ(x|h _i ) = Pr[x se alcanza dado b−i ] / Σ Pr[x' se alcanza dado b _−i ] siempre que h _i se alcance con probabilidad estrictamente positiva de acuerdo con b _−i .

Equilibrio bayesiano perfecto

Un equilibrio bayesiano perfecto en un juego de forma extensiva es una combinación de estrategias y una especificación de creencias tales que se satisfacen las dos condiciones siguientes: ^[15]

Consistencia bayesiana: las creencias son consistentes con las estrategias bajo consideración;
Racionalidad secuencial: los jugadores eligen de forma óptima dadas sus creencias.

El equilibrio de Nash bayesiano puede dar lugar a equilibrios inverosímiles en juegos dinámicos, en los que los jugadores se mueven de forma secuencial en lugar de simultánea. Como en los juegos con información completa, estos pueden surgir a través de estrategias no creíbles que se alejan de la trayectoria del equilibrio. En los juegos con información incompleta existe también la posibilidad adicional de creencias no creíbles.

Para abordar estas cuestiones, el equilibrio bayesiano perfecto, según el equilibrio perfecto en subjuegos, exige que, a partir de cualquier conjunto de información, el juego posterior sea óptimo y que las creencias se actualicen de manera consistente con la regla de Bayes en cada camino de juego que ocurra con probabilidad positiva.

Juegos bayesianos estocásticos

Los juegos bayesianos estocásticos ^[16] combinan las definiciones de juegos bayesianos y juegos estocásticos para representar estados del entorno (por ejemplo, estados del mundo físico) con transiciones estocásticas entre estados, así como incertidumbre sobre los tipos de diferentes jugadores en cada estado. El modelo resultante se resuelve mediante una combinación recursiva del equilibrio de Nash bayesiano y la ecuación de optimalidad de Bellman . Los juegos bayesianos estocásticos se han utilizado para abordar diversos problemas, incluidos la planificación de la defensa y la seguridad, ^[17] la ciberseguridad de las centrales eléctricas, ^[18] la conducción autónoma, ^[19] la informática de borde móvil, ^[20] la autoestabilización en sistemas dinámicos, ^[21] y el tratamiento de la mala conducta en la IoT de crowdsourcing. ^[22]

Información incompleta sobre la agencia colectiva

La definición de los juegos bayesianos y del equilibrio bayesiano se ha ampliado para abordar la agencia colectiva . Un enfoque consiste en seguir tratando a los jugadores individuales como si razonaran de forma aislada, pero permitirles, con cierta probabilidad, razonar desde la perspectiva de un colectivo. ^[23] Otro enfoque consiste en suponer que los jugadores dentro de cualquier agente colectivo saben que el agente existe, pero que los demás jugadores no lo saben, aunque lo sospechan con cierta probabilidad. ^[24] Por ejemplo, Alice y Bob pueden a veces optimizar como individuos y a veces coludirse como equipo, dependiendo del estado de la naturaleza, pero otros jugadores pueden no saber cuál de estos casos es el caso.

Ejemplo

El dilema del sheriff

Un sheriff se enfrenta a un sospechoso armado. Ambos deben decidir simultáneamente si disparar al otro o no.

El sospechoso puede ser de tipo "criminal" o de tipo "civil". El sheriff tiene un solo tipo. El sospechoso conoce su tipo y el tipo del sheriff, pero el sheriff no conoce el tipo del sospechoso. Por lo tanto, hay información incompleta (porque el sospechoso tiene información privada), lo que lo convierte en un juego bayesiano. Existe una probabilidad p de que el sospechoso sea un criminal y una probabilidad 1-p de que el sospechoso sea un civil; ambos jugadores conocen esta probabilidad (suposición previa común, que se puede convertir en un juego de información completa con información imperfecta ).

El sheriff preferiría defenderse y disparar si el sospechoso dispara, o no disparar si el sospechoso no lo hace (incluso si el sospechoso es un criminal). El sospechoso preferiría disparar si es un criminal, incluso si el sheriff no dispara, pero preferiría no disparar si es un civil, incluso si el sheriff dispara. Por lo tanto, la matriz de pagos de este juego en forma normal para ambos jugadores depende del tipo de sospechoso. Este juego se define por (N,A,T,p,u) , donde:

N = {Sospechoso, Sheriff}
Un _sospechoso = {Disparar, no} , un _sheriff = {Disparar, no}
T _Sospechoso = {Criminal, Civil} , T _Sheriff = {*}
p _Criminal = p , p _Civil = (1 - p)
Se supone que los pagos, u , se dan de la siguiente manera:

Si ambos jugadores son racionales y ambos saben que ambos jugadores son racionales y todo lo que sabe cualquier jugador es conocido por todos los jugadores (es decir, el jugador 1 sabe que el jugador 2 sabe que el jugador 1 es racional y el jugador 2 sabe esto, etc. hasta el infinito – conocimiento común ), el juego será como sigue según el equilibrio bayesiano perfecto: ^[25]^[26]

Cuando el tipo es "criminal", la estrategia dominante para el sospechoso es disparar, y cuando el tipo es "civil", la estrategia dominante para el sospechoso es no disparar; por lo tanto, se puede eliminar la estrategia alternativa estrictamente dominada. Dado esto, si el sheriff dispara, tendrá un pago de 0 con probabilidad p y un pago de -1 con probabilidad 1-p , es decir, un pago esperado de p-1 ; si el sheriff no dispara, tendrá un pago de -2 con probabilidad p y un pago de 0 con probabilidad 1-p , es decir, un pago esperado de -2p . Por lo tanto, el sheriff siempre disparará si p-1 > -2p , es decir, cuando p > 1/3 .

El mercado de los limones

El mercado de limones está relacionado con un concepto conocido como selección adversa .

Configuración

Hay un coche usado. El jugador 1 es un comprador potencial que está interesado en el coche. El jugador 2 es el propietario del coche y conoce el valor v del mismo (qué tan bueno es, etc.). El jugador 1 no lo sabe y cree que el valor v del coche para el propietario (jugador 2) se distribuye uniformemente entre 0 y 100 (es decir, cada uno de los dos subintervalos de valor de [0, 100] de igual longitud son igualmente probables).

El jugador 1 puede hacer una oferta p entre 0 y 100 (inclusive). El jugador 2 puede aceptar o rechazar la oferta. Los pagos son los siguientes:

Pago del jugador 1: la oferta aceptada es 3/2v-p , la oferta rechazada es 0
Pago del jugador 2: la oferta aceptada es p , la oferta rechazada es v

Punto secundario: estrategia de corte

La estrategia del jugador 2: Aceptar todas las ofertas por encima de un cierto límite P* y rechazar y ofertar por debajo de P* se conoce como estrategia de límite, donde P* se denomina límite.

Sólo se comercializan "limones" (coches usados en mal estado, concretamente con valor como máximo igual a p )
El jugador 1 puede garantizarse un pago de cero al ofertar 0, por lo tanto, en equilibrio, p = 0
Como sólo se comercializan "limones" (coches usados en mal estado), el mercado se desploma
No es posible ningún comercio incluso cuando éste sería económicamente eficiente ^[27]

Entrar en el mercado monopolizado

Una nueva empresa (jugador1) que quiere entrar en un mercado monopolizado por una gran empresa se encontrará con dos tipos de monopolistas (jugador2), el tipo 1 está impedido y el tipo 2 está permitido. El jugador1 nunca tendrá información completa sobre el jugador2, pero puede inferir la probabilidad de que aparezcan el tipo 1 y el tipo 2 a partir de si la empresa anterior que entró en el mercado estaba bloqueada; es un juego bayesiano. La razón de estos juicios es que existen costos de bloqueo para el jugador2, que puede necesitar hacer recortes de precios significativos para evitar que el jugador1 entre en el mercado, por lo que bloqueará al jugador1 cuando la ganancia que roba al entrar en el mercado sea mayor que los costos de bloqueo.

Véase también

Referencias

^ ab Zamir, Shmuel (2009). "Juegos bayesianos: juegos con información incompleta" (PDF) . Enciclopedia de complejidad y ciencia de sistemas . p. 426. doi :10.1007/978-0-387-30440-3_29. ISBN . 978-0-387-75888-6.S2CID14218591 .
^ Harsanyi, John C., 1967/1968. "Juegos con información incompleta jugados por jugadores bayesianos, I-III". Management Science 14 (3): 159-183 (Parte I), 14 (5): 320-334 (Parte II), 14 (7): 486-502 (Parte III).
^ Harsanyi, John C. (1968). "Juegos con información incompleta jugados por jugadores "bayesianos", I-III. Parte II. Puntos de equilibrio bayesiano". Management Science . 14 (5): 320–334. doi :10.1287/mnsc.14.5.320. ISSN 0025-1909. JSTOR 2628673.
^ Harsanyi, John C. (1968). "Juegos con información incompleta jugados por jugadores "bayesianos", I-III. Parte III. La distribución de probabilidad básica del juego". Management Science . 14 (7): 486–502. doi :10.1287/mnsc.14.7.486. ISSN 0025-1909. JSTOR 2628894.
^ ab Kajii, A.; Morris, S. (1997). "La robustez de los equilibrios ante información incompleta". Econometrica . 65 (6): 1283–1309. doi :10.2307/2171737. JSTOR 2171737.
^ Grüne-Yanoff, Till; Lehtinen, Aki (2012). "Filosofía de la teoría de juegos". Filosofía de la economía : 532.
^ Koniorczyk, Mátyás; Bodor, András; Pintér, Miklós (29 de junio de 2020). "Equilibrios ex ante versus ex post en juegos bayesianos clásicos con un recurso no local". Revisión física A. 1 (6): 2–3. arXiv : 2005.12727 . Código Bib : 2020PhRvA.101f2115K. doi :10.1103/PhysRevA.101.062115. S2CID 218889282.
^ Harsanyi, John C. (2004). "Juegos con información incompleta jugados por jugadores "bayesianos", I-III: Parte I. El modelo básico". Management Science . 50 (12): 1804–1817. doi :10.1287/mnsc.1040.0270. ISSN 0025-1909. JSTOR 30046151.
^ Maschler, Michael; Solan, Eilon; Zamir, Shmuel (2013). Teoría de juegos. Cambridge: Cambridge University Press. doi :10.1017/cbo9780511794216. ISBN 978-0-511-79421-6.
^ Shoham, Yoav; Leyton-Brown, Kevin (2008). Sistemas multiagente . Cambridge: Cambridge University Press. doi :10.1017/cbo9780511811654. ISBN. 978-0-511-81165-4.
^ Ponssard, J. -P.; Sorin, S. (junio de 1980). "La formulación LP de juegos finitos de suma cero con información incompleta". Revista Internacional de Teoría de Juegos . 9 (2): 99–105. doi :10.1007/bf01769767. ISSN 0020-7276. S2CID 120632621.
^ Narahari, Y (julio de 2012). "Extensive Form Games" (PDF) . Departamento de Ciencias de la Computación y Automatización : 1.
^ "Juegos de forma estratégica", Game Theory , Cambridge University Press, págs. 75-143, 21 de marzo de 2013, doi :10.1017/cbo9780511794216.005, ISBN 9780511794216, consultado el 23 de abril de 2023
^ "Regla de Bayes: una introducción tutorial al análisis bayesiano". Choice Reviews Online . 51 (6): 51–3301–51-3301. 2014-01-21. doi :10.5860/choice.51-3301. ISSN 0009-4978.
^ Peters, Hans (2015). Teoría de juegos . Springer Texts in Business and Economics. Berlín: Springer. pág. 60. doi :10.1007/978-3-662-46950-7. ISBN . 978-3-662-46949-1.
^ Albrecht, Stefano; Crandall, Jacob; Ramamoorthy, Subramanian (2016). "Creencia y verdad en conductas hipotéticas". Inteligencia artificial . 235 : 63–94. arXiv : 1507.07688 . doi :10.1016/j.artint.2016.02.004. S2CID 2599762.
^ Caballero, William N.; Banks, David; Wu, Keru (8 de agosto de 2022). "Planificación de defensa y seguridad bajo incertidumbre de recursos y compromisos multiperiodísticos". Naval Research Logistics (NRL) . 69 (7): 1009–1026. doi :10.1002/nav.22071. ISSN 0894-069X. S2CID 251461541.
^ Maccarone, Lee Tylor (2021). Juegos bayesianos estocásticos para la ciberseguridad de las centrales nucleares . Tesis doctoral, Universidad de Pittsburgh.
^ Bernhard, Julian; Pollok, Stefan; Knoll, Alois (2019). "Abordar la incertidumbre inherente: generación de comportamiento sensible al riesgo para la conducción automatizada mediante aprendizaje por refuerzo distributivo". Simposio sobre vehículos inteligentes IEEE 2019 (IV) . París, Francia: IEEE. págs. 2148–2155. arXiv : 2102.03119 . doi :10.1109/IVS.2019.8813791. ISBN . 978-1-7281-0560-4.S2CID201811314 .
^ Asheralieva, Alia; Niyato, Dusit (2021). "Descarga computacional rápida y segura con computación de borde móvil codificada por Lagrange". Transacciones IEEE sobre tecnología vehicular . 70 (5): 4924–4942. doi :10.1109/TVT.2021.3070723. ISSN 0018-9545. S2CID 234331661.
^ Ramtin, Amir Reza; Towsley, Don (2021). "Un enfoque de teoría de juegos para la autoestabilización con agentes egoístas". arXiv : 2108.07362 [cs.DC].
^ Su, Runbo; Sfar, Arbia Riahi; Natalizio, Enrico; Moyal, Pascal; Song, Ye-Qiong (11 de septiembre de 2023). "Un modelo teórico de juegos que aborda el mal comportamiento en la IoT de crowdsourcing". 2023 20.ª Conferencia internacional anual IEEE sobre detección, comunicación y redes (SECON) (PDF) . IEEE. págs. 195–203. doi :10.1109/SECON58729.2023.10287527. ISBN 979-8-3503-0052-9.
^ Bacharach, M. (1999). "Razonamiento interactivo en equipo: una contribución a la teoría de la cooperación". Investigación en Economía . 53 (2): 117–47. doi :10.1006/reec.1999.0188.
^ Newton, J. (2019). "Equilibrio de agencia". Juegos . 10 (1): 14. doi : 10.3390/g10010014 . hdl : 10419/219237 .
^ "Coursera". Coursera . Consultado el 16 de junio de 2016 .
^ Hu, Yuhuang; Loo, Chu Kiong (17 de marzo de 2014). "Un modelo generalizado de toma de decisiones de inspiración cuántica para agentes inteligentes". The Scientific World Journal . 2014 : 240983. doi : 10.1155/2014/240983 . ISSN 1537-744X. PMC 3977121 . PMID 24778580.
^ Akerlof, George A. (agosto de 1970). "El mercado de los "limones": incertidumbre de la calidad y mecanismo del mercado". The Quarterly Journal of Economics . 84 (3): 488–500. doi :10.2307/1879431. JSTOR 1879431.

Lectura adicional

Gibbons, Robert (1992). Teoría de juegos para economistas aplicados. Princeton University Press. pp. 144–52. ISBN 1400835887.
Levin, Jonathan (2002). «Juegos con información incompleta» (PDF) . Consultado el 25 de agosto de 2016 .