Equilibrio bayesiano perfecto

En teoría de juegos , un Equilibrio Bayesiano Perfecto (PBE) es una solución con probabilidad bayesiana a un juego por turnos con información incompleta. Más específicamente, es un concepto de equilibrio que utiliza la actualización bayesiana para describir el comportamiento del jugador en juegos dinámicos con información incompleta . Los equilibrios bayesianos perfectos se utilizan para resolver el resultado de juegos en los que los jugadores se turnan pero no están seguros del "tipo" de su oponente, lo que ocurre cuando los jugadores no conocen la preferencia de su oponente entre movimientos individuales. Un ejemplo clásico de un juego dinámico con tipos es un juego de guerra en el que el jugador no está seguro de si su oponente es del tipo " halcón " que toma riesgos o del tipo " paloma " pacifista. Los equilibrios bayesianos perfectos son un refinamiento del equilibrio bayesiano de Nash (BNE), que es un concepto de solución con probabilidad bayesiana para juegos que no se basan en turnos.

Cualquier equilibrio bayesiano perfecto tiene dos componentes: estrategias y creencias :

La estrategia de un jugador en un conjunto de información determinado especifica su elección de acción en ese conjunto de información, que puede depender de la historia (de las acciones realizadas anteriormente en el juego). Esto es similar a un juego secuencial .
La creencia de un jugador en un conjunto de información determinado determina a qué nodo de ese conjunto de información cree que ha llegado el juego. La creencia puede ser una distribución de probabilidad sobre los nodos del conjunto de información y, normalmente, es una distribución de probabilidad sobre los posibles tipos de otros jugadores. Formalmente, un sistema de creencias es una asignación de probabilidades a cada nodo del juego de modo que la suma de probabilidades en cualquier conjunto de información sea 1.

Las estrategias y creencias también deben satisfacer las siguientes condiciones:

Racionalidad secuencial : cada estrategia debe ser óptima en expectativa, dadas las creencias.
Consistencia : cada creencia debe actualizarse según las estrategias de equilibrio, las acciones observadas y la regla de Bayes en cada camino alcanzado en equilibrio con probabilidad positiva. En caminos de probabilidad cero, conocidos como caminos de desequilibrio , las creencias deben especificarse pero pueden ser arbitrarias.

Un equilibrio bayesiano perfecto es siempre un equilibrio de Nash.

Ejemplos de equilibrios bayesianos perfectos

Juego de regalo 1

Considere el siguiente juego:

El remitente tiene dos tipos posibles: "amigo" (con probabilidad ) o "enemigo" (con probabilidad ). Cada tipo tiene dos estrategias: dar un regalo o no dar. $p$ $1-p$
El receptor tiene un solo tipo y dos estrategias: aceptar el regalo o rechazarlo.
La utilidad del remitente es 1 si se acepta su obsequio, -1 si se rechaza su obsequio y 0 si no hace ningún obsequio.
La utilidad del receptor depende de quién hace el regalo:
- Si el remitente es un amigo, entonces la utilidad del receptor es 1 (si acepta) o 0 (si rechaza).
- Si el remitente es un enemigo, entonces la utilidad del receptor es -1 (si acepta) o 0 (si rechaza).

Para cualquier valor de Equilibrio 1 existe un equilibrio de agrupación en el que ambos tipos de remitentes eligen la misma acción: $p,$

Equilibrio 1. Remitente: No dar , ya sea del tipo amigo o del tipo enemigo. Receptor: No aceptar , con las creencias de que Prob(Amigo|No Dar) = p y Prob(Amigo|Dar) = x, eligiendo un valor

x\leq .5.

El remitente prefiere el pago de 0 por no dar al pago de -1 por enviar y no ser aceptado. Por lo tanto, Dar tiene probabilidad cero en equilibrio y la regla de Bayes no restringe la creencia Prob (Amigo | Dar) en absoluto. Esa creencia debe ser lo suficientemente pesimista como para que el receptor prefiera el beneficio de 0 al rechazar un regalo al beneficio esperado de aceptarlo, por lo que el requisito de que la estrategia del receptor maximice su beneficio esperado dadas sus creencias requiere que Prob(Amigo|Dar) en el Por otro lado, la regla de Bayes requiere Prob(Amigo|No dar) = p , ya que ambos tipos realizan esa acción y no proporciona información sobre el tipo del remitente. $x(1)+(1-x)(-1)=2x-1,$ $\leq .5.$

Si , existe un segundo equilibrio de agrupación además del Equilibrio 1, basado en diferentes creencias: $p\geq 1/2$

Equilibrio 2. Remitente: Dar , ya sea del tipo amigo o del tipo enemigo. Receptor: Acepta, con la creencia de que Prob(Amigo|Dar) = p y Prob(Amigo|No dar) = x , eligiendo cualquier valor para

x.

El remitente prefiere el pago de 1 por dar al beneficio de 0 por no dar, esperando que su regalo sea aceptado. En equilibrio, la regla de Bayes requiere que el receptor tenga la creencia Prob(Friend|Give) = p , ya que ambos tipos realizan esa acción y no proporciona información sobre el tipo del remitente en este equilibrio. La creencia de fuera de equilibrio no importa, ya que el emisor no querría desviarse para no dar sin importar la respuesta que tuviera el receptor.

El equilibrio 1 es perverso si El juego podría haberlo hecho , por lo que es muy probable que el remitente sea un amigo, pero el receptor aún así rechazaría cualquier regalo porque cree que es mucho más probable que los enemigos den regalos que los amigos. Esto muestra cómo las creencias pesimistas pueden resultar en un equilibrio malo para ambos jugadores, uno que no sea eficiente en el sentido de Pareto . Sin embargo, estas creencias parecen poco realistas y los teóricos de juegos a menudo están dispuestos a rechazar algunos equilibrios bayesianos perfectos por considerarlos inverosímiles. $p\geq .5.$ $p=.99,$

Los equilibrios 1 y 2 son los únicos equilibrios que podrían existir, pero también podemos comprobar los dos equilibrios de separación potenciales , en los que los dos tipos de emisores eligen acciones diferentes, y ver por qué no existen como equilibrios bayesianos perfectos:

Supongamos que la estrategia del remitente es: Dar si es un amigo, No dar si es un enemigo. Las creencias del receptor se actualizan en consecuencia: si recibe un regalo, cree que el remitente es un amigo; de lo contrario, cree que el remitente es un enemigo. Así, el receptor responderá con Aceptar . Sin embargo, si el receptor elige Aceptar , el remitente enemigo se desviará a Dar , para aumentar su pago de 0 a 1, por lo que esto no puede ser un equilibrio.
Supongamos que la estrategia del remitente es: No dar si es un amigo, Dar si es un enemigo. Las creencias del receptor se actualizan en consecuencia: si recibe un regalo, cree que el remitente es un enemigo; de lo contrario, cree que el remitente es un amigo. La mejor estrategia de respuesta del receptor es Rechazar. Sin embargo, si el receptor elige Rechazar , el remitente enemigo se desviará a No dar , para aumentar su pago de -1 a 0, por lo que esto no puede ser un equilibrio.

Concluimos que en este juego no existe equilibrio separador.

Juego de regalo 2

En el siguiente ejemplo, ^[1] el conjunto de PBE es estrictamente más pequeño que el conjunto de SPE y BNE. Es una variante del juego de regalo anterior, con el siguiente cambio en la utilidad del receptor:

Si el remitente es un amigo, entonces la utilidad del receptor es 1 (si acepta) o 0 (si rechaza).
Si el remitente es un enemigo, entonces la utilidad del receptor es 0 (si acepta) o -1 (si rechaza).

Tenga en cuenta que en esta variante, aceptar es una estrategia débilmente dominante para el receptor.

De manera similar al ejemplo 1, no existe un equilibrio de separación. Veamos los siguientes equilibrios de agrupación potenciales:

La estrategia del remitente es: dar siempre. Las creencias del receptor no se actualizan: todavía cree en la probabilidad a priori, que el emisor es un amigo con probabilidad y un enemigo con probabilidad . El beneficio que obtienen al aceptar es siempre mayor que al rechazar, por lo que aceptan (independientemente del valor de ). Este es un PBE: es la mejor respuesta tanto para el remitente como para el receptor. $p$ $1-p$ $p$
La estrategia del remitente es: nunca dar. Supongamos que la creencia del receptor al recibir un regalo es que el remitente es un amigo con probabilidad , donde es cualquier número en . Independientemente de , la estrategia óptima del receptor es: aceptar. Esto NO es un PBE, ya que el remitente puede mejorar su pago de 0 a 1 dando un regalo. $q$ $q$ $[0,1]$ $q$
La estrategia del emisor es: nunca dar, y la estrategia del receptor es: rechazar. Esto NO es un PBE, ya que para cualquier creencia del receptor, rechazar no es la mejor respuesta.

¡Tenga en cuenta que la opción 3 es un equilibrio de Nash! Si ignoramos las creencias, entonces el rechazo puede considerarse la mejor respuesta para el receptor, ya que no afecta su recompensa (ya que de todos modos no hay ningún regalo). Además, la opción 3 es incluso un SPE, ¡ya que el único subjuego aquí es el juego completo! Estos equilibrios inverosímiles pueden surgir también en juegos con información completa, pero pueden eliminarse aplicando el equilibrio de Nash perfecto en subjuegos . Sin embargo, los juegos bayesianos a menudo contienen conjuntos de información no singleton y, dado que los subjuegos deben contener conjuntos de información completos, a veces solo hay un subjuego (el juego completo) y, por lo tanto, todo equilibrio de Nash es trivialmente perfecto en subjuegos. Incluso si un juego tiene más de un subjuego, la incapacidad de la perfección del subjuego para atravesar conjuntos de información puede dar lugar a que no se eliminen equilibrios inverosímiles.

En resumen: en esta variante del juego del regalo, hay dos SPE: o el remitente siempre da y el receptor siempre acepta, o el remitente siempre no da y el receptor siempre rechaza. De estos, sólo el primero es un PBE; el otro no es un PBE ya que no puede estar respaldado por ningún sistema de creencias.

Más ejemplos

Para obtener más ejemplos, consulte juego de señalización#Ejemplos . Véase también ^[2] para más ejemplos. Existe una aplicación reciente de este concepto en el Poker, por Loriente y Diez (2023). ^[3]

PBE en juegos de varias etapas

Un juego de varias etapas es una secuencia de juegos simultáneos que se juegan uno tras otro. Estos juegos pueden ser idénticos (como en los juegos repetidos ) o diferentes.

Juego repetido del bien público

El siguiente juego ^[4]^{: la sección 6.2} es una representación simple del problema del polizón . Hay dos actores, cada uno de los cuales puede construir un bien público o no construirlo. Cada jugador gana 1 si se construye el bien público y 0 si no; Además, si el jugador construye el bien público, tiene que pagar un coste de . Los costos son información privada : cada jugador conoce su propio costo pero no el costo del otro. Sólo se sabe que cada costo se extrae independientemente al azar de alguna distribución de probabilidad. Esto hace que este juego sea un juego bayesiano . $i$ $C_{i}$

En el juego de una etapa, cada jugador construye si, y sólo si, su costo es menor que la ganancia esperada de la construcción. La ganancia esperada al construir es exactamente 1 vez la probabilidad de que el otro jugador NO construya. En equilibrio, para cada jugador , existe un costo umbral , de modo que el jugador contribuye si, y solo, si su costo es menor que . Este costo umbral se puede calcular basándose en la distribución de probabilidad de los costos de los jugadores. Por ejemplo, si los costos se distribuyen uniformemente en , entonces existe un equilibrio simétrico en el que el costo umbral de ambos jugadores es 2/3. Esto significa que un jugador cuyo coste esté entre 2/3 y 1 no contribuirá, aunque su coste sea inferior al beneficio, ante la posibilidad de que el otro jugador contribuya. $i$ $C_{i}^{*}$ $C_{i}^{*}$ $[0,2]$

Ahora supongamos que este juego se repite dos veces. ^[4]^{: sección 8.2.3} Las dos jugadas son independientes, es decir, cada día los jugadores deciden simultáneamente si construir un bien público ese día, obtener un pago de 1 si el bien se construye ese día y pagar su costo. si construyeron en ese día. La única conexión entre los juegos es que, al jugar el primer día, los jugadores pueden revelar cierta información sobre sus costos, y esta información podría afectar el juego del segundo día.

Buscamos un PBE simétrico. Denote por el costo umbral de ambos jugadores en el día 1 (por lo tanto, en el día 1, cada jugador construye si, y solo, su costo es como máximo ). Para calcular , trabajamos hacia atrás y analizamos las acciones de los jugadores en el día 2. Sus acciones dependen del historial (= las dos acciones en el día 1), y hay tres opciones: ${\sombrero {c}}$ ${\sombrero {c}}$ ${\sombrero {c}}$

En el día 1, ningún jugador construyó. Ahora ambos jugadores saben que el coste de su oponente está por encima de . Actualizan su creencia en consecuencia y concluyen que hay menos posibilidades de que su oponente construya en el día 2. Por lo tanto, aumentan su costo umbral, y el costo umbral en el día 2 es . ${\sombrero {c}}$ $c^{00}>{\sombrero {c}}$
En el día 1, ambos jugadores construyeron. Ahora ambos jugadores saben que el coste de su oponente está por debajo de . Actualizan su creencia en consecuencia y concluyen que existe una mayor probabilidad de que su oponente construya en el día 2. Por lo tanto, reducen su costo umbral, y el costo umbral en el día 2 es . ${\sombrero {c}}$ $c^{11}<{\sombrero {c}}$
En el día 1, exactamente un jugador construyó; supongamos que es el jugador 1. Ahora se sabe que el costo del jugador 1 está por debajo y el costo del jugador 2 está por encima . Hay un equilibrio en el que las acciones del día 2 son idénticas a las del día 1: el jugador 1 construye y el jugador 2 no construye. ${\sombrero {c}}$ ${\sombrero {c}}$

Es posible calcular el beneficio esperado del "jugador de umbral" (un jugador con un coste exacto ) en cada una de estas situaciones. Dado que el jugador umbral debe ser indiferente entre contribuir o no contribuir, es posible calcular el costo umbral del día 1 . Resulta que este umbral es inferior al umbral en el juego de una etapa. Esto significa que, en un juego de dos etapas, los jugadores están menos dispuestos a construir que en el juego de una etapa. Intuitivamente, la razón es que, cuando un jugador no contribuye el primer día, hace que el otro jugador crea que su costo es alto, y esto hace que el otro jugador esté más dispuesto a contribuir el segundo día. ${\sombrero {c}}$ ${\sombrero {c}}$ $c^{*}$

oferta de salto

En una subasta inglesa a gritos , los postores pueden aumentar el precio actual en pequeños pasos (por ejemplo, en 1 dólar cada vez). Sin embargo, a menudo hay ofertas de salto : algunos postores aumentan el precio actual mucho más que el incremento mínimo. Una explicación es que sirve como señal para los demás postores. Hay un PBE en el que cada postor salta si, y sólo, si su valor supera un determinado umbral. Consulte Oferta de salto#señalización .

Ver también

Equilibrio secuencial : un refinamiento de PBE, que restringe las creencias que pueden asignarse a conjuntos de información fuera de equilibrio a creencias "razonables".
Criterio intuitivo y equilibrio divino : otros refinamientos de PBE, específicos de los juegos de señalización .

Referencias

^ James Peck. "Equilibrio bayesiano perfecto" (PDF) . Universidad del Estado de Ohio . Consultado el 6 de diciembre de 2021 .
^ Zack Grossman. "Equilibrio bayesiano perfecto" (PDF) . Universidad de California . Consultado el 2 de septiembre de 2016 .
^ Loriente, Martín Iñaki & Diez, Juan Cruz (2023). "Equilibrio bayesiano perfecto en Kuhn Poker". Universidad de San Andrés.
^ ab Fudenberg, Drew ; Tirole, Jean (1991). Teoría de juego. Cambridge, Massachusetts: MIT Press . ISBN 9780262061414.Vista previa del libro.