La mejor respuesta

En la teoría de juegos , la mejor respuesta es la estrategia (o estrategias) que produce el resultado más favorable para un jugador, tomando como dadas las estrategias de los otros jugadores. ^[1] El concepto de mejor respuesta es central para la contribución más conocida de John Nash , el equilibrio de Nash , el punto en el que cada jugador en un juego ha seleccionado la mejor respuesta (o una de las mejores respuestas) a las estrategias de los otros jugadores. ^[2]

Correspondencia

Las correspondencias de reacción , también conocidas como correspondencias de mejor respuesta, se utilizan en la prueba de la existencia de equilibrios de Nash de estrategia mixta . ^[3]^[4] Las correspondencias de reacción no son "funciones de reacción" ya que las funciones solo deben tener un valor por argumento, y muchas correspondencias de reacción no estarán definidas, es decir, serán una línea vertical, para alguna elección de estrategia del oponente. Se construye una correspondencia $b (\cdot)$ , para cada jugador del conjunto de perfiles de estrategia del oponente en el conjunto de estrategias del jugador. Entonces, para cualquier conjunto dado de estrategias del oponente $σ -i$ , $b i (σ -i)$ representa las mejores respuestas del jugador $i a$ $σ$ $-i$ .

Figura 2. Correspondencia de reacción para el jugador X en el juego de la caza del ciervo.

Correspondencias de respuesta para todos Los juegos de forma normal 2 × 2 se pueden dibujar con una línea para cada jugador en un espacio de estrategia de unitario cuadrado . Las figuras 1 a 3 grafican las correspondencias de mejor respuesta para el juego de la caza del ciervo . La línea de puntos en la Figura 1 muestra la probabilidad óptima de que el jugador Y juegue "Ciervo" (en el eje $y$ ), como una función de la probabilidad de que el jugador X juegue Ciervo (mostrada en el eje $x$ ). En la Figura 2, la línea de puntos muestra la probabilidad óptima de que el jugador X juegue "Ciervo" (mostrada en el eje $x$ ), como una función de la probabilidad de que el jugador Y juegue Ciervo (mostrada en el eje $y$ ). Nótese que la Figura 2 traza las variables independientes y de respuesta en los ejes opuestos a los que se usan normalmente, de modo que se puede superponer al gráfico anterior, para mostrar los equilibrios de Nash en los puntos donde las mejores respuestas de los dos jugadores coinciden en la Figura 3.

Hay tres formas de correspondencia de reacción distintivas, una para cada uno de los tres tipos de simetría. Juegos 2 × 2 : juegos de coordinación, juegos de descoordinación y juegos con estrategias dominadas (el cuarto caso trivial en el que los pagos son siempre iguales para ambos movimientos no es realmente un problema de teoría de juegos). Cualquier pago simétricoEl juego 2 × 2 tomará una de estas tres formas.

Juegos de coordinación

Los juegos en los que los jugadores obtienen la puntuación más alta cuando ambos jugadores eligen la misma estrategia, como la caza del ciervo y la batalla de los sexos , se denominan juegos de coordinación . Estos juegos tienen correspondencias de reacción de la misma forma que la Figura 3, donde hay un equilibrio de Nash en la esquina inferior izquierda, otro en la esquina superior derecha y un equilibrio de Nash mixto en algún lugar a lo largo de la diagonal entre los otros dos.

Juegos anti-coordinación

Figura 3. Correspondencia de reacción para ambos jugadores en el juego de la Caza del ciervo. Equilibrios de Nash mostrados con puntos, donde las correspondencias de los dos jugadores coinciden, es decir, se cruzan

Juegos como el juego de la gallina y el juego del halcón y la paloma en los que los jugadores obtienen la puntuación más alta cuando eligen estrategias opuestas, es decir, no coordinan, se denominan juegos de anticoordinación. Tienen correspondencias de reacción (Figura 4) que se cruzan en la dirección opuesta a los juegos de coordinación, con tres equilibrios de Nash, uno en cada una de las esquinas superior izquierda e inferior derecha, donde un jugador elige una estrategia, el otro jugador elige la estrategia opuesta. El tercer equilibrio de Nash es una estrategia mixta que se encuentra a lo largo de la diagonal desde la esquina inferior izquierda hasta la esquina superior derecha. Si los jugadores no saben cuál de ellos es cuál, entonces el Nash mixto es una estrategia evolutivamente estable (ESS) , ya que el juego se limita a la línea diagonal de abajo a la izquierda a la superior derecha. De lo contrario , se dice que existe una asimetría no correlacionada , y los equilibrios de Nash de las esquinas son ESS .

Figura 4. Correspondencia de reacción para ambos jugadores en el juego del halcón y la paloma. Equilibrios de Nash mostrados con puntos, donde las correspondencias de los dos jugadores coinciden, es decir, se cruzan.

Juegos con estrategias dominadas

Figura 5. Correspondencia de reacción para un juego con estrategia dominada.

Los juegos con estrategias dominadas tienen correspondencias de reacción que solo se cruzan en un punto, que será la esquina inferior izquierda o la esquina superior derecha en pagos simétricos.Juegos de 2 × 2. Por ejemplo, en el dilema del prisionero de una sola jugada , la jugada "Cooperar" no es óptima para ninguna probabilidad de cooperación del oponente. La Figura 5 muestra la correspondencia de reacción para un juego de este tipo, donde las dimensiones son "Probabilidad de jugar Cooperar", el equilibrio de Nash está en la esquina inferior izquierda donde ningún jugador juega Cooperar. Si las dimensiones se definieran como "Probabilidad de jugar Dejar", entonces las curvas de mejor respuesta de ambos jugadores serían 1 para todas las probabilidades de estrategia del oponente y las correspondencias de reacción se cruzarían (y formarían un equilibrio de Nash) en la esquina superior derecha.

Otros juegos (con pagos asimétricos)

Es posible una gama más amplia de formas de correspondencias de reacción enJuegos de 2 × 2 con asimetrías de pagos. Para cada jugador hay cinco posibles formas de mejor respuesta, que se muestran en la Figura 6. De izquierda a derecha son: estrategia dominada (siempre jugar 2), estrategia dominada (siempre jugar 1), ascendente (jugar estrategia 2 si la probabilidad de que el otro jugador juegue 2 es superior al umbral), descendente (jugar estrategia 1 si la probabilidad de que el otro jugador juegue 2 es superior al umbral) e indiferente (ambas estrategias funcionan igual de bien en todas las condiciones).

Figura 6 - Las cinco posibles correspondencias de reacción para un jugador en unaJuego 2 × 2. Se supone que los ejes muestran la probabilidad de que el jugador juegue su estrategia 1. De izquierda a derecha: A) Siempre juega 2, la estrategia 1 está dominada, B) Siempre juega 1, la estrategia 2 está dominada, C) La estrategia 1 es mejor cuando el oponente juega su estrategia 1 y la 2 es mejor cuando el oponente juega su 2, D) La estrategia 1 es mejor cuando el oponente juega su estrategia 2 y la 2 es mejor cuando el oponente juega su 1, E) Ambas estrategias funcionan igualmente bien sin importar lo que juegue el oponente.

Si bien solo hay cuatro tipos posibles de pago simétricoEn los juegos 2 × 2 (de los cuales uno es trivial), las cinco curvas de mejor respuesta diferentes por jugador permiten una mayor cantidad de tipos de juegos asimétricos con pagos. Muchos de ellos no son realmente diferentes entre sí. Las dimensiones se pueden redefinir (intercambiar los nombres de las estrategias 1 y 2) para producir juegos simétricos que sean lógicamente idénticos.

Monedas a juego

Un juego muy conocido con asimetrías en los pagos es el juego de emparejar monedas . En este juego, un jugador, el jugador de la fila (representado gráficamente en la dimensión y) gana si los jugadores se coordinan (ambos eligen cara o ambos eligen cruz), mientras que el otro jugador, el jugador de la columna (representado en el eje $x$ ) gana si los jugadores no se coordinan. La correspondencia de reacción del jugador Y es la de un juego de coordinación, mientras que la del jugador X es la de un juego de discoordinación. El único equilibrio de Nash es la combinación de estrategias mixtas en la que ambos jugadores eligen independientemente cara y cruz con una probabilidad de 0,5 cada uno.

Figura 7. Correspondencias de reacción para los jugadores en el juego de emparejar monedas . La correspondencia más a la izquierda corresponde al jugador coordinador, la del medio muestra la correspondencia para el jugador descoordinado. El único equilibrio de Nash se muestra en el gráfico de la derecha.

Dinámica

En la teoría de juegos evolutiva , la dinámica de mejor respuesta representa una clase de reglas de actualización de estrategias, donde las estrategias de los jugadores en la siguiente ronda están determinadas por sus mejores respuestas a un subconjunto de la población. Algunos ejemplos incluyen:

En un modelo de población grande, los jugadores eligen su próxima acción de manera probabilística en función de qué estrategias son las mejores respuestas a la población en su conjunto.
En un modelo espacial, los jugadores eligen (en la siguiente ronda) la acción que es la mejor respuesta a todos sus vecinos. ^[5]

Es importante destacar que en estos modelos los jugadores solo eligen la mejor respuesta en la siguiente ronda que les daría el mayor beneficio en la siguiente ronda . Los jugadores no consideran el efecto que la elección de una estrategia en la siguiente ronda tendría en el juego futuro. Esta restricción hace que la regla dinámica a menudo se denomine mejor respuesta miope .

En la teoría de juegos potenciales , la dinámica de mejor respuesta se refiere a una forma de encontrar un equilibrio de Nash calculando la mejor respuesta para cada jugador:

Teorema : En cualquier juego de potencial finito, la dinámica de mejor respuesta siempre converge a un equilibrio de Nash. ^[6]

Suavizado

Figura 8. Correspondencia BR (negra) y funciones BR suavizadas (colores)

En lugar de correspondencias de mejor respuesta, algunos modelos utilizan funciones de mejor respuesta suavizadas . Estas funciones son similares a la correspondencia de mejor respuesta, excepto que la función no "salta" de una estrategia pura a otra. La diferencia se ilustra en la Figura 8, donde el negro representa la correspondencia de mejor respuesta y los otros colores representan diferentes funciones de mejor respuesta suavizadas. En las correspondencias de mejor respuesta estándar, incluso el más mínimo beneficio de una acción dará como resultado que el individuo realice esa acción con una probabilidad de 1. En la mejor respuesta suavizada, a medida que la diferencia entre dos acciones disminuye, el juego del individuo se acerca al 50:50.

Existen muchas funciones que representan funciones de mejor respuesta suavizadas. Las funciones que se ilustran aquí son varias variaciones de la siguiente función:

${\frac {e^{E(1)/\gamma }}{e^{E(1)/\gamma }+e^{E(2)/\gamma }}}$

donde $E (x)$ representa el resultado esperado de la acción $x$ , y $γ$ es un parámetro que determina el grado en el que la función se desvía de la mejor respuesta real (un $γ$ mayor implica que es más probable que el jugador cometa "errores").

Existen varias ventajas en el uso de la mejor respuesta suavizada, tanto teóricas como empíricas. En primer lugar, es coherente con los experimentos psicológicos; cuando los individuos son más o menos indiferentes entre dos acciones, parecen elegir más o menos al azar. En segundo lugar, el juego de los individuos está determinado de forma única en todos los casos, ya que es una correspondencia que también es una función . Por último, el uso de la mejor respuesta suavizada con algunas reglas de aprendizaje (como en el juego ficticio ) puede dar lugar a que los jugadores aprendan a jugar equilibrios de Nash de estrategia mixta . ^[7]

Véase también

Juego resuelto

Referencias

^ Fudenberg y Tirole (1991), pág. 29; Gibbons (1992), págs. 33–49.
^ Nash (1950).
^ Fudenberg y Tirole (1991), Sección 1.3.B.
^ Osborne y Rubinstein (1994), Sección 2.2.
^ Ellison (1993).
^ Nisan y col. (2007), Sección 19.3.2.
^ Fudenberg y Levine (1998).

Bibliografía

Ellison, G. (1993), "Aprendizaje, interacción local y coordinación" (PDF) , Econometrica , 61 (5): 1047–1071, doi :10.2307/2951493, JSTOR 2951493
Fudenberg, D.; Levine, David K. (1998), La teoría del aprendizaje en los juegos , Cambridge, Massachusetts: MIT Press
Fudenberg, Drew ; Tirole, Jean (1991), Teoría de juegos, Cambridge, Massachusetts: MIT Press , ISBN 9780262061414Vista previa del libro.
Gibbons, R. (1992), Introducción a la teoría de juegos , Harvester-Wheatsheaf, S2CID 10248389
Nash, John F. (1950), "Puntos de equilibrio en juegos de n personas", Actas de la Academia Nacional de Ciencias de los Estados Unidos de América , 36 (1): 48–49, Bibcode :1950PNAS...36...48N, doi : 10.1073/pnas.36.1.48 , PMC 1063129 , PMID 16588946
Nisan, N.; Roughgarden, T.; Tardos, É.; Vazirani, VV (2007), Teoría de juegos algorítmicos (PDF) , Nueva York: Cambridge University Press
Osborne, MJ; Rubinstein, Ariel (1994), Un curso de teoría de juegos , Cambridge, Massachusetts: MIT Press
Young, HP (2005), El aprendizaje estratégico y sus límites , Oxford University Press