La mejor respuesta

En teoría de juegos , la mejor respuesta es la estrategia (o estrategias) que produce el resultado más favorable para un jugador, tomando como dadas las estrategias de los otros jugadores (Fudenberg y Tirole 1991, p. 29; Gibbons 1992, pp. 33-49). El concepto de mejor respuesta es central para la contribución más conocida de John Nash , el equilibrio de Nash , el punto en el que cada jugador en un juego ha seleccionado la mejor respuesta (o una de las mejores respuestas) a las estrategias de los otros jugadores (Nash 1950).

Correspondencia

Las correspondencias de reacción , también conocidas como correspondencias de mejor respuesta, se utilizan en la prueba de la existencia de equilibrios de Nash de estrategia mixta (Fudenberg y Tirole 1991, Sección 1.3.B; Osborne y Rubinstein 1994, Sección 2.2). Las correspondencias de reacción no son "funciones de reacción" ya que las funciones solo deben tener un valor por argumento, y muchas correspondencias de reacción serán indefinidas, es decir, una línea vertical, para alguna elección de estrategia del oponente. Se construye una correspondencia , para cada jugador a partir del conjunto de perfiles de estrategia del oponente en el conjunto de estrategias del jugador. Entonces, para cualquier conjunto dado de estrategias del oponente , representa las mejores respuestas del jugador a . $b(\cdot )$ $\sigma _ {-i}$ $Estilo de visualización b_{i}(\sigma _{-i})}$ ${\estilo de visualización i}$ $\sigma _ {-i}$

Figura 2. Correspondencia de reacción para el jugador X en el juego de la caza del ciervo.

Las correspondencias de respuesta para todos los juegos de forma normal 2x2 se pueden dibujar con una línea para cada jugador en un espacio de estrategia de unitario cuadrado . Las figuras 1 a 3 grafican las mejores correspondencias de respuesta para el juego de la caza del ciervo . La línea de puntos en la Figura 1 muestra la probabilidad óptima de que el jugador Y juegue "Ciervo" (en el eje y), como una función de la probabilidad de que el jugador X juegue Ciervo (mostrada en el eje x). En la Figura 2, la línea de puntos muestra la probabilidad óptima de que el jugador X juegue "Ciervo" (mostrada en el eje x), como una función de la probabilidad de que el jugador Y juegue Ciervo (mostrada en el eje y). Nótese que la Figura 2 traza las variables independientes y de respuesta en los ejes opuestos a los que se usan normalmente, de modo que se puede superponer al gráfico anterior, para mostrar los equilibrios de Nash en los puntos donde las mejores respuestas de los dos jugadores coinciden en la Figura 3.

Existen tres formas distintivas de correspondencia de reacción, una para cada uno de los tres tipos de juegos simétricos 2x2: juegos de coordinación, juegos de discoordinación y juegos con estrategias dominadas (el cuarto caso trivial en el que los pagos son siempre iguales para ambos movimientos no es realmente un problema de teoría de juegos). Cualquier juego simétrico 2x2 con pagos adoptará una de estas tres formas.

Juegos de coordinación

Los juegos en los que los jugadores obtienen la puntuación más alta cuando ambos jugadores eligen la misma estrategia, como la caza del ciervo y la batalla de los sexos , se denominan juegos de coordinación . Estos juegos tienen correspondencias de reacción de la misma forma que la Figura 3, donde hay un equilibrio de Nash en la esquina inferior izquierda, otro en la esquina superior derecha y un equilibrio de Nash mixto en algún lugar a lo largo de la diagonal entre los otros dos.

Juegos anti-coordinación

Figura 3. Correspondencia de reacción para ambos jugadores en el juego de la Caza del ciervo. Equilibrios de Nash mostrados con puntos, donde las correspondencias de los dos jugadores coinciden, es decir, se cruzan

Los juegos como el juego de la gallina y el juego del halcón y la paloma en los que los jugadores obtienen la puntuación más alta cuando eligen estrategias opuestas, es decir, no coordinadas, se denominan juegos de anticoordinación. Tienen correspondencias de reacción (Figura 4) que se cruzan en la dirección opuesta a los juegos de coordinación, con tres equilibrios de Nash, uno en cada una de las esquinas superior izquierda e inferior derecha, donde un jugador elige una estrategia, el otro jugador elige la estrategia opuesta. El tercer equilibrio de Nash es una estrategia mixta que se encuentra a lo largo de la diagonal desde la esquina inferior izquierda hasta la esquina superior derecha. Si los jugadores no saben cuál de ellos es cuál, entonces el Nash mixto es una estrategia evolutivamente estable (ESS), ya que el juego se limita a la línea diagonal de la parte inferior izquierda a la superior derecha. De lo contrario , se dice que existe una asimetría no correlacionada , y los equilibrios de Nash de las esquinas son ESS.

Figura 4. Correspondencia de reacción para ambos jugadores en el juego del halcón y la paloma. Equilibrios de Nash mostrados con puntos, donde las correspondencias de los dos jugadores coinciden, es decir, se cruzan.

Juegos con estrategias dominadas

Figura 5. Correspondencia de reacción para un juego con estrategia dominada.

Los juegos con estrategias dominadas tienen correspondencias de reacción que solo se cruzan en un punto, que estará en la esquina inferior izquierda o superior derecha en juegos 2x2 con pagos simétricos. Por ejemplo, en el dilema del prisionero de una sola jugada , el movimiento "Cooperar" no es óptimo para ninguna probabilidad de cooperación del oponente. La Figura 5 muestra la correspondencia de reacción para un juego de este tipo, donde las dimensiones son "Probabilidad de jugar Cooperar", el equilibrio de Nash está en la esquina inferior izquierda donde ningún jugador juega Cooperar. Si las dimensiones se definieran como "Probabilidad de jugar Dejar", entonces las curvas de mejor respuesta de ambos jugadores serían 1 para todas las probabilidades de estrategia del oponente y las correspondencias de reacción se cruzarían (y formarían un equilibrio de Nash) en la esquina superior derecha.

Otros juegos (con pagos asimétricos)

En los juegos 2x2 con asimetrías de pagos es posible una gama más amplia de formas de correspondencias de reacción. Para cada jugador hay cinco posibles formas de mejor respuesta, que se muestran en la Figura 6. De izquierda a derecha son: estrategia dominada (siempre jugar 2), estrategia dominada (siempre jugar 1), ascendente (jugar estrategia 2 si la probabilidad de que el otro jugador juegue 2 es superior al umbral), descendente (jugar estrategia 1 si la probabilidad de que el otro jugador juegue 2 es superior al umbral) e indiferente (ambas estrategias funcionan igualmente bien en todas las condiciones).

Figura 6 - Las cinco posibles correspondencias de reacción para un jugador en un juego 2x2., Se supone que los ejes muestran la probabilidad de que el jugador juegue su estrategia 1. De izquierda a derecha: A) Siempre juega 2, la estrategia 1 está dominada, B) Siempre juega 1, la estrategia 2 está dominada, C) La estrategia 1 es mejor cuando el oponente juega su estrategia 1 y la 2 es mejor cuando el oponente juega su 2, D) La estrategia 1 es mejor cuando el oponente juega su estrategia 2 y la 2 es mejor cuando el oponente juega su 1, E) Ambas estrategias funcionan igualmente bien sin importar lo que juegue el oponente.

Si bien solo hay cuatro tipos posibles de juegos simétricos 2x2 con pago (de los cuales uno es trivial), las cinco curvas de mejor respuesta diferentes por jugador permiten una mayor cantidad de tipos de juegos asimétricos con pago. Muchos de ellos no son realmente diferentes entre sí. Las dimensiones se pueden redefinir (intercambiar los nombres de las estrategias 1 y 2) para producir juegos simétricos que sean lógicamente idénticos.

Monedas a juego

Un juego muy conocido con asimetrías en los pagos es el juego de emparejar monedas . En este juego, un jugador, el jugador de la fila (representado gráficamente en la dimensión y) gana si los jugadores se coordinan (ambos eligen cara o ambos eligen cruz), mientras que el otro jugador, el jugador de la columna (representado en el eje x) gana si los jugadores no se coordinan. La correspondencia de reacción del jugador Y es la de un juego de coordinación, mientras que la del jugador X es la de un juego de discoordinación. El único equilibrio de Nash es la combinación de estrategias mixtas en la que ambos jugadores eligen independientemente cara y cruz con una probabilidad de 0,5 cada uno.

Figura 7. Correspondencias de reacción para los jugadores en el juego de emparejar monedas . La correspondencia más a la izquierda corresponde al jugador coordinador, la del medio muestra la correspondencia para el jugador descoordinado. El único equilibrio de Nash se muestra en el gráfico de la derecha.

Dinámica

En la teoría de juegos evolutiva , la dinámica de mejor respuesta representa una clase de reglas de actualización de estrategias, donde las estrategias de los jugadores en la siguiente ronda están determinadas por sus mejores respuestas a un subconjunto de la población. Algunos ejemplos incluyen:

En un modelo de población grande, los jugadores eligen su próxima acción de manera probabilística en función de qué estrategias son las mejores respuestas a la población en su conjunto.
En un modelo espacial, los jugadores eligen (en la siguiente ronda) la acción que es la mejor respuesta a todos sus vecinos (Ellison 1993).

Es importante destacar que en estos modelos los jugadores solo eligen la mejor respuesta en la siguiente ronda que les daría el mayor beneficio en la siguiente ronda . Los jugadores no consideran el efecto que la elección de una estrategia en la siguiente ronda tendría en el juego futuro. Esta restricción hace que la regla dinámica a menudo se denomine mejor respuesta miope .

En la teoría de juegos potenciales , la dinámica de mejor respuesta se refiere a una forma de encontrar un equilibrio de Nash calculando la mejor respuesta para cada jugador:

Teorema: En cualquier juego de potencial finito, la dinámica de mejor respuesta siempre converge hacia un equilibrio de Nash. (Nisan et al. 2007, Sección 19.3.2)

Suavizado

Figura 8. Correspondencia BR (negra) y funciones BR suavizadas (colores)

En lugar de correspondencias de mejor respuesta, algunos modelos utilizan funciones de mejor respuesta suavizadas . Estas funciones son similares a la correspondencia de mejor respuesta, excepto que la función no "salta" de una estrategia pura a otra. La diferencia se ilustra en la Figura 8, donde el negro representa la correspondencia de mejor respuesta y los otros colores representan diferentes funciones de mejor respuesta suavizadas. En las correspondencias de mejor respuesta estándar, incluso el más mínimo beneficio de una acción dará como resultado que el individuo realice esa acción con una probabilidad de 1. En la mejor respuesta suavizada, a medida que la diferencia entre dos acciones disminuye, el juego del individuo se acerca al 50:50.

Existen muchas funciones que representan funciones de mejor respuesta suavizadas. Las funciones que se ilustran aquí son varias variaciones de la siguiente función:

{\frac {e^{E(1)/\gamma }}{e^{E(1)/\gamma }+e^{E(2)/\gamma }}}

donde representa el resultado esperado de la acción , y es un parámetro que determina el grado en el que la función se desvía de la mejor respuesta real (un valor mayor implica que es más probable que el jugador cometa "errores"). ${\estilo de visualización E(x)}$ ${\estilo de visualización x}$ ${\estilo de visualización \gamma}$ ${\estilo de visualización \gamma}$

Existen varias ventajas en el uso de la mejor respuesta suavizada, tanto teóricas como empíricas. En primer lugar, es coherente con los experimentos psicológicos; cuando los individuos son más o menos indiferentes entre dos acciones, parecen elegir más o menos al azar. En segundo lugar, el juego de los individuos está determinado de forma única en todos los casos, ya que es una correspondencia que también es una función . Por último, el uso de la mejor respuesta suavizada con algunas reglas de aprendizaje (como en el juego ficticio ) puede dar lugar a que los jugadores aprendan a jugar equilibrios de Nash de estrategia mixta (Fudenberg y Levine 1998).

Véase también

Juego resuelto

Referencias

Ellison, G. (1993), "Aprendizaje, interacción local y coordinación" (PDF) , Econometrica , 61 (5): 1047–1071, doi :10.2307/2951493, JSTOR 2951493
Fudenberg, D.; Levine, David K. (1998), La teoría del aprendizaje en los juegos , Cambridge MA: MIT Press
Fudenberg, Drew ; Tirole, Jean (1991). Teoría de juegos. Cambridge, Massachusetts: MIT Press . ISBN 9780262061414.Vista previa del libro.
Gibbons, R. (1992), Introducción a la teoría de juegos , Harvester-Wheatsheaf, S2CID 10248389
Nash, John F. (1950), "Puntos de equilibrio en juegos de n personas", Actas de la Academia Nacional de Ciencias de los Estados Unidos de América , 36 (1): 48–49, Bibcode :1950PNAS...36...48N, doi : 10.1073/pnas.36.1.48 , PMC 1063129 , PMID 16588946
Osborne, MJ; Rubinstein, Ariel (1994), Un curso de teoría de juegos , Cambridge MA: MIT Press
Young, HP (2005), El aprendizaje estratégico y sus límites , Oxford University Press
Nisan, N.; Roughgarden, T.; Tardos, É.; Vazirani, VV (2007), Teoría de juegos algorítmicos (PDF) , Nueva York: Cambridge University Press