Mejor respuesta

En teoría de juegos , la mejor respuesta es la estrategia (o estrategias) que produce el resultado más favorable para un jugador, tomando como dadas las estrategias de otros jugadores (Fudenberg y Tirole 1991, p. 29; Gibbons 1992, pp. 33-49). . El concepto de mejor respuesta es central en la contribución más conocida de John Nash , el equilibrio de Nash , el punto en el que cada jugador en un juego ha seleccionado la mejor respuesta (o una de las mejores respuestas) a las estrategias de los otros jugadores (Nash 1950).

Correspondencia

Las correspondencias de reacción , también conocidas como correspondencias de mejor respuesta, se utilizan en la prueba de la existencia de equilibrios de Nash de estrategias mixtas (Fudenberg y Tirole 1991, Sección 1.3.B; Osborne y Rubinstein 1994, Sección 2.2). Las correspondencias de reacción no son "funciones de reacción", ya que las funciones sólo deben tener un valor por argumento, y muchas correspondencias de reacción no estarán definidas, es decir, serán una línea vertical, para alguna elección de estrategia del oponente. Se construye una correspondencia , para cada jugador, del conjunto de perfiles de estrategia del oponente al conjunto de estrategias del jugador. Entonces, para cualquier conjunto dado de estrategias del oponente , representa las mejores respuestas del jugador a . $b(\cdot )$ $\sigma _{-i}$ ${\ Displaystyle b_ {i} (\ sigma _ {-i})}$ $i$ $\sigma _{-i}$

Figura 2. Correspondencia de reacción del jugador X en el juego Stag Hunt.

Las correspondencias de respuesta para todos los juegos de forma normal 2x2 se pueden trazar con una línea para cada jugador en un espacio estratégico de cuadrado unitario . Las figuras 1 a 3 muestran las mejores correspondencias de respuesta para el juego de la caza del ciervo . La línea de puntos en la Figura 1 muestra la probabilidad óptima de que el jugador Y juegue 'Stag' (en el eje y), en función de la probabilidad de que el jugador X juegue Stag (que se muestra en el eje x). En la Figura 2, la línea de puntos muestra la probabilidad óptima de que el jugador X juegue 'Stag' (mostrada en el eje x), en función de la probabilidad de que el jugador Y juegue Stag (mostrada en el eje y). Tenga en cuenta que la Figura 2 traza las variables independiente y de respuesta en los ejes opuestos a los que se usan normalmente, de modo que pueda superponerse al gráfico anterior, para mostrar los equilibrios de Nash en los puntos donde las mejores respuestas de los dos jugadores coinciden en la Figura 3.

Hay tres formas de correspondencia de reacción distintivas, una para cada uno de los tres tipos de juegos simétricos 2x2: juegos de coordinación, juegos de descoordinación y juegos con estrategias dominadas (el cuarto caso trivial en el que los pagos son siempre iguales para ambos movimientos no es realmente un juego teórico). problema). Cualquier juego simétrico de pagos 2x2 adoptará una de estas tres formas.

juegos de coordinacion

Los juegos en los que los jugadores obtienen la puntuación más alta cuando ambos eligen la misma estrategia, como la caza del ciervo y la batalla de sexos , se denominan juegos de coordinación . Estos juegos tienen correspondencias de reacción de la misma forma que la Figura 3, donde hay un equilibrio de Nash en la esquina inferior izquierda, otro en la esquina superior derecha y un Nash mixto en algún lugar a lo largo de la diagonal entre los otros dos.

Juegos anticoordinación

Figura 3. Correspondencia de reacción de ambos jugadores en el juego Stag Hunt. Los equilibrios de Nash se muestran con puntos, donde las correspondencias de los dos jugadores coinciden, es decir, se cruzan.

Juegos como el juego de la gallina y el halcón-paloma, en el que los jugadores obtienen la puntuación más alta cuando eligen estrategias opuestas, es decir, descoordinadas, se denominan juegos anticoordinación. Tienen correspondencias de reacción (Figura 4) que se cruzan en dirección opuesta a los juegos de coordinación, con tres equilibrios de Nash, uno en cada una de las esquinas superior izquierda e inferior derecha, donde un jugador elige una estrategia y el otro jugador elige la estrategia opuesta. El tercer equilibrio de Nash es una estrategia mixta que se extiende a lo largo de la diagonal desde la esquina inferior izquierda hasta la superior derecha. Si los jugadores no saben cuál de ellos es cuál, entonces la Nash mixta es una estrategia evolutivamente estable (ESS), ya que el juego se limita a la línea diagonal inferior izquierda a superior derecha. De lo contrario, se dice que existe una asimetría no correlacionada y los equilibrios de Nash de esquina son ESS.

Figura 4. Correspondencia de reacción de ambos jugadores en el juego halcón-paloma. Los equilibrios de Nash se muestran con puntos, donde las correspondencias de los dos jugadores coinciden, es decir, se cruzan.

Juegos con estrategias dominadas

Figura 5. Correspondencia de reacción para un juego con estrategia dominada.

Los juegos con estrategias dominadas tienen correspondencias de reacción que solo se cruzan en un punto, que estará en la esquina inferior izquierda o superior derecha en juegos simétricos de pago 2x2. Por ejemplo, en el dilema del prisionero de una sola jugada , el movimiento "Cooperar" no es óptimo para ninguna probabilidad de cooperación del oponente. La Figura 5 muestra la correspondencia de reacción para dicho juego, donde las dimensiones son "Juego de probabilidad Cooperar", el equilibrio de Nash está en la esquina inferior izquierda donde ninguno de los jugadores juega Cooperar. Si las dimensiones se definieran como "Defecto del juego de probabilidad", entonces las curvas de mejor respuesta de ambos jugadores serían 1 para todas las probabilidades de la estrategia del oponente y las correspondencias de reacción se cruzarían (y formarían un equilibrio de Nash) en la esquina superior derecha.

Otros juegos (con pagos asimétricos)

Es posible una gama más amplia de formas de correspondencias de reacción en juegos 2x2 con asimetrías de pagos. Para cada jugador hay cinco formas posibles de mejor respuesta, que se muestran en la Figura 6. De izquierda a derecha, son: estrategia dominada (siempre juega 2), estrategia dominada (siempre juega 1), ascendente (juega la estrategia 2 si es probable que el otro jugador juega 2 está por encima del umbral), cae (juega la estrategia 1 si la probabilidad de que el otro jugador juegue 2 está por encima del umbral) e indiferente (ambas estrategias funcionan igual de bien en todas las condiciones).

Figura 6 - Las cinco posibles correspondencias de reacción para un jugador en un juego 2x2. Se supone que los ejes muestran la probabilidad de que el jugador juegue su estrategia 1. De izquierda a derecha: A) Siempre juega 2, la estrategia 1 está dominada, B ) Siempre juega 1, la estrategia 2 está dominada, C) La estrategia 1 es mejor cuando el oponente juega su estrategia 1 y 2 mejor cuando el oponente juega su 2, D) La estrategia 1 es mejor cuando el oponente juega su estrategia 2 y la 2 mejor cuando el oponente juega su 1, E) Ambas estrategias funcionan igual de bien sin importar lo que juegue el oponente.

Si bien sólo hay cuatro tipos posibles de juegos 2x2 simétricos con pagos (de los cuales uno es trivial), las cinco curvas de mejor respuesta diferentes por jugador permiten un mayor número de tipos de juegos asimétricos con pagos. Muchos de ellos no son realmente diferentes entre sí. Las dimensiones pueden redefinirse (intercambiar nombres de las estrategias 1 y 2) para producir juegos simétricos que sean lógicamente idénticos.

centavos a juego

Un juego muy conocido con asimetrías en los pagos es el juego de hacer coincidir las monedas de un centavo . En este juego, un jugador, el jugador de la fila (graficado en la dimensión y), gana si los jugadores se coordinan (ambos eligen cara o ambos eligen cruz), mientras que el otro jugador, el jugador de la columna, que se muestra en el eje x, gana si los jugadores descoordinado. La correspondencia de reacción del jugador Y es la de un juego de coordinación, mientras que la del jugador X es un juego de descoordinación. El único equilibrio de Nash es la combinación de estrategias mixtas donde ambos jugadores eligen independientemente cara y cruz con una probabilidad de 0,5 cada uno.

Figura 7. Correspondencias de reacción de los jugadores en el juego de emparejar monedas de un centavo . El mapeo más a la izquierda es para el jugador coordinador, el del medio muestra el mapeo para el jugador descoordinado. El único equilibrio de Nash se muestra en el gráfico de la derecha.

Dinámica

En la teoría de juegos evolutiva , la dinámica de mejor respuesta representa una clase de reglas de actualización de estrategias, donde las estrategias de los jugadores en la siguiente ronda están determinadas por sus mejores respuestas a algún subconjunto de la población. Algunos ejemplos incluyen:

En un modelo de población grande, los jugadores eligen su siguiente acción probabilísticamente basándose en qué estrategias son las mejores respuestas para la población en su conjunto.
En un modelo espacial, los jugadores eligen (en la siguiente ronda) la acción que es la mejor respuesta para todos sus vecinos (Ellison 1993).

Es importante destacar que en estos modelos los jugadores solo eligen la mejor respuesta en la siguiente ronda que les daría la mayor recompensa en la siguiente ronda . Los jugadores no consideran el efecto que tendría elegir una estrategia en la siguiente ronda en el juego futuro. Esta restricción da como resultado que la regla dinámica a menudo se denomine mejor respuesta miope .

En la teoría de los juegos potenciales , la dinámica de la mejor respuesta se refiere a una forma de encontrar un equilibrio de Nash calculando la mejor respuesta para cada jugador:

Teorema: En cualquier juego de potencial finito, la dinámica de mejor respuesta siempre converge hacia un equilibrio de Nash. (Nisan et al. 2007, Sección 19.3.2)

alisado

Figura 8. Correspondencia BR (negro) y funciones BR suavizadas (colores)

En lugar de correspondencias de mejor respuesta, algunos modelos utilizan funciones de mejor respuesta suavizadas . Estas funciones son similares a la correspondencia de mejor respuesta, excepto que la función no "salta" de una estrategia pura a otra. La diferencia se ilustra en la Figura 8, donde el negro representa la mejor correspondencia de respuesta y los demás colores representan diferentes funciones suavizadas de mejor respuesta. En las correspondencias estándar de mejor respuesta, incluso el más mínimo beneficio para una acción resultará en que el individuo realice esa acción con probabilidad 1. En la mejor respuesta suavizada, a medida que la diferencia entre dos acciones disminuye, el juego del individuo se acerca a 50:50.

Hay muchas funciones que representan funciones de mejor respuesta suavizadas. Las funciones ilustradas aquí son varias variaciones de la siguiente función:

{\frac {e^{E(1)/\gamma }}{e^{E(1)/\gamma }+e^{E(2)/\gamma }}}

donde representa el beneficio esperado de la acción y es un parámetro que determina el grado en que la función se desvía de la mejor respuesta verdadera (un mayor implica que es más probable que el jugador cometa "errores"). $E(x)$ $x$ $\gamma$ $\gamma$

Existen varias ventajas al utilizar la mejor respuesta suavizada, tanto teóricas como empíricas. En primer lugar, es coherente con los experimentos psicológicos; cuando los individuos son más o menos indiferentes entre dos acciones, parecen elegir más o menos al azar. En segundo lugar, el juego de los individuos está unívocamente determinado en todos los casos, ya que es una correspondencia que es también una función . Finalmente, usar la mejor respuesta suavizada con algunas reglas de aprendizaje (como en el juego ficticio ) puede dar como resultado que los jugadores aprendan a jugar equilibrios de Nash de estrategia mixta (Fudenberg y Levine 1998).

Ver también

juego resuelto

Referencias

Ellison, G. (1993), "Aprendizaje, interacción local y coordinación" (PDF) , Econometrica , 61 (5): 1047–1071, doi :10.2307/2951493, JSTOR 2951493
Fudenberg, D.; Levine, David K. (1998), La teoría del aprendizaje en los juegos , Cambridge MA: MIT Press
Fudenberg, Drew ; Tirole, Jean (1991). Teoría de juego. Cambridge, Massachusetts: MIT Press . ISBN 9780262061414.Vista previa del libro.
Gibbons, R. (1992), Introducción a la teoría de juegos , Harvester-Wheatsheaf, S2CID 10248389
Nash, John F. (1950), "Puntos de equilibrio en juegos de n personas", Actas de la Academia Nacional de Ciencias de los Estados Unidos de América , 36 (1): 48–49, Bibcode :1950PNAS...36. ..48N, doi : 10.1073/pnas.36.1.48 , PMC 1063129 , PMID 16588946
Osborne, MJ; Rubinstein, Ariel (1994), Un curso de teoría de juegos , Cambridge MA: MIT Press
Young, HP (2005), Aprendizaje estratégico y sus límites , Oxford University Press
Nisán, N.; Roughgarden, T.; Tardos, É.; Vazirani, VV (2007), Teoría algorítmica de juegos (PDF) , Nueva York: Cambridge University Press