En teoría de juegos , un movimiento , acción o jugada es cualquiera de las opciones que un jugador puede elegir en un entorno donde el resultado óptimo depende no solo de sus propias acciones sino también de las acciones de los demás. [1] La disciplina se ocupa principalmente de la acción de un jugador en un juego que afecta el comportamiento o las acciones de otros jugadores. Algunos ejemplos de "juegos" incluyen ajedrez, bridge, póquer, monopolio, diplomacia o batalla naval. [2]
El término estrategia se utiliza normalmente para referirse a un algoritmo completo para jugar un juego, que le dice al jugador qué hacer en cada situación posible. La estrategia de un jugador determina la acción que realizará el jugador en cualquier etapa del juego. Sin embargo, la idea de estrategia a menudo se confunde o combina con la de movimiento o acción, debido a la correspondencia entre movimientos y estrategias puras en la mayoría de los juegos : para cualquier movimiento X , "jugar siempre el movimiento X " es un ejemplo de estrategia válida y, como resultado, cada movimiento también puede considerarse una estrategia. Otros autores tratan las estrategias como algo diferente de las acciones y, por lo tanto, distintas.
Es útil pensar en una "estrategia" como una lista de direcciones y en un "movimiento" como un solo giro en la lista de direcciones en sí. Esta estrategia se basa en la recompensa o resultado de cada acción. El objetivo de cada agente es considerar su recompensa en función de la acción de un competidor. Por ejemplo, el competidor A puede suponer que el competidor B ingresa al mercado. A partir de ahí, el competidor A compara las recompensas que recibe al ingresar y al no ingresar. El siguiente paso es suponer que el competidor B no ingresa y luego considerar qué recompensa es mejor en función de si el competidor A elige ingresar o no ingresar. Esta técnica puede identificar estrategias dominantes donde un jugador puede identificar una acción que puede realizar sin importar lo que haga el competidor para intentar maximizar la recompensa.
Un perfil de estrategia (a veces llamado combinación de estrategias ) es un conjunto de estrategias para todos los jugadores que especifica por completo todas las acciones en un juego. Un perfil de estrategia debe incluir una y solo una estrategia para cada jugador.
El conjunto de estrategias de un jugador define qué estrategias están disponibles para que juegue.
Un jugador tiene un conjunto finito de estrategias si tiene a su disposición un número discreto de estrategias. Por ejemplo, en un juego de piedra, papel o tijera, cada jugador realiza un único movimiento (y cada uno de ellos lo hace sin saber el movimiento del otro, no como respuesta), por lo que cada jugador tiene un conjunto finito de estrategias (piedra, papel o tijera).
De lo contrario, un conjunto de estrategias es infinito. Por ejemplo, el juego de cortar la torta tiene un continuo acotado de estrategias en el conjunto de estrategias {Cortar cualquier parte entre el cero por ciento y el cien por ciento de la torta}.
En un juego dinámico , juegos que se juegan a lo largo de una serie de tiempos, el conjunto de estrategias consiste en las posibles reglas que un jugador podría dar a un robot o agente sobre cómo jugar el juego. Por ejemplo, en el juego del ultimátum , el conjunto de estrategias para el segundo jugador consistiría en todas las reglas posibles sobre qué ofertas aceptar y cuáles rechazar.
En un juego bayesiano , o en juegos en los que los jugadores tienen información incompleta sobre los demás, el conjunto de estrategias es similar al de un juego dinámico. Consiste en reglas que establecen qué acción tomar ante cualquier posible información privada.
En la teoría de juegos aplicada, la definición de los conjuntos de estrategias es una parte importante del arte de hacer que un juego sea solucionable y significativo al mismo tiempo. El teórico de juegos puede utilizar el conocimiento del problema general, es decir, la fricción entre dos o más jugadores, para limitar los espacios de estrategias y facilitar la solución.
Por ejemplo, estrictamente hablando, en el juego del Ultimátum, un jugador puede tener estrategias como: rechazar ofertas de ($1, $3, $5, ..., $19), aceptar ofertas de ($0, $2, $4, ..., $20) . Incluir todas esas estrategias genera un espacio de estrategias muy grande y un problema algo difícil. Un teórico de juegos podría creer, en cambio, que puede limitar el conjunto de estrategias a: {Rechazar cualquier oferta ≤ x , aceptar cualquier oferta > x ; para x en ($0, $1, $2, ..., $20)}.
Una estrategia pura proporciona una definición completa de cómo un jugador jugará una partida. La estrategia pura puede considerarse como un plan concreto singular sujeto a las observaciones que se hacen durante el transcurso de una partida. En particular, determina el movimiento que realizará un jugador en cualquier situación a la que se pueda enfrentar. El conjunto de estrategias de un jugador es el conjunto de estrategias puras disponibles para ese jugador.
Una estrategia mixta es la asignación de una probabilidad a cada estrategia pura. Cuando se utiliza una estrategia mixta, suele ser porque el juego no permite una descripción racional al especificar una estrategia pura para el juego. Esto permite que un jugador seleccione aleatoriamente una estrategia pura. (Vea la siguiente sección para una ilustración). Como las probabilidades son continuas, hay infinitas estrategias mixtas disponibles para un jugador. Como se asignan probabilidades a las estrategias de un jugador específico cuando se analizan los pagos de ciertos escenarios, el pago debe denominarse "pago esperado".
Por supuesto, se puede considerar una estrategia pura como un caso degenerado de una estrategia mixta, en el que esa estrategia pura particular se selecciona con probabilidad 1 y cualquier otra estrategia con probabilidad 0 .
Una estrategia totalmente mixta es una estrategia mixta en la que el jugador asigna una probabilidad estrictamente positiva a cada estrategia pura. (Las estrategias totalmente mixtas son importantes para el refinamiento del equilibrio, como el equilibrio perfecto de mano temblorosa ).
En un tiro penal en el fútbol, el lanzador debe elegir si lo hace hacia el lado derecho o izquierdo de la portería y, al mismo tiempo, el portero debe decidir hacia dónde bloquearlo. Además, el lanzador tiene una dirección en la que es mejor disparar, que es hacia la izquierda si es diestro. La matriz para el juego de fútbol ilustra esta situación, una forma simplificada del juego estudiado por Chiappori, Levitt y Groseclose (2002). [3] Supone que si el portero adivina correctamente, el tiro es bloqueado, lo que se establece en el pago base de 0 para ambos jugadores. Si el portero adivina mal, es más probable que el tiro entre si es hacia la izquierda (pagos de +2 para el lanzador y -2 para el portero) que si es hacia la derecha (el pago más bajo de +1 para el lanzador y -1 para el portero).
Este juego no tiene un equilibrio de estrategia pura, porque uno u otro jugador se desviaría de cualquier perfil de estrategias; por ejemplo, (Izquierda, Izquierda) no es un equilibrio porque el pateador se desviaría a la Derecha y aumentaría su pago de 0 a 1.
El equilibrio de estrategia mixta del pateador se obtiene a partir del hecho de que se desviará de la aleatorización a menos que sus ganancias de patada izquierda y patada derecha sean exactamente iguales. Si el portero se inclina hacia la izquierda con probabilidad g, la ganancia esperada del pateador de patada izquierda es g(0) + (1-g)(2), y de patada derecha es g(1) + (1-g)(0). Igualando estos valores se obtiene g = 2/3. De manera similar, el portero está dispuesto a aleatorizar solo si el pateador elige la probabilidad de estrategia mixta k tal que la ganancia de inclinación izquierda de k(0) + (1-k)(-1) sea igual a la ganancia de inclinación derecha de k(-2) + (1-k)(0), por lo que k = 1/3. Por lo tanto, el equilibrio de estrategia mixta es (Prob(patada izquierda) = 1/3, Prob(inclinación izquierda) = 2/3).
En equilibrio, el pateador patea hacia su mejor lado solo 1/3 del tiempo. Esto se debe a que el portero defiende más ese lado. Además, en equilibrio, al pateador le es indiferente hacia dónde patea, pero para que haya equilibrio debe elegir exactamente 1/3 de probabilidad.
Chiappori, Levitt y Groseclose intentan medir la importancia que tiene para el pateador patear hacia su lado favorito, añadir patadas al centro, etc., y observan cómo se comportan realmente los jugadores profesionales. Observan que sí lo hacen de forma aleatoria y que los pateadores patean hacia su lado favorito el 45% de las veces y los porteros se inclinan hacia ese lado el 57% de las veces. Su artículo es muy conocido como un ejemplo de cómo las personas en la vida real utilizan estrategias mixtas.
En su famoso artículo, John Forbes Nash demostró que existe un equilibrio para cada juego finito. Se pueden dividir los equilibrios de Nash en dos tipos. Los equilibrios de Nash de estrategia pura son equilibrios de Nash en los que todos los jugadores juegan estrategias puras. Los equilibrios de Nash de estrategia mixta son equilibrios en los que al menos un jugador juega una estrategia mixta. Si bien Nash demostró que cada juego finito tiene un equilibrio de Nash, no todos tienen equilibrios de Nash de estrategia pura. Para un ejemplo de un juego que no tiene un equilibrio de Nash en estrategias puras, consulte Matching pennies . Sin embargo, muchos juegos tienen equilibrios de Nash de estrategia pura (por ejemplo, el juego de coordinación , el dilema del prisionero , la caza del ciervo ). Además, los juegos pueden tener equilibrios de estrategia pura y de estrategia mixta. Un ejemplo fácil es el juego de coordinación pura, donde además de las estrategias puras (A, A) y (B, B) existe un equilibrio mixto en el que ambos jugadores juegan cualquiera de las estrategias con probabilidad 1/2.
Durante la década de 1980, el concepto de estrategias mixtas fue objeto de fuertes críticas por ser "intuitivamente problemático", ya que son equilibrios de Nash débiles y a un jugador le es indiferente si seguir la probabilidad de su estrategia de equilibrio o desviarse hacia otra probabilidad. [4] [5] El teórico de juegos Ariel Rubinstein describe formas alternativas de entender el concepto. La primera, debida a Harsanyi (1973), [6] se llama purificación y supone que la interpretación de las estrategias mixtas simplemente refleja nuestra falta de conocimiento de la información de los jugadores y del proceso de toma de decisiones. Las elecciones aparentemente aleatorias se ven entonces como consecuencias de factores exógenos no especificados e irrelevantes para el pago. [5] Una segunda interpretación imagina a los jugadores del juego representando a una gran población de agentes. Cada uno de los agentes elige una estrategia pura y el pago depende de la fracción de agentes que elige cada estrategia. La estrategia mixta, por lo tanto, representa la distribución de estrategias puras elegidas por cada población. Sin embargo, esto no proporciona ninguna justificación para el caso en que los jugadores son agentes individuales.
Más tarde, Aumann y Brandenburger (1995), [7] reinterpretaron el equilibrio de Nash como un equilibrio en creencias , en lugar de acciones. Por ejemplo, en piedra, papel o tijera, un equilibrio en creencias haría que cada jugador creyera que el otro tenía la misma probabilidad de jugar cada estrategia. Sin embargo, esta interpretación debilita el poder descriptivo del equilibrio de Nash, ya que es posible en un equilibrio de este tipo que cada jugador juegue realmente una estrategia pura de piedra en cada jugada del juego, aunque con el tiempo las probabilidades sean las de la estrategia mixta.
Mientras que una estrategia mixta asigna una distribución de probabilidad sobre las estrategias puras, una estrategia de comportamiento asigna en cada conjunto de información una distribución de probabilidad sobre el conjunto de acciones posibles. Si bien los dos conceptos están muy relacionados en el contexto de los juegos de forma normal, tienen implicaciones muy diferentes para los juegos de forma extensiva. En términos generales, una estrategia mixta elige aleatoriamente un camino determinista a través del árbol de juego , mientras que una estrategia de comportamiento puede verse como un camino estocástico. La relación entre las estrategias mixtas y de comportamiento es el tema del teorema de Kuhn , una perspectiva conductual sobre las hipótesis tradicionales de teoría de juegos. El resultado establece que en cualquier juego finito de forma extensiva con recuerdo perfecto, para cualquier jugador y cualquier estrategia mixta, existe una estrategia de comportamiento que, contra todos los perfiles de estrategias (de otros jugadores), induce la misma distribución sobre los nodos terminales que la estrategia mixta. Lo inverso también es cierto.
Piccione y Rubinstein (1997) [ cita completa necesaria ] dan un ejemplo famoso de por qué se requiere un recuerdo perfecto para la equivalencia con su juego del conductor distraído .
La equivalencia de resultados combina la estrategia mixta y conductual del Jugador i en relación con la estrategia pura del oponente del Jugador i. La equivalencia de resultados se define como la situación en la que, para cualquier estrategia mixta y conductual que adopte el Jugador i, en respuesta a cualquier estrategia pura que utilice el oponente del Jugador I, la distribución de resultados de la estrategia mixta y conductual debe ser igual. Esta equivalencia se puede describir mediante la siguiente fórmula: (Q^(U(i), S(-i)))(z) = (Q^(β(i), S(-i)))(z), donde U(i) describe la estrategia mixta del Jugador i, β(i) describe la estrategia conductual del Jugador i y S(-i) es la estrategia del oponente. [8]
La memoria perfecta se define como la capacidad de cada jugador del juego para recordar y evocar todas las acciones pasadas dentro del juego. La memoria perfecta es necesaria para la equivalencia, ya que, en juegos finitos con memoria imperfecta, existirán estrategias mixtas del Jugador I en las que no hay una estrategia de comportamiento equivalente. Esto se describe completamente en el juego del Conductor Distraído formulado por Piccione y Rubinstein. En resumen, este juego se basa en la toma de decisiones de un conductor con memoria imperfecta, que necesita tomar la segunda salida de la autopista para llegar a casa, pero no recuerda en qué intersección se encuentra cuando llega a ella. La Figura [2] describe este juego.
Sin información perfecta (es decir, información imperfecta), los jugadores toman una decisión en cada nodo de decisión sin saber las decisiones que la han precedido. Por lo tanto, la estrategia mixta de un jugador puede producir resultados que su estrategia conductual no puede, y viceversa. Esto se demuestra en el juego del conductor distraído . Con un recuerdo e información perfectos, el conductor tiene una única estrategia pura, que es [continuar, salir], ya que el conductor es consciente de en qué intersección (o nodo de decisión) se encuentra cuando llega a ella. Por otro lado, si solo se considera la etapa óptima de planificación, la recompensa máxima se logra al continuar en ambas intersecciones, maximizada en p = 2/3 (referencia). Este sencillo juego para un jugador demuestra la importancia del recuerdo perfecto para la equivalencia de resultados y su impacto en los juegos de forma normal y extendida. [9]