El juego de emparejar monedas es un juego no cooperativo estudiado en la teoría de juegos . Se juega entre dos jugadores, Par e Impar. Cada jugador tiene una moneda y debe girarla en secreto para que salga cara o cruz. Luego, los jugadores revelan sus opciones simultáneamente. Si las monedas coinciden (ambas caras o ambas cruces), el par gana y se queda con ambas monedas. Si las monedas no coinciden (una cara y una cruz), el impar gana y se queda con ambas monedas.
Teoría
Matching Pennies es un juego de suma cero porque la ganancia o pérdida de utilidad de cada participante se equilibra exactamente con las pérdidas o ganancias de utilidad de los demás participantes. Si se suman las ganancias totales de los participantes y se restan sus pérdidas totales, la suma será cero.
El juego se puede escribir en una matriz de pagos (en la imagen de la derecha, desde el punto de vista de Even). Cada celda de la matriz muestra los pagos de los dos jugadores, y los pagos de Even aparecen en primer lugar.
La combinación de monedas se utiliza principalmente para ilustrar el concepto de estrategias mixtas y un equilibrio de Nash de estrategias mixtas . [1]
Este juego no tiene un equilibrio de Nash de estrategia pura, ya que no existe una estrategia pura (cara o cruz) que sea la mejor respuesta a una mejor respuesta. En otras palabras, no hay un par de estrategias puras que ninguno de los jugadores quiera cambiar si se le dice lo que haría el otro. En cambio, el único equilibrio de Nash de este juego está en las estrategias mixtas : cada jugador elige cara o cruz con la misma probabilidad. [2] De esta manera, cada jugador hace que el otro sea indiferente entre elegir cara o cruz, por lo que ninguno de los jugadores tiene un incentivo para probar otra estrategia. Las funciones de mejor respuesta para las estrategias mixtas se representan en la Figura 1 a continuación:
Cuando cualquiera de los jugadores juega el equilibrio, el pago esperado de todos es cero.
Variantes
Variar los pagos en la matriz puede cambiar el punto de equilibrio. Por ejemplo, en la tabla que se muestra a la derecha, el par tiene una probabilidad de ganar 7 si tanto él como el impar juegan cara. Para calcular el punto de equilibrio en este juego, tenga en cuenta que un jugador que juega una estrategia mixta debe ser indiferente entre sus dos acciones (de lo contrario, cambiaría a una estrategia pura). Esto nos da dos ecuaciones:
Para el jugador Par, la recompensa esperada al jugar Cara es y cuando juega Cruz (donde es la probabilidad de Impar de jugar Cara), y estas deben ser iguales, por lo que .
Para el jugador Impar, la recompensa esperada al jugar Cara es y cuando juega Cruz (donde es la probabilidad de que Par juegue Cara), y estas deben ser iguales, por lo que .
Nótese que, dado que es la probabilidad de cara de Odd y es la probabilidad de cara de Even , el cambio en el resultado de Even afecta la estrategia de equilibrio de Odd y no la propia estrategia de equilibrio de Even. Esto puede resultar poco intuitivo al principio. El razonamiento es que, en equilibrio, las opciones deben ser igualmente atractivas. La posibilidad +7 de que salga Even es muy atractiva en relación con +1, por lo que, para mantener el equilibrio, la jugada de Odd debe reducir la probabilidad de ese resultado para compensar e igualar los valores esperados de las dos opciones, lo que significa que, en equilibrio, Odd jugará Cara con menos frecuencia y Cruz con más frecuencia.
Experimentos de laboratorio
Los jugadores humanos no siempre juegan con la estrategia de equilibrio. Los experimentos de laboratorio revelan varios factores que hacen que los jugadores se desvíen de la estrategia de equilibrio, especialmente si se juega repetidamente con monedas iguales:
Los humanos no son buenos para la aleatorización. Pueden intentar producir secuencias "aleatorias" cambiando sus acciones de cara a cruz y viceversa, pero cambian sus acciones con demasiada frecuencia (debido a la falacia del jugador ). Esto hace posible que los jugadores expertos predigan sus próximas acciones con más del 50% de posibilidades de éxito. De esta manera, se podría lograr una ganancia esperada positiva .
Los humanos están entrenados para detectar patrones. Intentan detectar patrones en la secuencia del oponente, incluso cuando dichos patrones no existen, y ajustan su estrategia en consecuencia. [3]
El comportamiento de los humanos se ve afectado por los efectos de encuadre . [4] Cuando el jugador Impar es nombrado "el que engaña" y el jugador Par es nombrado "el que adivina", el primero se centra en tratar de aleatorizar y el segundo se centra en tratar de detectar un patrón, y esto aumenta las posibilidades de éxito del que adivina. Además, el hecho de que el Par gane cuando hay una coincidencia le da una ventaja, ya que las personas son mejores en la coincidencia que en la descompensación (debido al efecto de compatibilidad Estímulo-Respuesta ).
Además, cuando la matriz de pagos es asimétrica, otros factores influyen en el comportamiento humano incluso cuando el juego no se repite:
Los jugadores tienden a aumentar la probabilidad de jugar una acción que les da una mayor recompensa, por ejemplo, en la matriz de recompensas anterior, Par tenderá a jugar más Cara. Esto es intuitivamente comprensible, pero no es un equilibrio de Nash: como se explicó anteriormente, la probabilidad de mezcla de un jugador debe depender solo de la recompensa del otro jugador, no de su propia recompensa. Esta desviación se puede explicar como un equilibrio de respuesta cuántica . [5] [6] En un equilibrio de respuesta cuántica, las curvas de mejor respuesta no son agudas como en un equilibrio de Nash estándar. Más bien, cambian suavemente de la acción cuya probabilidad es 0 a la acción cuya probabilidad es 1 (en otras palabras, mientras que en un equilibrio de Nash, un jugador elige la mejor respuesta con probabilidad 1 y la peor respuesta con probabilidad 0, en un equilibrio de respuesta cuántica el jugador elige la mejor respuesta con alta probabilidad que es menor que 1 y la peor respuesta con menor probabilidad que es mayor que 0). El punto de equilibrio es el punto de intersección de las curvas suavizadas de los dos jugadores, que es diferente del punto de equilibrio de Nash.
Los efectos de recompensa propia se mitigan mediante la aversión al riesgo . [7] Los jugadores tienden a subestimar las ganancias elevadas y a sobreestimar las pérdidas elevadas; esto mueve las curvas de respuesta cuántica y cambia el punto de equilibrio de respuesta cuántica. Esto aparentemente contradice los resultados teóricos sobre la irrelevancia de la aversión al riesgo en juegos de suma cero con una repetición finita. [8]
Datos de la vida real
Las conclusiones de los experimentos de laboratorio han sido criticadas por varios motivos. [9] [10]
Los juegos en experimentos de laboratorio son artificiales y simplistas y no imitan el comportamiento de la vida real.
Los resultados de los experimentos de laboratorio son pequeños, por lo que los sujetos no tienen muchos incentivos para jugar de forma óptima. En la vida real, el mercado puede castigar esa irracionalidad y hacer que los jugadores se comporten de forma más racional.
Los sujetos tienen otras consideraciones además de maximizar las recompensas monetarias, como evitar parecer tontos o complacer al experimentador.
Los experimentos de laboratorio son breves y los sujetos no tienen tiempo suficiente para aprender la estrategia óptima.
Para superar estas dificultades, varios autores han realizado análisis estadísticos de juegos de deportes profesionales. Se trata de juegos de suma cero con ganancias muy altas, en los que los jugadores han dedicado su vida a convertirse en expertos. A menudo, estos juegos son estratégicamente similares a emparejar monedas:
En los tiros penales de fútbol , el pateador tiene dos opciones: patear a la izquierda o patear a la derecha, y el portero tiene dos opciones: saltar a la izquierda o saltar a la derecha. [11] La probabilidad del pateador de marcar un gol es mayor cuando las opciones no coinciden, y menor cuando las opciones coinciden. En general, los pagos son asimétricos porque cada pateador tiene una pierna más fuerte (generalmente la derecha) y sus posibilidades son mejores cuando patea en la dirección opuesta (izquierda). En un examen minucioso de las acciones de los pateadores y los porteros, se encontró [9] [10] que sus acciones no se desvían significativamente de la predicción de un equilibrio de Nash.
En el caso de los saques y devoluciones de tenis , la situación es similar. Se ha descubierto [12] que las tasas de victorias son coherentes con la hipótesis minimax, pero las elecciones de los jugadores no son aleatorias: ni siquiera los tenistas profesionales son buenos en la aleatorización y cambian sus acciones con demasiada frecuencia.
Véase también
Pares e impares : un juego con la misma estructura estratégica, que se juega con los dedos en lugar de monedas.
Piedra, papel o tijera : un juego similar en el que cada jugador tiene tres estrategias en lugar de dos.
Juego de paridad : un juego de lógica para dos jugadores mucho más complicado, que se juega en un gráfico coloreado.
Referencias
^ Gibbons, Robert (1992). Teoría de juegos para economistas aplicados. Princeton University Press. pp. 29–33. ISBN 978-0-691-00395-5.
^ "Matching Pennies" (Centavos iguales). GameTheory.net. Archivado desde el original el 1 de octubre de 2006.
^ Mookherjee, Dilip; Sopher, Barry (1994). "Comportamiento de aprendizaje en un juego experimental de emparejamiento de monedas". Juegos y comportamiento económico . 7 : 62–91. doi :10.1006/game.1994.1037.
^ Eliaz, Kfir; Rubinstein, Ariel (2011). "El acertijo de Edgar Allan Poe: efectos de encuadre en juegos repetidos de emparejamiento de monedas". Juegos y comportamiento económico . 71 : 88–99. doi :10.1016/j.geb.2009.05.010.
^ Ochs, Jack (1995). "Juegos con equilibrios de estrategia únicos y mixtos: un estudio experimental". Juegos y comportamiento económico . 10 : 202–217. doi :10.1006/game.1995.1030.
^ McKelvey, Richard ; Palfrey, Thomas (1995). "Equilibrios de respuesta cuántica para juegos de forma normal". Juegos y comportamiento económico . 10 : 6–38. CiteSeerX 10.1.1.30.5152 . doi :10.1006/game.1995.1023.
^ Goeree, Jacob K.; Holt, Charles A.; Palfrey, Thomas R. (2003). "Comportamiento de aversión al riesgo en juegos de emparejamiento generalizado de centavos" (PDF) . Juegos y comportamiento económico . 45 : 97–113. doi :10.1016/s0899-8256(03)00052-6.
^ Wooders, John; Shachat, Jason M. (2001). "Sobre la irrelevancia de las actitudes de riesgo en juegos repetidos con dos resultados". Juegos y comportamiento económico . 34 (2): 342. doi :10.1006/game.2000.0808. S2CID 2401322.
^ ab Chiappori, P.; Levitt, S .; Groseclose, T. (2002). "Prueba de equilibrios de estrategias mixtas cuando los jugadores son heterogéneos: el caso de los tiros penales en el fútbol" (PDF) . American Economic Review . 92 (4): 1138–1151. CiteSeerX 10.1.1.178.1646 . doi :10.1257/00028280260344678. JSTOR 3083302.
^ ab Palacios-Huerta, I. (2003). "Los profesionales juegan al minimax". Revista de Estudios Económicos . 70 (2): 395–415. CiteSeerX 10.1.1.127.9097 . doi :10.1111/1467-937X.00249.
^ También existe la opción de patear/pararse en el medio, pero se usa con menos frecuencia.
^ Walker, Mark; Wooders, John (2001). "Juego Minimax en Wimbledon". The American Economic Review . 91 (5): 1521–1538. CiteSeerX 10.1.1.614.5372 . doi :10.1257/aer.91.5.1521. JSTOR 2677937.