En teoría de juegos , el juego del ciempiés , introducido por primera vez por Robert Rosenthal en 1981, es un juego de formato extensivo en el que dos jugadores se turnan para elegir si quieren quedarse con una parte ligeramente mayor de un bote que va aumentando o si quieren pasar el bote al otro jugador. Los pagos están organizados de modo que si uno le pasa el bote a su oponente y este se lleva el bote en la siguiente ronda, uno recibe un poco menos que si se hubiera llevado el bote en esta ronda, pero después de un cambio adicional el pago potencial será mayor. Por lo tanto, aunque en cada ronda un jugador tiene un incentivo para llevarse el bote, sería mejor que esperara. Aunque el juego del ciempiés tradicional tenía un límite de 100 rondas (de ahí el nombre), cualquier juego con esta estructura pero con un número diferente de rondas se llama juego del ciempiés.
El equilibrio perfecto en subjuegos (y cada equilibrio de Nash ) único de estos juegos da como resultado que el primer jugador se lleve el bote en la primera ronda del juego; sin embargo, en pruebas empíricas , relativamente pocos jugadores lo hacen y, como resultado, logran un pago mayor que en los equilibrios perfectos en subjuegos y de Nash. Estos resultados se toman para demostrar que los equilibrios perfectos en subjuegos y los equilibrios de Nash no pueden predecir el juego humano en algunas circunstancias. El juego del Ciempiés se usa comúnmente en cursos y textos introductorios de teoría de juegos para resaltar el concepto de inducción hacia atrás y la eliminación iterada de estrategias dominadas , que muestran una forma estándar de proporcionar una solución al juego.
Una posible versión del juego del ciempiés podría jugarse de la siguiente manera:
Consideremos dos jugadores: Alice y Bob . Alice mueve primero. Al comienzo del juego, Alice tiene dos pilas de monedas frente a ella: una pila contiene 4 monedas y la otra pila contiene 1 moneda. Cada jugador tiene dos movimientos disponibles: o bien "tomar" la pila de monedas más grande y darle la pila más pequeña al otro jugador o bien "empujar" ambas pilas a través de la mesa hacia el otro jugador. Cada vez que las pilas de monedas pasan por la mesa, la cantidad de monedas en cada pila se duplica. Por ejemplo, supongamos que Alice elige "empujar" las pilas en su primer movimiento, entregando las pilas de 1 y 4 monedas a Bob, duplicándolas a 2 y 8. Bob ahora podría usar su primer movimiento para "tomar" la pila de 8 monedas y darle 2 monedas a Alice, o puede "empujar" las dos pilas a través de la mesa nuevamente hacia Alice, aumentando nuevamente el tamaño de las pilas a 4 y 16 monedas. El juego continúa durante un número fijo de rondas o hasta que un jugador decide finalizar el juego guardándose una pila de monedas en el bolsillo.
La adición de monedas se considera una externalidad , ya que no es aportada por ninguno de los jugadores.
El juego del ciempiés se puede escribir como donde y . Los jugadores y se alternan, comenzando con el jugador , y pueden en cada turno jugar un movimiento de con un máximo de rondas. El juego termina cuando se juega por primera vez, de lo contrario, al realizar movimientos, si nunca se juega.
Supongamos que el juego termina en una ronda y un jugador realiza el movimiento final. Entonces, el resultado del juego se define de la siguiente manera:
Aquí, denota al otro jugador.
Las herramientas estándar de la teoría de juegos predicen que el primer jugador desertará en la primera ronda, llevándose la pila de monedas para sí mismo. En el juego del ciempiés, una estrategia pura consiste en un conjunto de acciones (una por cada punto de elección en el juego, aunque algunos de estos puntos de elección nunca se alcancen) y una estrategia mixta es una distribución de probabilidad sobre las posibles estrategias puras. Existen varios equilibrios de Nash de estrategia pura del juego del ciempiés e infinitos equilibrios de Nash de estrategia mixta. Sin embargo, solo hay un equilibrio perfecto en subjuegos (una modificación popular del concepto de equilibrio de Nash).
En el equilibrio perfecto en subjuegos, cada jugador elige desertar en cada oportunidad. Esto, por supuesto, significa desertar en la primera etapa. Sin embargo, en los equilibrios de Nash, las acciones que se tomarían después de las oportunidades de elección iniciales (aunque nunca se alcancen porque el primer jugador deserta inmediatamente) pueden ser cooperativas.
La deserción del primer jugador es el único equilibrio perfecto en subjuegos y, como lo requiere cualquier equilibrio de Nash , se puede establecer por inducción hacia atrás . Supongamos que dos jugadores llegan a la ronda final del juego; el segundo jugador obtendrá mejores resultados si deserta y se lleva una parte ligeramente mayor del bote. Como suponemos que el segundo jugador desertará, el primer jugador obtendrá mejores resultados si deserta en la penúltima ronda, obteniendo una recompensa ligeramente mayor de la que habría recibido si hubiera permitido que el segundo jugador desertara en la última ronda. Pero sabiendo esto, el segundo jugador debería desertar en la antepenúltima ronda, obteniendo una recompensa ligeramente mayor de la que habría recibido si hubiera permitido que el primer jugador desertara en la penúltima ronda. Este razonamiento avanza hacia atrás a través del árbol de juego hasta que se concluye que la mejor acción es que el primer jugador deserte en la primera ronda. El mismo razonamiento se puede aplicar a cualquier nodo del árbol de juego.
Para un juego que termina después de cuatro rondas, este razonamiento procede de la siguiente manera. Si llegáramos a la última ronda del juego, el Jugador 2 haría mejor eligiendo d en lugar de r , recibiendo 4 monedas en lugar de 3. Sin embargo, dado que 2 elegirá d , 1 debería elegir D en la penúltima ronda, recibiendo 3 en lugar de 2. Dado que 1 elegiría D en la penúltima ronda, 2 debería elegir d en la antepenúltima ronda, recibiendo 2 en lugar de 1. Pero dado esto, el Jugador 1 debería elegir D en la primera ronda, recibiendo 1 en lugar de 0.
Hay una gran cantidad de equilibrios de Nash en un juego de ciempiés, pero en cada uno, el primer jugador deserta en la primera ronda y el segundo jugador deserta en la siguiente ronda con la frecuencia suficiente para disuadir al primer jugador de pasar. Estar en un equilibrio de Nash no requiere que las estrategias sean racionales en cada punto del juego como en el equilibrio perfecto en subjuegos. Esto significa que las estrategias que son cooperativas en las rondas posteriores del juego que nunca se alcanzan aún podrían estar en un equilibrio de Nash. En el ejemplo anterior, un equilibrio de Nash es que ambos jugadores deserten en cada ronda (incluso en las rondas posteriores que nunca se alcanzan). Otro equilibrio de Nash es que el jugador 1 deserte en la primera ronda, pero pase en la tercera ronda y que el jugador 2 deserte en cualquier oportunidad.
Varios estudios han demostrado que el equilibrio de Nash (y, asimismo, el equilibrio perfecto en subjuegos) rara vez se observa. En cambio, los sujetos muestran regularmente una cooperación parcial, jugando "R" (o "r") durante varios movimientos antes de finalmente elegir "D" (o "d"). También es raro que los sujetos cooperen durante todo el juego. Para ver ejemplos, consulte McKelvey y Palfrey (1992), Nagel y Tang (1998) o Krockow et al. (2016) [1] para una encuesta. Los académicos han investigado el efecto de aumentar las apuestas. Al igual que con otros juegos, por ejemplo, el juego del ultimátum , a medida que aumentan las apuestas, el juego se acerca (pero no alcanza) el equilibrio de Nash. [2] Dado que los estudios empíricos han producido resultados que son inconsistentes con el análisis de equilibrio tradicional, se han ofrecido varias explicaciones de este comportamiento. Para explicar los datos experimentales, necesitamos algunos agentes altruistas o algunos agentes racionales limitados.
Una de las razones por las que las personas pueden desviarse del comportamiento de equilibrio es si algunas son altruistas . La idea básica es que tienes una cierta probabilidad en cada juego de jugar contra un agente altruista y si esta probabilidad es lo suficientemente alta, deberías desertar en la última ronda en lugar de la primera. Si hay suficientes personas altruistas, vale la pena sacrificar el beneficio de la deserción en la primera ronda para determinar si tu oponente es altruista o no.
McKelvey y Palfrey (1992) crean un modelo con algunos agentes altruistas y algunos agentes racionales que terminarán jugando una estrategia mixta (es decir, juegan en múltiples nodos con cierta probabilidad). Para que coincida bien con los datos experimentales, alrededor del 5% de los jugadores deben ser altruistas en el modelo. Elmshauser (2022) [3] muestra que un modelo que incluye agentes altruistas y agentes reacios a la incertidumbre (en lugar de agentes racionales) explica aún mejor los datos experimentales. Algunos experimentos intentaron ver si los jugadores que pasan mucho también serían los agentes más altruistas en otros juegos u otras situaciones de la vida (ver, por ejemplo, Pulford et al [4] o Gamba y Regner (2019) [5] que evaluaron la orientación al valor social ). Los jugadores que pasan mucho eran de hecho más altruistas, pero la diferencia no era enorme.
Rosenthal (1981) sugirió que si uno tiene razones para creer que su oponente se desviará de la conducta de Nash, entonces puede ser ventajoso no desertar en la primera ronda. Otra posibilidad involucra el error. Si existe una posibilidad significativa de error en la acción, tal vez porque su oponente no ha razonado completamente a través de la inducción hacia atrás, puede ser ventajoso (y racional) cooperar en las rondas iniciales. El equilibrio de respuesta cuántica de McKelvey y Palfrey (1995) [6] creó un modelo con agentes que juegan al equilibrio de Nash con errores y lo aplicaron al juego del Ciempiés.
Otro modelo capaz de explicar los comportamientos en el juego del ciempiés es el modelo de nivel k, que es una teoría de jerarquía cognitiva : un jugador L0 juega aleatoriamente, el jugador L1 responde mejor al jugador L0, el jugador L2 responde mejor al jugador L1 y así sucesivamente. En muchos juegos, los académicos observaron que la mayoría de los jugadores eran jugadores L2 o L3, lo que es consistente con los datos experimentales del juego del ciempiés. García-Pola et al. (2020) [7] concluyeron a partir de un experimento que la mayoría de los jugadores juegan siguiendo una lógica de nivel k o una lógica de respuesta cuántica.
Sin embargo, Parco, Rapoport y Stein (2002) ilustraron que el nivel de incentivos financieros puede tener un efecto profundo en el resultado de un juego de tres jugadores: cuanto mayores sean los incentivos para la desviación, mayor será la propensión a que el comportamiento de aprendizaje en un diseño experimental de una sola jugada repetida se mueva hacia el equilibrio de Nash.
Palacios-Huerta y Volij (2009) descubrieron que los ajedrecistas expertos juegan de manera diferente a los estudiantes universitarios. Con un Elo en aumento , la probabilidad de continuar la partida disminuye; todos los Grandes Maestros del experimento dejaron de jugar en su primera oportunidad. Concluyeron que los ajedrecistas están familiarizados con el uso del razonamiento de inducción hacia atrás y, por lo tanto, necesitan menos aprendizaje para alcanzar el equilibrio. Sin embargo, en un intento de replicar estos hallazgos, Levitt, List y Sadoff (2010) encontraron resultados fuertemente contradictorios, ya que ninguno de los dieciséis Grandes Maestros detuvo la partida en el primer nodo.
La investigación cualitativa de Krockow et al., que empleó protocolos de pensamiento en voz alta que requerían que los jugadores de un juego Centipede verbalizaran su razonamiento durante el juego, indicó una serie de sesgos de decisión, como el sesgo de acción o el sesgo de finalización, que pueden impulsar elecciones irracionales en el juego. [8]
Al igual que el dilema del prisionero , este juego presenta un conflicto entre el interés propio y el beneficio mutuo. Si se pudiera hacer cumplir, ambos jugadores preferirían cooperar durante todo el juego. Sin embargo, el interés propio de un jugador o la desconfianza de los jugadores pueden interferir y crear una situación en la que ambos obtengan peores resultados que si hubieran cooperado ciegamente. Aunque el dilema del prisionero ha recibido mucha atención por este hecho, el juego del ciempiés ha recibido relativamente menos.
Además, Binmore (2005) ha sostenido que algunas situaciones del mundo real pueden describirse mediante el juego del Ciempiés. Un ejemplo que presenta es el intercambio de bienes entre partes que desconfían entre sí. Otro ejemplo que Binmore (2005) compara con el juego del Ciempiés es el comportamiento de apareamiento de una lubina hermafrodita que se turna para intercambiar huevos para fertilizar. En estos casos, encontramos que la cooperación es abundante.
Dado que las recompensas por cierta cooperación en el juego del Ciempiés son mucho mayores que la deserción inmediata, las soluciones "racionales" que ofrece la inducción regresiva pueden parecer paradójicas. Esto, junto con el hecho de que los sujetos experimentales cooperan regularmente en el juego del Ciempiés, ha provocado un debate sobre la utilidad de las idealizaciones implicadas en las soluciones de inducción regresiva (véase Aumann (1995, 1996) y Binmore (1996).