En teoría de juegos , el dilema del viajero (a veces abreviado TD ) es un juego de suma no cero en el que cada jugador propone un pago. La menor de las dos propuestas gana; el jugador que hace la apuesta baja recibe el pago de la apuesta baja más una pequeña bonificación, y el jugador que hace la apuesta alta recibe el mismo pago de la apuesta baja, menos una pequeña penalización. Sorprendentemente, el equilibrio de Nash es que ambos jugadores hagan apuestas bajas agresivas. El dilema del viajero es notable porque el juego ingenuo parece superar al equilibrio de Nash; esta aparente paradoja también aparece en el juego del ciempiés y en el dilema del prisionero de iteración finita .
El escenario original del juego fue formulado en 1994 por Kaushik Basu y es el siguiente: [1] [2]
"Una compañía aérea pierde dos maletas pertenecientes a dos viajeros diferentes. Ambas maletas son idénticas y contienen antigüedades idénticas. Un gerente de la compañía aérea encargado de resolver las reclamaciones de ambos viajeros explica que la compañía aérea es responsable de un máximo de 100 dólares por maleta, pero no puede averiguar directamente el precio de las antigüedades".
"Para determinar un valor de tasación honesto de las antigüedades, el gerente separa a los dos viajeros para que no puedan consultarse y les pide que anoten el monto de su valor, que no debe ser inferior a $2 ni superior a $100. También les dice que si ambos anotan el mismo número, considerará ese número como el valor real en dólares de ambas maletas y reembolsará a ambos viajeros esa cantidad. Sin embargo, si uno anota un número menor que el otro, ese número menor se tomará como el valor real en dólares y ambos viajeros recibirán esa cantidad junto con una bonificación/penalización: se pagarán $2 adicionales al viajero que anotó el valor más bajo y se le descontarán $2 a la persona que anotó el monto más alto. El desafío es: ¿qué estrategia deben seguir ambos viajeros para decidir el valor que deben anotar?"
Los dos jugadores intentan maximizar sus propias ganancias, sin preocuparse por las ganancias del otro jugador.
La inducción hacia atrás sólo se aplica cuando hay información perfecta. Si se utiliza cuando hay asimetría de información (el gerente de la aerolínea no sabe el valor de la antigüedad), el resultado será un comportamiento irracional. Esto es lo que sucede en el siguiente análisis:
Se podría esperar que la elección óptima de un viajero sea de 100 dólares, es decir, que el viajero valore las antigüedades al precio máximo permitido por el director de la aerolínea. Sorprendentemente, y para muchos contraintuitivamente, la solución del equilibrio de Nash es de hecho de sólo 2 dólares, es decir, que el viajero valora las antigüedades al precio mínimo permitido por el director de la aerolínea.
Para entender por qué 2 es el equilibrio de Nash, considere la siguiente prueba:
El análisis anterior depende fundamentalmente de (1) información imperfecta (el gerente de la aerolínea no conoce el valor real) y (2) irracionalidad (en particular, la falta de uso de la estrategia racional de Muth).
Otra prueba es la siguiente:
El resultado ($2, $2) en este caso es el equilibrio de Nash del juego. Por definición, esto significa que si tu oponente elige este valor de equilibrio de Nash, entonces tu mejor opción es ese valor de equilibrio de Nash de $2. Esta no será la opción óptima si existe la posibilidad de que tu oponente elija un valor mayor que $2. [3] Cuando el juego se juega experimentalmente, la mayoría de los participantes seleccionan un valor mayor que el equilibrio de Nash y más cercano a $100 (que corresponde a la solución óptima de Pareto). Más precisamente, la solución de estrategia de equilibrio de Nash resultó ser un mal predictor del comportamiento de las personas en un dilema del viajero con un pequeño bonus/malus y un predictor bastante bueno si el parámetro bonus/malus era grande. [4]
Además, los viajeros son recompensados por desviarse fuertemente del equilibrio de Nash en el juego y obtienen recompensas mucho mayores que las que se obtendrían con la estrategia puramente racional. Estos experimentos (y otros, como los puntos focales ) muestran que la mayoría de las personas no utilizan estrategias puramente racionales, pero las estrategias que sí utilizan son demostrablemente óptimas. Esta paradoja podría reducir el valor del análisis de la teoría de juegos pura, pero también podría señalar el beneficio de un razonamiento ampliado que comprenda cómo puede ser bastante racional tomar decisiones no racionales, al menos en el contexto de juegos en los que se puede contar con jugadores que no jueguen "racionalmente". Por ejemplo, Capraro ha propuesto un modelo en el que los humanos no actúan a priori como agentes individuales, sino que pronostican cómo se jugará el juego si forman coaliciones y luego actúan de manera de maximizar el pronóstico. Su modelo se ajusta bastante bien a los datos experimentales sobre el dilema del Viajero y juegos similares. [5] Recientemente, se puso a prueba el dilema del viajero con decisiones tomadas en grupos en lugar de individualmente, con el fin de probar la suposición de que las decisiones grupales son más racionales, transmitiendo el mensaje de que, por lo general, dos cabezas piensan mejor que una. [6] Los hallazgos experimentales muestran que los grupos son siempre más racionales (es decir, sus demandas están más cerca del equilibrio de Nash) y más sensibles al tamaño del bonus/malus. [7]
Algunos jugadores parecen perseguir un equilibrio de Nash bayesiano . [8] [9]
El dilema del viajero puede enmarcarse como un dilema del prisionero repetido finitamente. [8] [9] Paradojas similares se atribuyen al juego del ciempiés y al juego del concurso de belleza p [7] (o más específicamente, " Adivina 2/3 del promedio "). Una variación del dilema del viajero original en la que a ambos viajeros se les ofrecen solo dos opciones enteras, $2 o $3, es matemáticamente idéntica al dilema del prisionero estándar no iterado y, por lo tanto, el dilema del viajero puede verse como una extensión del dilema del prisionero. (El pago mínimo garantizado es $1, y cada dólar más allá de eso puede considerarse equivalente a un año eliminado de una sentencia de prisión de tres años). Estos juegos tienden a involucrar una eliminación iterativa profunda de estrategias dominadas para demostrar el equilibrio de Nash, y tienden a conducir a resultados experimentales que se desvían notablemente de las predicciones clásicas de la teoría de juegos .
La matriz de pago canónica se muestra a continuación (si solo se tienen en cuenta las entradas enteras):
Denotando por el conjunto de estrategias disponibles para ambos jugadores y por la función de pago de uno de ellos podemos escribir
(Tenga en cuenta que el otro jugador recibe ya que el juego es cuantitativamente simétrico ).
{{cite journal}}
: Requiere citar revista |journal=
( ayuda )