En teoría de juegos , un juego estocástico (o juego de Markov ), introducido por Lloyd Shapley a principios de la década de 1950, [1] es un juego repetido con transiciones probabilísticas jugado por uno o más jugadores. El juego se juega en una secuencia de etapas. Al comienzo de cada etapa, el juego está en algún estado . Los jugadores seleccionan acciones y cada jugador recibe una recompensa que depende del estado actual y las acciones elegidas. El juego luego pasa a un nuevo estado aleatorio cuya distribución depende del estado anterior y las acciones elegidas por los jugadores. El procedimiento se repite en el nuevo estado y el juego continúa durante un número finito o infinito de etapas. La recompensa total para un jugador a menudo se toma como la suma descontada de las recompensas de la etapa o el límite inferior de los promedios de las recompensas de la etapa.
Los juegos estocásticos generalizan los procesos de decisión de Markov a múltiples tomadores de decisiones que interactúan, así como los juegos de forma estratégica a situaciones dinámicas en las que el entorno cambia en respuesta a las elecciones de los jugadores. [2]
Los juegos estocásticos de dos jugadores en gráficos dirigidos se utilizan ampliamente para modelar y analizar sistemas discretos que operan en un entorno desconocido (adversario) [ cita requerida ] . Las posibles configuraciones de un sistema y su entorno se representan como vértices, y las transiciones corresponden a acciones del sistema, su entorno o la "naturaleza". Una ejecución del sistema corresponde entonces a un camino infinito en el gráfico. Por lo tanto, un sistema y su entorno pueden verse como dos jugadores con objetivos antagónicos, donde un jugador (el sistema) apunta a maximizar la probabilidad de ejecuciones "buenas", mientras que el otro jugador (el entorno) apunta a lo opuesto.
En muchos casos, existe un valor de equilibrio de esta probabilidad, pero puede que no existan estrategias óptimas para ambos jugadores.
Presentamos conceptos básicos y cuestiones algorítmicas estudiadas en esta área y mencionamos algunos problemas abiertos desde hace mucho tiempo. Luego, mencionamos resultados recientes seleccionados.
Los ingredientes de un juego estocástico son: un conjunto finito de jugadores ; un espacio de estados (ya sea un conjunto finito o un espacio medible ); para cada jugador , un conjunto de acciones (ya sea un conjunto finito o un espacio medible ); una probabilidad de transición de , donde son los perfiles de acción, a , donde es la probabilidad de que el siguiente estado sea en dado el estado actual y el perfil de acción actual ; y una función de pago de a , donde la -ésima coordenada de , , es el pago al jugador en función del estado y el perfil de acción .
El juego comienza en un estado inicial . En la etapa , los jugadores primero observan , luego eligen simultáneamente acciones , luego observan el perfil de acciones y luego la naturaleza selecciona según la probabilidad . Una jugada del juego estocástico, define una secuencia de pagos , donde .
El juego descontado con factor de descuento ( ) es el juego en el que el pago al jugador es . El juego de -etapa es el juego en el que el pago al jugador es .
Existe el valor , respectivamente , de un juego estocástico de suma cero de dos personas , respectivamente , con un número finito de estados y acciones, y Truman Bewley y Elon Kohlberg (1976) demostraron que converge a un límite cuando tiende al infinito y que converge al mismo límite cuando tiende a .
El juego "sin descuento" es el juego en el que el pago al jugador es el "límite" de los promedios de los pagos de la etapa. Se necesitan algunas precauciones para definir el valor de una suma cero de dos personas y para definir los pagos de equilibrio de una suma distinta de cero . El valor uniforme de un juego estocástico de suma cero de dos personas existe si para cada hay un entero positivo y un par de estrategias del jugador 1 y del jugador 2 tales que para cada y y cada la expectativa de con respecto a la probabilidad de jugadas definidas por y es al menos , y la expectativa de con respecto a la probabilidad de jugadas definidas por y es como máximo . Jean-François Mertens y Abraham Neyman (1981) demostraron que todo juego estocástico de suma cero de dos personas con un número finito de estados y acciones tiene un valor uniforme. [3]
Si hay un número finito de jugadores y los conjuntos de acciones y estados son finitos, entonces un juego estocástico con un número finito de etapas siempre tiene un equilibrio de Nash . Lo mismo es cierto para un juego con infinitas etapas si el resultado total es la suma descontada.
El juego estocástico de suma no nula tiene un pago de equilibrio uniforme si para cada hay un entero positivo y un perfil de estrategia tal que para cada desviación unilateral de un jugador , es decir, un perfil de estrategia con para todos , y cada la expectativa de con respecto a la probabilidad de jugadas definidas por es al menos , y la expectativa de con respecto a la probabilidad de jugadas definidas por es como máximo . Nicolas Vieille ha demostrado que todos los juegos estocásticos de dos personas con espacios de estados y acciones finitos tienen un pago de equilibrio uniforme. [4]
El juego estocástico de suma no cero tiene un pago de equilibrio promedio límite si para cada hay un perfil de estrategia tal que para cada desviación unilateral de un jugador , la expectativa del límite inferior de los promedios de los pagos de etapa con respecto a la probabilidad de jugadas definidas por es al menos , y la expectativa del límite superior de los promedios de los pagos de etapa con respecto a la probabilidad de jugadas definidas por es como máximo . Jean-François Mertens y Abraham Neyman (1981) demuestran que todo juego estocástico de suma cero de dos personas con un número finito de estados y acciones tiene un valor promedio límite, [3] y Nicolas Vieille ha demostrado que todos los juegos estocásticos de dos personas con espacios de estados y acciones finitos tienen un pago de equilibrio promedio límite. [4] En particular, estos resultados implican que estos juegos tienen un valor y un pago de equilibrio aproximado, llamado pago de equilibrio liminf-average (respectivamente, limsup-average), cuando el pago total es el límite inferior (o el límite superior) de los promedios de los pagos de la etapa.
Si cada juego estocástico con un número finito de jugadores, estados y acciones tiene un pago de equilibrio uniforme, o un pago de equilibrio promedio límite, o incluso un pago de equilibrio promedio límite, es una pregunta abierta y desafiante.
Un equilibrio perfecto de Markov es un refinamiento del concepto de equilibrio de Nash perfecto en subjuegos para juegos estocásticos.
Los juegos estocásticos se han combinado con juegos bayesianos para modelar la incertidumbre sobre las estrategias de los jugadores. [5] El modelo de juego bayesiano estocástico resultante se resuelve mediante una combinación recursiva de la ecuación de equilibrio de Nash bayesiano y la ecuación de optimalidad de Bellman .
Los juegos estocásticos tienen aplicaciones en economía , biología evolutiva y redes de computadoras. [6] [7] Son generalizaciones de juegos repetidos que corresponden al caso especial donde solo hay un estado.