El principio de desviación única (también conocido como propiedad de desviación única [1] ) es el principio de optimización de la programación dinámica aplicado a la teoría de juegos . [2] Dice que un perfil de estrategia de un juego finito de forma extensiva de múltiples etapas con acciones observadas es un equilibrio perfecto en subjuegos (SPE) si y solo si no existe una desviación única rentable para cada subjuego y cada jugador. [1] [3] En términos más simples, si ningún jugador puede aumentar su beneficio esperado desviándose de su estrategia original mediante una sola acción (en solo una etapa del juego), entonces el perfil de estrategia es un SPE. En otras palabras, ningún jugador puede beneficiarse desviándose de la estrategia en un período y luego volviendo a ella.
Además, el principio de desviación única es muy importante para los juegos de horizonte infinito, en los que el principio normalmente no se cumple, [4] ya que no es plausible considerar un número infinito de estrategias y pagos para resolver. En un juego de horizonte infinito donde el factor de descuento es menor que 1, un perfil de estrategia es un equilibrio perfecto en subjuegos si y sólo si satisface el principio de desviación única. [5]
La siguiente es la definición parafraseada de Watson (2013). [1]
Para comprobar si la estrategia s es un equilibrio de Nash perfecto en subjuegos, tenemos que preguntar a cada jugador i y a cada subjuego, si considerando s , existe una estrategia s' que produce un pago estrictamente mayor para el jugador i que s en el subjuego. En un juego finito de múltiples etapas con acciones observadas, este análisis equivale a observar desviaciones simples de s , lo que significa que s' difiere de s en un solo conjunto de información (en una sola etapa). Tenga en cuenta que las opciones asociadas con s y s' son las mismas en todos los nodos que son sucesores de nodos en el conjunto de información donde s y s' prescriben acciones diferentes.
Considere un juego simétrico con dos jugadores en el que cada jugador toma decisiones de elección binaria, A o B, en cada una de las tres etapas. En cada etapa, los jugadores observan las decisiones tomadas en las etapas anteriores (si las hubo). Tenga en cuenta que cada jugador tiene 21 conjuntos de información, uno en la primera etapa, cuatro en la segunda etapa (porque los jugadores observan el resultado de la primera etapa, una de las cuatro combinaciones de acciones) y 16 en la tercera etapa (4 veces 4 historias de combinaciones de acciones de las dos primeras etapas). La condición de desviación única requiere verificar cada uno de estos conjuntos de información, preguntando en cada caso si el pago esperado del jugador en movimiento aumentaría estrictamente al desviarse únicamente en este conjunto de información.