El precio de la anarquía ( PoA ) [1] es un concepto en economía y teoría de juegos que mide cómo se degrada la eficiencia de un sistema debido al comportamiento egoísta de sus agentes. Es una noción general que puede extenderse a diversos sistemas y nociones de eficiencia. Por ejemplo, considere el sistema de transporte de una ciudad y muchos agentes que intentan ir desde una ubicación inicial a un destino. Aquí, la eficiencia significa el tiempo promedio que tarda un agente en llegar al destino. En la solución "centralizada", una autoridad central puede decirle a cada agente qué camino tomar para minimizar el tiempo promedio de viaje. En la versión "descentralizada", cada agente elige su propio camino. El precio de la anarquía mide la relación entre el tiempo promedio de viaje en los dos casos.
Por lo general, el sistema se modela como un juego y la eficiencia es alguna función de los resultados (por ejemplo, retraso máximo en una red, congestión en un sistema de transporte, bienestar social en una subasta, etc.). Se pueden utilizar diferentes conceptos de equilibrio para modelar el comportamiento egoísta de los agentes, entre los cuales el más común es el equilibrio de Nash . Diferentes sabores de equilibrio de Nash conducen a variaciones de la noción de Precio de Anarquía como Precio Puro de Anarquía (para equilibrios deterministas), Precio Mixto de Anarquía (para equilibrios aleatorios) y Precio de Anarquía Bayes-Nash (para juegos con información incompleta). Los conceptos de solución distintos del equilibrio de Nash conducen a variaciones como el Precio de Hundimiento . [2]
El término Precio de la Anarquía fue utilizado por primera vez por Elias Koutsoupias y Christos Papadimitriou , [1] [3] pero la idea de medir la ineficiencia del equilibrio es más antigua. [4] El concepto en su forma actual fue diseñado para ser el análogo de la "ratio de aproximación" en un algoritmo de aproximación o la "ratio competitiva" en un algoritmo en línea . Esto se encuentra en el contexto de la tendencia actual de analizar juegos utilizando lentes algorítmicos ( teoría de juegos algorítmicos ).
Consideremos un juego , definido por un conjunto de jugadores , conjuntos de estrategias para cada jugador y utilidades (donde también se denomina conjunto de resultados). Podemos definir una medida de eficiencia de cada resultado que llamamos función de bienestar . Los candidatos naturales incluyen la suma de las utilidades de los jugadores (objetivo utilitario), la utilidad mínima (objetivo de equidad o igualitario) ..., o cualquier función que sea significativa para el juego particular que se analiza y que sea deseable maximizar.
Podemos definir un subconjunto como el conjunto de estrategias en equilibrio (por ejemplo, el conjunto de equilibrios de Nash ). El precio de la anarquía se define entonces como la relación entre la solución "centralizada" óptima y el "peor equilibrio":
Si, en lugar de un 'bienestar' que queremos 'maximizar', la función que mide la eficiencia es una 'función de coste' que queremos 'minimizar' (por ejemplo, el retraso en una red) utilizamos (siguiendo la convención en algoritmos de aproximación):
Un concepto relacionado es el de Precio de Estabilidad ( PoS ), que mide la relación entre la solución «centralizada» óptima y el «mejor equilibrio»:
o en el caso de funciones de costo:
Sabemos eso por la definición. Se espera que la pérdida de eficiencia debido a las restricciones de la teoría de juegos se encuentre en algún punto entre "PoS" y "PoA".
Consideremos el juego 2x2 llamado dilema del prisionero , dado por la siguiente matriz de costos:
y sea la función de costo Ahora, el peor (y único) Equilibrio de Nash sería cuando ambos jugadores desertan y el costo resultante es . Sin embargo, el mayor bienestar social ocurre cuando ambos cooperan, en cuyo caso el costo es . Por lo tanto, el PoA de este juego será .
Dado que el juego tiene un equilibrio de Nash único, el PoS es igual al PoA y también es 5.
Un ejemplo más natural es el de la programación de tareas . Hay jugadores y cada uno de ellos tiene una tarea que ejecutar. Pueden elegir una de las máquinas para ejecutarla. El precio de la anarquía compara la situación en la que la selección de máquinas está guiada/dirigida de forma centralizada con la situación en la que cada jugador elige la máquina que hará que su tarea se ejecute más rápido.
Cada máquina tiene una velocidad. Cada trabajo tiene un peso. Un jugador elige una máquina para ejecutar su trabajo. Por lo tanto, las estrategias de cada jugador son: Defina la carga de la máquina como:
El costo para el jugador es , por ejemplo, la carga de la máquina que eligió. Consideramos la función de costo igualitaria , aquí denominada makespan .
Consideramos dos conceptos de equilibrio: Nash puro y Nash mixto . Debe quedar claro que PoA mixto ≥ PoA puro, porque cualquier equilibrio de Nash puro es también un equilibrio de Nash mixto (esta desigualdad puede ser estricta: p. ej., cuando , , , y , las estrategias mixtas alcanzan un makespan promedio de 1,5, mientras que cualquier PoA de estrategia pura en este contexto es ). Primero debemos argumentar que existen equilibrios de Nash puros.
Afirmación . Para cada juego de programación de tareas, existe al menos un equilibrio de Nash de estrategia pura.
Demostración . Nos gustaría tomar un perfil de acción socialmente óptimo . Esto significaría simplemente un perfil de acción cuyo makespan sea mínimo. Sin embargo, esto no será suficiente. Puede haber varios de estos perfiles de acción que conduzcan a una variedad de distribuciones de cargas diferentes (todas con la misma carga máxima). Entre estos, nos limitamos aún más a uno que tenga una segunda carga más grande mínima. Nuevamente, esto da como resultado un conjunto de posibles distribuciones de carga, y repetimos hasta la carga n-ésima más grande (es decir, la más pequeña), donde solo puede haber una distribución de cargas (única hasta la permutación). Esto también se llamaría el vector de carga ordenado más pequeño lexicográfico .
Afirmamos que se trata de un equilibrio de Nash de estrategia pura. Razonando por contradicción, supongamos que algún jugador podría mejorar estrictamente moviéndose de una máquina a otra . Esto significa que la carga incrementada de la máquina después del movimiento es aún menor que la carga de la máquina antes del movimiento. Como la carga de la máquina debe disminuir como resultado del movimiento y ninguna otra máquina se ve afectada, esto significa que se garantiza que la nueva configuración ha reducido la carga más grande (o de mayor rango) en la distribución. Esto, sin embargo, viola la minimalidad lexicográfica asumida de . QED
Reclamación . Para cada juego de programación de tareas, el PoA puro es como máximo .
Demostración . Es fácil limitar superiormente el bienestar obtenido en cualquier equilibrio de Nash de estrategia mixta mediante
Consideremos, para mayor claridad de exposición, cualquier perfil de acción de estrategia pura : claramente
Dado que lo anterior también es válido para el óptimo social, al comparar las proporciones se demuestra la afirmación. QED
Considere una red de carreteras como la que se muestra en el diagrama adyacente en la que 4000 conductores desean viajar desde el punto Inicio hasta el Fin. El tiempo de viaje en minutos en la carretera Inicio-A es el número de viajeros (T) dividido por 100, y en Inicio-B es una constante de 45 minutos (lo mismo con las carreteras de enfrente). Si la carretera discontinua no existe (por lo que la red de tráfico tiene 4 carreteras en total), el tiempo necesario para conducir la ruta Inicio-A-Fin con conductores sería . El tiempo necesario para conducir la ruta Inicio-B-Fin con conductores sería . Como hay 4000 conductores, el hecho de que se puede utilizar para derivar el hecho de que cuando el sistema está en equilibrio. Por lo tanto, cada ruta tarda minutos. Si cualquiera de las rutas tomara menos tiempo, no sería un equilibrio de Nash: un conductor racional cambiaría de la ruta más larga a la ruta más corta.
Ahora supongamos que la línea discontinua A–B es una carretera con un tiempo de viaje extremadamente corto de aproximadamente 0 minutos. Supongamos que la carretera está abierta y un conductor intenta ir por Inicio–A–B–Fin. Para su sorpresa, descubre que su tiempo es de minutos, lo que supone un ahorro de casi 25 minutos. Pronto, más de los 4000 conductores están probando esta nueva ruta. El tiempo empleado aumenta de 40,01 y sigue aumentando. Cuando el número de conductores que intentan la nueva ruta llega a 2500, con 1500 todavía en la ruta Inicio–B–Fin, su tiempo será de minutos, lo que no supone ninguna mejora respecto de la ruta original. Mientras tanto, esos 1500 conductores han sido reducidos a minutos, un aumento de 20 minutos. Están obligados a cambiar a la nueva ruta también por A, por lo que ahora tarda minutos. Nadie tiene ningún incentivo para viajar por A–Fin o Inicio–B porque cualquier conductor que las pruebe tardará 85 minutos. De esta forma, la apertura de la ruta transversal desencadena un cambio irreversible en la misma por parte de todos, con un coste para todos de 80 minutos en lugar de los 65 originales. Si todos los conductores aceptaran no utilizar la ruta A–B, o si se cerrara esa ruta, todos los conductores se beneficiarían con una reducción de 15 minutos en el tiempo de viaje.
El problema de enrutamiento introducido en la paradoja de Braess se puede generalizar a muchos flujos diferentes que atraviesan el mismo gráfico al mismo tiempo.
Definición (Flujo generalizado) . Sea , y como se definieron anteriormente, y supongamos que queremos enrutar las cantidades a través de cada par distinto de nodos en . Un flujo se define como una asignación de un número real no negativo a cada ruta que va desde a , con la restricción de que
El flujo que atraviesa un borde específico se define como
Para ser más breves, escribimos cuando el contexto lo deja claro.
Definición (Flujo de equilibrio de Nash) Un flujo es un flujo de equilibrio de Nash si y solo si y desde hasta
Esta definición está estrechamente relacionada con lo que dijimos sobre el apoyo a los equilibrios de Nash de estrategia mixta en juegos de forma normal.
Definición (bienestar condicional de un flujo) . Sean y dos flujos en asociados con los mismos conjuntos y . En lo que sigue, eliminaremos el subíndice para que la notación sea más clara. Supongamos que se fijan las latencias inducidas por en el gráfico: el bienestar condicional de con respecto a se define como
Hecho 1. Dado un flujo de equilibrio de Nash y cualquier otro flujo , .
Demostración (por contradicción) . Supóngase que . Por definición,
Dado que y están asociados con los mismos conjuntos , sabemos que
Por lo tanto, debe haber un par y dos caminos desde a tales que , , y
En otras palabras, el flujo puede lograr un bienestar menor que el de los demás sólo si existen dos caminos que van desde el de los demás con costos diferentes y si se desvía parte del flujo del camino de mayor costo al de menor costo. Esta situación es claramente incompatible con el supuesto de que se trata de un flujo de equilibrio de Nash. QED
Nótese que el hecho 1 no supone ninguna estructura particular en el conjunto .
Hecho 2 . Dados dos números reales cualesquiera y , .
Demostración . Esta es otra forma de expresar la desigualdad verdadera . QED
Teorema . El PoA puro de cualquier problema de enrutamiento generalizado con latencias lineales es .
Demostración . Nótese que este teorema es equivalente a decir que para cada flujo de equilibrio de Nash , , donde es cualquier otro flujo. Por definición,
Usando el Hecho 2, tenemos que
desde
Podemos concluir que y probar la tesis usando el Hecho 1. QED
Nótese que en la prueba hemos hecho un uso extensivo del supuesto de que las funciones en son lineales. En realidad, se cumple un hecho más general.
Teorema . Dado un problema de enrutamiento generalizado con funciones de latencia polinómicas y gráficas de grado con coeficientes no negativos, el PoA puro es .
Nótese que el PoA puede crecer con . Considere el ejemplo que se muestra en la siguiente figura, donde suponemos un flujo unitario: los flujos de equilibrio de Nash tienen un bienestar social de 1; sin embargo, el mejor bienestar se logra cuando , en cuyo caso
Esta cantidad tiende a cero cuando tiende a infinito.
Los límites superiores de PoA se pueden obtener si se demuestra que el juego satisface una desigualdad denominada de suavidad . Más precisamente, un juego de minimización de costos es ( λ , μ )-suave (con λ ≥ 0 y μ < 1) si la desigualdad
se cumple para cualquier resultado a y a *. En este caso, el PoA está acotado superiormente por λ /(1 − μ ). [5]
Para los juegos de reparto de costos con funciones de costos cóncavas, la regla óptima de reparto de costos que optimiza el precio de la anarquía, seguido por el precio de la estabilidad , es precisamente la regla de reparto de costos del valor de Shapley. [6] (Una declaración simétrica es igualmente válida para los juegos de reparto de utilidad con funciones de utilidad convexas). En el diseño de mecanismos , esto significa que el concepto de solución de valor de Shapley es óptimo para estos conjuntos de juegos.
Además, para estos juegos (finitos) se demostró que todo equilibrio que alcanza el límite del PoA es frágil, en el sentido de que los agentes demuestran un estado de indiferencia entre su acción de equilibrio y la acción que perseguirían en un resultado óptimo del sistema. [7]