stringtranslate.com

Teorema popular (teoría de juegos)

En teoría de juegos , los teoremas populares son una clase de teoremas que describen una gran cantidad de perfiles de pagos de equilibrio de Nash en juegos repetidos (Friedman 1971). [1] El teorema popular original se refería a los pagos de todos los equilibrios de Nash de un juego infinitamente repetido. Este resultado se denominó Teorema popular porque era ampliamente conocido entre los teóricos de juegos en la década de 1950, aunque nadie lo había publicado. El teorema de Friedman (1971) se refiere a los pagos de ciertos equilibrios de Nash perfectos en subjuegos (SPE) de un juego infinitamente repetido, por lo que fortalece el teorema popular original al utilizar un concepto de equilibrio más fuerte: equilibrios de Nash perfectos en subjuegos en lugar de equilibrios de Nash. [2]

El teorema popular sugiere que si los jugadores son lo suficientemente pacientes y previsores (es decir, si el factor de descuento es ), entonces la interacción repetida puede dar como resultado prácticamente cualquier beneficio promedio en un equilibrio SPE. [3] "Prácticamente cualquiera" se define aquí técnicamente como "factible" e "individualmente racional".

Configuración y definiciones

Comenzamos con un juego básico , también conocido como juego de escenario , que es un juego de n jugadores . En este juego, cada jugador tiene un número finito de acciones para elegir y toma sus decisiones simultáneamente y sin conocer las decisiones del otro jugador. Las elecciones colectivas de los jugadores conducen a un perfil de recompensa, es decir, a una recompensa para cada uno de los jugadores. Los jugadores conocen el mapeo desde las elecciones colectivas hasta los perfiles de pagos, y cada jugador apunta a maximizar su pago. Si la elección colectiva se denota por x, el pago que recibe el jugador i , también conocido como utilidad del jugador i , se denotará por .

Luego consideramos una repetición de este juego escénico, un número finito o infinito de veces. En cada repetición, cada jugador elige una de sus opciones de juego de etapa y, al hacer esa elección, puede tener en cuenta las elecciones de los demás jugadores en las iteraciones anteriores. En este juego repetido, una estrategia para uno de los jugadores es una regla determinista que especifica la elección del jugador en cada iteración del juego de etapa, en función de todas las elecciones de los demás jugadores en las iteraciones anteriores. La elección de estrategia para cada uno de los jugadores es un perfil de estrategia y conduce a un perfil de pagos para el juego repetido. Hay varias formas diferentes de traducir un perfil de estrategia de este tipo en un perfil de pagos, que se describen a continuación.

Cualquier perfil de pagos de equilibrio de Nash de un juego repetido debe satisfacer dos propiedades:

  1. Racionalidad individual : el pago debe dominar débilmente el perfil de pago mínimo máximo del juego de etapa constituyente. Es decir, el pago de equilibrio de cada jugador debe ser al menos tan grande como el pago mínimo máximo de ese jugador. Esto se debe a que un jugador que logra menos que su pago mínimo siempre tiene un incentivo para desviarse simplemente jugando su estrategia minmax en cada historia.
  2. Viabilidad : el pago debe ser una combinación convexa de posibles perfiles de pago del juego de escenario. Esto se debe a que el pago en un juego repetido es sólo un promedio ponderado de los pagos en los juegos básicos.

Los teoremas populares son afirmaciones parcialmente inversas: dicen que, bajo ciertas condiciones (que son diferentes en cada teorema popular), todo perfil de pagos que sea individualmente racional y factible puede realizarse como un perfil de pagos de equilibrio de Nash del juego repetido.

Hay varios teoremas populares; algunos se relacionan con juegos con repetición finita, mientras que otros se relacionan con juegos con repetición infinita. [4]

Juegos infinitamente repetidos sin descuento

En el modelo sin descuento, los jugadores son pacientes. No diferencian entre servicios públicos en diferentes períodos de tiempo. Por tanto, su utilidad en el juego repetido está representada por la suma de utilidades en los juegos básicos.

Cuando el juego es infinito, un modelo común para la utilidad en el juego infinitamente repetido es el límite inferior de la utilidad media: si el juego resulta en un camino de resultados , donde denota las elecciones colectivas de los jugadores en la iteración t ( t= 0,1,2,...), la utilidad del jugador i se define como

¿ Dónde está la función de utilidad del juego básico del jugador i ?

Un juego que se repite infinitamente y sin descuentos a menudo se denomina "superjuego".

El teorema popular en este caso es muy simple y no contiene condiciones previas: cada perfil de pagos individualmente racional y factible en el juego básico es un perfil de pagos de equilibrio de Nash en el juego repetido.

La prueba emplea lo que se llama una estrategia sombría [5] o gatillo sombrío [6] . Todos los jugadores comienzan realizando la acción prescrita y continúan haciéndolo hasta que alguien se desvía. Si el jugador i se desvía, todos los demás jugadores cambian y eligen la acción que minimiza al jugador i para siempre. La ganancia de una etapa por desviación contribuye con 0 a la utilidad total del jugador i . La utilidad de un jugador que se desvía no puede ser mayor que su pago mínimo máximo. Por lo tanto, todos los jugadores permanecen en el camino previsto y esto es, de hecho, un equilibrio de Nash.

Perfección en subjuegos

El equilibrio de Nash anterior no siempre es perfecto en subjuegos . Si el castigo es costoso para quienes lo castigan, la amenaza de castigo no es creíble.

Un equilibrio perfecto en subjuegos requiere una estrategia un poco más complicada. [5] [7] : 146–149  El castigo no debe durar para siempre; debería durar sólo un tiempo finito que sea suficiente para anular los beneficios de la desviación. Después de eso, los demás jugadores deberían volver a la senda del equilibrio.

El criterio del límite de medios garantiza que cualquier castigo por tiempo finito no tenga efecto sobre el resultado final. Por tanto, el castigo por tiempo limitado es un equilibrio perfecto en subjuegos.

Adelantamiento

Algunos autores afirman que el criterio del límite de medias no es realista, porque implica que las utilidades en cualquier lapso de tiempo finito contribuyen con 0 a la utilidad total. Sin embargo, si las utilidades en cualquier lapso de tiempo finito contribuyen con un valor positivo y el valor no se descuenta, entonces es imposible atribuir una utilidad numérica finita a una secuencia de resultados infinita. Una posible solución a este problema es que, en lugar de definir una utilidad numérica para cada secuencia infinita de resultados, simplemente definamos la relación de preferencia entre dos secuencias infinitas. Decimos que el agente (estrictamente) prefiere la secuencia de resultados a la secuencia , si: [6] [7] : 139  [8]

Por ejemplo, considere las secuencias y . Según el criterio del límite de medios, proporcionan la misma utilidad al jugador i, pero según el criterio de adelantamiento, es mejor que para el jugador i . Ver criterio de adelantamiento para más información.

Los teoremas populares con el criterio de adelantamiento son ligeramente más débiles que con el criterio del límite de medias. En el equilibrio de Nash sólo se pueden lograr resultados que sean estrictamente individualmente racionales. Esto se debe a que, si un agente se desvía, gana en el corto plazo, y esta ganancia sólo puede anularse si el castigo le da al desviado estrictamente menos utilidad que la vía del acuerdo. Para el criterio de adelantamiento se conocen los siguientes teoremas populares:

Juegos infinitamente repetidos con descuento.

Supongamos que el pago de un jugador en un juego infinitamente repetido está dado por el criterio de descuento promedio con factor de descuento 0 <  δ  < 1:

El factor de descuento indica cuán pacientes son los jugadores. El factor se introduce de modo que el pago permanezca acotado cuando .

El teorema popular en este caso requiere que el perfil de pago en el juego repetido domine estrictamente el perfil de pago mínimo (es decir, cada jugador recibe estrictamente más que el pago mínimo).

Sea a un perfil de estrategia del juego de escenario con un perfil de pagos u que domina estrictamente el perfil de pagos minmax. Se puede definir un equilibrio de Nash del juego con u como perfil de pago resultante de la siguiente manera:

1. Todos los jugadores comienzan jugando a y continúan jugando a si no se produce ninguna desviación.
2. Si algún jugador, digamos el jugador i , se desvía, juega el perfil de estrategia m que minimiza i para siempre.
3. Ignorar las desviaciones multilaterales.

Si el jugador i obtiene ε más que su pago mínimo máximo en cada etapa siguiendo 1, entonces la pérdida potencial por castigo es

Si δ es cercano a 1, esto supera cualquier ganancia finita de una etapa, lo que convierte a la estrategia en un equilibrio de Nash.

Un enunciado alternativo de este teorema popular [4] permite que el perfil de pagos de equilibrio u sea cualquier perfil de pagos individualmente racional y factible; sólo requiere que exista un perfil de pago factible individualmente racional que domine estrictamente el perfil de pago mínimo máximo. Entonces, el teorema popular garantiza que es posible aproximar u en equilibrio con cualquier precisión deseada (para cada ε existe un equilibrio de Nash donde el perfil de pagos está a una distancia ε de u ).

Perfección en subjuegos

Lograr un equilibrio perfecto en subjuegos en juegos con descuento es más difícil que en juegos sin descuento. El costo del castigo no desaparece (como ocurre con el criterio del límite de medios). No siempre es posible castigar infinitamente a quienes no castigan (como ocurre con el criterio de adelantamiento), ya que el factor de descuento hace que los castigos lejanos en el futuro sean irrelevantes para el presente. Por lo tanto, se necesita un enfoque diferente: los que castigan deben ser recompensados.

Esto requiere una suposición adicional: que el conjunto de perfiles de pago factibles tiene dimensiones completas y que el perfil mínimo-máximo se encuentra en su interior. La estrategia es la siguiente.

1. Todos los jugadores comienzan jugando a y continúan jugando a si no se produce ninguna desviación.
2. Si algún jugador, digamos el jugador i , se desvió, juegue el perfil de estrategia m que minimiza al máximo i durante N períodos. (Elija N y δ lo suficientemente grandes como para que ningún jugador tenga incentivos para desviarse de la fase 1).
3. Si ningún jugador se desvía de la fase 2, todos los jugadores ji reciben una recompensa ε por encima del mínimo-máx de j para siempre, mientras que el jugador i continúa recibiendo su mínimo-máx. (Aquí se necesita la dimensionalidad completa y la suposición interior).
4. Si el jugador j se desvió de la fase 2, todos los jugadores reinician la fase 2 con j como objetivo.
5. Ignorar las desviaciones multilaterales.

El jugador ji ahora no tiene ningún incentivo para desviarse de la fase de castigo 2. Esto demuestra el teorema popular del subjuego perfecto.

Juegos infinitamente repetidos sin descuento

Supongamos que el pago del jugador i en un juego que se repite T veces viene dado por una media aritmética simple:

Un teorema popular para este caso tiene el siguiente requisito adicional: [4]

En el juego básico, para cada jugador i , existe un equilibrio de Nash que es estrictamente mejor, para i , que su pago mínimo máximo.

Este requisito es más estricto que el requisito para juegos infinitos con descuento, que a su vez es más fuerte que el requisito para juegos infinitos sin descuento.

Este requisito es necesario debido al último paso. En el último paso, el único resultado estable es un equilibrio de Nash en el juego básico. Supongamos que un jugador i no gana nada con el equilibrio de Nash (ya que sólo le da su pago mínimo máximo). Entonces, no hay forma de castigar a ese jugador.

Por otro lado, si para cada jugador existe un equilibrio básico que es estrictamente mejor que minmax, se puede construir un equilibrio de juegos repetidos en dos fases:

  1. En la primera fase, los jugadores alternan estrategias en las frecuencias requeridas para aproximarse al perfil de ganancias deseado.
  2. En la última fase, los jugadores juegan por turno el equilibrio preferido de cada uno de los jugadores.

En la última fase ningún jugador se desvía ya que las acciones ya son un equilibrio del juego básico. Si un agente se desvía en la primera fase, puede ser castigado minmaxizándolo en la última fase. Si el juego es lo suficientemente largo, el efecto de la última fase es insignificante, por lo que el pago de equilibrio se acerca al perfil deseado.

Aplicaciones

Los teoremas populares se pueden aplicar a una amplia variedad de campos. Por ejemplo:

Por otro lado, el economista del MIT Franklin Fisher ha señalado que el teorema popular no es una teoría positiva. [13] Al considerar, por ejemplo, el comportamiento del oligopolio , el teorema popular no le dice al economista qué harán las empresas, sino que las funciones de costos y demanda no son suficientes para una teoría general del oligopolio, y los economistas deben incluir el contexto dentro de ellas. qué oligopolios operan en su teoría. [13]

En 2007, Borgs et al. demostró que, a pesar del teorema popular, en el caso general calcular los equilibrios de Nash para juegos repetidos no es más fácil que calcular los equilibrios de Nash para juegos finitos de una sola vez, un problema que se encuentra en la clase de complejidad PPAD . [14] La consecuencia práctica de esto es que no se conoce ningún algoritmo eficiente (tiempo polinómico) que calcule las estrategias requeridas por los teoremas populares en el caso general.

Resumen de teoremas populares.

La siguiente tabla compara varios teoremas populares en varios aspectos:

Teoremas populares en otros entornos

En alusión a los teoremas populares para juegos repetidos, algunos autores han utilizado el término "teorema popular" para referirse a resultados sobre el conjunto de posibles equilibrios o pagos de equilibrio en otros entornos, especialmente si los resultados son similares en los pagos de equilibrio que permiten. Por ejemplo, Tennenholtz demuestra un "teorema popular" para el equilibrio de programas . Muchos otros teoremas populares se han demostrado en entornos con compromiso. [19] [20] [21] [22]

Notas

  1. ^ En matemáticas, el término teorema popular se refiere generalmente a cualquier teorema que se cree y se discute, pero que no ha sido publicado. Roger Myerson ha recomendado el término más descriptivo "teorema de viabilidad general" para los teoremas de la teoría de juegos que se analizan aquí. Véase Myerson, Roger B. Teoría de juegos, Análisis del conflicto , Cambridge, Harvard University Press (1991)
  2. ^ R. Gibbons (1992). Introducción a la teoría de juegos . Cosechadora de gavilla de trigo. pag. 89.ISBN​ 0-7450-1160-8.
  3. ^ Jonathan Levin (2002). «Regateo y juegos repetidos» (PDF) .
  4. ^ a b C Michael Maschler; Eilon Solán ; Shmuel Zamir (2013). Teoría de juego . Prensa de la Universidad de Cambridge . págs. 176–180. ISBN 978-1-107-00548-8.
  5. ^ ABCDE Aumann, Robert J.; Shapley, Lloyd S. (1994). "Competencia a largo plazo: un análisis de la teoría de juegos" (PDF) . Ensayos sobre teoría de juegos . pag. 1. doi :10.1007/978-1-4612-2648-2_1. ISBN 978-1-4612-7621-0.
  6. ^ abcdef Rubinstein, Ariel (1979). "Equilibrio en superjuegos con criterio de adelantamiento". Revista de teoría económica . 21 : 1–9. doi :10.1016/0022-0531(79)90002-4.
  7. ^ abcdef Osborne, Martín J.; Rubinstein, Ariel (12 de julio de 1994). Un curso de teoría de juegos . ISBN 0-262-15041-7. LCCN  94008308. OL  1084491M.
  8. ^ abcdef Rubinstein, A. (1980). "Fuerte equilibrio perfecto en los superjuegos". Revista Internacional de Teoría de Juegos . 9 : 1–12. doi :10.1007/BF01784792. S2CID  122098115.
  9. ^ El artículo utiliza el término "equilibrio fuerte". Aquí, para evitar ambigüedades, se utiliza en su lugar el término "equilibrio de coalición".
  10. ^ ab Para cada coalición no vacía , existe una estrategia de los otros jugadores ( ) tal que para cualquier estrategia jugada por , el beneficio cuando se juega no es [estrictamente mejor para todos los miembros de ].
  11. ^ En el artículo de 1979, Rubinstein afirma que se puede lograr un resultado en equilibrio estrictamente estacionario si, y solo si, para cada jugador, el resultado es O estrictamente mejor que el resultado minimax del jugador O el resultado es débilmente mejor que cualquier otro. resultado al que el jugador puede desviarse unilateralmente. No está claro cómo se puede lograr la segunda opción en un equilibrio estricto. En el libro de 1994, esta afirmación no aparece.
  12. ^ ab para cada coalición no vacía , hay una estrategia de los otros jugadores ( ) tal que para cualquier estrategia jugada por , el resultado es estrictamente peor para al menos un miembro de .
  13. ^ ab Fisher, Franklin M. Juegos que juegan los economistas: una visión no cooperativa The RAND Journal of Economics, vol. 20, No. 1. (primavera de 1989), págs. 113–124, esta discusión en particular se encuentra en la página 118.
  14. ^ Christian Borgs; Jennifer Chayés; Nicole Inmorlica ; Adam Tauman Kalai ; Vahab Mirrokni; Christos Papadimitriou (2007). "El mito del teorema popular" (PDF) . págs. 365–372.
  15. ^ Benoit, Jean-Pierre; Krishna, Vijay (1985). "Juegos finitamente repetidos". Econométrica . 53 (4): 905. doi : 10.2307/1912660. JSTOR  1912660.
  16. ^ Rubinstein, Ariel (1994). "Equilibrio en superjuegos". Ensayos sobre teoría de juegos . págs. 17-27. doi :10.1007/978-1-4612-2648-2_2. ISBN 978-1-4612-7621-0.
  17. ^ abcd Fudenberg, Drew; Máscara, Eric (1986). "El teorema popular en juegos repetidos con descuento o con información incompleta". Econométrica . 54 (3): 533. CiteSeerX 10.1.1.308.5775 . doi :10.2307/1911307. JSTOR  1911307. 
  18. ^ Hay una colección de resultados factibles de IR , uno por jugador, de modo que para cada jugador , y .
  19. ^ Forjas, Françoise (2013). "Un teorema popular para juegos bayesianos con compromiso". Juegos y comportamiento económico . 78 : 64–71. doi :10.1016/j.geb.2012.11.004.
  20. ^ Oesterheld, Caspar; Treutlein, Johannes; Grosse, Roger; Conitzer, Vicente; Foerster, Jakob (2023). "Equilibrio cooperativo basado en similitudes". Actas de los Sistemas de Procesamiento de Información Neural (NeurIPS) .
  21. ^ Kalai, Adam Tauman ; Kalai, Aod ; Lehrer, Aod; Samet, Dov (2010). "Un teorema popular del compromiso". Juegos y comportamiento económico . 69 (1): 127-137. doi :10.1016/j.geb.2009.09.008.
  22. ^ Bloque, Juan I.; Levine, David K. (2017). "Un teorema popular con códigos de conducta y comunicación". Boletín de Teoría Económica . 5 (1): 9–19. doi :10.1007/s40505-016-0107-y.

Referencias