stringtranslate.com

La evolución de la cooperación

La evolución de la cooperación es un libro escrito en 1984 por el politólogo Robert Axelrod [1] que amplía un artículo del mismo nombre escrito por Axelrod y el biólogo evolutivo WD Hamilton . [2] El resumen del artículo aborda la cuestión en términos de "cooperación en organismos, ya sean bacterias o primates". [2]

El libro detalla una teoría sobre el surgimiento de la cooperación entre individuos, basada en la teoría de juegos y la biología evolutiva . Desde 2006, las reimpresiones del libro incluyen un prólogo de Richard Dawkins y se comercializan como una edición revisada.

El libro ofrece una investigación sobre cómo la cooperación puede surgir y persistir según se explica mediante la aplicación de la teoría de juegos . [2] El libro proporciona una explicación detallada de la evolución de la cooperación, más allá de la teoría de juegos tradicional. La literatura académica sobre formas de cooperación que no se explican fácilmente en la teoría de juegos tradicional, especialmente cuando se considera la biología evolutiva , tomó en gran medida su forma moderna como resultado del influyente artículo de 1981 de Axelrod y Hamilton [2] y el libro posterior.

Antecedentes: Los torneos de Axelrod

Axelrod inicialmente solicitó estrategias a otros teóricos de juegos para competir en el primer torneo. Cada estrategia se emparejó con las demás estrategias durante 200 iteraciones de un juego de dilema del prisionero y se puntuó sobre la base de los puntos totales acumulados durante el torneo. El ganador fue una estrategia muy simple presentada por Anatol Rapoport llamada " tit for tat " (TFT), que coopera en el primer movimiento y, posteriormente, repite (reciproca) lo que el otro jugador hizo en el movimiento anterior. Los resultados del primer torneo se analizaron y publicaron, y se realizó un segundo torneo para ver si alguien podía encontrar una estrategia mejor. TFT ganó nuevamente. Axelrod analizó los resultados e hizo algunos descubrimientos interesantes sobre la naturaleza de la cooperación, que describe en su libro. [3]

Tanto en los torneos reales como en las distintas repeticiones, las estrategias que mejor funcionaron fueron las buenas: [4] es decir, nunca fueron las primeras en desertar. Muchos de los competidores hicieron grandes esfuerzos para obtener una ventaja sobre las estrategias "buenas" (y por lo general más simples), pero sin éxito: las estrategias complicadas que luchaban por unos pocos puntos generalmente no podían funcionar tan bien como las estrategias buenas trabajando juntas. TFT (y otras estrategias "buenas" en general) "ganaron, no por hacerlo mejor que el otro jugador, sino por generar cooperación [y] por promover el interés mutuo en lugar de explotar la debilidad del otro". [5]

Ser “amable” puede ser beneficioso, pero también puede llevar a que te engañen. Para obtener el beneficio –o evitar la explotación– es necesario ser provocable y perdonador. Cuando el otro jugador deserta, hay que aplicar inmediatamente una estrategia amable para provocarlo a que deserte en represalia. [6] Lo mismo ocurre con el perdón: volver a cooperar tan pronto como lo haga el otro jugador. Si se exagera el castigo, se corre el riesgo de que se intensifique y puede conducir a un “eco interminable de deserciones alternadas” que deprima las puntuaciones de ambos jugadores. [7]

La mayoría de los juegos que la teoría de juegos había investigado hasta ahora son de “ suma cero ”, es decir, las recompensas totales son fijas y un jugador obtiene buenos resultados sólo a expensas de otros jugadores. Pero la vida real no es de suma cero. Nuestras mejores perspectivas suelen estar en los esfuerzos cooperativos. De hecho, TFT no puede obtener mejores resultados que su compañero; en el mejor de los casos, sólo puede obtener “tan buenos resultados como él”. Sin embargo, ganó los torneos al obtener constantemente un sólido segundo puesto con una variedad de compañeros. [8] Axelrod resume esto como “no tengas envidia”; [9] en otras palabras, no te esfuerces por obtener una recompensa mayor que la del otro jugador. [10]

En cualquier juego de IPD, hay una cierta puntuación máxima que cada jugador puede obtener si siempre coopera. Pero algunas estrategias intentan encontrar formas de obtener un poco más con una deserción ocasional (explotación). Esto puede funcionar en contra de algunas estrategias que son menos provocables o más indulgentes que TFT, pero en general, no dan buenos resultados. "Un problema común con estas reglas es que usaban métodos complejos para hacer inferencias sobre la [estrategia] del otro jugador, y esas inferencias eran erróneas". [11] Contra TFT, no hay nada mejor que simplemente cooperar. [12] Axelrod llama a esto "claridad". O: "no seas demasiado listo". [13]

El éxito de cualquier estrategia depende de la naturaleza de las estrategias particulares que encuentra, que depende de la composición de la población general. Para modelar mejor los efectos del éxito reproductivo, Axelrod también realizó un torneo "ecológico", donde la prevalencia de cada tipo de estrategia en cada ronda se determinó por el éxito de esa estrategia en la ronda anterior. La competencia en cada ronda se hace más fuerte a medida que se reducen y eliminan las estrategias de desempeño más débil. Los resultados fueron asombrosos: un puñado de estrategias, todas "amables", llegaron a dominar el campo. [14] En un mar de estrategias no agradables, las estrategias "amables" -siempre que también fueran provocables- funcionaron lo suficientemente bien entre sí como para compensar la explotación ocasional. A medida que la cooperación se generalizó, las estrategias no provocables fueron explotadas y finalmente eliminadas, con lo cual las estrategias explotadoras (no cooperativas) fueron superadas por las estrategias cooperativas.

En resumen, el éxito en un “juego” evolutivo se correlacionó con las siguientes características:

Fundación de cooperación recíproca

Las lecciones descritas anteriormente se aplican en entornos que apoyan la cooperación, pero el hecho de que se apoye o no la cooperación depende fundamentalmente de la probabilidad (llamada ω [omega]) de que los jugadores se vuelvan a encontrar, [15] también llamada el parámetro de descuento o, en sentido figurado, la sombra del futuro. Cuando ω es bajo –es decir, los jugadores tienen una probabilidad insignificante de volver a encontrarse– cada interacción es efectivamente un juego de dilema del prisionero de una sola oportunidad, y uno podría desertar en todos los casos (una estrategia llamada "ALL D"), porque incluso si uno coopera no hay manera de evitar que el otro jugador se aproveche de eso. Pero en el PD iterado, el valor de las interacciones cooperativas repetidas puede llegar a ser mayor que el beneficio/riesgo de una explotación única (que es todo lo que una estrategia como TFT tolerará).

Curiosamente, la racionalidad y la elección deliberada no son necesarias, ni tampoco la confianza ni siquiera la conciencia, [16] siempre que exista un patrón que beneficie a ambos jugadores (por ejemplo, que aumente la aptitud) y cierta probabilidad de interacción futura. A menudo, la cooperación mutua inicial ni siquiera es intencional, sino que, al haber "descubierto" un patrón beneficioso, ambas partes responden a él continuando las condiciones que lo mantienen.

Esto implica dos requisitos para los jugadores, además de la estrategia que puedan adoptar. En primer lugar, deben poder reconocer a otros jugadores, para evitar que los tramposos los exploten. En segundo lugar, deben poder rastrear su historial previo con cualquier jugador determinado, para poder responder a la estrategia de ese jugador. [17]

Incluso cuando el parámetro de descuento ω es lo suficientemente alto como para permitir la cooperación recíproca, todavía queda la cuestión de si la cooperación puede comenzar y cómo. Uno de los hallazgos de Axelrod es que cuando la población existente nunca ofrece cooperación ni la reciproca –el caso de TODOS los D– entonces no se puede establecer ninguna estrategia agradable por parte de individuos aislados; la cooperación es estrictamente una apuesta tonta . (La "futilidad de la revuelta aislada". [18] ) Pero otro hallazgo de gran importancia es que se pueden establecer grupos de estrategias agradables. Incluso un pequeño grupo de individuos con estrategias agradables con interacciones poco frecuentes puede hacerlo tan bien en esas interacciones que compense el bajo nivel de explotación de las estrategias no agradables. [19]

La cooperación se vuelve más complicada, sin embargo, tan pronto como se asumen modelos más realistas que, por ejemplo, ofrecen más de dos opciones de acción, brindan la posibilidad de una cooperación gradual, hacen que las acciones restrinjan las acciones futuras ( dependencia de la trayectoria ) o en las que se interpreta que las acciones del asociado no son triviales (por ejemplo, reconociendo el grado de cooperación mostrado) [20].

Trabajos posteriores

En 1984, Axelrod estimó que había "cientos de artículos sobre el dilema del prisionero citados en Psychological Abstracts " [21] y estimó que las citas a The Evolution of Cooperation solamente estaban "creciendo a un ritmo de más de 300 por año". [22] Revisar completamente esta literatura es imposible. Por lo tanto, lo que sigue son solo algunos puntos destacados seleccionados.

Axelrod considera que su libro posterior, The Complexity of Cooperation , [23] es una secuela de The Evolution of Cooperation . Otros trabajos sobre la evolución de la cooperación se han ampliado para cubrir el comportamiento prosocial en general, [24] y en la religión, [25] otros mecanismos para generar cooperación, [26] el DPI bajo diferentes condiciones y suposiciones, [27] y el uso de otros juegos como los juegos de Bienes Públicos y Ultimátum para explorar nociones profundamente arraigadas de justicia y juego limpio. [28] También se ha utilizado para desafiar el modelo racional y egoísta del " hombre económico " de la economía, [29] y como base para reemplazar la teoría de la selección sexual darwiniana con una teoría de la selección social. [30]

Las estrategias agradables tienen más posibilidades de invadir si tienen estructuras sociales u otros medios para aumentar sus interacciones. Axelrod analiza esto en el capítulo 8; en un artículo posterior, él, Rick Riolo y Michael Cohen [31] utilizan simulaciones por computadora para mostrar que aumenta la cooperación entre agentes que tienen una probabilidad insignificante de futuros encuentros pero que pueden reconocer la similitud de una característica arbitraria (como una barba verde ); mientras que otros estudios [32] han demostrado que las únicas estrategias del dilema del prisionero iterado que resisten la invasión en una población en evolución bien mezclada son las estrategias generosas.

Cuando un torneo IPD introduce ruido (errores o malentendidos), las estrategias TFT pueden quedar atrapadas en una larga cadena de deserciones de represalia, deprimiendo así su puntuación. TFT también tolera las estrategias "ALL C" (siempre cooperar), que luego dan una oportunidad a los explotadores. [33] En 1992, Martin Nowak y Karl Sigmund demostraron una estrategia llamada Pavlov (o "ganar-quedarse, perder-cambiar") que funciona mejor en estas circunstancias. [34] Pavlov observa su propio movimiento anterior, así como el movimiento del otro jugador. Si la recompensa fue R o P (ver "Dilema del prisionero", más arriba) coopera; si S o T, deserta.

En un artículo de 2006, Nowak enumeró cinco mecanismos por los cuales la selección natural puede conducir a la cooperación. [35] Además de la selección de parentesco y la reciprocidad directa, demuestra que:

Los pagos en el juego del dilema del prisionero son fijos, pero en la vida real los desertores suelen ser castigados por los cooperadores. Cuando el castigo es costoso, existe un dilema de segundo orden entre los cooperadores, entre quienes pagan el costo de la aplicación de la ley y quienes no lo hacen. [37] Otros trabajos han demostrado que, si bien a los individuos se les da la opción de unirse a un grupo que castiga a los oportunistas y a uno que no prefiere inicialmente el grupo sin sanciones, después de varias rondas se unirán al grupo que sí las sanciona, ya que las sanciones aseguran una mejor recompensa. [38]

En poblaciones o grupos pequeños existe la posibilidad de que la reciprocidad indirecta (reputación) pueda interactuar con la reciprocidad directa (por ejemplo, el tit por tat) sin que ninguna estrategia domine a la otra. [39] Las interacciones entre estas estrategias pueden dar lugar a redes sociales dinámicas que exhiben algunas de las propiedades observadas en las redes empíricas. [40] Si la estructura de la red y las opciones en el dilema del prisionero coevolucionan, entonces la cooperación puede sobrevivir. En las redes resultantes, los cooperadores estarán ubicados más centralmente que los desertores, quienes tenderán a estar en la periferia de la red. [41]

En "La coevolución del altruismo parroquial y la guerra", de Jung-Kyoo Choi y Samuel Bowles. Extracto del resumen:

El altruismo (el beneficio de los miembros del grupo a costa de uno mismo) y el parroquialismo (la hostilidad hacia individuos que no pertenecen al mismo grupo étnico, racial o de otro tipo) son conductas humanas comunes. La intersección de ambas (a la que llamamos "altruismo parroquial") resulta desconcertante desde una perspectiva evolutiva, porque la conducta altruista o parroquial reduce las recompensas que se obtienen en comparación con lo que se obtendría si se evitaran estas conductas. Pero el altruismo parroquial podría haber evolucionado si el parroquialismo promoviera las hostilidades entre grupos y la combinación de altruismo y parroquialismo contribuyera al éxito en estos conflictos... [Ninguno] habría sido viable por separado, pero al promover el conflicto grupal podrían haber evolucionado conjuntamente. [42]

La consideración de los mecanismos a través de los cuales se produce el aprendizaje del entorno social es fundamental en los estudios de la evolución. En el contexto de este debate, las reglas de aprendizaje, en concreto el conformismo y la imitación dependiente de la recompensa, no están predeterminadas arbitrariamente, sino que se seleccionan biológicamente. Las estrategias de comportamiento, que incluyen la cooperación, la deserción y la cooperación acompañada de castigo, se eligen en consonancia con la regla de aprendizaje predominante del agente. Las simulaciones del modelo en condiciones que se aproximan a las experimentadas por los primeros homínidos revelan que el conformismo puede evolucionar incluso cuando los individuos se enfrentan únicamente a un dilema cooperativo, contrariamente a afirmaciones anteriores. Además, la incorporación de conformistas amplifica significativamente el tamaño del grupo dentro del cual se puede mantener la cooperación. Estos resultados del modelo demuestran su solidez, manteniendo su validez incluso en condiciones de altas tasas de migración y conflictos intergrupales poco frecuentes. [43]

Ni Choi y Bowles ni Guzmán, Rodríguez-Sicket y Rowthorn afirman que los seres humanos hayan evolucionado realmente de esta manera, pero las simulaciones por ordenador muestran cómo la interacción de estos comportamientos podría fomentar la guerra. Por tanto, una cuestión de investigación crucial que queda por resolver es hasta qué punto son realistas los supuestos en los que se basan estos modelos de simulación. [44]

Software

Se han creado varios paquetes de software para ejecutar simulaciones y torneos de dilema del prisionero, algunos de los cuales tienen código fuente disponible.

Lectura recomendada

Véase también

Referencias

  1. ^ El libro de Axelrod fue resumido en la columna "Metamagical Themas" de Douglas Hofstadter de mayo de 1983 en Scientific American (Hofstadter 1983) (reimpreso en su libro (Hofstadter 1985); véase también el resumen de Richard Dawkin en la segunda edición de The Selfish Gene (Dawkins 1989, cap. 12).
  2. ^ abcd Axelrod y Hamilton 1981.
  3. ^ Axelrod 1984.
  4. ^ Axelrod 1984, pág. 113.
  5. ^ Axelrod 1984, pág. 130.
  6. ^ Axelrod 1984, págs. 62, 211.
  7. ^ Axelrod 1984, pág. 186.
  8. ^ Axelrod 1984, pág. 112.
  9. ^ Axelrod 1984, págs. 110-113.
  10. ^ Axelrod 1984, pág. 25.
  11. ^ Axelrod 1984, pág. 120.
  12. ^ Axelrod 1984, págs. 47, 118.
  13. ^ Axelrod 1984, págs. 120+.
  14. ^ Axelrod 1984, págs. 48-53.
  15. ^ Axelrod 1984, pág. 13.
  16. ^ Axelrod 1984, págs. 18, 174.
  17. ^ Axelrod 1984, pág. 174.
  18. ^ Axelrod 1984, pág. 150.
  19. ^ Axelrod 1984, págs. 63-68, 99
  20. ^ Prechelt, Lutz (1996). "INCA: Un modelo de cooperación de múltiples opciones en condiciones de comunicación restringida". Biosystems . 37 (1–2): 127–134. Bibcode :1996BiSys..37..127P. doi :10.1016/0303-2647(95)01549-3.
  21. ^ Axelrod 1984, págs. 28.
  22. ^ Axelrod 1984, págs. 3.
  23. ^ Axelrod 1997.
  24. ^ Bowles 2006;
  25. ^ Norenzayan y Shariff 2008.
  26. ^ Nowak 2006.
  27. ^ Axelrod y Dion 1988; Hoffman 2000 clasifica y resume más de 50 estudios
  28. ^ Nowak, Page y Sigmund 2000; Sigmund, Fehr y Nowak 2002.
  29. ^ Camerer y Fehr 2006.
  30. ^ Roughgarden, Oishi y Akcay 2006.
  31. ^ Riolo, Cohen y Axelrod 2001.
  32. ^ Stewart y Plotkin (2013)
  33. Axelrod (1984, pp. 136-138) hace algunos comentarios interesantes sobre la necesidad de suprimir los cooperadores universales. Véase también un tema similar en la novela Macroscope de Piers Anthony .
  34. ^ Nowak y Sigmund 1992; véase también Milinski 1993.
  35. ^ Novak 2006;
  36. ^ Aquí la selección de grupo no es una forma de evolución, lo cual es problemático (véase Dawkins (1989), cap. 7), sino un mecanismo para desarrollar la cooperación.
  37. ^ Hauert y otros 2007.
  38. ^ Gürerk, Irlenbusch y Rockenbach 2006
  39. ^ Phelps, S., Nevarez, G. y Howes, A., 2009. El efecto del tamaño del grupo y la frecuencia de encuentros en la evolución de la cooperación. En LNCS, Volumen 5778, ECAL 2009, Avances en vida artificial: Darwin se encuentra con Von Neumann. Budapest: Springer, págs. 37–44. [1].
  40. ^ Phelps, S (2012). "Aparición de redes sociales mediante reciprocidad directa e indirecta" (PDF) . Agentes autónomos y sistemas multiagente . doi :10.1007/s10458-012-9207-8. S2CID  1337854.
  41. ^ Fosco y Mengel 2011.
  42. ^ Choi y Bowles 2007, pág. 636.
  43. ^ Guzmán, RA; Rodríguez-Sickert, C.; Rowthorn, R. (2007). "Cuando estés en Roma, haz lo que hacen los romanos: la coevolución del castigo altruista, el aprendizaje conformista y la cooperación" (PDF) . Evolución y comportamiento humano . 28 (2): 112–117. Bibcode :2007EHumB..28..112A. doi :10.1016/j.evolhumbehav.2006.08.002.
  44. ^ Rusch 2014.
  45. ^ http://www-personal.umich.edu/~axe/research/Software/CC/CC2.html
  46. ^ https://web.archive.org/web/19991010053242/http://www.lifl.fr/IPD/ipd.frame.html
  47. ^ https://github.com/Axelrod-Python/Axelrod

Bibliografía

La mayoría de estas referencias son a la literatura científica, para establecer la autoridad de varios puntos del artículo. También se incluyen algunas referencias de menor autoridad, pero de mayor accesibilidad.

Enlaces externos