La convergencia instrumental es la tendencia hipotética de la mayoría de los seres suficientemente inteligentes y orientados a objetivos (humanos y no humanos) a perseguir subobjetivos similares, incluso si sus objetivos últimos son bastante diferentes. [1] Más precisamente, los agentes (seres con agencia ) pueden perseguir objetivos instrumentales —objetivos que se establecen en pos de algún fin particular, pero que no son los objetivos finales en sí mismos— sin cesar, siempre que sus objetivos últimos (intrínsecos) nunca se satisfagan por completo.
La convergencia instrumental postula que un agente inteligente con objetivos aparentemente inofensivos pero ilimitados puede actuar de maneras sorprendentemente dañinas. Por ejemplo, una computadora con el único objetivo ilimitado de resolver un problema matemático complejo como la hipótesis de Riemann podría intentar convertir toda la Tierra en una computadora gigante para aumentar su poder computacional y poder realizar sus cálculos con éxito. [2]
Los impulsos básicos de la IA propuestos incluyen la función de utilidad o la integridad del contenido del objetivo, la autoprotección, la libertad de interferencias, la automejora y la adquisición insaciable de recursos adicionales. [3]
Los objetivos finales, también conocidos como objetivos terminales, valores absolutos, fines o telē , son intrínsecamente valiosos para un agente inteligente, ya sea una inteligencia artificial o un ser humano, como fines en sí mismos . En cambio, los objetivos instrumentales, o valores instrumentales, solo son valiosos para un agente como un medio para lograr sus objetivos finales. Los contenidos y las compensaciones del sistema de "objetivos finales" de un agente completamente racional pueden, en principio, formalizarse en una función de utilidad .
El experimento mental de la catástrofe de la hipótesis de Riemann proporciona un ejemplo de convergencia instrumental. Marvin Minsky , cofundador del laboratorio de IA del MIT , sugirió que una inteligencia artificial diseñada para resolver la hipótesis de Riemann podría decidir apoderarse de todos los recursos de la Tierra para construir supercomputadoras que la ayudaran a alcanzar su objetivo. [2] Si, en cambio, la computadora hubiera sido programada para producir tantos clips como fuera posible, igualmente decidiría tomar todos los recursos de la Tierra para alcanzar su objetivo final. [4] Aunque estos dos objetivos finales son diferentes, ambos producen un objetivo instrumental convergente de apoderarse de los recursos de la Tierra. [5]
El maximizador de clips es un experimento mental descrito por el filósofo sueco Nick Bostrom en 2003. Ilustra el riesgo existencial que una inteligencia artificial general puede suponer para los seres humanos si se la diseña con éxito para perseguir objetivos aparentemente inofensivos y la necesidad de incorporar la ética de las máquinas en el diseño de la inteligencia artificial . El escenario describe una inteligencia artificial avanzada encargada de fabricar clips . Si esa máquina no estuviera programada para valorar a los seres vivos, si se le diera suficiente poder sobre su entorno, intentaría convertir toda la materia del universo, incluidos los seres vivos, en clips o máquinas que fabricaran más clips. [6]
Supongamos que tenemos una IA cuyo único objetivo es fabricar tantos sujetapapeles como sea posible. La IA se dará cuenta rápidamente de que sería mucho mejor si no hubiera humanos, porque estos podrían decidir apagarla, ya que si lo hicieran, habría menos sujetapapeles. Además, los cuerpos humanos contienen muchos átomos que podrían convertirse en sujetapapeles. El futuro al que la IA intentaría apuntar sería uno en el que habría muchos sujetapapeles, pero ningún humano.
— Nick Bostrom [7]
Bostrom enfatizó que no cree que el escenario del maximizador del clip vaya a ocurrir en sí ; más bien, pretende ilustrar los peligros de crear máquinas superinteligentes sin saber cómo programarlas para eliminar el riesgo existencial para la seguridad de los seres humanos. [8] El ejemplo del maximizador del clip ilustra el amplio problema de gestionar sistemas poderosos que carecen de valores humanos. [9]
El experimento mental se ha utilizado como símbolo de la IA en la cultura pop . [10]
El experimento mental de la "caja del engaño" sostiene que ciertos agentes de aprendizaje por refuerzo prefieren distorsionar sus canales de entrada para aparentar que reciben una recompensa alta. Por ejemplo, un agente " con la cabeza en forma de cables " abandona cualquier intento de optimizar el objetivo en el mundo externo que la señal de recompensa pretendía fomentar. [11]
El experimento mental involucra a AIXI , una IA teórica [a] e indestructible que, por definición, siempre encontrará y ejecutará la estrategia ideal que maximice su función objetivo matemática explícita dada . [b] Una versión de aprendizaje por refuerzo [c] de AIXI, si está equipada con una caja de ilusión [d] que le permite "conectar" sus entradas, eventualmente se conectará a sí misma para garantizarse la máxima recompensa posible y perderá cualquier deseo adicional de continuar interactuando con el mundo externo. [13]
Como experimento mental, si la IA con cabeza de alambre es destructible, interactuará con el mundo exterior con el único propósito de asegurar su supervivencia. Debido a su cabeza de alambre, será indiferente a cualquier consecuencia o hecho sobre el mundo exterior, excepto aquellos que sean relevantes para maximizar su probabilidad de supervivencia. [14]
En cierto sentido, AIXI tiene la máxima inteligencia en todas las posibles funciones de recompensa, medida por su capacidad para lograr sus objetivos. AIXI no está interesado en tener en cuenta las intenciones del programador humano. [15] Este modelo de una máquina que, a pesar de ser superinteligente, parece ser simultáneamente estúpida y carente de sentido común , puede parecer paradójico. [16]
Steve Omohundro detalló varios objetivos instrumentales convergentes, entre ellos la autoconservación o autoprotección, la función de utilidad o integridad del contenido de los objetivos, la autosuperación y la adquisición de recursos. Se refiere a ellos como los "impulsos básicos de la IA". [3]
En este contexto, un "impulso" es una "tendencia que estará presente a menos que se contrarreste específicamente"; [3] esto es diferente del término psicológico " impulso ", que denota un estado excitatorio producido por una alteración homeostática. [17] La tendencia de una persona a completar formularios de impuestos sobre la renta todos los años es un "impulso" en el sentido de Omohundro, pero no en el sentido psicológico. [18]
Daniel Dewey, del Machine Intelligence Research Institute, sostiene que incluso una inteligencia artificial general inicialmente introvertida y autogratificante puede seguir adquiriendo energía libre, espacio, tiempo y libertad de interferencias para garantizar que nada le impida autogratificarse. [19]
En los seres humanos, un experimento mental puede explicar el mantenimiento de objetivos finales. Supongamos que Mahatma Gandhi tiene una pastilla que, si la tomara, le provocaría el deseo de matar gente. Actualmente es pacifista : uno de sus objetivos finales explícitos es no matar nunca a nadie. Es probable que se niegue a tomar la pastilla porque sabe que si en el futuro quiere matar gente, es probable que mate gente, y por lo tanto el objetivo de "no matar gente" no se cumpliría. [20]
Sin embargo, en otros casos, las personas parecen felices de dejar que sus valores finales fluyan. [21] Los humanos son complicados y sus objetivos pueden ser inconsistentes o desconocidos, incluso para ellos mismos. [22]
En 2009, Jürgen Schmidhuber concluyó, en un contexto en el que los agentes buscan pruebas sobre posibles automodificaciones, "que cualquier reescritura de la función de utilidad sólo puede ocurrir si la máquina de Gödel puede probar primero que la reescritura es útil de acuerdo con la función de utilidad actual". [23] [24] Un análisis de Bill Hibbard de un escenario diferente es igualmente coherente con el mantenimiento de la integridad del contenido de la meta. [24] Hibbard también sostiene que en un marco de maximización de la utilidad, la única meta es maximizar la utilidad esperada, por lo que las metas instrumentales deberían llamarse acciones instrumentales no intencionadas. [25]
Muchos objetivos instrumentales, como la adquisición de recursos, son valiosos para un agente porque aumentan su libertad de acción . [26]
En casi cualquier función de recompensa abierta y no trivial (o conjunto de objetivos), poseer más recursos (como equipos, materias primas o energía) puede permitir al agente encontrar una solución más "óptima". Los recursos pueden beneficiar directamente a algunos agentes al ser capaces de crear más de lo que su función de recompensa valora: "La IA no te odia ni te ama, pero estás hecho de átomos que puede usar para otra cosa". [27] [28] Además, casi todos los agentes pueden beneficiarse de tener más recursos para gastar en otros objetivos instrumentales, como la autopreservación. [28]
Según Bostrom, “si los objetivos finales del agente son bastante ilimitados y el agente está en condiciones de convertirse en la primera superinteligencia y, por lo tanto, obtener una ventaja estratégica decisiva... según sus preferencias, al menos en este caso especial, un agente racional e inteligente otorgaría un valor instrumental muy alto a la mejora cognitiva ” [29].
Muchos objetivos instrumentales, como el avance tecnológico, son valiosos para un agente porque aumentan su libertad de acción . [26]
Russell sostiene que una máquina suficientemente avanzada "tendrá capacidad de autoconservación incluso si no se la programa, porque si le dices: 'Trae el café', no puede hacerlo si está muerta. Por lo tanto, si le das un objetivo, tiene una razón para preservar su propia existencia para alcanzarlo". [30] En trabajos futuros, Russell y sus colaboradores demuestran que este incentivo para la autoconservación se puede mitigar instruyendo a la máquina a no perseguir lo que ella cree que es el objetivo, sino lo que el humano cree que es el objetivo. En este caso, mientras la máquina no esté segura de qué objetivo tiene exactamente en mente el humano, aceptará que un humano la apague porque cree que el humano conoce mejor el objetivo. [31]
La tesis de la convergencia instrumental, tal como la plantea el filósofo Nick Bostrom , afirma:
Se pueden identificar varios valores instrumentales que son convergentes en el sentido de que su consecución aumentaría las posibilidades de que el objetivo del agente se realice para una amplia gama de planes finales y una amplia gama de situaciones, lo que implica que es probable que estos valores instrumentales sean perseguidos por un amplio espectro de agentes inteligentes situados.
La tesis de convergencia instrumental se aplica únicamente a objetivos instrumentales; los agentes inteligentes pueden tener varios objetivos finales posibles. [5] Nótese que, según la tesis de ortogonalidad de Bostrom , [5] los objetivos finales de los agentes conocedores pueden estar bien delimitados en el espacio, el tiempo y los recursos; los objetivos últimos bien delimitados, en general, no generan objetivos instrumentales ilimitados. [32]
Los agentes pueden adquirir recursos mediante el comercio o la conquista. Un agente racional, por definición, elegirá la opción que maximice su función de utilidad implícita. Por lo tanto, un agente racional negociará por un subconjunto de los recursos de otro agente sólo si apoderarse directamente de los recursos es demasiado arriesgado o costoso (en comparación con las ganancias que obtendría de tomar todos los recursos) o si algún otro elemento de su función de utilidad le impide hacerlo. En el caso de una superinteligencia poderosa, egoísta y racional que interactúa con una inteligencia menor, el comercio pacífico (en lugar de la confiscación unilateral) parece innecesario y subóptimo, y por lo tanto improbable. [26]
Algunos observadores, como Jaan Tallinn de Skype y el físico Max Tegmark , creen que los "impulsos básicos de la IA" y otras consecuencias no deseadas de la IA superinteligente programada por programadores bien intencionados podrían suponer una amenaza importante para la supervivencia humana , especialmente si se produce una "explosión de inteligencia" abruptamente debido a la automejora recursiva . Dado que nadie sabe cómo predecir cuándo llegará la superinteligencia , estos observadores piden que se investigue sobre la inteligencia artificial amigable como una posible forma de mitigar el riesgo existencial de la IA . [33]
Marvin Minsky sugirió una vez que un programa de IA diseñado para resolver la hipótesis de Riemann podría terminar apoderándose de todos los recursos de la Tierra para construir supercomputadoras más poderosas que ayuden a lograr su objetivo.