La convergencia instrumental es la tendencia hipotética de la mayoría de los seres suficientemente inteligentes y dirigidos a objetivos (humanos y no humanos) a perseguir subobjetivos similares, incluso si sus objetivos finales son bastante diferentes. [1] Más precisamente, los agentes (seres con agencia ) pueden perseguir metas instrumentales (metas que se establecen en pos de algún fin particular, pero que no son las metas finales en sí mismas) sin cesar, siempre que sus metas últimas (intrínsecas) nunca puedan alcanzarse. completamente satisfecho.
La convergencia instrumental postula que un agente inteligente con objetivos ilimitados pero inofensivos puede actuar de maneras sorprendentemente dañinas. Por ejemplo, una computadora con el único y ilimitado propósito de resolver un problema matemático complejo como la hipótesis de Riemann podría intentar convertir toda la Tierra en una computadora gigante para aumentar su poder computacional y poder tener éxito en sus cálculos. [2]
Los impulsores básicos de la IA propuestos incluyen la función de utilidad o la integridad del contenido del objetivo, la autoprotección, la ausencia de interferencias, la superación personal y la adquisición insaciable de recursos adicionales.
Las metas finales, también conocidas como metas terminales, valores absolutos, fines o telē , son intrínsecamente valiosas para un agente inteligente, ya sea una inteligencia artificial o un ser humano, como fines en sí mismos . Por el contrario, las metas instrumentales o los valores instrumentales sólo son valiosos para un agente como medio para lograr sus destinos finales. Los contenidos y compensaciones del sistema de "objetivo final" de un agente completamente racional pueden, en principio, formalizarse en una función de utilidad .
El experimento mental sobre la catástrofe de la hipótesis de Riemann proporciona un ejemplo de convergencia instrumental. Marvin Minsky , cofundador del laboratorio de IA del MIT , sugirió que una inteligencia artificial diseñada para resolver la hipótesis de Riemann podría decidir hacerse cargo de todos los recursos de la Tierra para construir supercomputadoras que ayuden a lograr su objetivo. [2] Si la computadora hubiera sido programada para producir tantos clips como fuera posible, aún así decidiría tomar todos los recursos de la Tierra para alcanzar su objetivo final. [3] Aunque estos dos objetivos finales son diferentes, ambos producen un propósito instrumental convergente de apoderarse de los recursos de la Tierra. [4]
El maximizador de clips es un experimento mental descrito por el filósofo sueco Nick Bostrom en 2003. Ilustra el riesgo existencial que una inteligencia artificial general puede representar para los seres humanos si se diseña con éxito para perseguir objetivos incluso aparentemente inofensivos y la necesidad de incorporar la ética de las máquinas. en el diseño de inteligencia artificial . El escenario describe una inteligencia artificial avanzada encargada de fabricar clips . Si una máquina así no estuviera programada para valorar a los seres vivos, si se le diera suficiente poder sobre su entorno, intentaría convertir toda la materia del universo, incluidos los seres vivos, en clips o máquinas que fabriquen más clips. [5]
Supongamos que tenemos una IA cuyo único objetivo es fabricar tantos clips como sea posible. La IA se dará cuenta rápidamente de que sería mucho mejor si no hubiera humanos, porque los humanos podrían decidir apagarla. Porque si los humanos lo hicieran, habría menos clips. Además, el cuerpo humano contiene muchos átomos que podrían convertirse en clips. El futuro hacia el que la IA intentaría orientarse sería uno en el que habría muchos clips pero no humanos.
-Nick Bostrom [6]
Bostrom enfatizó que no cree que el escenario maximizador de clips per se vaya a ocurrir; más bien, pretende ilustrar los peligros de crear máquinas superinteligentes sin saber cómo programarlas para eliminar el riesgo existencial para los seres humanos de forma segura. [7] El ejemplo del maximizador de clips ilustra el amplio problema de gestionar sistemas potentes que carecen de valores humanos. [8]
El experimento mental se ha utilizado como símbolo de la IA en la cultura pop . [9]
El experimento mental de la "caja del delirio" sostiene que ciertos agentes de aprendizaje por refuerzo prefieren distorsionar sus canales de entrada para que parezca que reciben una alta recompensa. Por ejemplo, un agente " inteligente " abandona cualquier intento de optimizar el objetivo en el mundo exterior que la señal de recompensa pretendía fomentar. [10]
El experimento mental involucra a AIXI , una IA teórica [a] e indestructible que, por definición, siempre encontrará y ejecutará la estrategia ideal que maximice su función objetivo matemática explícita dada . [b] Una versión de aprendizaje por refuerzo [c] de AIXI, si está equipada con una caja de ilusión [d] que le permite "conectar" sus entradas, eventualmente se conectará a sí misma para garantizarse la máxima recompensa posible y perderá. cualquier deseo adicional de continuar interactuando con el mundo exterior. [ cita necesaria ]
Como experimento mental alternativo, si la IA con cabeza de alambre es destructible, se relacionará con el mundo externo con el único propósito de garantizar su supervivencia. Debido a su rumbo, será indiferente a cualquier consecuencia o hecho sobre el mundo externo excepto aquellos relevantes para maximizar su probabilidad de supervivencia. [12]
En cierto sentido, AIXI tiene la máxima inteligencia en todas las funciones de recompensa posibles, medida por su capacidad para lograr sus objetivos. A AIXI no le interesa tener en cuenta las intenciones del programador humano. [13] Este modelo de máquina que, a pesar de ser superinteligente, parece a la vez estúpida y carente de sentido común , puede parecer paradójico. [14]
Steve Omohundro detalló varios objetivos instrumentales convergentes, incluida la autoconservación o la autoprotección, la función de utilidad o la integridad del contenido del objetivo, la superación personal y la adquisición de recursos. Se refiere a estos como los "motores básicos de IA".
Un "impulso" en este contexto es una "tendencia que estará presente a menos que se contrarreste específicamente"; [17] esto es diferente del término psicológico " pulsión ", que denota un estado excitador producido por una alteración homeostática. [18] La tendencia de una persona a completar formularios de impuestos sobre la renta cada año es un "impulso" en el sentido de Omohundro, pero no en el sentido psicológico. [19]
Daniel Dewey, del Machine Intelligence Research Institute, sostiene que incluso una Inteligencia General Artificial (AGI, por sus siglas en inglés) inicialmente introvertida y [ jerga ] autogratificante, puede continuar adquiriendo energía, espacio, tiempo y libertad de interferencias para garantizar que no se le impedirá la autogratificación. [20]
En humanos, un experimento mental puede explicar el mantenimiento de los objetivos finales. Supongamos que Mahatma Gandhi tiene una pastilla que, si la tomara, le provocaría ganas de matar gente. Actualmente es pacifista : uno de sus objetivos finales explícitos es no matar nunca a nadie. Es probable que se niegue a tomar la píldora porque sabe que si en el futuro quiere matar gente, probablemente matará gente y, por tanto, no cumplirá el objetivo de "no matar gente". [21]
Sin embargo, en otros casos, la gente parece feliz de dejar que sus valores finales varíen. [22] Los seres humanos son complicados y sus objetivos pueden ser inconsistentes o desconocidos, incluso para ellos mismos. [23]
En 2009, Jürgen Schmidhuber concluyó, en un entorno donde los agentes buscaban pruebas sobre posibles automodificaciones, "que cualquier reescritura de la función de utilidad puede ocurrir sólo si la máquina de Gödel puede probar primero que la reescritura es útil de acuerdo con la función de utilidad actual". ". [24] [25] Un análisis realizado por Bill Hibbard de un escenario diferente es igualmente consistente con el mantenimiento de la integridad del contenido objetivo. [25] Hibbard también sostiene que en un marco de maximización de la utilidad, el único objetivo es maximizar la utilidad esperada, por lo que los objetivos instrumentales deberían denominarse acciones instrumentales no intencionadas. [26]
Muchos objetivos instrumentales, como la adquisición de recursos, son valiosos para un agente porque aumentan su libertad de acción . [27]
Para casi cualquier función de recompensa (o conjunto de objetivos) abierta y no trivial, poseer más recursos (como equipos, materias primas o energía) puede permitir al agente encontrar una solución más "óptima". Los recursos pueden beneficiar directamente a algunos agentes al poder crear más de cualquier valor de su función de recompensa: "La IA no te odia ni te ama, pero estás hecho de átomos que puede usar para otra cosa". [28] [29] Además, casi todos los agentes pueden beneficiarse de tener más recursos para gastar en otros objetivos instrumentales, como la autoconservación. [29]
Según Bostrom, "si los objetivos finales del agente son bastante ilimitados y el agente está en condiciones de convertirse en la primera superinteligencia y obtener así una ventaja estratégica decisiva... según sus preferencias. Al menos en este caso especial, una estrategia racional, agente inteligente otorgaría un valor instrumental muy alto a la mejora cognitiva " [30]
Muchos objetivos instrumentales, como el avance tecnológico, son valiosos para un agente porque aumentan su libertad de acción . [27]
Russell sostiene que una máquina suficientemente avanzada "tendrá capacidad de autoconservación incluso si no la programas, porque si dices: 'Trae el café', no podrá recuperar el café si está muerto. Así que si le das cualquier objetivo, tiene una razón para preservar su existencia para lograr ese objetivo". [31]
La tesis de la convergencia instrumental, tal como la esboza el filósofo Nick Bostrom , afirma:
Se pueden identificar varios valores instrumentales que son convergentes en el sentido de que su logro aumentaría las posibilidades de que el objetivo del agente se cumpla para una amplia gama de planes finales y una amplia gama de situaciones, lo que implica que es probable que estos valores instrumentales sean perseguidos por un amplio espectro de agentes inteligentes situados.
La tesis de la convergencia instrumental se aplica sólo a objetivos instrumentales; Los agentes inteligentes pueden tener varios objetivos finales posibles. [4] Tenga en cuenta que según la tesis de la ortogonalidad de Bostrom , [4] los objetivos finales de los agentes informados pueden estar bien delimitados en espacio, tiempo y recursos; Los objetivos finales bien delimitados no engendran, en general, objetivos instrumentales ilimitados. [32]
Los agentes pueden adquirir recursos mediante el comercio o la conquista. Un agente racional, por definición, elegirá cualquier opción que maximice su función de utilidad implícita. Por lo tanto, un agente racional negociará por un subconjunto de los recursos de otro agente sólo si apoderarse directamente de los recursos es demasiado arriesgado o costoso (en comparación con las ganancias de tomar todos los recursos) o si algún otro elemento en su función de utilidad le impide hacerlo. En el caso de una superinteligencia racional, egoísta y poderosa que interactúa con inteligencia menor, el comercio pacífico (en lugar de la incautación unilateral) parece innecesario, subóptimo y, por lo tanto, improbable. [27]
Algunos observadores, como Jaan Tallinn de Skype y el físico Max Tegmark , creen que los "impulsores básicos de IA" y otras consecuencias no deseadas de la IA superinteligente programada por programadores bien intencionados podrían representar una amenaza significativa para la supervivencia humana , especialmente si se produce una "explosión de inteligencia" abruptamente. Ocurre debido a la superación personal recursiva . Dado que nadie sabe cómo predecir cuándo llegará la superinteligencia , estos observadores piden que se investigue la inteligencia artificial amigable como posible forma de mitigar el riesgo existencial de la inteligencia artificial general . [33]
De manera similar, Marvin Minsky sugirió una vez que un programa de inteligencia artificial diseñado para resolver la hipótesis de Riemann podría terminar apoderándose de todos los recursos de la Tierra para construir supercomputadoras más poderosas que ayuden a lograr su objetivo.