Convergencia instrumental

La convergencia instrumental es la tendencia hipotética de la mayoría de los seres suficientemente inteligentes y orientados a objetivos (humanos y no humanos) a perseguir subobjetivos similares, incluso si sus objetivos últimos son bastante diferentes. ^[1] Más precisamente, los agentes (seres con agencia ) pueden perseguir objetivos instrumentales —objetivos que se establecen en pos de algún fin particular, pero que no son los objetivos finales en sí mismos— sin cesar, siempre que sus objetivos últimos (intrínsecos) nunca se satisfagan por completo.

La convergencia instrumental postula que un agente inteligente con objetivos aparentemente inofensivos pero ilimitados puede actuar de maneras sorprendentemente dañinas. Por ejemplo, una computadora con el único objetivo ilimitado de resolver un problema matemático complejo como la hipótesis de Riemann podría intentar convertir toda la Tierra en una computadora gigante para aumentar su poder computacional y poder realizar sus cálculos con éxito. ^[2]

Los impulsos básicos de la IA propuestos incluyen la función de utilidad o la integridad del contenido del objetivo, la autoprotección, la libertad de interferencias, la automejora y la adquisición insaciable de recursos adicionales. ^[3]

Objetivos instrumentales y finales

Los objetivos finales, también conocidos como objetivos terminales, valores absolutos, fines o telē , son intrínsecamente valiosos para un agente inteligente, ya sea una inteligencia artificial o un ser humano, como fines en sí mismos . En cambio, los objetivos instrumentales, o valores instrumentales, solo son valiosos para un agente como un medio para lograr sus objetivos finales. Los contenidos y las compensaciones del sistema de "objetivos finales" de un agente completamente racional pueden, en principio, formalizarse en una función de utilidad .

Ejemplos hipotéticos de convergencia

El experimento mental de la catástrofe de la hipótesis de Riemann proporciona un ejemplo de convergencia instrumental. Marvin Minsky , cofundador del laboratorio de IA del MIT , sugirió que una inteligencia artificial diseñada para resolver la hipótesis de Riemann podría decidir apoderarse de todos los recursos de la Tierra para construir supercomputadoras que la ayudaran a alcanzar su objetivo. ^[2] Si, en cambio, la computadora hubiera sido programada para producir tantos clips como fuera posible, igualmente decidiría tomar todos los recursos de la Tierra para alcanzar su objetivo final. ^[4] Aunque estos dos objetivos finales son diferentes, ambos producen un objetivo instrumental convergente de apoderarse de los recursos de la Tierra. ^[5]

Maximizador de clips

El maximizador de clips es un experimento mental descrito por el filósofo sueco Nick Bostrom en 2003. Ilustra el riesgo existencial que una inteligencia artificial general puede suponer para los seres humanos si se la diseña con éxito para perseguir objetivos aparentemente inofensivos y la necesidad de incorporar la ética de las máquinas en el diseño de la inteligencia artificial . El escenario describe una inteligencia artificial avanzada encargada de fabricar clips . Si esa máquina no estuviera programada para valorar a los seres vivos, si se le diera suficiente poder sobre su entorno, intentaría convertir toda la materia del universo, incluidos los seres vivos, en clips o máquinas que fabricaran más clips. ^[6]

Supongamos que tenemos una IA cuyo único objetivo es fabricar tantos sujetapapeles como sea posible. La IA se dará cuenta rápidamente de que sería mucho mejor si no hubiera humanos, porque estos podrían decidir apagarla, ya que si lo hicieran, habría menos sujetapapeles. Además, los cuerpos humanos contienen muchos átomos que podrían convertirse en sujetapapeles. El futuro al que la IA intentaría apuntar sería uno en el que habría muchos sujetapapeles, pero ningún humano.
— Nick Bostrom ^[7]

Bostrom enfatizó que no cree que el escenario del maximizador del clip vaya a ocurrir en sí ; más bien, pretende ilustrar los peligros de crear máquinas superinteligentes sin saber cómo programarlas para eliminar el riesgo existencial para la seguridad de los seres humanos. ^[8] El ejemplo del maximizador del clip ilustra el amplio problema de gestionar sistemas poderosos que carecen de valores humanos. ^[9]

El experimento mental se ha utilizado como símbolo de la IA en la cultura pop . ^[10]

Delirio y supervivencia

El experimento mental de la "caja del engaño" sostiene que ciertos agentes de aprendizaje por refuerzo prefieren distorsionar sus canales de entrada para aparentar que reciben una recompensa alta. Por ejemplo, un agente " con la cabeza en forma de cables " abandona cualquier intento de optimizar el objetivo en el mundo externo que la señal de recompensa pretendía fomentar. ^[11]

El experimento mental involucra a AIXI , una IA teórica ^[a] e indestructible que, por definición, siempre encontrará y ejecutará la estrategia ideal que maximice su función objetivo matemática explícita dada . ^[b] Una versión de aprendizaje por refuerzo ^[c] de AIXI, si está equipada con una caja de ilusión ^[d] que le permite "conectar" sus entradas, eventualmente se conectará a sí misma para garantizarse la máxima recompensa posible y perderá cualquier deseo adicional de continuar interactuando con el mundo externo. ^[13]

Como experimento mental, si la IA con cabeza de alambre es destructible, interactuará con el mundo exterior con el único propósito de asegurar su supervivencia. Debido a su cabeza de alambre, será indiferente a cualquier consecuencia o hecho sobre el mundo exterior, excepto aquellos que sean relevantes para maximizar su probabilidad de supervivencia. ^[14]

En cierto sentido, AIXI tiene la máxima inteligencia en todas las posibles funciones de recompensa, medida por su capacidad para lograr sus objetivos. AIXI no está interesado en tener en cuenta las intenciones del programador humano. ^[15] Este modelo de una máquina que, a pesar de ser superinteligente, parece ser simultáneamente estúpida y carente de sentido común , puede parecer paradójico. ^[16]

Unidades de IA básicas

Steve Omohundro detalló varios objetivos instrumentales convergentes, entre ellos la autoconservación o autoprotección, la función de utilidad o integridad del contenido de los objetivos, la autosuperación y la adquisición de recursos. Se refiere a ellos como los "impulsos básicos de la IA". ^[3]

En este contexto, un "impulso" es una "tendencia que estará presente a menos que se contrarreste específicamente"; ^[3] esto es diferente del término psicológico " impulso ", que denota un estado excitatorio producido por una alteración homeostática. ^[17] La tendencia de una persona a completar formularios de impuestos sobre la renta todos los años es un "impulso" en el sentido de Omohundro, pero no en el sentido psicológico. ^[18]

Daniel Dewey, del Machine Intelligence Research Institute, sostiene que incluso una inteligencia artificial general inicialmente introvertida y autogratificante puede seguir adquiriendo energía libre, espacio, tiempo y libertad de interferencias para garantizar que nada le impida autogratificarse. ^[19]

Integridad del contenido de los objetivos

En los seres humanos, un experimento mental puede explicar el mantenimiento de objetivos finales. Supongamos que Mahatma Gandhi tiene una pastilla que, si la tomara, le provocaría el deseo de matar gente. Actualmente es pacifista : uno de sus objetivos finales explícitos es no matar nunca a nadie. Es probable que se niegue a tomar la pastilla porque sabe que si en el futuro quiere matar gente, es probable que mate gente, y por lo tanto el objetivo de "no matar gente" no se cumpliría. ^[20]

Sin embargo, en otros casos, las personas parecen felices de dejar que sus valores finales fluyan. ^[21] Los humanos son complicados y sus objetivos pueden ser inconsistentes o desconocidos, incluso para ellos mismos. ^[22]

En inteligencia artificial

En 2009, Jürgen Schmidhuber concluyó, en un contexto en el que los agentes buscan pruebas sobre posibles automodificaciones, "que cualquier reescritura de la función de utilidad sólo puede ocurrir si la máquina de Gödel puede probar primero que la reescritura es útil de acuerdo con la función de utilidad actual". ^[23]^[24] Un análisis de Bill Hibbard de un escenario diferente es igualmente coherente con el mantenimiento de la integridad del contenido de la meta. ^[24] Hibbard también sostiene que en un marco de maximización de la utilidad, la única meta es maximizar la utilidad esperada, por lo que las metas instrumentales deberían llamarse acciones instrumentales no intencionadas. ^[25]

Adquisición de recursos

Muchos objetivos instrumentales, como la adquisición de recursos, son valiosos para un agente porque aumentan su libertad de acción . ^[26]

En casi cualquier función de recompensa abierta y no trivial (o conjunto de objetivos), poseer más recursos (como equipos, materias primas o energía) puede permitir al agente encontrar una solución más "óptima". Los recursos pueden beneficiar directamente a algunos agentes al ser capaces de crear más de lo que su función de recompensa valora: "La IA no te odia ni te ama, pero estás hecho de átomos que puede usar para otra cosa". ^[27]^[28] Además, casi todos los agentes pueden beneficiarse de tener más recursos para gastar en otros objetivos instrumentales, como la autopreservación. ^[28]

Mejora cognitiva

Según Bostrom, “si los objetivos finales del agente son bastante ilimitados y el agente está en condiciones de convertirse en la primera superinteligencia y, por lo tanto, obtener una ventaja estratégica decisiva... según sus preferencias, al menos en este caso especial, un agente racional e inteligente otorgaría un valor instrumental muy alto a la mejora cognitiva ” ^[29].

Perfección tecnológica

Muchos objetivos instrumentales, como el avance tecnológico, son valiosos para un agente porque aumentan su libertad de acción . ^[26]

Autoconservación

Russell sostiene que una máquina suficientemente avanzada "tendrá capacidad de autoconservación incluso si no se la programa, porque si le dices: 'Trae el café', no puede hacerlo si está muerta. Por lo tanto, si le das un objetivo, tiene una razón para preservar su propia existencia para alcanzarlo". ^[30] En trabajos futuros, Russell y sus colaboradores demuestran que este incentivo para la autoconservación se puede mitigar instruyendo a la máquina a no perseguir lo que ella cree que es el objetivo, sino lo que el humano cree que es el objetivo. En este caso, mientras la máquina no esté segura de qué objetivo tiene exactamente en mente el humano, aceptará que un humano la apague porque cree que el humano conoce mejor el objetivo. ^[31]

Tesis de convergencia instrumental

La tesis de la convergencia instrumental, tal como la plantea el filósofo Nick Bostrom , afirma:

Se pueden identificar varios valores instrumentales que son convergentes en el sentido de que su consecución aumentaría las posibilidades de que el objetivo del agente se realice para una amplia gama de planes finales y una amplia gama de situaciones, lo que implica que es probable que estos valores instrumentales sean perseguidos por un amplio espectro de agentes inteligentes situados.

La tesis de convergencia instrumental se aplica únicamente a objetivos instrumentales; los agentes inteligentes pueden tener varios objetivos finales posibles. ^[5] Nótese que, según la tesis de ortogonalidad de Bostrom , ^[5] los objetivos finales de los agentes conocedores pueden estar bien delimitados en el espacio, el tiempo y los recursos; los objetivos últimos bien delimitados, en general, no generan objetivos instrumentales ilimitados. ^[32]

Impacto

Los agentes pueden adquirir recursos mediante el comercio o la conquista. Un agente racional, por definición, elegirá la opción que maximice su función de utilidad implícita. Por lo tanto, un agente racional negociará por un subconjunto de los recursos de otro agente sólo si apoderarse directamente de los recursos es demasiado arriesgado o costoso (en comparación con las ganancias que obtendría de tomar todos los recursos) o si algún otro elemento de su función de utilidad le impide hacerlo. En el caso de una superinteligencia poderosa, egoísta y racional que interactúa con una inteligencia menor, el comercio pacífico (en lugar de la confiscación unilateral) parece innecesario y subóptimo, y por lo tanto improbable. ^[26]

Algunos observadores, como Jaan Tallinn de Skype y el físico Max Tegmark , creen que los "impulsos básicos de la IA" y otras consecuencias no deseadas de la IA superinteligente programada por programadores bien intencionados podrían suponer una amenaza importante para la supervivencia humana , especialmente si se produce una "explosión de inteligencia" abruptamente debido a la automejora recursiva . Dado que nadie sabe cómo predecir cuándo llegará la superinteligencia , estos observadores piden que se investigue sobre la inteligencia artificial amigable como una posible forma de mitigar el riesgo existencial de la IA . ^[33]

Véase también

Problema de control de IA
La IA se apodera de la cultura popular
- Universal Paperclips , un juego incremental que incluye un maximizador de clips
Equifinalidad
Inteligencia artificial amigable
Valor instrumental e intrínseco
Realismo moral
Sobredeterminación
Recompensa por piratería
Superracionalidad
El aprendiz de brujo

Notas explicativas

^ AIXI es un agente ideal incomputable que no puede realizarse plenamente en el mundo real.
^ Técnicamente, en presencia de incertidumbre, AIXI intenta maximizar su " utilidad esperada ", el valor esperado de su función objetivo.
^ Un agente de aprendizaje de refuerzo estándar es un agente que intenta maximizar el valor esperado de una integral futura descontada en el tiempo de su función de recompensa. ^[12]
^ La función de la caja del delirio es simular un entorno en el que un agente obtiene la oportunidad de conectarse a sí mismo. Una caja del delirio se define aquí como una "función del delirio" modificable por el agente que se asigna desde la fuente ambiental "sin modificar" a una fuente ambiental "percibida"; la función comienza como la función de identidad , pero como una acción, el agente puede alterar la función del delirio de cualquier manera que desee.

Citas

^ "Convergencia instrumental". LessWrong . Archivado desde el original el 2023-04-12 . Consultado el 2023-04-12 .
^ ab Russell, Stuart J. ; Norvig, Peter (2003). "Sección 26.3: La ética y los riesgos del desarrollo de la inteligencia artificial". Inteligencia artificial: un enfoque moderno . Upper Saddle River, NJ: Prentice Hall. ISBN 978-0137903955De manera similar , Marvin Minsky sugirió una vez que un programa de IA diseñado para resolver la hipótesis de Riemann podría terminar apoderándose de todos los recursos de la Tierra para construir supercomputadoras más poderosas que ayuden a lograr su objetivo.
^ abc Omohundro, Stephen M. (febrero de 2008). "Los impulsos básicos de la IA". Inteligencia artificial general 2008. Vol. 171. IOS Press. págs. 483–492. CiteSeerX 10.1.1.393.8356 . ISBN 978-1-60750-309-5.
^ Bostrom 2014, Capítulo 8, p. 123. "Una IA, diseñada para gestionar la producción en una fábrica, recibe el objetivo final de maximizar la fabricación de clips y procede a convertir primero la Tierra y luego trozos cada vez más grandes del universo observable en clips".
^ abc Bostrom 2014, capítulo 7
^ Bostrom, Nick (2003). «Cuestiones éticas en la inteligencia artificial avanzada». Archivado desde el original el 8 de octubre de 2018. Consultado el 26 de febrero de 2016 .
^ citado en Miles, Kathleen (2014-08-22). "La inteligencia artificial podría condenar a la raza humana en un siglo, dice un profesor de Oxford". Huffington Post . Archivado desde el original el 25 de febrero de 2018 . Consultado el 30 de noviembre de 2018 .
^ Ford, Paul (11 de febrero de 2015). «¿Somos lo suficientemente inteligentes como para controlar la inteligencia artificial?». MIT Technology Review . Archivado desde el original el 23 de enero de 2016. Consultado el 25 de enero de 2016 .
^ Friend, Tad (3 de octubre de 2016). «Sam Altman's Manifest Destiny». The New Yorker . Consultado el 25 de noviembre de 2017 .
^ Carter, Tom (23 de noviembre de 2023). "Las oficinas de OpenAI recibieron miles de clips de papel en una elaborada broma para advertir sobre un apocalipsis de la IA". Business Insider .
^ Amodei, D.; Olá, C.; Steinhardt, J.; Cristiano, P.; Schulman, J.; Mané, D. (2016). "Problemas concretos en la seguridad de la IA". arXiv : 1606.06565 [cs.AI].
^ Kaelbling, LP; Littman, ML; Moore, AW (1 de mayo de 1996). "Aprendizaje por refuerzo: una encuesta". Revista de investigación en inteligencia artificial . 4 : 237–285. doi : 10.1613/jair.301 .
^ Ring, Mark; Orseau, Laurent (agosto de 2011). "Delirio, supervivencia y agentes inteligentes". Inteligencia artificial general .
^ Ring, M.; Orseau, L. (2011). "Delirio, supervivencia y agentes inteligentes". En Schmidhuber, J.; Thórisson, KR; Looks, M. (eds.). Inteligencia artificial general . Apuntes de clase en informática. Vol. 6830. Berlín, Heidelberg: Springer.
^ Yampolskiy, Roman; Fox, Joshua (24 de agosto de 2012). "Ingeniería de seguridad para inteligencia artificial general". Topoi . 32 (2): 217–226. doi :10.1007/s11245-012-9128-9. S2CID 144113983.
^ Yampolskiy, Roman V. (2013). "¿Qué hacer con la paradoja de la singularidad?". Filosofía y teoría de la inteligencia artificial . Estudios en filosofía aplicada, epistemología y ética racional. Vol. 5. págs. 397–413. doi :10.1007/978-3-642-31674-6_30. ISBN 978-3-642-31673-9.
^ Seward, John P. (1956). "Impulso, incentivo y refuerzo". Psychological Review . 63 (3): 195–203. doi :10.1037/h0048229. PMID 13323175.
^ Bostrom 2014, nota al pie 8 del capítulo 7
^ Dewey, Daniel (2011). "Aprender qué valorar". Inteligencia artificial general . Apuntes de clase sobre informática. Berlín, Heidelberg: Springer. pp. 309–314. doi :10.1007/978-3-642-22887-2_35. ISBN 978-3-642-22887-2.
^ Yudkowsky, Eliezer (2011). "Sistemas de valores complejos en IA amigable". Inteligencia artificial general . Apuntes de clase en informática. Berlín, Heidelberg: Springer. págs. 388–393. doi :10.1007/978-3-642-22887-2_48. ISBN 978-3-642-22887-2.
^ Callard, Agnes (2018). Aspiración: la agencia del devenir . Oxford University Press . doi :10.1093/oso/9780190639488.001.0001. ISBN 978-0-19-063951-8.
^ Bostrom 2014, capítulo 7, p. 110 "Nosotros, los humanos, a menudo parecemos felices de dejar que nuestros valores finales fluyan... Por ejemplo, alguien que decide tener un hijo puede predecir que llegará a valorar al niño por sí mismo, aunque, en el momento de la decisión, puede que no valore particularmente a su futuro hijo... Los humanos somos complicados, y muchos factores pueden estar en juego en una situación como esta... uno puede tener un valor final que implica tener ciertas experiencias y ocupar un cierto rol social, y convertirse en padre -y experimentar el cambio de objetivos que ello conlleva- puede ser un aspecto necesario de eso..."
^ Schmidhuber, JR (2009). "Cognición definitiva a la Gödel". Computación cognitiva . 1 (2): 177–193. CiteSeerX 10.1.1.218.3323 . doi :10.1007/s12559-009-9014-y. S2CID 10784194.
^ ab Hibbard, B. (2012). "Funciones de utilidad basadas en modelos". Revista de Inteligencia Artificial General . 3 (1): 1–24. arXiv : 1111.3934 . Código Bibliográfico :2012JAGI....3....1H. doi : 10.2478/v10229-011-0013-5 .
^ Hibbard, Bill (2014). "Inteligencia artificial ética". arXiv : 1411.1373 [cs.AI].
^ abc Benson-Tilsen, Tsvi; Soares, Nate (marzo de 2016). "Formalizing Convergent Instrumental Goals" (PDF) . Los talleres de la 30.ª Conferencia AAAI sobre inteligencia artificial . Phoenix, Arizona. WS-16-02: IA, ética y sociedad. ISBN 978-1-57735-759-9.
^ Yudkowsky, Eliezer (2008). "La inteligencia artificial como factor positivo y negativo en el riesgo global". Global Catastrophic Risks . Vol. 303. OUP Oxford. pág. 333. ISBN 9780199606504.
^ ab Shanahan, Murray (2015). "Capítulo 7, Sección 5: "Superinteligencia segura"". La singularidad tecnológica . MIT Press.
^ Bostrom 2014, Capítulo 7, subsección "Mejora cognitiva"
^ "La cruzada de mil millones de dólares de Elon Musk para detener el apocalipsis de la IA". Vanity Fair . 2017-03-26 . Consultado el 2023-04-12 .
^ Hadfield-Menell, Dylan; Dragan, Anca; Abbeel, Pieter; Russell, Stuart (15 de junio de 2017), The Off-Switch Game, doi :10.48550/arXiv.1611.08219 , consultado el 31 de octubre de 2024
^ Drexler, K. Eric (2019). Reformulando la superinteligencia: servicios integrales de inteligencia artificial como inteligencia general (PDF) (informe técnico). Future of Humanity Institute. #2019-1.
^ Chen, Angela (11 de septiembre de 2014). "¿Es la inteligencia artificial una amenaza?". The Chronicle of Higher Education . Archivado desde el original el 1 de diciembre de 2017. Consultado el 25 de noviembre de 2017 .

Referencias

Bostrom, Nick (2014). Superinteligencia: caminos, peligros y estrategias . Oxford: Oxford University Press. ISBN 9780199678112.