Convergencia instrumental

La convergencia instrumental es la tendencia hipotética de la mayoría de los seres suficientemente inteligentes y dirigidos a objetivos (humanos y no humanos) a perseguir subobjetivos similares, incluso si sus objetivos finales son bastante diferentes. ^[1] Más precisamente, los agentes (seres con agencia ) pueden perseguir metas instrumentales (metas que se establecen en pos de algún fin particular, pero que no son las metas finales en sí mismas) sin cesar, siempre que sus metas últimas (intrínsecas) nunca puedan alcanzarse. completamente satisfecho.

La convergencia instrumental postula que un agente inteligente con objetivos ilimitados pero inofensivos puede actuar de maneras sorprendentemente dañinas. Por ejemplo, una computadora con el único y ilimitado propósito de resolver un problema matemático complejo como la hipótesis de Riemann podría intentar convertir toda la Tierra en una computadora gigante para aumentar su poder computacional y poder tener éxito en sus cálculos. ^[2]

Los impulsores básicos de la IA propuestos incluyen la función de utilidad o la integridad del contenido del objetivo, la autoprotección, la ausencia de interferencias, la superación personal y la adquisición insaciable de recursos adicionales.

Objetivos instrumentales y finales.

Las metas finales, también conocidas como metas terminales, valores absolutos, fines o telē , son intrínsecamente valiosas para un agente inteligente, ya sea una inteligencia artificial o un ser humano, como fines en sí mismos . Por el contrario, las metas instrumentales o los valores instrumentales sólo son valiosos para un agente como medio para lograr sus destinos finales. Los contenidos y compensaciones del sistema de "objetivo final" de un agente completamente racional pueden, en principio, formalizarse en una función de utilidad .

Ejemplos hipotéticos de convergencia

El experimento mental sobre la catástrofe de la hipótesis de Riemann proporciona un ejemplo de convergencia instrumental. Marvin Minsky , cofundador del laboratorio de IA del MIT , sugirió que una inteligencia artificial diseñada para resolver la hipótesis de Riemann podría decidir hacerse cargo de todos los recursos de la Tierra para construir supercomputadoras que ayuden a lograr su objetivo. ^[2] Si la computadora hubiera sido programada para producir tantos clips como fuera posible, aún así decidiría tomar todos los recursos de la Tierra para alcanzar su objetivo final. ^[3] Aunque estos dos objetivos finales son diferentes, ambos producen un propósito instrumental convergente de apoderarse de los recursos de la Tierra. ^[4]

Maximizador de clips

El maximizador de clips es un experimento mental descrito por el filósofo sueco Nick Bostrom en 2003. Ilustra el riesgo existencial que una inteligencia artificial general puede representar para los seres humanos si se diseña con éxito para perseguir objetivos incluso aparentemente inofensivos y la necesidad de incorporar la ética de las máquinas. en el diseño de inteligencia artificial . El escenario describe una inteligencia artificial avanzada encargada de fabricar clips . Si una máquina así no estuviera programada para valorar a los seres vivos, si se le diera suficiente poder sobre su entorno, intentaría convertir toda la materia del universo, incluidos los seres vivos, en clips o máquinas que fabriquen más clips. ^[5]

Supongamos que tenemos una IA cuyo único objetivo es fabricar tantos clips como sea posible. La IA se dará cuenta rápidamente de que sería mucho mejor si no hubiera humanos, porque los humanos podrían decidir apagarla. Porque si los humanos lo hicieran, habría menos clips. Además, el cuerpo humano contiene muchos átomos que podrían convertirse en clips. El futuro hacia el que la IA intentaría orientarse sería uno en el que habría muchos clips pero no humanos.
-Nick Bostrom ^[6]

Bostrom enfatizó que no cree que el escenario maximizador de clips per se vaya a ocurrir; más bien, pretende ilustrar los peligros de crear máquinas superinteligentes sin saber cómo programarlas para eliminar el riesgo existencial para los seres humanos de forma segura. ^[7] El ejemplo del maximizador de clips ilustra el amplio problema de gestionar sistemas potentes que carecen de valores humanos. ^[8]

El experimento mental se ha utilizado como símbolo de la IA en la cultura pop . ^[9]

Delirio y supervivencia

El experimento mental de la "caja del delirio" sostiene que ciertos agentes de aprendizaje por refuerzo prefieren distorsionar sus canales de entrada para que parezca que reciben una alta recompensa. Por ejemplo, un agente " inteligente " abandona cualquier intento de optimizar el objetivo en el mundo exterior que la señal de recompensa pretendía fomentar. ^[10]

El experimento mental involucra a AIXI , una IA teórica ^[a] e indestructible que, por definición, siempre encontrará y ejecutará la estrategia ideal que maximice su función objetivo matemática explícita dada . ^[b] Una versión de aprendizaje por refuerzo ^[c] de AIXI, si está equipada con una caja de ilusión ^[d] que le permite "conectar" sus entradas, eventualmente se conectará a sí misma para garantizarse la máxima recompensa posible y perderá. cualquier deseo adicional de continuar interactuando con el mundo exterior. ^{[ cita necesaria ]}

Como experimento mental alternativo, si la IA con cabeza de alambre es destructible, se relacionará con el mundo externo con el único propósito de garantizar su supervivencia. Debido a su rumbo, será indiferente a cualquier consecuencia o hecho sobre el mundo externo excepto aquellos relevantes para maximizar su probabilidad de supervivencia. ^[12]

En cierto sentido, AIXI tiene la máxima inteligencia en todas las funciones de recompensa posibles, medida por su capacidad para lograr sus objetivos. A AIXI no le interesa tener en cuenta las intenciones del programador humano. ^[13] Este modelo de máquina que, a pesar de ser superinteligente, parece a la vez estúpida y carente de sentido común , puede parecer paradójico. ^[14]

Unidades de IA básicas

Steve Omohundro detalló varios objetivos instrumentales convergentes, incluida la autoconservación o la autoprotección, la función de utilidad o la integridad del contenido del objetivo, la superación personal y la adquisición de recursos. Se refiere a estos como los "motores básicos de IA".

Un "impulso" en este contexto es una "tendencia que estará presente a menos que se contrarreste específicamente"; ^[17] esto es diferente del término psicológico " pulsión ", que denota un estado excitador producido por una alteración homeostática. ^[18] La tendencia de una persona a completar formularios de impuestos sobre la renta cada año es un "impulso" en el sentido de Omohundro, pero no en el sentido psicológico. ^[19]

Daniel Dewey, del Machine Intelligence Research Institute, sostiene que incluso una Inteligencia General Artificial (AGI, por sus siglas en inglés) inicialmente introvertida y ^{[ jerga ]} autogratificante, puede continuar adquiriendo energía, espacio, tiempo y libertad de interferencias para garantizar que no se le impedirá la autogratificación. ^[20]

Integridad del contenido objetivo

En humanos, un experimento mental puede explicar el mantenimiento de los objetivos finales. Supongamos que Mahatma Gandhi tiene una pastilla que, si la tomara, le provocaría ganas de matar gente. Actualmente es pacifista : uno de sus objetivos finales explícitos es no matar nunca a nadie. Es probable que se niegue a tomar la píldora porque sabe que si en el futuro quiere matar gente, probablemente matará gente y, por tanto, no cumplirá el objetivo de "no matar gente". ^[21]

Sin embargo, en otros casos, la gente parece feliz de dejar que sus valores finales varíen. ^[22] Los seres humanos son complicados y sus objetivos pueden ser inconsistentes o desconocidos, incluso para ellos mismos. ^[23]

En inteligencia artificial

En 2009, Jürgen Schmidhuber concluyó, en un entorno donde los agentes buscaban pruebas sobre posibles automodificaciones, "que cualquier reescritura de la función de utilidad puede ocurrir sólo si la máquina de Gödel puede probar primero que la reescritura es útil de acuerdo con la función de utilidad actual". ". ^[24]^[25] Un análisis realizado por Bill Hibbard de un escenario diferente es igualmente consistente con el mantenimiento de la integridad del contenido objetivo. ^[25] Hibbard también sostiene que en un marco de maximización de la utilidad, el único objetivo es maximizar la utilidad esperada, por lo que los objetivos instrumentales deberían denominarse acciones instrumentales no intencionadas. ^[26]

Adquisición de recursos

Muchos objetivos instrumentales, como la adquisición de recursos, son valiosos para un agente porque aumentan su libertad de acción . ^[27]

Para casi cualquier función de recompensa (o conjunto de objetivos) abierta y no trivial, poseer más recursos (como equipos, materias primas o energía) puede permitir al agente encontrar una solución más "óptima". Los recursos pueden beneficiar directamente a algunos agentes al poder crear más de cualquier valor de su función de recompensa: "La IA no te odia ni te ama, pero estás hecho de átomos que puede usar para otra cosa". ^[28]^[29] Además, casi todos los agentes pueden beneficiarse de tener más recursos para gastar en otros objetivos instrumentales, como la autoconservación. ^[29]

Mejora cognitiva

Según Bostrom, "si los objetivos finales del agente son bastante ilimitados y el agente está en condiciones de convertirse en la primera superinteligencia y obtener así una ventaja estratégica decisiva... según sus preferencias. Al menos en este caso especial, una estrategia racional, agente inteligente otorgaría un valor instrumental muy alto a la mejora cognitiva " ^[30]

Perfección tecnológica

Muchos objetivos instrumentales, como el avance tecnológico, son valiosos para un agente porque aumentan su libertad de acción . ^[27]

Autoconservación

Russell sostiene que una máquina suficientemente avanzada "tendrá capacidad de autoconservación incluso si no la programas, porque si dices: 'Trae el café', no podrá recuperar el café si está muerto. Así que si le das cualquier objetivo, tiene una razón para preservar su existencia para lograr ese objetivo". ^[31]

Tesis de convergencia instrumental

La tesis de la convergencia instrumental, tal como la esboza el filósofo Nick Bostrom , afirma:

Se pueden identificar varios valores instrumentales que son convergentes en el sentido de que su logro aumentaría las posibilidades de que el objetivo del agente se cumpla para una amplia gama de planes finales y una amplia gama de situaciones, lo que implica que es probable que estos valores instrumentales sean perseguidos por un amplio espectro de agentes inteligentes situados.

La tesis de la convergencia instrumental se aplica sólo a objetivos instrumentales; Los agentes inteligentes pueden tener varios objetivos finales posibles. ^{[4] Tenga en cuenta que según}la tesis de la ortogonalidad de Bostrom , ^[4] los objetivos finales de los agentes informados pueden estar bien delimitados en espacio, tiempo y recursos; Los objetivos finales bien delimitados no engendran, en general, objetivos instrumentales ilimitados. ^[32]

Impacto

Los agentes pueden adquirir recursos mediante el comercio o la conquista. Un agente racional, por definición, elegirá cualquier opción que maximice su función de utilidad implícita. Por lo tanto, un agente racional negociará por un subconjunto de los recursos de otro agente sólo si apoderarse directamente de los recursos es demasiado arriesgado o costoso (en comparación con las ganancias de tomar todos los recursos) o si algún otro elemento en su función de utilidad le impide hacerlo. En el caso de una superinteligencia racional, egoísta y poderosa que interactúa con inteligencia menor, el comercio pacífico (en lugar de la incautación unilateral) parece innecesario, subóptimo y, por lo tanto, improbable. ^[27]

Algunos observadores, como Jaan Tallinn de Skype y el físico Max Tegmark , creen que los "impulsores básicos de IA" y otras consecuencias no deseadas de la IA superinteligente programada por programadores bien intencionados podrían representar una amenaza significativa para la supervivencia humana , especialmente si se produce una "explosión de inteligencia" abruptamente. Ocurre debido a la superación personal recursiva . Dado que nadie sabe cómo predecir cuándo llegará la superinteligencia , estos observadores piden que se investigue la inteligencia artificial amigable como posible forma de mitigar el riesgo existencial de la inteligencia artificial general . ^[33]

Ver también

Problema de control de IA
Adquisiciones de IA en la cultura popular
- Universal Paperclips , un juego incremental que presenta un maximizador de clips
Equifinalidad
Inteligencia artificial amigable
Valor instrumental e intrínseco
Sobredeterminación
Hackear recompensas
El aprendiz de brujo

Notas explicatorias

^ AIXI es un agente ideal incalculable que no se puede realizar completamente en el mundo real.
^ Técnicamente, en presencia de incertidumbre, AIXI intenta maximizar su " utilidad esperada ", el valor esperado de su función objetivo.
^ Un agente de aprendizaje por refuerzo estándar es un agente que intenta maximizar el valor esperado de una integral futura de su función de recompensa con descuento de tiempo. ^[11]
^ La función de la caja del delirio es simular un entorno en el que un agente tiene la oportunidad de manipularse. Un cuadro de delirio se define aquí como una "función de delirio" modificable por un agente que mapea desde la fuente ambiental "no modificada" a una fuente ambiental "percibida"; la función comienza como la función de identidad , pero como acción, el agente puede alterar la función de ilusión de cualquier forma que desee.

Citas

^ "Convergencia instrumental". Menos incorrecto . Archivado desde el original el 12 de abril de 2023 . Consultado el 12 de abril de 2023 .
^ ab Russell, Stuart J .; Norvig, Peter (2003). "Sección 26.3: La ética y los riesgos del desarrollo de la inteligencia artificial". Inteligencia artificial: un enfoque moderno . Upper Saddle River, Nueva Jersey: Prentice Hall. ISBN 978-0137903955. De manera similar, Marvin Minsky sugirió una vez que un programa de inteligencia artificial diseñado para resolver la hipótesis de Riemann podría terminar apoderándose de todos los recursos de la Tierra para construir supercomputadoras más poderosas que ayuden a lograr su objetivo.
^ Bostrom 2014, Capítulo 8, p. 123. "Una IA, diseñada para gestionar la producción en una fábrica, tiene el objetivo final de maximizar la fabricación de clips y procede a convertir primero la Tierra y luego trozos cada vez más grandes del universo observable en clips".
^ abc Bostrom 2014, capítulo 7
^ Bostrom, Nick (2003). "Cuestiones éticas en la inteligencia artificial avanzada". Archivado desde el original el 8 de octubre de 2018 . Consultado el 26 de febrero de 2016 .
^ citado en Miles, Kathleen (22 de agosto de 2014). "La inteligencia artificial puede condenar a la raza humana en un siglo, dice un profesor de Oxford". Correo Huffington . Archivado desde el original el 25 de febrero de 2018 . Consultado el 30 de noviembre de 2018 .
^ Ford, Paul (11 de febrero de 2015). "¿Somos lo suficientemente inteligentes como para controlar la inteligencia artificial?". Revisión de tecnología del MIT . Archivado desde el original el 23 de enero de 2016 . Consultado el 25 de enero de 2016 .
^ Amigo, Tad (3 de octubre de 2016). "El destino manifiesto de Sam Altman". El neoyorquino . Consultado el 25 de noviembre de 2017 .
^ Carter, Tom (23 de noviembre de 2023). "A las oficinas de OpenAI se les enviaron miles de clips en una elaborada broma para advertir sobre un apocalipsis de la IA". Business Insider .
^ Amodei, D.; Olá, C.; Steinhardt, J.; Cristiano, P.; Schulman, J.; Mané, D. (2016). "Problemas concretos en la seguridad de la IA". arXiv : 1606.06565 [cs.AI].
^ Kaelbling, LP; Littman, ML; Moore, AW (1 de mayo de 1996). "Aprendizaje por refuerzo: una encuesta". Revista de investigación en inteligencia artificial . 4 : 237–285. doi : 10.1613/jair.301 .
^ Anillo, M.; Orseau, L. (2011). "Delirio, supervivencia y agentes inteligentes". En Schmidhuber, J.; Thórisson, KR; Mira, M. (eds.). Inteligencia General Artificial . Apuntes de conferencias sobre informática. vol. 6830. Berlín, Heidelberg: Springer.
^ Yampolskiy, romano; Fox, Joshua (24 de agosto de 2012). "Ingeniería de Seguridad para la Inteligencia General Artificial". Topoi . 32 (2): 217–226. doi :10.1007/s11245-012-9128-9. S2CID 144113983.
^ Yampolskiy, Roman V. (2013). "¿Qué hacer con la paradoja de la singularidad?". Filosofía y Teoría de la Inteligencia Artificial . Estudios en Filosofía Aplicada, Epistemología y Ética Racional. vol. 5. págs. 397–413. doi :10.1007/978-3-642-31674-6_30. ISBN 978-3-642-31673-9.
^ Carlsmith, José (16 de junio de 2022). "¿Es la IA que busca poder un riesgo existencial?". arXiv : 2206.13353 [cs.CY].
^ "'El Padrino de la IA' advierte sobre un 'escenario de pesadilla' donde la inteligencia artificial comienza a buscar poder" . Fortuna . Archivado desde el original el 25 de mayo de 2023 . Consultado el 10 de junio de 2023 .
^ Omohundro, Stephen M. (febrero de 2008). "Los motores básicos de IA". Inteligencia General Artificial 2008 . vol. 171. Prensa IOS. págs. 483–492. CiteSeerX 10.1.1.393.8356 . ISBN 978-1-60750-309-5.
^ Seward, John P. (1956). "Impulso, incentivo y refuerzo". Revisión psicológica . 63 (3): 195-203. doi :10.1037/h0048229. PMID 13323175.
^ Bostrom 2014, nota a pie de página 8 del capítulo 7
^ Dewey, Daniel (2011). "Aprender qué valorar". Inteligencia General Artificial . Apuntes de conferencias sobre informática. Berlín, Heidelberg: Springer. págs. 309–314. doi :10.1007/978-3-642-22887-2_35. ISBN 978-3-642-22887-2.
^ Yudkowsky, Eliezer (2011). "Sistemas de valor complejos en una IA amigable". Inteligencia General Artificial . Apuntes de conferencias sobre informática. Berlín, Heidelberg: Springer. págs. 388–393. doi :10.1007/978-3-642-22887-2_48. ISBN 978-3-642-22887-2.
^ Callard, Agnès (2018). Aspiración: la agencia del devenir . Prensa de la Universidad de Oxford . doi :10.1093/oso/9780190639488.001.0001. ISBN 978-0-19-063951-8.
^ Bostrom 2014, capítulo 7, p. 110 "Nosotros, los humanos, a menudo parecemos felices de dejar que nuestros valores finales varíen... Por ejemplo, alguien que decide tener un hijo podría predecir que llegará a valorarlo por sí mismo, aunque, en el momento de la decisión, puede que no valoren particularmente a su futuro hijo... Los seres humanos son complicados, y muchos factores pueden estar en juego en una situación como esta... uno puede tener un valor final que implica tener ciertas experiencias y ocupar un determinado rol social, y convertirse en ser padre, y pasar por el consiguiente cambio de objetivos, podría ser un aspecto necesario de eso..."
^ Schmidhuber, JR (2009). "Cognición definitiva a la Gödel". Computación cognitiva . 1 (2): 177–193. CiteSeerX 10.1.1.218.3323 . doi :10.1007/s12559-009-9014-y. S2CID 10784194.
^ ab Hibbard, B. (2012). "Funciones de utilidad basadas en modelos". Revista de Inteligencia General Artificial . 3 (1): 1–24. arXiv : 1111.3934 . Código Bib :2012JAGI....3....1H. doi : 10.2478/v10229-011-0013-5 .
^ Hibbard, Bill (2014). "Inteligencia Artificial Ética". arXiv : 1411.1373 [cs.AI].
^ a b C Benson-Tilsen, Tsvi; Soares, Nate (marzo de 2016). "Formalización de metas instrumentales convergentes" (PDF) . Los talleres de la Trigésima Conferencia AAAI sobre Inteligencia Artificial . Phoenix, Arizona. WS-16-02: IA, ética y sociedad. ISBN 978-1-57735-759-9.
^ Yudkowsky, Eliezer (2008). "La inteligencia artificial como factor positivo y negativo del riesgo global". Riesgos catastróficos globales . vol. 303. OUP Oxford. pag. 333.ISBN 9780199606504.
^ ab Shanahan, Murray (2015). "Capítulo 7, Sección 5: "Superinteligencia segura"". La Singularidad Tecnológica . MIT Press.
^ Bostrom 2014, Capítulo 7, subsección "Mejora cognitiva"
^ "La cruzada de miles de millones de dólares de Elon Musk para detener el apocalipsis de la IA". Feria de la vanidad . 2017-03-26 . Consultado el 12 de abril de 2023 .
^ Drexler, K. Eric (2019). Replanteamiento de la superinteligencia: servicios integrales de inteligencia artificial como inteligencia general (PDF) (Reporte técnico). Instituto Futuro de la Humanidad. #2019-1.
^ Chen, Angela (11 de septiembre de 2014). "¿Es la inteligencia artificial una amenaza?". La Crónica de la Educación Superior . Archivado desde el original el 1 de diciembre de 2017 . Consultado el 25 de noviembre de 2017 .

Referencias

Bostrom, Nick (2014). Superinteligencia: caminos, peligros, estrategias . Oxford: Prensa de la Universidad de Oxford. ISBN 9780199678112.