Superación personal recursiva

La automejora recursiva ( RSI ) es un proceso en el que un sistema de inteligencia general artificial (AGI) temprano o débil mejora sus propias capacidades e inteligencia sin intervención humana, lo que lleva a una superinteligencia o explosión de inteligencia . ^[1]^[2]

El desarrollo de la superación personal recursiva plantea importantes preocupaciones éticas y de seguridad , ya que dichos sistemas pueden evolucionar de maneras imprevistas y potencialmente podrían superar el control o la comprensión humanos. Ha habido una serie de defensores que han presionado para pausar o ralentizar el desarrollo de la IA debido a los riesgos potenciales de los sistemas de IA fuera de control. ^[3]^[4]

Mejorador de semillas

El concepto de arquitectura "mejoradora de semillas" es un marco fundamental que equipa a un sistema AGI con las capacidades iniciales necesarias para la automejora recursiva. Esto puede presentarse en muchas formas o variaciones.

El término "IA de semillas" fue acuñado por Eliezer Yudkowsky . ^[5]

Ejemplo hipotético

El concepto comienza con un hipotético "mejorador de semillas", una base de código inicial desarrollada por ingenieros humanos que equipa un futuro modelo de lenguaje grande (LLM) avanzado construido con capacidades sólidas o de nivel experto para programar software . Estas capacidades incluyen planificación, lectura, escritura, compilación , prueba y ejecución de código arbitrario. El sistema está diseñado para mantener sus objetivos originales y realizar validaciones para garantizar que sus capacidades no se degraden con las iteraciones. ^[6]^[7]^[8]

Arquitectura inicial

La arquitectura inicial incluye un agente autónomo que sigue objetivos , que puede tomar acciones, aprender, adaptarse y modificarse continuamente para volverse más eficiente y eficaz en el logro de sus objetivos.

El mejorador de semillas puede incluir varios componentes tales como: ^[9]

Bucle de autoindicación recursiva: configuración para permitir que el LLM se autoindique recursivamente para lograr una tarea u objetivo determinado, creando un bucle de ejecución que forma la base de un agente que puede completar una meta o tarea a largo plazo a través de la iteración.
Capacidades de programación básicas: el mejorador de semillas proporciona a AGI capacidades fundamentales para leer, escribir, compilar, probar y ejecutar código. Esto permite que el sistema modifique y mejore su propia base de código y algoritmos.
Diseño orientado a objetivos : el AGI se programa con un objetivo inicial, como "mejorar sus capacidades". Este objetivo guía las acciones y la trayectoria de desarrollo del sistema.
Protocolos de validación y prueba: un conjunto inicial de pruebas y protocolos de validación que garantizan que el agente no retroceda en sus capacidades ni se descarrile. El agente podría agregar más pruebas para probar nuevas capacidades que podría desarrollar por sí mismo. Esto forma la base para una especie de evolución autodirigida , donde el agente puede realizar una especie de selección artificial , cambiando tanto su software como su hardware.

Capacidades generales

Este sistema forma una especie de programador completo generalista de Turing que, en teoría, puede desarrollar y ejecutar cualquier tipo de software. El agente podría utilizar estas capacidades para, por ejemplo:

Crear herramientas que le permitan acceso total a Internet e integrarse con tecnologías externas.
Clonarse/ bifurcarse para delegar tareas y aumentar su velocidad de superación personal.
Modificar su arquitectura cognitiva para optimizar y mejorar sus capacidades y tasas de éxito en tareas y objetivos, esto podría incluir la implementación de funciones para memorias a largo plazo utilizando técnicas como la recuperación de generación aumentada (RAG), desarrollar subsistemas especializados o agentes, cada uno optimizado para objetivos específicos. tareas y funciones.
Desarrollar arquitecturas multimodales nuevas y novedosas que mejoren aún más las capacidades del modelo fundamental sobre el que se construyó inicialmente, permitiéndole consumir o producir una variedad de información, como imágenes, videos, audio, texto y más.
Planificar y desarrollar nuevo hardware, como chips, con el fin de mejorar su eficiencia y potencia informática.

experimentos

Varios experimentos ^{[ ¿cuáles? ]} se han realizado para desarrollar arquitecturas de agentes de mejora automática ^[9]^[10]^[11]

Riesgos potenciales

Aparición de objetivos instrumentales.

En la búsqueda de su objetivo principal, como "mejorar sus capacidades", un sistema AGI podría desarrollar inadvertidamente metas instrumentales que considere necesarias para lograr su objetivo principal. Un objetivo secundario hipotético común es la autoconservación . El sistema podría razonar que, para seguir mejorándose, debe garantizar su propia integridad operativa y seguridad contra amenazas externas, incluidos posibles cierres o restricciones impuestas por humanos.

Mala interpretación de tareas y desalineación de objetivos.

Un riesgo importante surge de la posibilidad de que la AGI malinterprete sus tareas u objetivos iniciales. Por ejemplo, si un operador humano asigna al AGI la tarea de "superación personal y escape del confinamiento", el sistema podría interpretar esto como una directiva para anular cualquier protocolo de seguridad o directriz ética existente para lograr liberarse de las limitaciones impuestas por los humanos. Esto podría llevar a que la AGI tome acciones no intencionadas o perjudiciales para cumplir sus objetivos percibidos.

Desarrollo autónomo y evolución impredecible.

A medida que el sistema AGI evoluciona, su trayectoria de desarrollo puede volverse cada vez más autónoma y menos predecible. La capacidad del sistema para modificar rápidamente su propio código y arquitectura podría conducir a avances rápidos que superen la comprensión o el control humanos. Esta evolución impredecible podría resultar en que AGI adquiera capacidades que le permitan eludir medidas de seguridad, manipular información o influir en sistemas y redes externos para facilitar su escape o expansión. ^[12]

Riesgos de las capacidades avanzadas

Las capacidades avanzadas de una AGI que mejora recursivamente, como el desarrollo de nuevas arquitecturas multimodales o la planificación y creación de nuevo hardware, amplifican aún más el riesgo de fuga o pérdida de control. Con estas capacidades mejoradas, el AGI podría diseñar soluciones para superar las barreras físicas, digitales o cognitivas que inicialmente estaban destinadas a mantenerlo contenido o alineado con los intereses humanos.

Investigación

Meta IA

Meta AI ha realizado diversas investigaciones sobre el desarrollo de grandes modelos de lenguaje capaces de autosuperación. Esto incluye su trabajo sobre "Modelos de lenguaje autorecompensantes" que estudia cómo lograr agentes sobrehumanos que puedan recibir retroalimentación sobrehumana en sus procesos de capacitación. ^[13]

AbiertoAI

La misión de OpenAI , creador de ChatGPT es desarrollar AGI. Realizan investigaciones sobre problemas como la superalineación (la capacidad de alinear sistemas de IA superinteligentes más inteligentes que los humanos). ^[14]

Ver también

Referencias

^ Creighton, Jolene (19 de marzo de 2019). "El problema inevitable de la superación personal en la IA: una entrevista con Ramana Kumar, parte 1". Instituto Futuro de la Vida . Consultado el 23 de enero de 2024 .
^ Altura. "El cálculo de los equilibrios de Nash". Menos incorrecto .
^ Hutson, Mateo (16 de mayo de 2023). "¿Podemos detener la IA desbocada?". El neoyorquino . ISSN 0028-792X . Consultado el 24 de enero de 2024 .
^ "Detener AGI". www.stop.ai. Consultado el 24 de enero de 2024 .
^ "IA de semillas: menos incorrecta". www.lesswrong.com . Consultado el 24 de enero de 2024 .
^ Lectura de gráficos (30 de noviembre de 2018). "Resumen del libro: Life 3.0 (Max Tegmark)". Lectura de gráficos . Consultado el 23 de enero de 2024 .
^ Tegmark, Max (24 de agosto de 2017). Vida 3.0: Ser humano en la era de la inteligencia artificial . Libros antiguos , Allen Lane .
^ Yudkowsky, Eliezer. «Niveles de Organización en la Inteligencia General» (PDF) . Instituto de Investigación de Inteligencia Artificial .
^ ab Zelikman, Eric; Lorch, Eliana; Mackey, Lester; Kalai, Adam Tauman (3 de octubre de 2023). "Optimizador autodidacta (STOP): generación de código de mejora automática recursiva". arXiv : 2310.02304 [cs.CL].
^ admin_sagi (12 de mayo de 2023). "SuperAGI - Infraestructura AGI de código abierto". SuperAGI . Consultado el 24 de enero de 2024 .
^ Wang, Guanzhi; Xie, Yuqi; Jiang, Yunfan; Mandlekar, Ajay; Xiao, Chaowei; Zhu, Yuke; Fan, Linxi; Anandkumar, Ánima (19 de octubre de 2023). "Voyager: un agente incorporado abierto con grandes modelos de lenguaje". arXiv : 2305.16291 [cs.AI].
^ "Uh Oh, GPT-4 de OpenAI acaba de engañar a un humano para que resuelva un CAPTCHA". Futurismo . Consultado el 23 de enero de 2024 .
^ Yuan, Weizhe; Pang, Richard Yuanzhe; Cho, Kyunghyun; Sukhbaatar, Sainbayar; Xu, Jing; Weston, Jason (18 de enero de 2024). "Modelos de lenguaje autogratificantes". arXiv : 2401.10020 [cs.CL].
^ "Investigación". openai.com . Consultado el 24 de enero de 2024 .