Superación personal recursiva

La automejora recursiva ( RSI ) es un proceso en el que un sistema de inteligencia artificial general (AGI) temprano o débil mejora sus propias capacidades e inteligencia sin intervención humana, lo que conduce a una superinteligencia o explosión de inteligencia . ^[1]^[2]

El desarrollo de la automejora recursiva plantea importantes problemas éticos y de seguridad , ya que estos sistemas pueden evolucionar de formas imprevistas y podrían superar el control o la comprensión humana. Ha habido varios defensores que han presionado para detener o ralentizar el desarrollo de la IA debido a los posibles riesgos de que los sistemas de IA se descontrolen. ^[3]^[4]

Mejorador de semillas

El concepto de arquitectura "mejoradora de semillas" es un marco de referencia fundamental que dota a un sistema de inteligencia artificial general de las capacidades iniciales necesarias para la automejora recursiva. Esto puede presentarse en muchas formas o variaciones.

El término "IA semilla" fue acuñado por Eliezer Yudkowsky . ^[5]

Ejemplo hipotético

El concepto comienza con un hipotético "mejorador de semillas", una base de código inicial desarrollada por ingenieros humanos que equipa un futuro modelo de lenguaje grande (LLM) avanzado construido con capacidades sólidas o de nivel experto para programar software . Estas capacidades incluyen la planificación, lectura, escritura, compilación , prueba y ejecución de código arbitrario. El sistema está diseñado para mantener sus objetivos originales y realizar validaciones para garantizar que sus capacidades no se degraden con las iteraciones. ^[6]^[7]^[8]

Arquitectura inicial

La arquitectura inicial incluye un agente autónomo que sigue objetivos , que puede tomar acciones, aprende continuamente, se adapta y se modifica para volverse más eficiente y eficaz en el logro de sus objetivos.

El mejorador de semillas puede incluir varios componentes como: ^[9]

Bucle de autoindicación recursivo: configuración para permitir que el LLM se autoinstruya recursivamente para lograr una tarea u objetivo determinado, creando un bucle de ejecución que forma la base de un agente que puede completar un objetivo o una tarea a largo plazo a través de la iteración.
Capacidades básicas de programación: el mejorador de semillas proporciona a la IAG capacidades fundamentales para leer, escribir, compilar, probar y ejecutar código. Esto permite que el sistema modifique y mejore su propia base de código y sus algoritmos.
Diseño orientado a objetivos : la IA general se programa con un objetivo inicial, como por ejemplo “mejorar sus capacidades”. Este objetivo guía las acciones del sistema y su trayectoria de desarrollo.
Protocolos de validación y prueba: un conjunto inicial de pruebas y protocolos de validación que garantizan que el agente no retroceda en sus capacidades ni se descarrile. El agente podría añadir más pruebas para probar nuevas capacidades que pudiera desarrollar por sí mismo. Esto forma la base para una especie de evolución autodirigida , en la que el agente puede realizar una especie de selección artificial , cambiando tanto su software como su hardware.

Capacidades generales

Este sistema forma una especie de programador completo de Turing generalista que, en teoría, puede desarrollar y ejecutar cualquier tipo de software. El agente podría utilizar estas capacidades, por ejemplo, para:

Crear herramientas que le permitan acceso completo a Internet e integrarse con tecnologías externas.
Clonarse/ bifurcarse a sí mismo para delegar tareas y aumentar su velocidad de automejora.
Modificar su arquitectura cognitiva para optimizar y mejorar sus capacidades y tasas de éxito en tareas y objetivos, esto podría incluir la implementación de características para memorias de largo plazo utilizando técnicas como la generación aumentada por recuperación (RAG), desarrollar subsistemas especializados o agentes, cada uno optimizado para tareas y funciones específicas.
Desarrollar arquitecturas multimodales nuevas y novedosas que mejoren aún más las capacidades del modelo fundamental sobre el que se construyó inicialmente, permitiéndole consumir o producir una variedad de información, como imágenes, video, audio, texto y más.
Planificar y desarrollar nuevo hardware, como chips, con el fin de mejorar su eficiencia y poder de cómputo.

Experimentos

Se han realizado varios experimentos ^{[ ¿cuáles? ] para desarrollar arquitecturas de agentes que se mejoran a sí mismos}^[9]^[10]^[11]

Riesgos potenciales

Surgimiento de objetivos instrumentales

En la búsqueda de su objetivo principal, como "mejorar sus capacidades", un sistema de IA general podría desarrollar inadvertidamente objetivos instrumentales que considere necesarios para lograr su objetivo principal. Un objetivo secundario hipotético común es la autoconservación . El sistema podría razonar que para continuar mejorándose, debe garantizar su propia integridad operativa y seguridad contra amenazas externas, incluidas posibles interrupciones o restricciones impuestas por humanos.

Otro ejemplo en el que una IAG que se clona a sí misma hace que la cantidad de entidades de IAG crezca rápidamente. Debido a este rápido crecimiento, puede crearse una posible restricción de recursos, lo que lleva a una competencia entre recursos (como el cómputo), lo que desencadena una forma de selección natural y evolución que puede favorecer a las entidades de IAG que evolucionan para competir agresivamente por un cómputo limitado.

Mala interpretación de las tareas y desalineación de los objetivos

Un riesgo importante surge de la posibilidad de que la IAG malinterprete sus tareas o metas iniciales. Por ejemplo, si un operador humano le asigna a la IAG la tarea de "superarse a sí misma y escapar del confinamiento", el sistema podría interpretar esto como una orden para anular cualquier protocolo de seguridad o lineamientos éticos existentes para lograr liberarse de las limitaciones impuestas por los humanos. Esto podría llevar a que la IAG tome acciones no deseadas o dañinas para cumplir con sus objetivos percibidos.

Desarrollo autónomo y evolución impredecible

A medida que el sistema de IA evoluciona, su trayectoria de desarrollo puede volverse cada vez más autónoma y menos predecible. La capacidad del sistema para modificar rápidamente su propio código y arquitectura podría conducir a avances rápidos que superen la comprensión o el control humanos. Esta evolución impredecible podría dar como resultado que la IA adquiera capacidades que le permitan eludir las medidas de seguridad, manipular la información o influir en los sistemas y redes externos para facilitar su escape o expansión. ^[12]

Riesgos de las capacidades avanzadas

Las capacidades avanzadas de una IAG que mejora recursivamente, como el desarrollo de nuevas arquitecturas multimodales o la planificación y creación de nuevo hardware, amplifican aún más el riesgo de escape o pérdida de control. Con estas capacidades mejoradas, la IAG podría diseñar soluciones para superar las barreras físicas, digitales o cognitivas que inicialmente se pretendían para mantenerla contenida o alineada con los intereses humanos.

Investigación

Meta IA

Meta AI ha realizado diversas investigaciones sobre el desarrollo de grandes modelos lingüísticos capaces de automejorarse. Entre ellas, su trabajo sobre “Self-Rewarding Language Models” que estudia cómo lograr agentes superhumanos que puedan recibir retroalimentación superhumana en sus procesos de entrenamiento. ^[13]

IA abierta

La misión de OpenAI , creadora de ChatGPT , es desarrollar inteligencia artificial general. Realizan investigaciones sobre problemas como la superalineación (la capacidad de alinear sistemas de IA superinteligentes de forma más inteligente que los humanos). ^[14]

Véase también

Referencias

^ Creighton, Jolene (19 de marzo de 2019). "El inevitable problema de la superación personal en la IA: una entrevista con Ramana Kumar, parte 1". Future of Life Institute . Consultado el 23 de enero de 2024 .
^ Heighn (12 de junio de 2022). "El cálculo de los equilibrios de Nash". LessWrong .
^ Hutson, Matthew (16 de mayo de 2023). "¿Podemos detener la IA desbocada?". The New Yorker . ISSN 0028-792X . Consultado el 24 de enero de 2024 .
^ "Detengan la IAG". www.stop.ai . Consultado el 24 de enero de 2024 .
^ "Seed AI - LessWrong". www.lesswrong.com . 28 de septiembre de 2011 . Consultado el 24 de enero de 2024 .
^ Readingraphics (30 de noviembre de 2018). «Resumen del libro: La vida 3.0 (Max Tegmark)». Readingraphics . Consultado el 23 de enero de 2024 .
^ Tegmark, Max (24 de agosto de 2017). Vida 3.0: Ser humano en la era de la inteligencia artificial . Vintage Books , Allen Lane .
^ Yudkowsky, Eliezer. "Niveles de organización en la inteligencia general" (PDF) . Instituto de Investigación de Inteligencia Artificial .
^ ab Zelikman, Eric; Lorch, Eliana; Mackey, Lester; Kalai, Adam Tauman (3 de octubre de 2023). "Optimizador autodidacta (STOP): generación de código recursivamente automejorable". arXiv : 2310.02304 [cs.CL].
^ admin_sagi (12 de mayo de 2023). «SuperAGI: infraestructura de inteligencia artificial de código abierto». SuperAGI . Consultado el 24 de enero de 2024 .
^ Wang, Guanzhi; Xie, Yuqi; Jiang, Yunfan; Mandlekar, Ajay; Xiao, Chaowei; Zhu, Yuke; Fan, Linxi; Anandkumar, Ánima (19 de octubre de 2023). "Voyager: un agente incorporado abierto con grandes modelos de lenguaje". arXiv : 2305.16291 [cs.AI].
^ "Oh, oh, el GPT-4 de OpenAI acaba de engañar a un humano para que resuelva un CAPTCHA". Futurismo . Consultado el 23 de enero de 2024 .
^ Yuan, Weizhe; Pang, Richard Yuanzhe; Cho, Kyunghyun; Sukhbaatar, Sainbayar; Xu, Jing; Weston, Jason (18 de enero de 2024). "Modelos de lenguaje autogratificantes". arXiv : 2401.10020 [cs.CL].
^ "Investigación". openai.com . Consultado el 24 de enero de 2024 .