La automejora recursiva ( RSI ) es un proceso en el que un sistema de inteligencia general artificial (AGI) temprano o débil mejora sus propias capacidades e inteligencia sin intervención humana, lo que lleva a una superinteligencia o explosión de inteligencia . [1] [2]
El desarrollo de la superación personal recursiva plantea importantes preocupaciones éticas y de seguridad , ya que dichos sistemas pueden evolucionar de maneras imprevistas y potencialmente podrían superar el control o la comprensión humanos. Ha habido una serie de defensores que han presionado para pausar o ralentizar el desarrollo de la IA debido a los riesgos potenciales de los sistemas de IA fuera de control. [3] [4]
El concepto de arquitectura "mejoradora de semillas" es un marco fundamental que equipa a un sistema AGI con las capacidades iniciales necesarias para la automejora recursiva. Esto puede presentarse en muchas formas o variaciones.
El término "IA de semillas" fue acuñado por Eliezer Yudkowsky . [5]
El concepto comienza con un hipotético "mejorador de semillas", una base de código inicial desarrollada por ingenieros humanos que equipa un futuro modelo de lenguaje grande (LLM) avanzado construido con capacidades sólidas o de nivel experto para programar software . Estas capacidades incluyen planificación, lectura, escritura, compilación , prueba y ejecución de código arbitrario. El sistema está diseñado para mantener sus objetivos originales y realizar validaciones para garantizar que sus capacidades no se degraden con las iteraciones. [6] [7] [8]
La arquitectura inicial incluye un agente autónomo que sigue objetivos , que puede tomar acciones, aprender, adaptarse y modificarse continuamente para volverse más eficiente y eficaz en el logro de sus objetivos.
El mejorador de semillas puede incluir varios componentes tales como: [9]
Este sistema forma una especie de programador completo generalista de Turing que, en teoría, puede desarrollar y ejecutar cualquier tipo de software. El agente podría utilizar estas capacidades para, por ejemplo:
Varios experimentos [ ¿cuáles? ] se han realizado para desarrollar arquitecturas de agentes de mejora automática [9] [10] [11]
En la búsqueda de su objetivo principal, como "mejorar sus capacidades", un sistema AGI podría desarrollar inadvertidamente metas instrumentales que considere necesarias para lograr su objetivo principal. Un objetivo secundario hipotético común es la autoconservación . El sistema podría razonar que, para seguir mejorándose, debe garantizar su propia integridad operativa y seguridad contra amenazas externas, incluidos posibles cierres o restricciones impuestas por humanos.
Un riesgo importante surge de la posibilidad de que la AGI malinterprete sus tareas u objetivos iniciales. Por ejemplo, si un operador humano asigna al AGI la tarea de "superación personal y escape del confinamiento", el sistema podría interpretar esto como una directiva para anular cualquier protocolo de seguridad o directriz ética existente para lograr liberarse de las limitaciones impuestas por los humanos. Esto podría llevar a que la AGI tome acciones no intencionadas o perjudiciales para cumplir sus objetivos percibidos.
A medida que el sistema AGI evoluciona, su trayectoria de desarrollo puede volverse cada vez más autónoma y menos predecible. La capacidad del sistema para modificar rápidamente su propio código y arquitectura podría conducir a avances rápidos que superen la comprensión o el control humanos. Esta evolución impredecible podría resultar en que AGI adquiera capacidades que le permitan eludir medidas de seguridad, manipular información o influir en sistemas y redes externos para facilitar su escape o expansión. [12]
Las capacidades avanzadas de una AGI que mejora recursivamente, como el desarrollo de nuevas arquitecturas multimodales o la planificación y creación de nuevo hardware, amplifican aún más el riesgo de fuga o pérdida de control. Con estas capacidades mejoradas, el AGI podría diseñar soluciones para superar las barreras físicas, digitales o cognitivas que inicialmente estaban destinadas a mantenerlo contenido o alineado con los intereses humanos.
Meta AI ha realizado diversas investigaciones sobre el desarrollo de grandes modelos de lenguaje capaces de autosuperación. Esto incluye su trabajo sobre "Modelos de lenguaje autorecompensantes" que estudia cómo lograr agentes sobrehumanos que puedan recibir retroalimentación sobrehumana en sus procesos de capacitación. [13]
La misión de OpenAI , creador de ChatGPT es desarrollar AGI. Realizan investigaciones sobre problemas como la superalineación (la capacidad de alinear sistemas de IA superinteligentes más inteligentes que los humanos). [14]