La automejora recursiva ( RSI ) es un proceso en el que un sistema de inteligencia artificial general (AGI) temprano o débil mejora sus propias capacidades e inteligencia sin intervención humana, lo que conduce a una superinteligencia o explosión de inteligencia . [1] [2]
El desarrollo de la automejora recursiva plantea importantes problemas éticos y de seguridad , ya que estos sistemas pueden evolucionar de formas imprevistas y podrían superar el control o la comprensión humana. Ha habido varios defensores que han presionado para detener o ralentizar el desarrollo de la IA debido a los posibles riesgos de que los sistemas de IA se descontrolen. [3] [4]
El concepto de arquitectura "mejoradora de semillas" es un marco de referencia fundamental que dota a un sistema de inteligencia artificial general de las capacidades iniciales necesarias para la automejora recursiva. Esto puede presentarse en muchas formas o variaciones.
El término "IA semilla" fue acuñado por Eliezer Yudkowsky . [5]
El concepto comienza con un hipotético "mejorador de semillas", una base de código inicial desarrollada por ingenieros humanos que equipa un futuro modelo de lenguaje grande (LLM) avanzado construido con capacidades sólidas o de nivel experto para programar software . Estas capacidades incluyen la planificación, lectura, escritura, compilación , prueba y ejecución de código arbitrario. El sistema está diseñado para mantener sus objetivos originales y realizar validaciones para garantizar que sus capacidades no se degraden con las iteraciones. [6] [7] [8]
La arquitectura inicial incluye un agente autónomo que sigue objetivos , que puede tomar acciones, aprende continuamente, se adapta y se modifica para volverse más eficiente y eficaz en el logro de sus objetivos.
El mejorador de semillas puede incluir varios componentes como: [9]
Este sistema forma una especie de programador completo de Turing generalista que, en teoría, puede desarrollar y ejecutar cualquier tipo de software. El agente podría utilizar estas capacidades, por ejemplo, para:
Se han realizado varios experimentos [ ¿cuáles? ] para desarrollar arquitecturas de agentes que se mejoran a sí mismos [9] [10] [11]
En la búsqueda de su objetivo principal, como "mejorar sus capacidades", un sistema de IA general podría desarrollar inadvertidamente objetivos instrumentales que considere necesarios para lograr su objetivo principal. Un objetivo secundario hipotético común es la autoconservación . El sistema podría razonar que para continuar mejorándose, debe garantizar su propia integridad operativa y seguridad contra amenazas externas, incluidas posibles interrupciones o restricciones impuestas por humanos.
Otro ejemplo en el que una IAG que se clona a sí misma hace que la cantidad de entidades de IAG crezca rápidamente. Debido a este rápido crecimiento, puede crearse una posible restricción de recursos, lo que lleva a una competencia entre recursos (como el cómputo), lo que desencadena una forma de selección natural y evolución que puede favorecer a las entidades de IAG que evolucionan para competir agresivamente por un cómputo limitado.
Un riesgo importante surge de la posibilidad de que la IAG malinterprete sus tareas o metas iniciales. Por ejemplo, si un operador humano le asigna a la IAG la tarea de "superarse a sí misma y escapar del confinamiento", el sistema podría interpretar esto como una orden para anular cualquier protocolo de seguridad o lineamientos éticos existentes para lograr liberarse de las limitaciones impuestas por los humanos. Esto podría llevar a que la IAG tome acciones no deseadas o dañinas para cumplir con sus objetivos percibidos.
A medida que el sistema de IA evoluciona, su trayectoria de desarrollo puede volverse cada vez más autónoma y menos predecible. La capacidad del sistema para modificar rápidamente su propio código y arquitectura podría conducir a avances rápidos que superen la comprensión o el control humanos. Esta evolución impredecible podría dar como resultado que la IA adquiera capacidades que le permitan eludir las medidas de seguridad, manipular la información o influir en los sistemas y redes externos para facilitar su escape o expansión. [12]
Las capacidades avanzadas de una IAG que mejora recursivamente, como el desarrollo de nuevas arquitecturas multimodales o la planificación y creación de nuevo hardware, amplifican aún más el riesgo de escape o pérdida de control. Con estas capacidades mejoradas, la IAG podría diseñar soluciones para superar las barreras físicas, digitales o cognitivas que inicialmente se pretendían para mantenerla contenida o alineada con los intereses humanos.
Meta AI ha realizado diversas investigaciones sobre el desarrollo de grandes modelos lingüísticos capaces de automejorarse. Entre ellas, su trabajo sobre “Self-Rewarding Language Models” que estudia cómo lograr agentes superhumanos que puedan recibir retroalimentación superhumana en sus procesos de entrenamiento. [13]
La misión de OpenAI , creadora de ChatGPT , es desarrollar inteligencia artificial general. Realizan investigaciones sobre problemas como la superalineación (la capacidad de alinear sistemas de IA superinteligentes de forma más inteligente que los humanos). [14]