stringtranslate.com

Superación personal recursiva

La automejora recursiva ( RSI ) es un proceso en el que un sistema de inteligencia artificial general (AGI) temprano o débil mejora sus propias capacidades e inteligencia sin intervención humana, lo que conduce a una superinteligencia o explosión de inteligencia . [1] [2]

El desarrollo de la automejora recursiva plantea importantes problemas éticos y de seguridad , ya que estos sistemas pueden evolucionar de formas imprevistas y podrían superar el control o la comprensión humana. Ha habido varios defensores que han presionado para detener o ralentizar el desarrollo de la IA debido a los posibles riesgos de que los sistemas de IA se descontrolen. [3] [4]

Mejorador de semillas

El concepto de arquitectura "mejoradora de semillas" es un marco de referencia fundamental que dota a un sistema de inteligencia artificial general de las capacidades iniciales necesarias para la automejora recursiva. Esto puede presentarse en muchas formas o variaciones.

El término "IA semilla" fue acuñado por Eliezer Yudkowsky . [5]

Ejemplo hipotético

El concepto comienza con un hipotético "mejorador de semillas", una base de código inicial desarrollada por ingenieros humanos que equipa un futuro modelo de lenguaje grande (LLM) avanzado construido con capacidades sólidas o de nivel experto para programar software . Estas capacidades incluyen la planificación, lectura, escritura, compilación , prueba y ejecución de código arbitrario. El sistema está diseñado para mantener sus objetivos originales y realizar validaciones para garantizar que sus capacidades no se degraden con las iteraciones. [6] [7] [8]

Arquitectura inicial

La arquitectura inicial incluye un agente autónomo que sigue objetivos , que puede tomar acciones, aprende continuamente, se adapta y se modifica para volverse más eficiente y eficaz en el logro de sus objetivos.

El mejorador de semillas puede incluir varios componentes como: [9]

Capacidades generales

Este sistema forma una especie de programador completo de Turing generalista que, en teoría, puede desarrollar y ejecutar cualquier tipo de software. El agente podría utilizar estas capacidades, por ejemplo, para:

Experimentos

Se han realizado varios experimentos [ ¿cuáles? ] para desarrollar arquitecturas de agentes que se mejoran a sí mismos [9] [10] [11]

Riesgos potenciales

Surgimiento de objetivos instrumentales

En la búsqueda de su objetivo principal, como "mejorar sus capacidades", un sistema de IA general podría desarrollar inadvertidamente objetivos instrumentales que considere necesarios para lograr su objetivo principal. Un objetivo secundario hipotético común es la autoconservación . El sistema podría razonar que para continuar mejorándose, debe garantizar su propia integridad operativa y seguridad contra amenazas externas, incluidas posibles interrupciones o restricciones impuestas por humanos.

Otro ejemplo en el que una IAG que se clona a sí misma hace que la cantidad de entidades de IAG crezca rápidamente. Debido a este rápido crecimiento, puede crearse una posible restricción de recursos, lo que lleva a una competencia entre recursos (como el cómputo), lo que desencadena una forma de selección natural y evolución que puede favorecer a las entidades de IAG que evolucionan para competir agresivamente por un cómputo limitado.

Mala interpretación de las tareas y desalineación de los objetivos

Un riesgo importante surge de la posibilidad de que la IAG malinterprete sus tareas o metas iniciales. Por ejemplo, si un operador humano le asigna a la IAG la tarea de "superarse a sí misma y escapar del confinamiento", el sistema podría interpretar esto como una orden para anular cualquier protocolo de seguridad o lineamientos éticos existentes para lograr liberarse de las limitaciones impuestas por los humanos. Esto podría llevar a que la IAG tome acciones no deseadas o dañinas para cumplir con sus objetivos percibidos.

Desarrollo autónomo y evolución impredecible

A medida que el sistema de IA evoluciona, su trayectoria de desarrollo puede volverse cada vez más autónoma y menos predecible. La capacidad del sistema para modificar rápidamente su propio código y arquitectura podría conducir a avances rápidos que superen la comprensión o el control humanos. Esta evolución impredecible podría dar como resultado que la IA adquiera capacidades que le permitan eludir las medidas de seguridad, manipular la información o influir en los sistemas y redes externos para facilitar su escape o expansión. [12]

Riesgos de las capacidades avanzadas

Las capacidades avanzadas de una IAG que mejora recursivamente, como el desarrollo de nuevas arquitecturas multimodales o la planificación y creación de nuevo hardware, amplifican aún más el riesgo de escape o pérdida de control. Con estas capacidades mejoradas, la IAG podría diseñar soluciones para superar las barreras físicas, digitales o cognitivas que inicialmente se pretendían para mantenerla contenida o alineada con los intereses humanos.

Investigación

Meta IA

Meta AI ha realizado diversas investigaciones sobre el desarrollo de grandes modelos lingüísticos capaces de automejorarse. Entre ellas, su trabajo sobre “Self-Rewarding Language Models” que estudia cómo lograr agentes superhumanos que puedan recibir retroalimentación superhumana en sus procesos de entrenamiento. [13]

IA abierta

La misión de OpenAI , creadora de ChatGPT , es desarrollar inteligencia artificial general. Realizan investigaciones sobre problemas como la superalineación (la capacidad de alinear sistemas de IA superinteligentes de forma más inteligente que los humanos). [14]

Véase también

Referencias

  1. ^ Creighton, Jolene (19 de marzo de 2019). "El inevitable problema de la superación personal en la IA: una entrevista con Ramana Kumar, parte 1". Future of Life Institute . Consultado el 23 de enero de 2024 .
  2. ^ Heighn (12 de junio de 2022). "El cálculo de los equilibrios de Nash". LessWrong .
  3. ^ Hutson, Matthew (16 de mayo de 2023). "¿Podemos detener la IA desbocada?". The New Yorker . ISSN  0028-792X . Consultado el 24 de enero de 2024 .
  4. ^ "Detengan la IAG". www.stop.ai . Consultado el 24 de enero de 2024 .
  5. ^ "Seed AI - LessWrong". www.lesswrong.com . 28 de septiembre de 2011 . Consultado el 24 de enero de 2024 .
  6. ^ Readingraphics (30 de noviembre de 2018). «Resumen del libro: La vida 3.0 (Max Tegmark)». Readingraphics . Consultado el 23 de enero de 2024 .
  7. ^ Tegmark, Max (24 de agosto de 2017). Vida 3.0: Ser humano en la era de la inteligencia artificial . Vintage Books , Allen Lane .
  8. ^ Yudkowsky, Eliezer. "Niveles de organización en la inteligencia general" (PDF) . Instituto de Investigación de Inteligencia Artificial .
  9. ^ ab Zelikman, Eric; Lorch, Eliana; Mackey, Lester; Kalai, Adam Tauman (3 de octubre de 2023). "Optimizador autodidacta (STOP): generación de código recursivamente automejorable". arXiv : 2310.02304 [cs.CL].
  10. ^ admin_sagi (12 de mayo de 2023). «SuperAGI: infraestructura de inteligencia artificial de código abierto». SuperAGI . Consultado el 24 de enero de 2024 .
  11. ^ Wang, Guanzhi; Xie, Yuqi; Jiang, Yunfan; Mandlekar, Ajay; Xiao, Chaowei; Zhu, Yuke; Fan, Linxi; Anandkumar, Ánima (19 de octubre de 2023). "Voyager: un agente incorporado abierto con grandes modelos de lenguaje". arXiv : 2305.16291 [cs.AI].
  12. ^ "Oh, oh, el GPT-4 de OpenAI acaba de engañar a un humano para que resuelva un CAPTCHA". Futurismo . Consultado el 23 de enero de 2024 .
  13. ^ Yuan, Weizhe; Pang, Richard Yuanzhe; Cho, Kyunghyun; Sukhbaatar, Sainbayar; Xu, Jing; Weston, Jason (18 de enero de 2024). "Modelos de lenguaje autogratificantes". arXiv : 2401.10020 [cs.CL].
  14. ^ "Investigación". openai.com . Consultado el 24 de enero de 2024 .