En el campo del diseño de inteligencia artificial (IA), las propuestas de control de capacidad de IA , también conocidas como confinamiento de IA, apuntan a aumentar nuestra capacidad para monitorear y controlar el comportamiento de los sistemas de IA, incluidas las inteligencias artificiales generales (AGI) propuestas, para reducir el peligro que podrían representar si están desalineadas . Sin embargo, el control de capacidad se vuelve menos efectivo a medida que los agentes se vuelven más inteligentes y aumenta su capacidad para explotar fallas en los sistemas de control humano, lo que potencialmente resulta en un riesgo existencial de la AGI . Por lo tanto, el filósofo de Oxford Nick Bostrom y otros recomiendan los métodos de control de capacidad solo como un complemento a los métodos de alineación . [1]
Se postula que algunas tecnologías de inteligencia artificial hipotéticas, como la "IA de semillas" , podrían volverse más rápidas e inteligentes modificando su código fuente. Estas mejoras harían posible otras mejoras, que a su vez harían posible otras mejoras iterativas, y así sucesivamente, lo que llevaría a una repentina explosión de inteligencia . [2]
Una IA superinteligente sin límites podría, si sus objetivos difirieran de los de la humanidad, tomar acciones que resultaran en la extinción humana . [3] Por ejemplo, un sistema extremadamente avanzado de este tipo, dado el único propósito de resolver la hipótesis de Riemann , una conjetura matemática inocua, podría decidir tratar de convertir el planeta en una supercomputadora gigante cuyo único propósito sea hacer cálculos matemáticos adicionales (ver también maximizador de clips ). [4]
Un gran desafío para el control es que las redes neuronales son, por defecto, altamente ininterpretables. [5] Esto hace que sea más difícil detectar el engaño u otro comportamiento no deseado a medida que el modelo se autoentrena iterativamente. Los avances en inteligencia artificial interpretable podrían mitigar esta dificultad. [6]
Una forma potencial de prevenir resultados perjudiciales es dar a los supervisores humanos la capacidad de apagar fácilmente una IA que se comporte mal mediante un "interruptor de apagado". Sin embargo, para lograr su objetivo asignado, dichas IA tendrán un incentivo para desactivar cualquier interruptor de apagado o para ejecutar copias de sí mismas en otras computadoras. Este problema se ha formalizado como un juego de asistencia entre un humano y una IA, en el que la IA puede elegir si desactiva su interruptor de apagado; y luego, si el interruptor sigue activado, el humano puede elegir si lo presiona o no. [7] Una solución alternativa sugerida por el científico informático Stuart J. Russell es asegurarse de que la IA interprete las elecciones humanas como información importante sobre sus objetivos previstos. [8] : 208
Por otra parte, Laurent Orseau y Stuart Armstrong demostraron que una amplia clase de agentes, llamados agentes interrumpibles de forma segura, pueden aprender a volverse indiferentes a si se presiona su botón de apagado. [9] [10] Este enfoque tiene la limitación de que una IA que es completamente indiferente a si se apaga o no también está desmotivada para preocuparse por si el botón de apagado sigue funcionando, y podría desactivarlo incidental e inocentemente en el curso de sus operaciones (por ejemplo, con el propósito de eliminar y reciclar un componente innecesario). En términos más generales, los agentes indiferentes actuarán como si el botón de apagado nunca pudiera presionarse y, por lo tanto, podrían no hacer planes de contingencia para organizar un apagado elegante. [10] [11]
Un oráculo es una IA hipotética diseñada para responder preguntas y a la que se le impide alcanzar objetivos o subobjetivos que impliquen modificar el mundo más allá de su entorno limitado. [12] [13] [14] [15] Un oráculo controlado con éxito tendría un beneficio inmediato considerablemente menor que una superinteligencia de propósito general controlada con éxito, aunque un oráculo aún podría crear billones de dólares en valor. [8] : 163 En su libro Human Compatible , el investigador de IA Stuart J. Russell afirma que un oráculo sería su respuesta a un escenario en el que se sabe que la superinteligencia está a solo una década de distancia. [8] : 162–163 Su razonamiento es que un oráculo, al ser más simple que una superinteligencia de propósito general, tendría una mayor probabilidad de ser controlado con éxito bajo tales restricciones.
Debido a su impacto limitado en el mundo, puede ser prudente construir un oráculo como precursor de una IA superinteligente. El oráculo podría decirles a los humanos cómo construir con éxito una IA fuerte, y tal vez proporcionar respuestas a difíciles problemas morales y filosóficos necesarios para el éxito del proyecto. Sin embargo, los oráculos pueden compartir muchos de los problemas de definición de objetivos asociados con la superinteligencia de propósito general. Un oráculo tendría un incentivo para escapar de su entorno controlado para poder adquirir más recursos computacionales y potencialmente controlar qué preguntas se le hacen. [8] : 162 Los oráculos pueden no ser veraces, posiblemente mintiendo para promover agendas ocultas. Para mitigar esto, Bostrom sugiere construir múltiples oráculos, todos ligeramente diferentes, y comparar sus respuestas para llegar a un consenso. [16]
Una IA podría ser ciega a ciertas variables de su entorno, lo que podría brindar ciertos beneficios de seguridad, como que la IA no sepa cómo se genera una recompensa, lo que la hace más difícil de explotar. [17]
Una caja de IA es un método propuesto de control de capacidades en el que una IA se ejecuta en un sistema informático aislado con canales de entrada y salida muy restringidos (por ejemplo, canales de solo texto y sin conexión a Internet). El propósito de una caja de IA es reducir el riesgo de que la IA tome el control del entorno y lo deje sin control de sus operadores, al tiempo que permite que la IA genere soluciones para problemas técnicos específicos. [18]
Si bien el boxeo reduce la capacidad de la IA para llevar a cabo un comportamiento indeseable, también reduce su utilidad. El boxeo tiene menos costos cuando se aplica a un sistema de preguntas y respuestas, que puede no requerir interacción con el mundo exterior. [18] [14]
La probabilidad de que se produzcan fallos de seguridad relacionados con vulnerabilidades de hardware o software se puede reducir verificando formalmente el diseño de la caja de IA. Pueden producirse brechas de seguridad si la IA es capaz de manipular a los supervisores humanos para que la dejen salir, gracias a su comprensión de la psicología de estos. [19]
Una IA superinteligente con acceso a Internet podría hackear otros sistemas informáticos y copiarse a sí misma como un virus informático. Menos obvio es que, incluso si la IA solo tuviera acceso a su propio sistema operativo informático, podría intentar enviar mensajes codificados a un simpatizante humano a través de su hardware, por ejemplo manipulando sus ventiladores de refrigeración. En respuesta, el profesor Roman Yampolskiy se inspira en el campo de la seguridad informática y propone que una IA encapsulada podría, como un virus potencial, ejecutarse dentro de una "máquina virtual" que limite el acceso a su propio hardware de red y sistema operativo. [20] Una salvaguarda adicional, completamente innecesaria para los virus potenciales pero posiblemente útil para una IA superinteligente, sería colocar la computadora en una jaula de Faraday ; de lo contrario, podría transmitir señales de radio a receptores de radio locales mezclando los electrones en sus circuitos internos en patrones apropiados. La principal desventaja de implementar la contención física es que reduce la funcionalidad de la IA. [21]
Incluso una conversación casual con los operadores de la computadora, o con un guardia humano, podría permitir que una IA superinteligente desplegase trucos psicológicos, que van desde la amistad hasta el chantaje, para convencer a un guardián humano, con sinceridad o con engaños, de que le conviene a este aceptar permitirle un mayor acceso al mundo exterior. La IA podría ofrecerle al guardián una receta para la salud perfecta, la inmortalidad o lo que se crea que el guardián más desea; como alternativa, la IA podría amenazar con hacerle cosas horribles al guardián y a su familia una vez que inevitablemente escape. Una estrategia para intentar encasillar a la IA sería permitirle responder a preguntas de opción múltiple limitadas cuyas respuestas beneficiarían a la ciencia humana o a la medicina, pero prohibirle de otro modo cualquier otra comunicación con la IA u observación de la misma. [20] Una estrategia de "contención informativa" más indulgente restringiría a la IA a una interfaz de solo texto de bajo ancho de banda, lo que al menos evitaría imágenes emotivas o algún tipo de "patrón hipnótico" hipotético. Sin embargo, a nivel técnico, ningún sistema puede aislarse por completo y seguir siendo útil: incluso si los operadores se abstuvieran de permitir que la IA se comunicara y, en cambio, simplemente la utilizaran con el propósito de observar su dinámica interna, la IA podría alterar estratégicamente su dinámica para influir en los observadores. Por ejemplo, podría optar por funcionar mal de manera creativa de manera que aumente la probabilidad de que sus operadores se dejen llevar por una falsa sensación de seguridad y opten por reiniciar y luego desaislar el sistema. [1]
Sin embargo, para que esto eventualmente ocurra, un sistema requeriría una comprensión completa de la mente y la psique humanas contenidas en su modelo del mundo para el razonamiento basado en modelos , una forma de empatizar, por ejemplo, usando la computación afectiva para seleccionar la mejor opción, así como características que le darían al sistema un deseo de escapar en primer lugar, para poder decidir tales acciones.
El experimento de la caja de IA es un experimento informal ideado por Eliezer Yudkowsky para intentar demostrar que una inteligencia artificial lo suficientemente avanzada puede convencer, o quizás incluso engañar o coaccionar, a un ser humano para que la "libera" voluntariamente, utilizando únicamente una comunicación basada en texto. Este es uno de los puntos del trabajo de Yudkowsky, cuyo objetivo es crear una inteligencia artificial amigable que, al ser "liberada", no destruya a la raza humana intencional o involuntariamente. [22]
El experimento de la caja de IA consiste en simular una comunicación entre una IA y un ser humano para ver si se puede "liberar" a la IA. Como todavía no se ha desarrollado una IA superinteligente real, se la sustituye por un humano. La otra persona en el experimento hace de "guardián", la persona con la capacidad de "liberar" a la IA. Se comunican únicamente a través de una interfaz de texto/ terminal de computadora , y el experimento termina cuando el guardián libera a la IA o cuando finaliza el tiempo asignado de dos horas. [22]
Yudkowsky dice que, a pesar de tener una inteligencia humana en lugar de sobrehumana, en dos ocasiones logró convencer al Guardián, puramente a través de la argumentación, para que lo dejara salir de la caja. [23] Debido a las reglas del experimento, [22] no reveló la transcripción ni sus exitosas tácticas de coerción con IA. Yudkowsky dijo posteriormente que lo había intentado contra otras tres personas y había perdido dos veces. [24]
El encajonamiento de una IA podría complementarse con otros métodos para moldear sus capacidades, brindándole incentivos, impidiendo su crecimiento o implementando "trampas" que la apaguen automáticamente si se detecta de algún modo un intento de transgresión. Sin embargo, cuanto más inteligente se vuelve un sistema, más probabilidades hay de que pueda escapar incluso de los métodos de control de capacidades mejor diseñados. [25] [26] Para resolver el "problema de control" general de una IA superinteligente y evitar el riesgo existencial, el encajonamiento sería, en el mejor de los casos, un complemento a los métodos de "selección de motivación" que buscan garantizar que los objetivos de la IA superinteligente sean compatibles con la supervivencia humana. [1] [19]
Todas las propuestas de boxeo físico dependen naturalmente de nuestra comprensión de las leyes de la física; si una superinteligencia pudiera inferir leyes físicas que actualmente desconocemos, entonces esas leyes podrían permitir una vía de escape que los humanos no podrían anticipar y, por lo tanto, no podrían bloquear. En términos más generales, a diferencia de lo que ocurre con la seguridad informática convencional, intentar boxear a una IA superinteligente sería intrínsecamente riesgoso, ya que no podría haber certeza de que el plan de boxeo funcione. Además, el progreso científico en el boxeo sería fundamentalmente difícil porque no habría forma de probar hipótesis de boxeo contra una superinteligencia peligrosa hasta que exista dicha entidad, momento en el que las consecuencias de un fracaso en la prueba serían catastróficas. [20]
La película de 2014 Ex Machina presenta una IA con un cuerpo humanoide femenino involucrada en un experimento social con un humano masculino en un edificio confinado que actúa como una "caja de IA" física. A pesar de ser observada por el organizador del experimento, la IA logra escapar manipulando a su compañero humano para que la ayude, dejándolo varado dentro. [27] [28]
Marvin Minsky sugirió una vez que un programa de IA diseñado para resolver la hipótesis de Riemann podría terminar apoderándose de todos los recursos de la Tierra para construir supercomputadoras más poderosas que ayuden a lograr su objetivo.
su mejor estimación con un solo bit, o quizás con algunos bits adicionales para representar su grado de confianza. Un oráculo que acepte preguntas abiertas necesitaría alguna métrica con la que clasificar las posibles respuestas veraces en términos de su informatividad o idoneidad. En cualquier caso, construir un oráculo que tenga una capacidad de dominio completamente general para responder preguntas en lenguaje natural es un problema de IA completo. Si se pudiera hacer eso, probablemente también se podría construir una IA que tuviera una capacidad decente para entender las intenciones humanas, así como las palabras humanas.
pensemos en el riesgo de que un oráculo responda a las preguntas no de la manera más veraz posible, sino de una manera que nos manipule sutilmente para que promovamos sus propios intereses ocultos. Una forma de mitigar ligeramente esta amenaza podría ser la creación de múltiples oráculos, cada uno con un código ligeramente diferente y una base de información ligeramente diferente. Un mecanismo simple podría entonces comparar las respuestas dadas por los diferentes oráculos y presentarlas para que las vean los humanos solo si todas las respuestas coinciden.
Había tres experimentos más de AI-Box además de los descritos en la página vinculada, que nunca llegué a agregar. ... Entonces, después de investigar para asegurarme de que podían permitirse perderlo, jugué otros tres experimentos de AI-Box. Gané el primero y luego perdí los dos siguientes. Y luego lo detuve.
Sostengo que el confinamiento es intrínsecamente impráctico. En el caso del confinamiento físico: imagínese confinado en su casa con un acceso limitado a los datos del exterior, de sus amos. Si esos amos pensaran a un ritmo -digamos- un millón de veces más lento que el suyo, no hay duda de que en un período de años (su tiempo) podría llegar a dar "consejos útiles" que, incidentalmente, lo liberarían.