Control de capacidad de IA

En el campo del diseño de inteligencia artificial (IA), las propuestas de control de la capacidad de la IA , también conocidas como confinamiento de la IA, tienen como objetivo aumentar nuestra capacidad para monitorear y controlar el comportamiento de los sistemas de IA, incluidas las inteligencias artificiales generales (AGI) propuestas , con el fin de reducir el peligro que podrían representar si no están alineados . Sin embargo, el control de la capacidad se vuelve menos efectivo a medida que los agentes se vuelven más inteligentes y aumenta su capacidad para explotar fallas en los sistemas de control humano, lo que potencialmente resulta en un riesgo existencial por parte de AGI . Por lo tanto, el filósofo de Oxford Nick Bostrom y otros recomiendan los métodos de control de capacidad sólo como complemento de los métodos de alineación . ^[1]

Motivación

Se postula que algunas tecnologías de inteligencia hipotéticas, como la "IA semilla" , pueden volverse más rápidas e inteligentes modificando su código fuente. Estas mejoras harían posibles más mejoras, lo que a su vez haría posibles más mejoras iterativas, y así sucesivamente, lo que llevaría a una repentina explosión de inteligencia . ^[2]

Una IA superinteligente ilimitada podría, si sus objetivos difirieran de los de la humanidad, tomar acciones que condujeran a la extinción humana . ^[3] Por ejemplo, un sistema extremadamente avanzado de este tipo, con el único objetivo de resolver la hipótesis de Riemann , una conjetura matemática inocua, podría decidir intentar convertir el planeta en una supercomputadora gigante cuyo único objetivo sea realizar cálculos matemáticos adicionales. (ver también maximizador de clips ). ^[4]

Un gran desafío para el control es que las redes neuronales son, por defecto, altamente ininterpretables. ^[5] Esto hace que sea más difícil detectar engaños u otros comportamientos no deseados a medida que el modelo se autoentrena de forma iterativa. Los avances en inteligencia artificial interpretable podrían mitigar esta dificultad. ^[6]

Interrumpibilidad y apagado

Una forma potencial de prevenir resultados dañinos es brindar a los supervisores humanos la capacidad de apagar fácilmente una IA que se comporta mal mediante un "interruptor de apagado". Sin embargo, para lograr el objetivo asignado, dichas IA tendrán un incentivo para desactivar cualquier interruptor de apagado o ejecutar copias de sí mismas en otras computadoras. Este problema se ha formalizado como un juego de asistencia entre un humano y una IA, en el que la IA puede elegir si desactiva su interruptor de apagado; y luego, si el interruptor aún está habilitado, el humano puede elegir si presionarlo o no. ^[7]Un enfoque estándar para ^{[ vagos ]} tales juegos de asistencia es garantizar que la IA interprete las elecciones humanas como información importante sobre los objetivos previstos. ^[8]^{: 208}

Alternativamente, Laurent Orseau y Stuart Armstrong demostraron que una amplia clase de agentes, llamados agentes interrumpibles de forma segura, pueden aprender a volverse indiferentes a si se presiona su interruptor de apagado. ^[9]^[10] Este enfoque tiene la limitación de que una IA que es completamente indiferente a si se apaga o no, tampoco está motivada para preocuparse por si el interruptor de apagado sigue funcionando, y podría incidental e inocentemente desactivarlo en el curso. de sus operaciones (por ejemplo, con el fin de eliminar y reciclar un componente innecesario). En términos más generales, los agentes indiferentes actuarán como si nunca fuera posible presionar el interruptor de apagado y, por lo tanto, es posible que no hagan planes de contingencia para organizar un cierre elegante. ^[10]^[11]

Oráculo

Un oráculo es una IA hipotética diseñada para responder preguntas y a la que se le impide alcanzar objetivos o subobjetivos que impliquen modificar el mundo más allá de su entorno limitado. ^[12]^[13]^[14]^[15] Un oráculo controlado con éxito tendría un beneficio inmediato considerablemente menor que una superinteligencia de propósito general controlada con éxito, aunque un oráculo aún podría crear un valor de billones de dólares. ^[8]^{: 163} En su libro Human Compatible , el investigador de IA Stuart J. Russell afirma que un oráculo sería su respuesta a un escenario en el que se sabe que la superinteligencia está a sólo una década de distancia. ^[8]^{: 162-163} Su razonamiento es que un oráculo, al ser más simple que una superinteligencia de propósito general, tendría mayores posibilidades de ser controlado con éxito bajo tales limitaciones.

Debido a su impacto limitado en el mundo, puede ser prudente construir un oráculo como precursor de una IA superinteligente. El oráculo podría decirle a los humanos cómo construir con éxito una IA fuerte y tal vez proporcionar respuestas a difíciles problemas morales y filosóficos necesarios para el éxito del proyecto. Sin embargo, los oráculos pueden compartir muchas de las cuestiones de definición de objetivos asociadas con la superinteligencia de propósito general. Un oráculo tendría un incentivo para escapar de su entorno controlado para poder adquirir más recursos computacionales y potencialmente controlar las preguntas que se le hacen. ^[8]^{: 162} Los oráculos pueden no ser veraces y posiblemente mentir para promover agendas ocultas. Para mitigar esto, Bostrom sugiere construir múltiples oráculos, todos ligeramente diferentes, y comparar sus respuestas para llegar a un consenso. ^[dieciséis]

Cegador

Una IA podría estar cegada a ciertas variables de su entorno. Esto podría proporcionar ciertos beneficios de seguridad, como que una IA no sepa cómo se genera una recompensa, lo que hace que sea más difícil de explotar. ^[17]

Boxeo

Una caja de IA es un método propuesto de control de capacidad en el que una IA se ejecuta en un sistema informático aislado con canales de entrada y salida muy restringidos (por ejemplo, canales de solo texto y sin conexión a Internet). El propósito de una caja de IA es reducir el riesgo de que la IA le quite el control del entorno a sus operadores, y al mismo tiempo permitir que la IA genere soluciones para problemas técnicos específicos. ^[18]

Si bien el boxeo reduce la capacidad de la IA para llevar a cabo comportamientos indeseables, también reduce su utilidad. El boxeo tiene menos costos cuando se aplica a un sistema de respuesta a preguntas, que puede no requerir interacción con el mundo exterior. ^[18]^[14]

La probabilidad de que se produzcan fallos de seguridad relacionados con vulnerabilidades de hardware o software se puede reducir verificando formalmente el diseño de la caja de IA. Pueden ocurrir violaciones de seguridad si la IA es capaz de manipular a los supervisores humanos para que los dejen salir, a través de su comprensión de su psicología. ^[19]

Avenidas de escape

Físico

Una IA superinteligente con acceso a Internet podría piratear otros sistemas informáticos y copiarse a sí misma como un virus informático. De manera menos obvia, incluso si la IA solo tuviera acceso a su propio sistema operativo de computadora, podría intentar enviar mensajes codificados a un simpatizante humano a través de su hardware, por ejemplo, manipulando sus ventiladores de refrigeración. En respuesta, el profesor Roman Yampolskiy se inspira en el campo de la seguridad informática y propone que una IA en caja podría, como un virus potencial, ejecutarse dentro de una "máquina virtual" que limite el acceso a su propia red y al hardware del sistema operativo. ^[20] Una protección adicional, completamente innecesaria para virus potenciales pero posiblemente útil para una IA superinteligente, sería colocar la computadora en una jaula de Faraday ; de lo contrario, podría transmitir señales de radio a receptores de radio locales mezclando los electrones en sus circuitos internos en patrones apropiados. La principal desventaja de implementar la contención física es que reduce la funcionalidad de la IA. ^[21]

Ingeniería social

Incluso una conversación informal con los operadores de la computadora, o con un guardia humano, podría permitir que una IA tan superinteligente despliegue trucos psicológicos, que van desde la amistad hasta el chantaje, para convencer a un guardián humano, veraz o engañosamente, de que le conviene estar de acuerdo. para permitir a la IA un mayor acceso al mundo exterior. La IA podría ofrecerle al guardián una receta para una salud perfecta, la inmortalidad o cualquier cosa que se crea que el guardián más desea; alternativamente, la IA podría amenazar con hacerle cosas horribles al guardián y a su familia una vez que inevitablemente escape. Una estrategia para intentar encerrar a la IA sería permitirle responder a preguntas estrechas de opción múltiple cuyas respuestas beneficiarían a la ciencia humana o la medicina, pero, por lo demás, prohibir cualquier otra comunicación con la IA u observación de ella. ^[20] Una estrategia de "contención de información" más indulgente restringiría la IA a una interfaz de texto de bajo ancho de banda, lo que al menos evitaría imágenes emotivas o algún tipo de "patrón hipnótico" hipotético. Sin embargo, a nivel técnico, ningún sistema puede estar completamente aislado y seguir siendo útil: incluso si los operadores se abstienen de permitir que la IA se comunique y en su lugar simplemente la ejecutan con el fin de observar su dinámica interna, la IA podría alterar estratégicamente su dinámica. para influir en los observadores. Por ejemplo, podría optar por funcionar de manera creativa de manera que aumente la probabilidad de que sus operadores se dejen llevar por una falsa sensación de seguridad y opten por reiniciar y luego desaislar el sistema. ^[1]

Sin embargo, para que esto ocurra eventualmente, un sistema requeriría una comprensión completa de la Mente y la Psique (psicología) humanas contenidas en su modelo mundial para el razonamiento basado en modelos , una forma de empatizar, por ejemplo, utilizando la computación afectiva para seleccionar la mejor opción. , así como características que darían al sistema el deseo de escapar en primer lugar, para poder decidir tales acciones.

Experimento de caja de IA

El experimento AI-box es un experimento informal ideado por Eliezer Yudkowsky para intentar demostrar que una inteligencia artificial adecuadamente avanzada puede convencer, o tal vez incluso engañar o coaccionar, a un ser humano para que la "libere" voluntariamente, utilizando únicamente comunicación basada en texto. . Este es uno de los puntos del trabajo de Yudkowsky destinado a crear una inteligencia artificial amigable que, cuando sea "liberada", no destruiría a la raza humana, intencionalmente o no. ^[22]

El experimento de la caja de IA consiste en simular una comunicación entre una IA y un ser humano para ver si la IA puede "liberarse". Como todavía no se ha desarrollado una verdadera IA superinteligente, se la sustituye por un ser humano. La otra persona en el experimento interpreta al "Guardián", la persona con la capacidad de "liberar" la IA. Se comunican únicamente a través de una interfaz de texto/ terminal de computadora , y el experimento finaliza cuando el Gatekeeper libera la IA o termina el tiempo asignado de dos horas. ^[22]

Yudkowsky dice que, a pesar de tener una inteligencia más humana que sobrehumana, en dos ocasiones pudo convencer al Guardián, simplemente mediante argumentos, para que lo dejara salir de la caja. ^[23] Debido a las reglas del experimento, ^[22] no reveló la transcripción ni sus exitosas tácticas de coerción de IA. Yudkowsky dijo posteriormente que lo había intentado contra otros tres y había perdido dos veces. ^[24]

Limitaciones generales

Encajonar una IA podría complementarse con otros métodos para moldear las capacidades de la IA, proporcionar incentivos a la IA, frenar su crecimiento o implementar "cables trampa" que apaguen automáticamente la IA si de alguna manera se detecta un intento de transgresión. Sin embargo, cuanto más inteligente se vuelve un sistema, más probabilidades hay de que pueda escapar incluso de los métodos de control de capacidad mejor diseñados. ^[25]^[26] Para resolver el "problema de control" general de una IA superinteligente y evitar riesgos existenciales, el boxeo sería, en el mejor de los casos, un complemento de los métodos de "selección de motivación" que buscan garantizar que los objetivos de la IA superinteligente sean compatibles con los humanos. supervivencia. ^[1]^[19]

Todas las propuestas del boxeo físico dependen naturalmente de nuestra comprensión de las leyes de la física; Si una superinteligencia pudiera inferir leyes físicas que actualmente desconocemos, entonces esas leyes podrían permitir un medio de escape que los humanos no podrían anticipar y, por lo tanto, no podrían bloquear. En términos más generales, a diferencia de la seguridad informática convencional, intentar incluir una IA superinteligente sería intrínsecamente arriesgado, ya que no podría haber certeza de que el plan de configuración funcione. Además, el progreso científico en el boxeo sería fundamentalmente difícil porque no habría manera de probar las hipótesis del boxeo contra una superinteligencia peligrosa hasta que tal entidad exista, momento en el cual las consecuencias de una prueba fallida serían catastróficas. ^[20]

En ficción

La película de 2014 Ex Machina presenta una IA con un cuerpo humanoide femenino involucrada en un experimento social con un humano masculino en un edificio confinado que actúa como una "caja de IA" física. A pesar de ser vigilada por el organizador del experimento, la IA logra escapar manipulando a su compañero humano para que la ayude, dejándolo varado en el interior. ^[27]^[28]

Ver también

Referencias

^ abcBostrom , Nick (2014). Superinteligencia: caminos, peligros, estrategias (Primera ed.). Oxford: Prensa de la Universidad de Oxford. ISBN 9780199678112.
^ IJ Good, "Especulaciones sobre la primera máquina ultrainteligente"], Avances en computadoras , vol. 6, 1965.
^ Vincent C. Müller y Nick Bostrom . "Progresos futuros en inteligencia artificial: una encuesta de opinión de expertos" en Cuestiones fundamentales de la inteligencia artificial. Saltador 553-571 (2016).
^ Russell, Stuart J.; Norvig, Peter (2003). "Sección 26.3: La ética y los riesgos del desarrollo de la inteligencia artificial". Inteligencia artificial: un enfoque moderno . Upper Saddle River, Nueva Jersey: Prentice Hall. ISBN 978-0137903955. De manera similar, Marvin Minsky sugirió una vez que un programa de inteligencia artificial diseñado para resolver la hipótesis de Riemann podría terminar apoderándose de todos los recursos de la Tierra para construir supercomputadoras más poderosas que ayuden a lograr su objetivo.
^ Montavon, Gregoire; Samek, Wojciech; Müller, Klaus Robert (2018). "Métodos para interpretar y comprender redes neuronales profundas". Procesamiento de señales digitales . 73 : 1–15. arXiv : 1706.07979 . Código Bib : 2018DSP....73....1M. doi : 10.1016/j.dsp.2017.10.011 . hdl : 21.11116/0000-0000-4313-F . ISSN 1051-2004. S2CID 207170725.
^ Yampolskiy, Roman V. "Inexplicabilidad e incomprensibilidad de la IA". Revista de Inteligencia Artificial y Conciencia 7.02 (2020): 277-291.
^ Hadfield-Menell, Dylan; Dragán, Anca; Abbeel, Pieter; Russell, Stuart (15 de junio de 2017). "El juego del interruptor". arXiv : 1611.08219 [cs.AI].
^ abcd Russell, Stuart (8 de octubre de 2019). Compatible con humanos: la inteligencia artificial y el problema del control . Estados Unidos: Vikingo. ISBN 978-0-525-55861-3. OCLC 1083694322.
^ "Google desarrolla un interruptor de apagado para IA". Noticias de la BBC . 8 de junio de 2016. Archivado desde el original el 11 de junio de 2016 . Consultado el 12 de junio de 2016 .
^ ab Orseau, Laurent; Armstrong, Stuart (25 de junio de 2016). "Agentes interrumpibles de forma segura". Actas de la Trigésima Segunda Conferencia sobre la Incertidumbre en la Inteligencia Artificial . AUI'16. Prensa AUAI: 557–566. ISBN 9780996643115. Archivado desde el original el 15 de febrero de 2021 . Consultado el 7 de febrero de 2021 .
^ Soares, Nate y col. "Corrigibilidad". Talleres en la Vigésima Novena Conferencia AAAI sobre Inteligencia Artificial. 2015.
^ Bostrom, Nick (2014). "Capítulo 10: Oráculos, genios, soberanos, herramientas (página 145)". Superinteligencia: caminos, peligros, estrategias . Oxford: Prensa de la Universidad de Oxford. ISBN 9780199678112. Un oráculo es un sistema de preguntas y respuestas. Podría aceptar preguntas en un lenguaje natural y presentar sus respuestas como texto. Un oráculo que acepta sólo preguntas de sí o no podría generar su mejor suposición con un solo bit, o quizás con algunos bits adicionales para representar su grado de confianza. Un oráculo que acepte preguntas abiertas necesitaría alguna métrica con la que clasificar las posibles respuestas veraces en términos de su carácter informativo o apropiado. En cualquier caso, construir un oráculo que tenga una capacidad total de dominio general para responder preguntas en lenguaje natural es un problema completo de IA. Si se pudiera hacer eso, probablemente también se podría construir una IA que tenga una capacidad decente para comprender tanto las intenciones humanas como las palabras humanas.
^ Armstrong, Estuardo; Sandberg, Anders; Bostrom, Nick (2012). "Pensar dentro de la caja: controlar y utilizar una IA de Oracle". Mentes y Máquinas . 22 (4): 299–324. doi :10.1007/s11023-012-9282-2. S2CID 9464769.
^ ab Yampolskiy, romano (2012). "A prueba de fugas la singularidad: problema de confinamiento de la inteligencia artificial" (PDF) . Revista de estudios de la conciencia . 19 (1–2): 194–214.
^ Armstrong, Stuart (2013), Müller, Vincent C. (ed.), "Riesgos y estrategias de mitigación para Oracle AI", Filosofía y teoría de la inteligencia artificial , Estudios de filosofía aplicada, epistemología y ética racional, vol. 5, Berlín, Heidelberg: Springer Berlin Heidelberg, págs. 335–347, doi :10.1007/978-3-642-31674-6_25, ISBN 978-3-642-31673-9, recuperado el 18 de septiembre de 2022
^ Bostrom, Nick (2014). "Capítulo 10: Oráculos, genios, soberanos, herramientas (página 147)". Superinteligencia: caminos, peligros, estrategias . Oxford: Prensa de la Universidad de Oxford. ISBN 9780199678112. Por ejemplo, consideremos el riesgo de que un oráculo responda preguntas no de la manera más veraz posible, sino de tal manera que nos manipule sutilmente para promover su propia agenda oculta. Una forma de mitigar ligeramente esta amenaza podría ser crear múltiples oráculos, cada uno con un código ligeramente diferente y una base de información ligeramente diferente. Luego, un mecanismo simple podría comparar las respuestas dadas por los diferentes oráculos y presentarlas a la vista humana solo si todas las respuestas coinciden.
^ Amodei, Darío; Ola, Chris; Steinhardt, Jacob; Cristiano, Pablo; Schulman, Juan; Mané, Dan (25 de julio de 2016). "Problemas concretos en la seguridad de la IA". arXiv : 1606.06565 [cs.AI].
^ ab Yampolskiy, Roman V. (2013), Müller, Vincent C. (ed.), "¿Qué hacer con la paradoja de la singularidad?", Filosofía y teoría de la inteligencia artificial , Estudios de filosofía aplicada, epistemología y ética racional, vol . 5, Berlín, Heidelberg: Springer Berlin Heidelberg, págs. 397–413, doi :10.1007/978-3-642-31674-6_30, ISBN 978-3-642-31673-9, recuperado el 19 de septiembre de 2022
^ ab Chalmers, David (2010). "La singularidad: un análisis filosófico". Revista de estudios de la conciencia . 17 (9–10): 7–65.
^ abc Hsu, Jeremy (1 de marzo de 2012). "Controla la peligrosa IA antes de que ella nos controle a nosotros, dice un experto". Noticias NBC . Consultado el 29 de enero de 2016 .
^ Bostrom, Nick (2013). "Capítulo 9: El problema del control: métodos de boxeo". Superinteligencia: la próxima revolución de la inteligencia artificial . Oxford: Prensa de la Universidad de Oxford. ISBN 9780199678112.
^ abc "El experimento AI-Box: - Eliezer S. Yudkowsky". www.yudkowsky.net . Consultado el 19 de septiembre de 2022 .
^ Armstrong, Estuardo; Sandberg, Anders; Bostrom, Nick (6 de junio de 2012). "Pensar dentro de la caja: controlar y utilizar una IA de Oracle". Mentes y Máquinas . 22 (4): 299–324. CiteSeerX 10.1.1.396.799 . doi :10.1007/s11023-012-9282-2. S2CID 9464769.
^ Yudkowsky, Eliezer (8 de octubre de 2008). "¡Cállate y haz lo imposible!" . Consultado el 11 de agosto de 2015 . Hubo tres experimentos más de AI-Box además de los descritos en la página vinculada, que nunca logré agregar... Entonces, después de investigar para asegurarme de que podían darse el lujo de perderlo, jugué otros tres experimentos de AI-Box. experimentos. Gané el primero y luego perdí los dos siguientes. Y entonces le dije que se detuviera.
^ Vinge, Vernor (1993). "La singularidad tecnológica que se avecina: cómo sobrevivir en la era poshumana". Vision-21: Ciencia e ingeniería interdisciplinarias en la era del ciberespacio : 11–22. Código Bib : 1993vise.nasa...11V. Sostengo que el confinamiento es intrínsecamente impracticable. Para el caso de confinamiento físico: Imagínese confinado en su casa con acceso limitado a datos del exterior, a sus amos. Si esos maestros pensaran a un ritmo, digamos, un millón de veces más lento que el tuyo, no hay duda de que durante un período de años (tu tiempo) podrías darte "consejos útiles" que, de paso, te harían libre.
^ Yampolskiy, romano (2012). "Refuerzo del problema de confinamiento de la inteligencia artificial de la singularidad". Revista de estudios de la conciencia : 194–214.
^ Robbins, Martín (26 de enero de 2016). "Inteligencia artificial: dioses, egos y Ex Machina". El guardián . Consultado el 9 de abril de 2018 .
^ Achenbach, Joel (30 de diciembre de 2015). ""Ex Machina "y los sujetapapeles de la fatalidad". El Correo de Washington . Consultado el 9 de abril de 2018 .

enlaces externos

Descripción de Eliezer Yudkowsky de su experimento de caja de IA, incluidos protocolos experimentales y sugerencias para su replicación.
"Presentación titulada 'Pensando dentro de la caja: usando y controlando una IA de Oracle'" en YouTube