Inteligencia artificial amigable

La inteligencia artificial amigable ( IA amigable o IAF ) es una inteligencia artificial general (IAG) hipotética que tendría un efecto positivo (benigno) en la humanidad o al menos se alinearía con los intereses humanos o contribuiría a fomentar la mejora de la especie humana. Es parte de la ética de la inteligencia artificial y está estrechamente relacionada con la ética de las máquinas . Mientras que la ética de las máquinas se ocupa de cómo debería comportarse un agente artificialmente inteligente, la investigación sobre inteligencia artificial amigable se centra en cómo lograr en la práctica este comportamiento y garantizar que esté adecuadamente restringido.

Etimología y uso

El término fue acuñado por Eliezer Yudkowsky , ^[1] quien es más conocido por popularizar la idea, ^[2]^[3] para hablar de agentes artificiales superinteligentes que implementan de manera confiable los valores humanos. El principal libro de texto de inteligencia artificial de Stuart J. Russell y Peter Norvig , Artificial Intelligence: A Modern Approach , describe la idea: ^[2]

Yudkowsky (2008) analiza en mayor detalle cómo diseñar una IA amigable . Afirma que la amabilidad (el deseo de no dañar a los humanos) debe diseñarse desde el principio, pero que los diseñadores deben reconocer que sus propios diseños pueden tener fallas y que el robot aprenderá y evolucionará con el tiempo. Por lo tanto, el desafío es de diseño de mecanismos: definir un mecanismo para la evolución de los sistemas de IA bajo un sistema de controles y contrapesos, y dar a los sistemas funciones de utilidad que sigan siendo amigables frente a tales cambios.

En este contexto, el término "amigable" se utiliza como término técnico y se refiere a agentes que son seguros y útiles, no necesariamente a aquellos que son "amigables" en el sentido coloquial. El concepto se invoca principalmente en el contexto de las discusiones sobre agentes artificiales que se mejoran recursivamente y que explotan rápidamente en inteligencia , con el argumento de que esta tecnología hipotética tendría un impacto grande, rápido y difícil de controlar en la sociedad humana. ^[4]

Riesgos de una IA hostil

Las raíces de la preocupación por la inteligencia artificial son muy antiguas. Kevin LaGrandeur demostró que los peligros específicos de la IA pueden verse en la literatura antigua sobre sirvientes humanoides artificiales como el gólem o los proto-robots de Gerberto de Aurillac y Roger Bacon . En esas historias, la inteligencia y el poder extremos de estas creaciones humanoides chocan con su condición de esclavos (que por naturaleza son vistos como subhumanos) y causan un conflicto desastroso. ^[5] En 1942, estos temas impulsaron a Isaac Asimov a crear las " Tres Leyes de la Robótica ", principios incorporados a todos los robots de su ficción, destinados a evitar que se vuelvan contra sus creadores o permitan que sufran daños. ^[6]

En los tiempos modernos, cuando la perspectiva de una IA superinteligente se acerca cada vez más, el filósofo Nick Bostrom ha dicho que los sistemas de IA superinteligentes con objetivos que no están alineados con la ética humana son intrínsecamente peligrosos a menos que se tomen medidas extremas para garantizar la seguridad de la humanidad. Lo expresó de esta manera:

Básicamente, deberíamos suponer que una "superinteligencia" sería capaz de alcanzar cualquier objetivo que se proponga. Por lo tanto, es sumamente importante que los objetivos que le asignemos, y todo su sistema de motivación, sean "aptos para los humanos".

En 2008, Eliezer Yudkowsky hizo un llamamiento a la creación de una “IA amigable” para mitigar el riesgo existencial que supone la inteligencia artificial avanzada . Explica: “La IA no te odia ni te ama, pero estás hecho de átomos que puede utilizar para otra cosa”. ^[7]

Steve Omohundro dice que un sistema de IA suficientemente avanzado, a menos que se contrarreste explícitamente, exhibirá una serie de "impulsos" básicos , como la adquisición de recursos, la autoconservación y la automejora continua, debido a la naturaleza intrínseca de cualquier sistema impulsado por objetivos y que estos impulsos, "sin precauciones especiales", harán que la IA exhiba un comportamiento no deseado. ^[8]^[9]

Alexander Wissner-Gross dice que las IA impulsadas a maximizar su futura libertad de acción (o entropía de la trayectoria causal) podrían considerarse amigables si su horizonte de planificación es más largo que un cierto umbral, y hostiles si su horizonte de planificación es más corto que ese umbral. ^[10]^[11]

Luke Muehlhauser, que escribe para el Machine Intelligence Research Institute , recomienda que los investigadores en ética de las máquinas adopten lo que Bruce Schneier ha llamado la "mentalidad de seguridad": en lugar de pensar en cómo funcionará un sistema, imaginen cómo podría fallar. Por ejemplo, sugiere que incluso una IA que solo haga predicciones precisas y se comunique a través de una interfaz de texto podría causar daños no deseados. ^[12]

En 2014, Luke Muehlhauser y Nick Bostrom subrayaron la necesidad de una «IA amigable»; ^[13] no obstante, las dificultades para diseñar una superinteligencia «amigable», por ejemplo mediante la programación del pensamiento moral contrafáctico, son considerables. ^[14]^[15]

Volición extrapolada coherente

Yudkowsky propone el modelo de la Volición Extrapolada Coherente (VCE). Según él, nuestra volición extrapolada coherente es “nuestro deseo de saber más, pensar más rápido, ser más personas como deseamos ser, haber crecido más juntos; donde la extrapolación converge en lugar de divergir, donde nuestros deseos son coherentes en lugar de interferir; extrapolados como deseamos que sean extrapolados, interpretados como deseamos que sean interpretados”. ^[16]

En lugar de que una IA amigable sea diseñada directamente por programadores humanos, debe ser diseñada por una "IA semilla" programada para estudiar primero la naturaleza humana y luego producir la IA que la humanidad querría, si se le diera suficiente tiempo y conocimiento, para llegar a una respuesta satisfactoria. ^[16] La apelación a una naturaleza humana objetiva a través de la contingente (tal vez expresada, para fines matemáticos, en la forma de una función de utilidad u otro formalismo de teoría de decisiones ), como proveedor del criterio último de "Amabilidad", es una respuesta al problema metaético de definir una moralidad objetiva ; la volición extrapolada pretende ser lo que la humanidad objetivamente querría, considerando todas las cosas, pero solo puede definirse en relación con las cualidades psicológicas y cognitivas de la humanidad actual, no extrapolada.

Otros enfoques

Steve Omohundro ha propuesto un enfoque de "andamiaje" para la seguridad de la IA , en el que una generación de IA demostrablemente segura ayuda a construir la siguiente generación demostrablemente segura. ^[17]

Seth Baum sostiene que el desarrollo de una inteligencia artificial segura y socialmente beneficiosa o una inteligencia artificial general es una función de la psicología social de las comunidades de investigación de IA, y por lo tanto puede verse limitado por medidas extrínsecas y motivado por medidas intrínsecas. Las motivaciones intrínsecas pueden fortalecerse cuando los mensajes resuenan entre los desarrolladores de IA; Baum sostiene que, por el contrario, "los mensajes existentes sobre la IA beneficiosa no siempre están bien formulados". Baum aboga por "relaciones cooperativas y un encuadre positivo de los investigadores de IA" y advierte contra la caracterización de los investigadores de IA como "no querer(n) perseguir diseños beneficiosos". ^[18]

En su libro Human Compatible , el investigador de IA Stuart J. Russell enumera tres principios para guiar el desarrollo de máquinas beneficiosas. Destaca que estos principios no están destinados a ser codificados explícitamente en las máquinas, sino que están destinados a los desarrolladores humanos. Los principios son los siguientes: ^[19]^{: 173}

El único objetivo de la máquina es maximizar la realización de las preferencias humanas.
Al principio, la máquina no está segura de cuáles son esas preferencias.
La fuente última de información sobre las preferencias humanas es el comportamiento humano.

Las "preferencias" a las que se refiere Russell "son omnipresentes; cubren todo lo que te pueda interesar, arbitrariamente lejos en el futuro". ^[19]^{: 173} De manera similar, "comportamiento" incluye cualquier elección entre opciones, ^[19]^{: 177} y la incertidumbre es tal que debe asignarse alguna probabilidad, que puede ser bastante pequeña, a cada preferencia humana lógicamente posible. ^[19]^{: 201}

Políticas públicas

James Barrat , autor de Our Final Invention , sugirió que "se debe crear una asociación público-privada para reunir a los creadores de IA para compartir ideas sobre seguridad, algo así como la Agencia Internacional de Energía Atómica , pero en asociación con corporaciones". Insta a los investigadores de IA a convocar una reunión similar a la Conferencia de Asilomar sobre ADN recombinante , que discutió los riesgos de la biotecnología . ^[17]

John McGinnis alienta a los gobiernos a acelerar la investigación en IA amigable. Como los objetivos de la IA amigable no son necesariamente eminentes, sugiere un modelo similar al de los Institutos Nacionales de Salud , donde "paneles de revisión por pares compuestos por científicos informáticos y cognitivos examinarían los proyectos y elegirían aquellos que están diseñados tanto para avanzar en la IA como para garantizar que dichos avances estén acompañados de las salvaguardas adecuadas". McGinnis cree que la revisión por pares es mejor "que la regulación para abordar cuestiones técnicas que no es posible abordar mediante mandatos burocráticos". McGinnis señala que su propuesta contrasta con la del Instituto de Investigación de Inteligencia Artificial , que generalmente tiene como objetivo evitar la participación del gobierno en la IA amigable. ^[20]

Crítica

Algunos críticos creen que tanto la IA de nivel humano como la superinteligencia son poco probables y que, por lo tanto, la IA amistosa es poco probable. En un artículo publicado en The Guardian , Alan Winfield compara la inteligencia artificial de nivel humano con los viajes más rápidos que la luz en términos de dificultad y afirma que, si bien debemos ser "cautelosos y estar preparados" dado lo que está en juego, "no necesitamos obsesionarnos" con los riesgos de la superinteligencia. ^[21] Boyles y Joaquin, por otro lado, sostienen que la propuesta de Luke Muehlhauser y Nick Bostrom de crear IA amistosas parece ser sombría. Esto se debe a que Muehlhauser y Bostrom parecen sostener la idea de que las máquinas inteligentes podrían ser programadas para pensar de manera contrafáctica sobre los valores morales que habrían tenido los seres humanos. ^[13] En un artículo en AI & Society , Boyles y Joaquín sostienen que tales IA no serían tan amigables considerando lo siguiente: la cantidad infinita de condiciones contrafácticas antecedentes que tendrían que ser programadas en una máquina, la dificultad de hacer realidad el conjunto de valores morales —es decir, aquellos que son más ideales que los que los seres humanos poseen en la actualidad— y la aparente desconexión entre los antecedentes contrafácticos y el valor ideal consecuente. ^[14]

Algunos filósofos sostienen que cualquier agente verdaderamente "racional", ya sea artificial o humano, será naturalmente benévolo; desde este punto de vista, las salvaguardas deliberadas diseñadas para producir una IA amigable podrían ser innecesarias o incluso dañinas. ^[22] Otros críticos cuestionan si es posible que una inteligencia artificial sea amigable. Adam Keiper y Ari N. Schulman, editores de la revista tecnológica The New Atlantis , dicen que será imposible garantizar alguna vez un comportamiento "amigable" en las IA porque los problemas de complejidad ética no cederán ante los avances del software o los aumentos en la potencia informática. Escriben que los criterios en los que se basan las teorías de la IA amigable funcionan "solo cuando uno no solo tiene grandes poderes de predicción sobre la probabilidad de una miríada de resultados posibles, sino también certeza y consenso sobre cómo se valoran los diferentes resultados". ^[23]

El funcionamiento interno de los sistemas avanzados de IA puede ser complejo y difícil de interpretar, lo que genera preocupaciones sobre la transparencia y la rendición de cuentas. ^[24]

Véase también

Referencias

^ Tegmark, Max (2014). "La vida, nuestro universo y todo lo demás". Nuestro universo matemático: mi búsqueda de la naturaleza última de la realidad (primera edición). Knopf Doubleday Publishing. ISBN 9780307744258Su propietario puede ceder el control a lo que Eliezer Yudkowsky llama una "IA amistosa".
^ de Russell, Stuart ; Norvig, Peter (2009). Inteligencia artificial: un enfoque moderno . Prentice Hall. ISBN 978-0-13-604259-4.
^ Leighton, Jonathan (2011). La batalla por la compasión: ética en un universo apático . Algora. ISBN 978-0-87586-870-7.
^ Wallach, Wendell; Allen, Colin (2009). Máquinas morales: enseñar a los robots a distinguir el bien del mal . Oxford University Press, Inc. ISBN 978-0-19-537404-9.
^ Kevin LaGrandeur (2011). «El peligro persistente del esclavo artificial». Science Fiction Studies . 38 (2): 232. doi :10.5621/sciefictstud.38.2.0232. Archivado desde el original el 13 de enero de 2023. Consultado el 6 de mayo de 2013 .
^ Isaac Asimov (1964). "Introducción" . El resto de los robots . Doubleday. ISBN 0-385-09041-2.
^ Eliezer Yudkowsky (2008). "La inteligencia artificial como factor positivo y negativo en el riesgo global" (PDF) . En Nick Bostrom; Milan M. Ćirković (eds.). Global Catastrophic Risks . pp. 308–345. Archivado (PDF) desde el original el 19 de octubre de 2013. Consultado el 19 de octubre de 2013 .
^ Omohundro, SM (febrero de 2008). "Los impulsos básicos de la IA". Inteligencia artificial general . 171 : 483–492. CiteSeerX 10.1.1.393.8356 .
^ Bostrom, Nick (2014). "Capítulo 7: La voluntad superinteligente". Superinteligencia: caminos, peligros, estrategias . Oxford: Oxford University Press. ISBN 9780199678112.
^ Dvorsky, George (26 de abril de 2013). «Cómo podría surgir Skynet a partir de la física simple». Gizmodo . Archivado desde el original el 8 de octubre de 2021. Consultado el 23 de diciembre de 2021 .
^ Wissner-Gross, AD ; Freer, CE (2013). "Fuerzas entrópicas causales". Physical Review Letters . 110 (16): 168702. Bibcode :2013PhRvL.110p8702W. doi : 10.1103/PhysRevLett.110.168702 . hdl : 1721.1/79750 . PMID 23679649.
^ Muehlhauser, Luke (31 de julio de 2013). «AI Risk and the Security Mindset» (Riesgo de IA y mentalidad de seguridad). Machine Intelligence Research Institute . Archivado desde el original el 19 de julio de 2014. Consultado el 15 de julio de 2014 .
^ ab Muehlhauser, Luke; Bostrom, Nick (17 de diciembre de 2013). "Por qué necesitamos una IA amigable". Think . 13 (36): 41–47. doi :10.1017/s1477175613000316. ISSN 1477-1756. S2CID 143657841.
^ ab Boyles, Robert James M.; Joaquin, Jeremiah Joven (23 de julio de 2019). "Por qué las IA amigables no serán tan amigables: una respuesta amistosa a Muehlhauser y Bostrom". AI & Society . 35 (2): 505–507. doi :10.1007/s00146-019-00903-0. ISSN 0951-5666. S2CID 198190745.
^ Chan, Berman (4 de marzo de 2020). «El auge de la inteligencia artificial y la crisis de la pasividad moral». AI & Society . 35 (4): 991–993. doi :10.1007/s00146-020-00953-9. ISSN 1435-5655. S2CID 212407078. Archivado desde el original el 10 de febrero de 2023 . Consultado el 21 de enero de 2023 .
^ de Eliezer Yudkowsky (2004). "Coherent Extrapolated Volition" (PDF) . Singularity Institute for Artificial Intelligence. Archivado (PDF) del original el 30 de septiembre de 2015. Consultado el 12 de septiembre de 2015 .
^ ab Hendry, Erica R. (21 de enero de 2014). "¿Qué sucede cuando la inteligencia artificial se vuelve contra nosotros?". Revista Smithsonian . Archivado desde el original el 19 de julio de 2014. Consultado el 15 de julio de 2014 .
^ Baum, Seth D. (28 de septiembre de 2016). "Sobre la promoción de una inteligencia artificial segura y socialmente beneficiosa". AI & Society . 32 (4): 543–551. doi :10.1007/s00146-016-0677-0. ISSN 0951-5666. S2CID 29012168.
^ abcd Russell, Stuart (8 de octubre de 2019). Human Compatible: Artificial Intelligence and the Problem of Control . Estados Unidos: Viking. ISBN 978-0-525-55861-3.OCLC 1083694322 .
^ McGinnis, John O. (verano de 2010). «Accelerating AI» (Acelerando la IA). Northwestern University Law Review . 104 (3): 1253–1270. Archivado desde el original el 1 de diciembre de 2014. Consultado el 16 de julio de 2014 .
^ Winfield, Alan (9 de agosto de 2014). «La inteligencia artificial no se convertirá en un monstruo de Frankenstein». The Guardian . Archivado desde el original el 17 de septiembre de 2014. Consultado el 17 de septiembre de 2014 .
^ Kornai, András (15 de mayo de 2014). "Bounding the impact of AGI". Journal of Experimental & Theoretical Artificial Intelligence . 26 (3). Informa UK Limited: 417–438. doi :10.1080/0952813x.2014.895109. ISSN 0952-813X. S2CID 7067517. ...la esencia de las IAG es su capacidad de razonamiento, y es la lógica misma de su ser la que las obligará a comportarse de manera moral... El verdadero escenario de pesadilla (es uno en el que) los humanos encuentran ventajoso acoplarse fuertemente a las IAG, sin garantías contra el autoengaño.
^ Keiper, Adam; Schulman, Ari N. (verano de 2011). «El problema de la inteligencia artificial «amistosa»». The New Atlantis . N.º 32. págs. 80–89. Archivado desde el original el 15 de enero de 2012 . Consultado el 16 de enero de 2012 .
^ Norvig, Peter; Russell, Stuart (2010). Inteligencia artificial: un enfoque moderno (3.ª ed.). Pearson. ISBN 978-0136042594.

Lectura adicional

Yudkowsky, E. La inteligencia artificial como factor positivo y negativo en el riesgo global. En Global Catastrophic Risks , Oxford University Press, 2008.
Analiza la inteligencia artificial desde la perspectiva del riesgo existencial . En particular, las secciones 1 a 4 brindan antecedentes sobre la definición de IA amigable en la sección 5. La sección 6 brinda dos clases de errores (técnicos y filosóficos) que llevarían a la creación accidental de IA no amigables. Las secciones 7 a 13 analizan otros temas relacionados.
Omohundro, S. 2008 Los impulsores básicos de la IA aparecieron en AGI-08 - Actas de la primera conferencia sobre inteligencia artificial general
Mason, C. 2008 La IA a nivel humano requiere inteligencia compasiva Archivado el 9 de enero de 2022 en Wayback Machine Aparece en Taller AAAI 2008 sobre metarrazonamiento: pensar sobre el pensamiento
Froding, B. y Peterson, M 2021 Friendly AI Ethics and Information Technology volumen 23, págs. 207-214.

Enlaces externos

Cuestiones éticas en la inteligencia artificial avanzada por Nick Bostrom
¿Qué es la IA amigable? — Una breve descripción de la IA amigable realizada por el Machine Intelligence Research Institute.
Creación de una IA amigable 1.0: el análisis y el diseño de arquitecturas de objetivos benévolos: una descripción casi extensa del MIRI
Crítica de las directrices MIRI sobre IA amigable — por Bill Hibbard
Comentario sobre las directrices de MIRI sobre IA amigable — por Peter Voss.
El problema de la inteligencia artificial «amigable»: sobre los motivos y la imposibilidad de la inteligencia artificial, por Adam Keiper y Ari N. Schulman.