Inteligencia artificial amigable

La inteligencia artificial amigable (también IA amigable o FAI ) es una hipotética inteligencia artificial general (AGI) que tendría un efecto positivo (benigno) en la humanidad o al menos se alinearía con los intereses humanos o contribuiría a fomentar la mejora de la especie humana. Es parte de la ética de la inteligencia artificial y está estrechamente relacionada con la ética de las máquinas . Mientras que la ética de las máquinas se preocupa por cómo debe comportarse un agente con inteligencia artificial, la investigación amigable sobre inteligencia artificial se centra en cómo lograr de manera práctica este comportamiento y garantizar que esté adecuadamente restringido.

Etimología y uso

El término fue acuñado por Eliezer Yudkowsky , ^[1] mejor conocido por popularizar la idea, ^[2]^[3] para hablar de agentes artificiales superinteligentes que implementan de manera confiable los valores humanos. El principal libro de texto sobre inteligencia artificial de Stuart J. Russell y Peter Norvig , Artificial Intelligence: A Modern Approach , describe la idea: ^[2]

Yudkowsky (2008) entra en más detalles sobre cómo diseñar una IA amigable . Afirma que la amistad (el deseo de no dañar a los humanos) debe diseñarse desde el principio, pero que los diseñadores deben reconocer que sus propios diseños pueden tener fallas y que el robot aprenderá y evolucionará con el tiempo. Por lo tanto, el desafío es de diseño de mecanismos: definir un mecanismo para la evolución de los sistemas de IA bajo un sistema de controles y equilibrios, y otorgar a los sistemas funciones de utilidad que sigan siendo amigables frente a tales cambios.

"Amigable" se utiliza en este contexto como terminología técnica y selecciona agentes que son seguros y útiles, no necesariamente aquellos que son "amigables" en el sentido coloquial. El concepto se invoca principalmente en el contexto de discusiones sobre agentes artificiales que se mejoran recursivamente y que rápidamente explotan en inteligencia , con el argumento de que esta tecnología hipotética tendría un impacto grande, rápido y difícil de controlar en la sociedad humana. ^[4]

Riesgos de una IA hostil

Las raíces de la preocupación por la inteligencia artificial son muy antiguas. Kevin LaGrandeur demostró que los peligros específicos de la IA se pueden ver en la literatura antigua sobre sirvientes humanoides artificiales como el golem o los proto-robots de Gerbert de Aurillac y Roger Bacon . En esas historias, la extrema inteligencia y el poder de estas creaciones humanoides chocan con su condición de esclavos (que por naturaleza son vistos como subhumanos) y causan conflictos desastrosos. ^[5] En 1942, estos temas llevaron a Isaac Asimov a crear las " Tres Leyes de la Robótica ", principios integrados en todos los robots de su ficción, destinados a evitar que se vuelvan contra sus creadores o permitirles sufrir daños. ^[6]

En los tiempos modernos, a medida que la perspectiva de una IA superinteligente se acerca, el filósofo Nick Bostrom ha dicho que los sistemas de IA superinteligentes con objetivos que no están alineados con la ética humana son intrínsecamente peligrosos a menos que se tomen medidas extremas para garantizar la seguridad de la humanidad. Lo expresó de esta manera:

Básicamente, deberíamos suponer que una "superinteligencia" sería capaz de alcanzar cualquier objetivo que se proponga. Por lo tanto, es extremadamente importante que los objetivos que le asignamos, y todo su sistema de motivación, sea "amigable con los humanos".

En 2008, Eliezer Yudkowsky pidió la creación de una "IA amigable" para mitigar el riesgo existencial de la inteligencia artificial avanzada . Explica: "La IA no te odia ni te ama, pero estás hecho de átomos que puede utilizar para otra cosa". ^[7]

Steve Omohundro dice que un sistema de IA suficientemente avanzado, a menos que se contrarreste explícitamente, exhibirá una serie de "impulsos" básicos , como la adquisición de recursos, la autoconservación y la superación personal continua, debido a la naturaleza intrínseca de cualquier sistema impulsado por objetivos. y que estos impulsos, "sin precauciones especiales", harán que la IA muestre un comportamiento no deseado. ^[8]^[9]

Alexander Wissner-Gross dice que las IA impulsadas a maximizar su libertad de acción futura (o entropía de la ruta causal) podrían considerarse amigables si su horizonte de planificación es más largo que un cierto umbral, y hostiles si su horizonte de planificación es más corto que ese umbral. ^[10]^[11]

Luke Muehlhauser, que escribe para el Machine Intelligence Research Institute , recomienda que los investigadores de ética de las máquinas adopten lo que Bruce Schneier ha llamado la "mentalidad de seguridad": en lugar de pensar en cómo funcionará un sistema, imagine cómo podría fallar. Por ejemplo, sugiere que incluso una IA que sólo haga predicciones precisas y se comunique a través de una interfaz de texto podría causar daños no deseados. ^[12]

En 2014, Luke Muehlhauser y Nick Bostrom subrayaron la necesidad de una "IA amigable"; ^[13] sin embargo, las dificultades para diseñar una superinteligencia "amigable", por ejemplo mediante la programación del pensamiento moral contrafáctico, son considerables. ^[14]^[15]

Volición coherente extrapolada

Yudkowsky propone el modelo de Voluntad Extrapolada Coherente (VCE). Según él, nuestra volición coherente extrapolada es "nuestro deseo si supiéramos más, pensáramos más rápido, fuéramos más las personas que desearíamos ser, hubiéramos crecido más juntos; donde la extrapolación converge en lugar de divergir, donde nuestros deseos son coherentes en lugar de interferir". ; extrapolado como queremos que extrapolado, interpretado como queremos que interpretado". ^[dieciséis]

En lugar de que una IA amigable sea diseñada directamente por programadores humanos, debe ser diseñada por una "IA semilla" programada para estudiar primero la naturaleza humana y luego producir la IA que la humanidad desearía, con suficiente tiempo y conocimientos, para llegar a un resultado satisfactorio. respuesta. ^[16] La apelación a un objetivo a través de la naturaleza humana contingente (quizás expresada, para fines matemáticos, en la forma de una función de utilidad u otro formalismo teórico de la decisión ), como criterio último de "amabilidad", es una respuesta a la problema metaético de definir una moral objetiva ; La volición extrapolada pretende ser lo que la humanidad objetivamente desearía, considerando todas las cosas, pero sólo puede definirse en relación con las cualidades psicológicas y cognitivas de la humanidad actual no extrapolada.

Otros enfoques

Steve Omohundro ha propuesto un enfoque de "andamio" para la seguridad de la IA , en el que una generación de IA demostrablemente segura ayuda a construir la siguiente generación demostrablemente segura. ^[17]

Seth Baum sostiene que el desarrollo de inteligencia artificial o inteligencia artificial general segura y socialmente beneficiosa es una función de la psicología social de las comunidades de investigación de IA y, por lo tanto, puede verse limitado por medidas extrínsecas y motivado por medidas intrínsecas. Las motivaciones intrínsecas pueden fortalecerse cuando los mensajes resuenan entre los desarrolladores de IA; Baum sostiene que, por el contrario, "los mensajes existentes sobre la IA beneficiosa no siempre están bien formulados". Baum aboga por "relaciones de cooperación y un marco positivo para los investigadores de IA" y advierte contra caracterizar a los investigadores de IA como "que no quieren perseguir diseños beneficiosos". ^[18]

En su libro Human Compatible , el investigador de IA Stuart J. Russell enumera tres principios para guiar el desarrollo de máquinas beneficiosas. Destaca que estos principios no deben codificarse explícitamente en las máquinas; más bien, están destinados a desarrolladores humanos. Los principios son los siguientes: ^[19]^{: 173}

El único objetivo de la máquina es maximizar la realización de las preferencias humanas.
Inicialmente, la máquina no está segura de cuáles son esas preferencias.
La fuente fundamental de información sobre las preferencias humanas es el comportamiento humano.

Las "preferencias" a las que se refiere Russell "lo abarcan todo; cubren todo lo que pueda interesarle, arbitrariamente en un futuro lejano". ^[19]^{: 173} De manera similar, "comportamiento" incluye cualquier elección entre opciones, ^[19]^{: 177} y la incertidumbre es tal que se debe asignar cierta probabilidad, que puede ser bastante pequeña, a cada preferencia humana lógicamente posible. ^[19]^{: 201}

Política pública

James Barrat , autor de Our Final Invention , sugirió que "se debe crear una asociación público-privada para reunir a los creadores de IA para compartir ideas sobre seguridad, algo así como la Agencia Internacional de Energía Atómica , pero en asociación con corporaciones". Insta a los investigadores de IA a convocar una reunión similar a la Conferencia de Asilomar sobre ADN recombinante , en la que se discutieron los riesgos de la biotecnología . ^[17]

John McGinnis alienta a los gobiernos a acelerar la investigación amigable en IA. Debido a que los objetivos de una IA amigable no son necesariamente eminentes, sugiere un modelo similar al de los Institutos Nacionales de Salud , donde "paneles de revisión por pares de científicos informáticos y cognitivos examinarían proyectos y elegirían aquellos que están diseñados tanto para hacer avanzar la IA como para garantizar que tales avances irían acompañados de salvaguardias apropiadas." McGinnis considera que la revisión por pares es mejor "que la regulación para abordar cuestiones técnicas que no es posible captar mediante mandatos burocráticos". McGinnis señala que su propuesta contrasta con la del Machine Intelligence Research Institute , que generalmente apunta a evitar la participación del gobierno en la IA amigable. ^[20]

Crítica

Algunos críticos creen que tanto la IA a nivel humano como la superinteligencia son poco probables y que, por lo tanto, la IA amigable es poco probable. En un artículo de The Guardian , Alan Winfield compara la inteligencia artificial a nivel humano con los viajes más rápidos que la luz en términos de dificultad, y afirma que si bien debemos ser "cautelosos y estar preparados" dado lo que está en juego, "no necesitamos obsesionarse" con los riesgos de la superinteligencia. ^[21] Boyles y Joaquin, por otro lado, sostienen que la propuesta de Luke Muehlhauser y Nick Bostrom de crear IA amigables parece ser sombría. Esto se debe a que Muehlhauser y Bostrom parecen sostener la idea de que las máquinas inteligentes podrían programarse para pensar de manera contrafáctica sobre los valores morales que los seres humanos habrían tenido. ^[13] En un artículo en AI & Society , Boyles y Joaquin sostienen que tales IA no serían tan amigables considerando lo siguiente: la cantidad infinita de condiciones contrafácticas antecedentes que tendrían que programarse en una máquina, la dificultad de cobrar el conjunto de valores morales, es decir, aquellos que son más ideales que los que los seres humanos poseen en la actualidad, y la aparente desconexión entre los antecedentes contrafácticos y el valor ideal consecuente. ^[14]

Algunos filósofos afirman que cualquier agente verdaderamente "racional", ya sea artificial o humano, será naturalmente benevolente; Desde este punto de vista, las salvaguardias deliberadas diseñadas para producir una IA amigable podrían ser innecesarias o incluso perjudiciales. ^[22] Otros críticos cuestionan si es posible que una inteligencia artificial sea amigable. Adam Keiper y Ari N. Schulman, editores de la revista tecnológica The New Atlantis , dicen que será imposible garantizar alguna vez un comportamiento "amigable" en las IA porque los problemas de complejidad ética no cederán ante los avances del software o los aumentos en la potencia informática. Escriben que los criterios en los que se basan las teorías amigables de la IA funcionan "sólo cuando uno no sólo tiene grandes poderes de predicción sobre la probabilidad de innumerables resultados posibles, sino también certeza y consenso sobre cómo se valoran los diferentes resultados" ^.

El funcionamiento interno de los sistemas avanzados de IA puede ser complejo y difícil de interpretar, lo que genera preocupaciones sobre la transparencia y la rendición de cuentas. ^[24]

Ver también

Referencias

^ Tegmark, Max (2014). "La vida, nuestro universo y todo". Nuestro universo matemático: mi búsqueda de la naturaleza última de la realidad (Primera ed.). Editorial Knopf Doubleday. ISBN 9780307744258. Su propietario puede ceder el control a lo que Eliezer Yudkowsky denomina una "IA amistosa"...
^ ab Russell, Estuardo ; Norvig, Peter (2009). Inteligencia artificial: un enfoque moderno . Prentice Hall. ISBN 978-0-13-604259-4.
^ Leighton, Jonathan (2011). La batalla por la compasión: la ética en un universo apático . Algora. ISBN 978-0-87586-870-7.
^ Wallach, Wendell; Allen, Colin (2009). Máquinas morales: enseñar a los robots el bien y el mal . Prensa de la Universidad de Oxford, Inc. ISBN 978-0-19-537404-9.
^ Kevin LaGrandeur (2011). "El peligro persistente del esclavo artificial". Estudios de ciencia ficción . 38 (2): 232. doi :10.5621/sciefictstud.38.2.0232. Archivado desde el original el 13 de enero de 2023 . Consultado el 6 de mayo de 2013 .
^ Isaac Asimov (1964). "Introducción" . El resto de los robots . Doble día. ISBN 0-385-09041-2.
^ Eliezer Yudkowsky (2008). «La inteligencia artificial como factor positivo y negativo del riesgo global» (PDF) . En Nick Bostrom; Milán M. Ćirković (eds.). Riesgos catastróficos globales . págs. 308–345. Archivado (PDF) desde el original el 19 de octubre de 2013 . Consultado el 19 de octubre de 2013 .
^ Omohundro, SM (febrero de 2008). "Los motores básicos de IA". Inteligencia General Artificial . 171 : 483–492. CiteSeerX 10.1.1.393.8356 .
^ Bostrom, Nick (2014). "Capítulo 7: La voluntad superinteligente". Superinteligencia: caminos, peligros, estrategias . Oxford: Prensa de la Universidad de Oxford. ISBN 9780199678112.
^ Dvorsky, George (26 de abril de 2013). "Cómo podría surgir Skynet de la física simple". Gizmodo . Archivado desde el original el 8 de octubre de 2021 . Consultado el 23 de diciembre de 2021 .
^ Wissner-Gross, ANUNCIO ; Más libre, CE (2013). "Fuerzas entrópicas causales". Cartas de revisión física . 110 (16): 168702. Código bibliográfico : 2013PhRvL.110p8702W. doi : 10.1103/PhysRevLett.110.168702 . hdl : 1721.1/79750 . PMID 23679649.
^ Muehlhauser, Luke (31 de julio de 2013). "Riesgo de la IA y mentalidad de seguridad". Instituto de Investigación de Inteligencia Artificial . Archivado desde el original el 19 de julio de 2014 . Consultado el 15 de julio de 2014 .
^ ab Muehlhauser, Lucas; Bostrom, Nick (17 de diciembre de 2013). "Por qué necesitamos una IA amigable". Pensar . 13 (36): 41–47. doi :10.1017/s1477175613000316. ISSN 1477-1756. S2CID 143657841.
^ ab Boyles, Robert James M.; Joaquín, Jeremías Joven (23 de julio de 2019). "Por qué las IA amigables no serán tan amigables: una respuesta amistosa a Muehlhauser y Bostrom". IA y sociedad . 35 (2): 505–507. doi :10.1007/s00146-019-00903-0. ISSN 0951-5666. S2CID 198190745.
^ Chan, Berman (4 de marzo de 2020). "El auge de la inteligencia artificial y la crisis de la pasividad moral". IA y sociedad . 35 (4): 991–993. doi :10.1007/s00146-020-00953-9. ISSN 1435-5655. S2CID 212407078. Archivado desde el original el 10 de febrero de 2023 . Consultado el 21 de enero de 2023 .
^ ab Eliezer Yudkowsky (2004). "Volición coherente extrapolada" (PDF) . Instituto de Singularidad para la Inteligencia Artificial. Archivado (PDF) desde el original el 30 de septiembre de 2015 . Consultado el 12 de septiembre de 2015 .
^ ab Hendry, Erica R. (21 de enero de 2014). "¿Qué sucede cuando la inteligencia artificial se vuelve contra nosotros?". Revista Smithsonian . Archivado desde el original el 19 de julio de 2014 . Consultado el 15 de julio de 2014 .
^ Baum, Seth D. (28 de septiembre de 2016). "Sobre la promoción de una inteligencia artificial segura y socialmente beneficiosa". IA y sociedad . 32 (4): 543–551. doi :10.1007/s00146-016-0677-0. ISSN 0951-5666. S2CID 29012168.
^ abcd Russell, Stuart (8 de octubre de 2019). Compatible con humanos: la inteligencia artificial y el problema del control . Estados Unidos: Vikingo. ISBN 978-0-525-55861-3. OCLC 1083694322.
^ McGinnis, John O. (verano de 2010). "Acelerando la IA". Revista de derecho de la Universidad Northwestern . 104 (3): 1253-1270. Archivado desde el original el 1 de diciembre de 2014 . Consultado el 16 de julio de 2014 .
^ Winfield, Alan (9 de agosto de 2014). "La inteligencia artificial no se convertirá en el monstruo de Frankenstein". El guardián . Archivado desde el original el 17 de septiembre de 2014 . Consultado el 17 de septiembre de 2014 .
^ Kornai, András (15 de mayo de 2014). "Limitar el impacto de AGI". Revista de inteligencia artificial teórica y experimental . 26 (3). Informa Reino Unido limitado: 417–438. doi :10.1080/0952813x.2014.895109. ISSN 0952-813X. S2CID 7067517. ... la esencia de los AGI es su capacidad de razonamiento, y es la lógica misma de su ser la que los obligará a comportarse de manera moral... El verdadero escenario de pesadilla (es aquel en el que) los humanos lo encuentran ventajoso. vincularse fuertemente a los AGI, sin garantías contra el autoengaño.
^ Keiper, Adán; Schulman, Ari N. (verano de 2011). "El problema de la inteligencia artificial 'amigable'". La Nueva Atlántida . Núm. 32. págs. 80–89. Archivado desde el original el 15 de enero de 2012 . Consultado el 16 de enero de 2012 .
^ Noruega, Peter; Russell, Estuardo (2010). Inteligencia artificial: un enfoque moderno (3ª ed.). Pearson. ISBN 978-0136042594.

Otras lecturas

Yudkowsky, E. La inteligencia artificial como factor positivo y negativo del riesgo global. En Global Catastrophic Risks , Oxford University Press, 2008.
Analiza la Inteligencia Artificial desde la perspectiva del riesgo existencial . En particular, las Secciones 1 a 4 brindan antecedentes a la definición de IA Amistosa en la Sección 5. La Sección 6 presenta dos clases de errores (técnicos y filosóficos) que conducirían a la creación accidental de IA no Amistosas. Las secciones 7 a 13 analizan más cuestiones relacionadas.
Omohundro, S. 2008 Las unidades básicas de IA aparecieron en AGI-08 - Actas de la Primera Conferencia sobre Inteligencia General Artificial
Mason, C. 2008 La IA a nivel humano requiere inteligencia compasiva Archivado el 9 de enero de 2022 en Wayback Machine Aparece en el taller AAAI 2008 sobre metarazonamiento: pensar en pensar
Froding, B. y Peterson, M 2021 Ética de la IA y tecnología de la información amigables, volumen 23, págs. 207–214.

enlaces externos

Cuestiones éticas en la inteligencia artificial avanzada por Nick Bostrom
¿Qué es la IA amigable? — Una breve descripción de Friendly AI realizada por el Machine Intelligence Research Institute.
Creación de IA 1.0 amigable: el análisis y el diseño de arquitecturas de objetivos benévolos: una descripción casi extensa del MIRI
Crítica de las Directrices MIRI sobre IA amigable - por Bill Hibbard
Comentario sobre las Directrices de MIRI sobre IA amigable, por Peter Voss.
El problema de la inteligencia artificial "amigable": sobre los motivos y la imposibilidad de la FAI; por Adam Keiper y Ari N. Schulman.