La inteligencia artificial amigable (también IA amigable o FAI ) es una hipotética inteligencia artificial general (AGI) que tendría un efecto positivo (benigno) en la humanidad o al menos se alinearía con los intereses humanos o contribuiría a fomentar la mejora de la especie humana. Es parte de la ética de la inteligencia artificial y está estrechamente relacionada con la ética de las máquinas . Mientras que la ética de las máquinas se preocupa por cómo debe comportarse un agente con inteligencia artificial, la investigación amigable sobre inteligencia artificial se centra en cómo lograr de manera práctica este comportamiento y garantizar que esté adecuadamente restringido.
El término fue acuñado por Eliezer Yudkowsky , [1] mejor conocido por popularizar la idea, [2] [3] para hablar de agentes artificiales superinteligentes que implementan de manera confiable los valores humanos. El principal libro de texto sobre inteligencia artificial de Stuart J. Russell y Peter Norvig , Artificial Intelligence: A Modern Approach , describe la idea: [2]
Yudkowsky (2008) entra en más detalles sobre cómo diseñar una IA amigable . Afirma que la amistad (el deseo de no dañar a los humanos) debe diseñarse desde el principio, pero que los diseñadores deben reconocer que sus propios diseños pueden tener fallas y que el robot aprenderá y evolucionará con el tiempo. Por lo tanto, el desafío es de diseño de mecanismos: definir un mecanismo para la evolución de los sistemas de IA bajo un sistema de controles y equilibrios, y otorgar a los sistemas funciones de utilidad que sigan siendo amigables frente a tales cambios.
"Amigable" se utiliza en este contexto como terminología técnica y selecciona agentes que son seguros y útiles, no necesariamente aquellos que son "amigables" en el sentido coloquial. El concepto se invoca principalmente en el contexto de discusiones sobre agentes artificiales que se mejoran recursivamente y que rápidamente explotan en inteligencia , con el argumento de que esta tecnología hipotética tendría un impacto grande, rápido y difícil de controlar en la sociedad humana. [4]
Las raíces de la preocupación por la inteligencia artificial son muy antiguas. Kevin LaGrandeur demostró que los peligros específicos de la IA se pueden ver en la literatura antigua sobre sirvientes humanoides artificiales como el golem o los proto-robots de Gerbert de Aurillac y Roger Bacon . En esas historias, la extrema inteligencia y el poder de estas creaciones humanoides chocan con su condición de esclavos (que por naturaleza son vistos como subhumanos) y causan conflictos desastrosos. [5] En 1942, estos temas llevaron a Isaac Asimov a crear las " Tres Leyes de la Robótica ", principios integrados en todos los robots de su ficción, destinados a evitar que se vuelvan contra sus creadores o permitirles sufrir daños. [6]
En los tiempos modernos, a medida que la perspectiva de una IA superinteligente se acerca, el filósofo Nick Bostrom ha dicho que los sistemas de IA superinteligentes con objetivos que no están alineados con la ética humana son intrínsecamente peligrosos a menos que se tomen medidas extremas para garantizar la seguridad de la humanidad. Lo expresó de esta manera:
Básicamente, deberíamos suponer que una "superinteligencia" sería capaz de alcanzar cualquier objetivo que se proponga. Por lo tanto, es extremadamente importante que los objetivos que le asignamos, y todo su sistema de motivación, sea "amigable con los humanos".
En 2008, Eliezer Yudkowsky pidió la creación de una "IA amigable" para mitigar el riesgo existencial de la inteligencia artificial avanzada . Explica: "La IA no te odia ni te ama, pero estás hecho de átomos que puede utilizar para otra cosa". [7]
Steve Omohundro dice que un sistema de IA suficientemente avanzado, a menos que se contrarreste explícitamente, exhibirá una serie de "impulsos" básicos , como la adquisición de recursos, la autoconservación y la superación personal continua, debido a la naturaleza intrínseca de cualquier sistema impulsado por objetivos. y que estos impulsos, "sin precauciones especiales", harán que la IA muestre un comportamiento no deseado. [8] [9]
Alexander Wissner-Gross dice que las IA impulsadas a maximizar su libertad de acción futura (o entropía de la ruta causal) podrían considerarse amigables si su horizonte de planificación es más largo que un cierto umbral, y hostiles si su horizonte de planificación es más corto que ese umbral. [10] [11]
Luke Muehlhauser, que escribe para el Machine Intelligence Research Institute , recomienda que los investigadores de ética de las máquinas adopten lo que Bruce Schneier ha llamado la "mentalidad de seguridad": en lugar de pensar en cómo funcionará un sistema, imagine cómo podría fallar. Por ejemplo, sugiere que incluso una IA que sólo haga predicciones precisas y se comunique a través de una interfaz de texto podría causar daños no deseados. [12]
En 2014, Luke Muehlhauser y Nick Bostrom subrayaron la necesidad de una "IA amigable"; [13] sin embargo, las dificultades para diseñar una superinteligencia "amigable", por ejemplo mediante la programación del pensamiento moral contrafáctico, son considerables. [14] [15]
Yudkowsky propone el modelo de Voluntad Extrapolada Coherente (VCE). Según él, nuestra volición coherente extrapolada es "nuestro deseo si supiéramos más, pensáramos más rápido, fuéramos más las personas que desearíamos ser, hubiéramos crecido más juntos; donde la extrapolación converge en lugar de divergir, donde nuestros deseos son coherentes en lugar de interferir". ; extrapolado como queremos que extrapolado, interpretado como queremos que interpretado". [dieciséis]
En lugar de que una IA amigable sea diseñada directamente por programadores humanos, debe ser diseñada por una "IA semilla" programada para estudiar primero la naturaleza humana y luego producir la IA que la humanidad desearía, con suficiente tiempo y conocimientos, para llegar a un resultado satisfactorio. respuesta. [16] La apelación a un objetivo a través de la naturaleza humana contingente (quizás expresada, para fines matemáticos, en la forma de una función de utilidad u otro formalismo teórico de la decisión ), como criterio último de "amabilidad", es una respuesta a la problema metaético de definir una moral objetiva ; La volición extrapolada pretende ser lo que la humanidad objetivamente desearía, considerando todas las cosas, pero sólo puede definirse en relación con las cualidades psicológicas y cognitivas de la humanidad actual no extrapolada.
Steve Omohundro ha propuesto un enfoque de "andamio" para la seguridad de la IA , en el que una generación de IA demostrablemente segura ayuda a construir la siguiente generación demostrablemente segura. [17]
Seth Baum sostiene que el desarrollo de inteligencia artificial o inteligencia artificial general segura y socialmente beneficiosa es una función de la psicología social de las comunidades de investigación de IA y, por lo tanto, puede verse limitado por medidas extrínsecas y motivado por medidas intrínsecas. Las motivaciones intrínsecas pueden fortalecerse cuando los mensajes resuenan entre los desarrolladores de IA; Baum sostiene que, por el contrario, "los mensajes existentes sobre la IA beneficiosa no siempre están bien formulados". Baum aboga por "relaciones de cooperación y un marco positivo para los investigadores de IA" y advierte contra caracterizar a los investigadores de IA como "que no quieren perseguir diseños beneficiosos". [18]
En su libro Human Compatible , el investigador de IA Stuart J. Russell enumera tres principios para guiar el desarrollo de máquinas beneficiosas. Destaca que estos principios no deben codificarse explícitamente en las máquinas; más bien, están destinados a desarrolladores humanos. Los principios son los siguientes: [19] : 173
- El único objetivo de la máquina es maximizar la realización de las preferencias humanas.
- Inicialmente, la máquina no está segura de cuáles son esas preferencias.
- La fuente fundamental de información sobre las preferencias humanas es el comportamiento humano.
Las "preferencias" a las que se refiere Russell "lo abarcan todo; cubren todo lo que pueda interesarle, arbitrariamente en un futuro lejano". [19] : 173 De manera similar, "comportamiento" incluye cualquier elección entre opciones, [19] : 177 y la incertidumbre es tal que se debe asignar cierta probabilidad, que puede ser bastante pequeña, a cada preferencia humana lógicamente posible. [19] : 201
James Barrat , autor de Our Final Invention , sugirió que "se debe crear una asociación público-privada para reunir a los creadores de IA para compartir ideas sobre seguridad, algo así como la Agencia Internacional de Energía Atómica , pero en asociación con corporaciones". Insta a los investigadores de IA a convocar una reunión similar a la Conferencia de Asilomar sobre ADN recombinante , en la que se discutieron los riesgos de la biotecnología . [17]
John McGinnis alienta a los gobiernos a acelerar la investigación amigable en IA. Debido a que los objetivos de una IA amigable no son necesariamente eminentes, sugiere un modelo similar al de los Institutos Nacionales de Salud , donde "paneles de revisión por pares de científicos informáticos y cognitivos examinarían proyectos y elegirían aquellos que están diseñados tanto para hacer avanzar la IA como para garantizar que tales avances irían acompañados de salvaguardias apropiadas." McGinnis considera que la revisión por pares es mejor "que la regulación para abordar cuestiones técnicas que no es posible captar mediante mandatos burocráticos". McGinnis señala que su propuesta contrasta con la del Machine Intelligence Research Institute , que generalmente apunta a evitar la participación del gobierno en la IA amigable. [20]
Algunos críticos creen que tanto la IA a nivel humano como la superinteligencia son poco probables y que, por lo tanto, la IA amigable es poco probable. En un artículo de The Guardian , Alan Winfield compara la inteligencia artificial a nivel humano con los viajes más rápidos que la luz en términos de dificultad, y afirma que si bien debemos ser "cautelosos y estar preparados" dado lo que está en juego, "no necesitamos obsesionarse" con los riesgos de la superinteligencia. [21] Boyles y Joaquin, por otro lado, sostienen que la propuesta de Luke Muehlhauser y Nick Bostrom de crear IA amigables parece ser sombría. Esto se debe a que Muehlhauser y Bostrom parecen sostener la idea de que las máquinas inteligentes podrían programarse para pensar de manera contrafáctica sobre los valores morales que los seres humanos habrían tenido. [13] En un artículo en AI & Society , Boyles y Joaquin sostienen que tales IA no serían tan amigables considerando lo siguiente: la cantidad infinita de condiciones contrafácticas antecedentes que tendrían que programarse en una máquina, la dificultad de cobrar el conjunto de valores morales, es decir, aquellos que son más ideales que los que los seres humanos poseen en la actualidad, y la aparente desconexión entre los antecedentes contrafácticos y el valor ideal consecuente. [14]
Algunos filósofos afirman que cualquier agente verdaderamente "racional", ya sea artificial o humano, será naturalmente benevolente; Desde este punto de vista, las salvaguardias deliberadas diseñadas para producir una IA amigable podrían ser innecesarias o incluso perjudiciales. [22] Otros críticos cuestionan si es posible que una inteligencia artificial sea amigable. Adam Keiper y Ari N. Schulman, editores de la revista tecnológica The New Atlantis , dicen que será imposible garantizar alguna vez un comportamiento "amigable" en las IA porque los problemas de complejidad ética no cederán ante los avances del software o los aumentos en la potencia informática. Escriben que los criterios en los que se basan las teorías amigables de la IA funcionan "sólo cuando uno no sólo tiene grandes poderes de predicción sobre la probabilidad de innumerables resultados posibles, sino también certeza y consenso sobre cómo se valoran los diferentes resultados" .
El funcionamiento interno de los sistemas avanzados de IA puede ser complejo y difícil de interpretar, lo que genera preocupaciones sobre la transparencia y la rendición de cuentas. [24]
Su propietario puede ceder el control a lo que Eliezer Yudkowsky denomina una "IA amistosa"...
... la esencia de los AGI es su capacidad de razonamiento, y es la lógica misma de su ser la que los obligará a comportarse de manera moral... El verdadero escenario de pesadilla (es aquel en el que) los humanos lo encuentran ventajoso. vincularse fuertemente a los AGI, sin garantías contra el autoengaño.