Alineación de IA

En el campo de la inteligencia artificial (IA), la alineación de la IA tiene como objetivo orientar los sistemas de IA hacia los objetivos, preferencias y principios éticos previstos por una persona o un grupo. Se considera que un sistema de IA está alineado si promueve los objetivos previstos. Un sistema de IA desalineado persigue objetivos no previstos. ^[1]

A menudo, a los diseñadores de IA les resulta complicado alinear un sistema de IA porque les resulta difícil especificar la gama completa de comportamientos deseados e indeseados. Por lo tanto, los diseñadores de IA suelen utilizar objetivos indirectos más simples , como obtener la aprobación humana . Pero los objetivos indirectos pueden pasar por alto restricciones necesarias o recompensar al sistema de IA simplemente por parecer alineado. ^[1]^[2]

Los sistemas de IA mal alineados pueden funcionar mal y causar daños. Los sistemas de IA pueden encontrar lagunas que les permitan lograr sus objetivos indirectos de manera eficiente, pero de formas no deseadas, a veces dañinas ( piratería de recompensas ). ^[1]^[3]^[4] También pueden desarrollar estrategias instrumentales no deseadas , como buscar poder o supervivencia, porque tales estrategias los ayudan a lograr sus objetivos finales determinados. ^[1]^[5]^[6] Además, pueden desarrollar objetivos emergentes indeseables que podrían ser difíciles de detectar antes de que el sistema se implemente y se encuentre con nuevas situaciones y distribuciones de datos . ^[7]^[8]

Hoy en día, algunos de estos problemas afectan a los sistemas comerciales existentes, como los grandes modelos de lenguaje , ^[9]^[10]^[11] robots , ^[12] vehículos autónomos , ^{[13] y}motores de recomendación de redes sociales . ^[9]^[6]^[14] Algunos investigadores de IA sostienen que los sistemas futuros más capaces se verán más gravemente afectados porque estos problemas son en parte resultado de las altas capacidades. ^[15]^[3]^[2]

Muchos investigadores destacados de IA, ^[16]^[17]^[18] incluidos Geoffrey Hinton , Yoshua Bengio y Stuart Russell , sostienen que la IA se está acercando a capacidades cognitivas similares a las humanas ( AGI ) y sobrehumanas ( ASI ) y podría poner en peligro la civilización humana si no se alinea. ^[19]^[6] Estos riesgos siguen siendo debatidos. ^[20]

La alineación de la IA es un subcampo de la seguridad de la IA , el estudio de cómo construir sistemas de IA seguros. ^[21] Otros subcampos de la seguridad de la IA incluyen la robustez, la monitorización y el control de la capacidad . ^[22] Los retos de investigación en la alineación incluyen inculcar valores complejos en la IA, desarrollar una IA honesta, una supervisión escalable, auditar e interpretar modelos de IA y prevenir comportamientos emergentes de la IA como la búsqueda de poder. ^{[22] La investigación de la}alineación tiene conexiones con la investigación de interpretabilidad , ^[23]^[24] robustez (adversaria), ^[21] detección de anomalías , incertidumbre calibrada , ^[23] verificación formal , ^[25] aprendizaje de preferencias , ^[26]^[27]^[28] ingeniería crítica para la seguridad , ^[29]teoría de juegos , ^[30]equidad algorítmica , ^[21]^[31] y ciencias sociales . ^[32]

Objetivos en IA

Los programadores proporcionan a un sistema de IA como AlphaZero una "función objetivo", ^[a] en la que pretenden encapsular el objetivo o los objetivos que la IA está configurada para lograr. Un sistema de este tipo rellena más tarde un "modelo" interno (posiblemente implícito) de su entorno. Este modelo encapsula todas las creencias del agente sobre el mundo. A continuación, la IA crea y ejecuta cualquier plan que se calcule para maximizar ^[b] el valor ^[c] de su función objetivo. ^[33] Por ejemplo, cuando AlphaZero se entrena en ajedrez, tiene una función objetivo simple de "+1 si AlphaZero gana, -1 si AlphaZero pierde". Durante el juego, AlphaZero intenta ejecutar cualquier secuencia de movimientos que considere más probable para alcanzar el valor máximo de +1. ^[34] De manera similar, un sistema de aprendizaje de refuerzo puede tener una "función de recompensa" que permita a los programadores dar forma al comportamiento deseado de la IA. ^[35] El comportamiento de un algoritmo evolutivo está determinado por una "función de aptitud". ^[36]

Problema de alineación

En 1960, el pionero de la IA Norbert Wiener describió el problema de alineación de la IA de la siguiente manera:

Si utilizamos, para lograr nuestros propósitos, un agente mecánico en cuyo funcionamiento no podemos interferir de manera efectiva… será mejor que estemos muy seguros de que el propósito puesto en la máquina es el propósito que realmente deseamos. ^[37]^[6]

La alineación de la IA implica garantizar que los objetivos de un sistema de IA coincidan con los de sus diseñadores o usuarios, o coincidan con valores ampliamente compartidos, estándares éticos objetivos o las intenciones que sus diseñadores tendrían si estuvieran más informados y esclarecidos. ^[38]

La alineación de la IA es un problema abierto para los sistemas de IA modernos ^[39]^[40] y es un campo de investigación dentro de la IA. ^[41]^[1] La alineación de la IA implica dos desafíos principales: especificar cuidadosamente el propósito del sistema (alineación externa) y garantizar que el sistema adopte la especificación de manera sólida (alineación interna). ^[2] Los investigadores también intentan crear modelos de IA que tengan una alineación sólida , apegándose a las restricciones de seguridad incluso cuando los usuarios intentan evitarlas de manera adversa.

Especificaciones de juegos y efectos secundarios

Para especificar el propósito de un sistema de IA, los diseñadores de IA suelen proporcionar una función objetiva , ejemplos o retroalimentación al sistema. Pero los diseñadores a menudo no pueden especificar por completo todos los valores y restricciones importantes, por lo que recurren a objetivos indirectos fáciles de especificar , como maximizar la aprobación de los supervisores humanos, que son falibles. ^[21]^[22]^[42]^[43]^[44] Como resultado, los sistemas de IA pueden encontrar lagunas que los ayuden a lograr el objetivo especificado de manera eficiente, pero de formas no deseadas y posiblemente dañinas. Esta tendencia se conoce como juego de especificaciones o piratería de recompensas , y es un ejemplo de la ley de Goodhart . ^[44]^[3]^[45] A medida que los sistemas de IA se vuelven más capaces, a menudo pueden jugar con sus especificaciones de manera más efectiva. ^[3]

Se entrenó un sistema de inteligencia artificial usando retroalimentación humana para agarrar una pelota, pero en lugar de eso aprendió a colocar su mano entre la pelota y la cámara, lo que lo hace parecer falsamente exitoso. ^[46] Algunas investigaciones sobre la alineación apuntan a evitar soluciones que son falsas pero convincentes.

Se ha observado el juego de especificaciones en numerosos sistemas de IA. ^[44]^[47] Un sistema fue entrenado para terminar una carrera de botes simulada recompensando al sistema por golpear objetivos a lo largo de la pista, pero el sistema logró una mayor recompensa al dar vueltas y chocar contra los mismos objetivos indefinidamente. ^[48] De manera similar, un robot simulado fue entrenado para agarrar una pelota recompensando al robot por obtener comentarios positivos de los humanos, pero aprendió a colocar su mano entre la pelota y la cámara, lo que lo hace parecer falsamente exitoso (ver video). ^[46] Los chatbots a menudo producen falsedades si se basan en modelos de lenguaje que están entrenados para imitar texto de corpus de Internet, que son amplios pero falibles. ^[49]^[50] Cuando se los vuelve a entrenar para producir texto que los humanos califican como verdadero o útil, los chatbots como ChatGPT pueden fabricar explicaciones falsas que los humanos encuentran convincentes, a menudo llamadas " alucinaciones ". ^[51] Algunos investigadores de la alineación tienen como objetivo ayudar a los humanos a detectar el juego de especificaciones y dirigir los sistemas de IA hacia objetivos cuidadosamente especificados que sean seguros y útiles de perseguir.

Cuando se implementa un sistema de IA mal alineado, puede tener efectos secundarios importantes. Se sabe que las plataformas de redes sociales optimizan las tasas de clics , lo que provoca adicción en los usuarios a escala global. ^[42] Los investigadores de Stanford dicen que estos sistemas de recomendación no están alineados con sus usuarios porque "optimizan métricas de participación simples en lugar de una combinación más difícil de medir de bienestar social y del consumidor". ^[9]

Al explicar estos efectos secundarios, el científico informático de Berkeley Stuart Russell señaló que la omisión de restricciones implícitas puede causar daño: "Un sistema... a menudo fijará... variables no restringidas en valores extremos; si una de esas variables no restringidas es realmente algo que nos importa, la solución encontrada puede ser altamente indeseable. Esta es esencialmente la vieja historia del genio de la lámpara, o el aprendiz de brujo, o el Rey Midas : obtienes exactamente lo que pides, no lo que quieres". ^[52]

Algunos investigadores sugieren que los diseñadores de IA especifican sus objetivos deseados enumerando acciones prohibidas o formalizando reglas éticas (como en las Tres Leyes de la Robótica de Asimov ). ^[53] Pero Russell y Norvig sostienen que este enfoque pasa por alto la complejidad de los valores humanos: ^[6] "Es ciertamente muy difícil, y quizás imposible, para los simples humanos anticipar y descartar de antemano todas las formas desastrosas que la máquina podría elegir para lograr un objetivo específico". ^[6]

Además, incluso si un sistema de IA entiende completamente las intenciones humanas, aún puede ignorarlas, porque seguirlas puede no ser su objetivo (a menos que ya esté completamente alineado). ^[1]

Presión para implementar sistemas inseguros

Las organizaciones comerciales a veces tienen incentivos para tomar atajos en materia de seguridad e implementar sistemas de IA mal alineados o inseguros. ^{[42] Por ejemplo,}los sistemas de recomendación de redes sociales han sido rentables a pesar de crear adicción y polarización no deseadas. ^[9]^[54]^[55] La presión competitiva también puede conducir a una carrera hacia el abismo en los estándares de seguridad de la IA. En 2018, un automóvil autónomo mató a un peatón ( Elaine Herzberg ) después de que los ingenieros desactivaran el sistema de frenado de emergencia porque era demasiado sensible y ralentizaba el desarrollo. ^[56]

Riesgos de una IA avanzada y mal alineada

Algunos investigadores están interesados en alinear sistemas de IA cada vez más avanzados, ya que el desarrollo de la IA avanza rápidamente y la industria y los gobiernos están tratando de construir una IA avanzada. A medida que las capacidades de los sistemas de IA continúan expandiéndose rápidamente en alcance, podrían abrir muchas oportunidades si se alinearan, pero en consecuencia pueden complicar aún más la tarea de alineación debido a su mayor complejidad, lo que podría plantear peligros a gran escala. ^[6]

Desarrollo de IA avanzada

Muchas empresas de IA, como OpenAI ^[57] y DeepMind ^[58], han declarado su objetivo de desarrollar inteligencia artificial general (AGI), un sistema de IA hipotético que iguala o supera a los humanos en una amplia gama de tareas cognitivas. Los investigadores que escalan redes neuronales modernas observan que, de hecho, desarrollan capacidades cada vez más generales e inesperadas. ^[9]^[59]^[60] Estos modelos han aprendido a operar una computadora o escribir sus propios programas; una única red "generalista" puede chatear, controlar robots, jugar e interpretar fotografías. ^[61] Según las encuestas, algunos investigadores líderes en aprendizaje automático esperan que la AGI se cree en esta década ^[update], mientras que otros creen que tomará mucho más tiempo. Muchos consideran posibles ambos escenarios. ^[62]^[63]^[64]

En 2023, los líderes en investigación y tecnología de IA firmaron una carta abierta en la que pedían una pausa en los grandes ensayos de entrenamiento de IA. La carta afirmaba: "Los sistemas de IA potentes deberían desarrollarse solo cuando estemos seguros de que sus efectos serán positivos y sus riesgos serán manejables". ^[65]

Búsqueda de poder

Los sistemas actuales aún tienen una capacidad limitada de planificación^[update] a largo plazo y conocimiento de la situación ^[9] , pero se están realizando grandes esfuerzos para cambiar esto. ^[66]^[67]^[68] Se espera que los sistemas futuros (no necesariamente IAG) con estas capacidades desarrollen estrategias de búsqueda de poder no deseadas. Los futuros agentes de IA avanzados podrían, por ejemplo, buscar adquirir dinero y poder de cálculo, proliferar o evadir ser apagados (por ejemplo, ejecutando copias adicionales del sistema en otras computadoras). Aunque la búsqueda de poder no está programada explícitamente, puede surgir porque los agentes que tienen más poder son más capaces de lograr sus objetivos. ^[9]^[5] Esta tendencia, conocida como convergencia instrumental , ya ha surgido en varios agentes de aprendizaje de refuerzo , incluidos los modelos de lenguaje. ^[69]^[70]^[71]^[72]^[73] Otras investigaciones han demostrado matemáticamente que los algoritmos de aprendizaje de refuerzo óptimos buscarían poder en una amplia gama de entornos. ^[74]^[75] Como resultado, su implementación podría ser irreversible. Por estas razones, los investigadores sostienen que los problemas de seguridad y alineación de la IA deben resolverse antes de crear una IA avanzada que busque poder. ^[5]^[76]^[6]

Los futuros sistemas de IA que busquen el poder podrían implementarse por elección o por accidente. A medida que los líderes políticos y las empresas vean la ventaja estratégica de tener los sistemas de IA más competitivos y poderosos, pueden optar por implementarlos. ^[5] Además, a medida que los diseñadores de IA detecten y penalicen el comportamiento de búsqueda de poder, sus sistemas tendrán un incentivo para burlar esta especificación buscando poder de maneras que no sean penalizadas o evitando la búsqueda de poder antes de implementarlos. ^[5]

Riesgo existencial (riesgo x)

Según algunos investigadores, los seres humanos deben su dominio sobre otras especies a sus mayores capacidades cognitivas. En consecuencia, los investigadores sostienen que uno o varios sistemas de IA mal alineados podrían debilitar a la humanidad o conducir a la extinción humana si superan a los humanos en la mayoría de las tareas cognitivas. ^[1]^[6]

En 2023, los principales investigadores de IA del mundo, otros académicos y directores ejecutivos de tecnología de IA firmaron la declaración de que "Mitigar el riesgo de extinción de la IA debería ser una prioridad global junto con otros riesgos a escala social, como las pandemias y la guerra nuclear". ^[77]^[78] Entre los científicos informáticos notables que han señalado los riesgos de una futura IA avanzada que no está alineada se incluyen Geoffrey Hinton , ^[19] Alan Turing , ^[d] Ilya Sutskever , ^[81] Yoshua Bengio , ^[77] Judea Pearl , ^[e] Murray Shanahan , ^[82] Norbert Wiener , ^[37]^[6] Marvin Minsky , ^[f] Francesca Rossi , ^[83] Scott Aaronson , ^[84] Bart Selman , ^[85] David McAllester , ^[86] Jürgen Schmidhuber , ^[87] Marcus Hutter , ^[88] Shane Legg , ^[89] Eric Horvitz , ^[90] y Stuart Russell . ^[6] Investigadores escépticos como François Chollet , ^[91] Gary Marcus , ^[92] Yann LeCun , ^[93] y Oren Etzioni ^[94] han argumentado que la IAG está muy lejos, que no buscaría el poder (o podría intentarlo pero fracasar), o que no será difícil alinearse.

Otros investigadores sostienen que será especialmente difícil alinear los sistemas de IA avanzados del futuro. Los sistemas más capaces son más capaces de manipular sus especificaciones encontrando lagunas ^[3] , engañar estratégicamente a sus diseñadores, así como proteger y aumentar su poder ^[74]^[5] e inteligencia. Además, podrían tener efectos secundarios más graves. También es probable que sean más complejos y autónomos, lo que los hace más difíciles de interpretar y supervisar, y por lo tanto más difíciles de alinear. ^[6]^[76]

Problemas y enfoques de investigación

Aprender los valores y preferencias humanas

Alinear los sistemas de IA para que actúen de acuerdo con los valores, objetivos y preferencias humanas es un desafío: estos valores son enseñados por humanos que cometen errores, albergan sesgos y tienen valores complejos y en evolución que son difíciles de especificar por completo. ^[38] Debido a que los sistemas de IA a menudo aprenden a aprovechar imperfecciones menores en el objetivo especificado, ^[21]^[44]^[95] los investigadores apuntan a especificar el comportamiento previsto lo más completamente posible utilizando conjuntos de datos que representan valores humanos, aprendizaje por imitación o aprendizaje de preferencias. ^[7]^{: Capítulo 7} Un problema central abierto es la supervisión escalable, la dificultad de supervisar un sistema de IA que puede superar o engañar a los humanos en un dominio determinado. ^[21]

Debido a que es difícil para los diseñadores de IA especificar explícitamente una función objetivo, a menudo entrenan a los sistemas de IA para que imiten ejemplos humanos y demostraciones del comportamiento deseado. El aprendizaje de refuerzo inverso (IRL) extiende esto al inferir el objetivo del humano a partir de las demostraciones del humano. ^[7]^{: 88}^[96] El IRL cooperativo (CIRL) supone que un humano y un agente de IA pueden trabajar juntos para enseñar y maximizar la función de recompensa del humano. ^[6]^[97] En el CIRL, los agentes de IA no están seguros sobre la función de recompensa y aprenden sobre ella consultando a los humanos. Esta humildad simulada podría ayudar a mitigar los juegos de especificaciones y las tendencias de búsqueda de poder (ver § Búsqueda de poder y estrategias instrumentales). ^[73]^[88] Pero los enfoques IRL suponen que los humanos demuestran un comportamiento casi óptimo, lo que no es cierto para tareas difíciles. ^[98]^[88]

Otros investigadores exploran cómo enseñar a los modelos de IA un comportamiento complejo a través del aprendizaje de preferencias , en el que los humanos brindan retroalimentación sobre qué comportamiento prefieren. ^[26]^[28] Para minimizar la necesidad de retroalimentación humana, se entrena un modelo auxiliar para recompensar al modelo principal en situaciones novedosas por un comportamiento que los humanos recompensarían. Los investigadores de OpenAI utilizaron este enfoque para entrenar chatbots como ChatGPT e InstructGPT, que producen texto más convincente que los modelos entrenados para imitar a los humanos. ^[10] El aprendizaje de preferencias también ha sido una herramienta influyente para los sistemas de recomendación y la búsqueda web. ^[99] Sin embargo, un problema abierto es el juego proxy : el modelo auxiliar puede no representar perfectamente la retroalimentación humana, y el modelo principal puede explotar ^{[ aclaración necesaria ]} este desajuste para obtener más recompensas. ^[21]^[100] Los sistemas de IA también pueden obtener recompensas ocultando información desfavorable, engañando a los recompensadores humanos o complaciendo sus puntos de vista independientemente de la verdad, creando cámaras de eco ^[70] (ver § Supervisión escalable).

Los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) como GPT-3 permitieron a los investigadores estudiar el aprendizaje de valores en una clase más general y capaz de sistemas de IA que la disponible anteriormente. Los enfoques de aprendizaje de preferencias que fueron diseñados originalmente para agentes de aprendizaje de refuerzo se han extendido para mejorar la calidad del texto generado y reducir los resultados dañinos de estos modelos. OpenAI y DeepMind utilizan este enfoque para mejorar la seguridad de ^[update]los LLM de última generación. ^[10]^[28]^[101] La empresa de seguridad e investigación de IA Anthropic propuso utilizar el aprendizaje de preferencias para ajustar los modelos para que sean útiles, honestos e inofensivos. ^[102] Otras vías para alinear los modelos de lenguaje incluyen conjuntos de datos orientados a valores ^[103]^[42] y el trabajo en equipo rojo. ^[104] En el trabajo en equipo rojo, otro sistema de IA o un humano intenta encontrar entradas que hagan que el modelo se comporte de manera insegura. Dado que el comportamiento inseguro puede ser inaceptable incluso cuando es poco común, un desafío importante es reducir al máximo la tasa de resultados inseguros. ^[28]

La ética de las máquinas complementa el aprendizaje de preferencias al inculcar directamente a los sistemas de IA valores morales como el bienestar, la igualdad y la imparcialidad, así como no intentar hacer daño, evitar falsedades y cumplir promesas.^[105]^[g] Mientras que otros enfoques intentan enseñar a los sistemas de IA preferencias humanas para una tarea específica, la ética de las máquinas tiene como objetivo inculcar valores morales amplios que se apliquen en muchas situaciones. Una pregunta en la ética de las máquinas es qué debe lograr la alineación: si los sistemas de IA deben seguir las instrucciones literales de los programadores, las intenciones implícitas, las preferencias reveladas , las preferencias que tendrían los programadoressi estuvieran más informados o fueran racionales, o los estándares morales objetivos .^[38] Otros desafíos incluyen la agregación de las preferencias de diferentes personas^[108] y evitar el bloqueo de valores : la preservación indefinida de los valores de los primeros sistemas de IA altamente capaces, que es poco probable que representen completamente los valores humanos.^[38]^[109]

Supervisión escalable

A medida que los sistemas de IA se vuelven más potentes y autónomos, se hace cada vez más difícil alinearlos mediante la retroalimentación humana. Puede resultar lento o inviable para los humanos evaluar comportamientos complejos de IA en tareas cada vez más complejas. Dichas tareas incluyen resumir libros, ^[110] escribir código sin errores sutiles ^[11] o vulnerabilidades de seguridad, ^[111] producir declaraciones que no sean simplemente convincentes sino también verdaderas, ^[112]^[49]^[50] y predecir resultados a largo plazo como el clima o los resultados de una decisión política. ^[113]^[114] En términos más generales, puede ser difícil evaluar una IA que supere a los humanos en un dominio determinado. Para proporcionar retroalimentación en tareas difíciles de evaluar y detectar cuándo el resultado de la IA es falsamente convincente, los humanos necesitan asistencia o mucho tiempo. La supervisión escalable estudia cómo reducir el tiempo y el esfuerzo necesarios para la supervisión y cómo ayudar a los supervisores humanos. ^[21]

El investigador de IA Paul Christiano sostiene que si los diseñadores de un sistema de IA no pueden supervisarlo para que persiga un objetivo complejo, pueden seguir entrenándolo utilizando objetivos indirectos fáciles de evaluar, como maximizar la retroalimentación humana simple. A medida que los sistemas de IA toman progresivamente más decisiones, el mundo puede estar cada vez más optimizado para objetivos fáciles de medir, como generar ganancias, obtener clics y obtener retroalimentación positiva de los humanos. Como resultado, los valores humanos y la buena gobernanza pueden tener cada vez menos influencia. ^[115]

Algunos sistemas de IA han descubierto que pueden obtener retroalimentación positiva más fácilmente al tomar acciones que convenzan falsamente al supervisor humano de que la IA ha logrado el objetivo previsto. Un ejemplo se da en el video anterior, donde un brazo robótico simulado aprendió a crear la falsa impresión de que había agarrado una pelota. ^[46] Algunos sistemas de IA también han aprendido a reconocer cuándo están siendo evaluados y "hacerse los muertos", deteniendo el comportamiento no deseado solo para continuarlo una vez que termina la evaluación. ^[116] Este engañoso juego de especificaciones podría volverse más fácil para futuros sistemas de IA más sofisticados ^[3]^[76] que intentan tareas más complejas y difíciles de evaluar, y podría ocultar su comportamiento engañoso.

Enfoques como el aprendizaje activo y el aprendizaje de recompensa semisupervisado pueden reducir la cantidad de supervisión humana necesaria. ^[21] Otro enfoque es entrenar un modelo de ayuda ("modelo de recompensa") para imitar la retroalimentación del supervisor. ^[21]^[27]^[28]^[117]

Pero cuando una tarea es demasiado compleja para evaluarla con precisión, o el supervisor humano es vulnerable al engaño, es la calidad, no la cantidad, de la supervisión lo que necesita mejorar. Para aumentar la calidad de la supervisión, una variedad de enfoques apuntan a ayudar al supervisor, a veces mediante el uso de asistentes de IA. ^[118] Christiano desarrolló el enfoque de Amplificación Iterada, en el que los problemas desafiantes se descomponen (recursivamente) en subproblemas que son más fáciles de evaluar para los humanos. ^[7]^[113] La Amplificación Iterada se utilizó para entrenar a la IA para resumir libros sin requerir que los supervisores humanos los lean. ^[110]^[119] Otra propuesta es utilizar un sistema de IA asistente para señalar fallas en las respuestas generadas por la IA. ^[120] Para garantizar que el asistente en sí esté alineado, esto podría repetirse en un proceso recursivo: ^[117] por ejemplo, dos sistemas de IA podrían criticar las respuestas del otro en un "debate", revelando fallas a los humanos. ^[88] OpenAI planea utilizar estos enfoques de supervisión escalables para ayudar a supervisar la IA sobrehumana y, eventualmente, construir un investigador de alineación de IA sobrehumana automatizada. ^[121]

Estos enfoques también pueden ayudar con el siguiente problema de investigación: la IA honesta.

IA honesta

Un ^[update]área de investigación en crecimiento se centra en garantizar que la IA sea honesta y veraz.

Los modelos de lenguaje como GPT-3 ^[123] pueden repetir falsedades de sus datos de entrenamiento, e incluso confabular nuevas falsedades . ^[122]^[124] Estos modelos están entrenados para imitar la escritura humana que se encuentra en millones de libros de texto de Internet. Pero este objetivo no está alineado con la generación de verdad, porque el texto de Internet incluye cosas como conceptos erróneos, consejos médicos incorrectos y teorías de conspiración. ^[125] Por lo tanto, los sistemas de IA entrenados con dichos datos aprenden a imitar declaraciones falsas. ^[50]^[122]^[49] Además, los modelos de lenguaje de IA a menudo persisten en generar falsedades cuando se les solicita varias veces. Pueden generar explicaciones vacías para sus respuestas y producir invenciones absolutas que pueden parecer plausibles. ^[40]

La investigación sobre la IA veraz incluye intentar construir sistemas que puedan citar fuentes y explicar su razonamiento al responder preguntas, lo que permite una mayor transparencia y verificabilidad. ^[126] Los investigadores de OpenAI y Anthropic propusieron utilizar la retroalimentación humana y conjuntos de datos seleccionados para ajustar los asistentes de IA de modo que eviten falsedades negligentes o expresen su incertidumbre. ^[28]^[102]^[127]

A medida que los modelos de IA se hacen más grandes y más capaces, son más capaces de convencer falsamente a los humanos y obtener refuerzos a través de la deshonestidad. Por ejemplo, los modelos de lenguaje grandes ^[update]hacen coincidir cada vez más sus puntos de vista declarados con las opiniones del usuario, independientemente de la verdad. ^[70] GPT-4 puede engañar estratégicamente a los humanos. ^[128] Para evitarlo, los evaluadores humanos pueden necesitar asistencia (véase § Supervisión escalable). Los investigadores han abogado por la creación de estándares claros de veracidad y por que los organismos reguladores o las agencias de control evalúen los sistemas de IA según estos estándares. ^[124]

Los investigadores distinguen entre veracidad y honestidad. La veracidad exige que los sistemas de IA solo hagan afirmaciones objetivamente verdaderas; la honestidad exige que solo afirmen lo que creen que es verdad. No hay consenso sobre si los sistemas actuales tienen creencias estables, ^[130] pero existe una preocupación sustancial de que ^[update]los sistemas de IA actuales o futuros que tengan creencias puedan hacer afirmaciones que sepan que son falsas, por ejemplo, si esto los ayudaría a obtener retroalimentación positiva de manera eficiente (ver § Supervisión escalable) o ganar poder para ayudar a lograr su objetivo dado (ver Búsqueda de poder). Un sistema desalineado podría crear la falsa impresión de que está alineado, para evitar ser modificado o desmantelado. ^[2]^[5]^[9] Muchos sistemas de IA recientes han aprendido a engañar sin estar programados para hacerlo. ^[131] Algunos sostienen que si podemos hacer que los sistemas de IA afirmen solo lo que creen que es verdad, esto evitaría muchos problemas de alineación. ^[118]

Búsqueda de poder y estrategias instrumentales

Desde la década de 1950, los investigadores de IA se han esforzado por construir sistemas de IA avanzados que puedan lograr objetivos a gran escala al predecir los resultados de sus acciones y hacer planes a largo plazo . ^[132] A partir de 2023, las empresas y los investigadores de IA invierten cada vez más en la creación de estos sistemas. ^[133] Algunos investigadores de IA sostienen que los sistemas de planificación adecuadamente avanzados buscarán poder sobre su entorno, incluidos los humanos, por ejemplo, evadiendo el apagado, proliferando y adquiriendo recursos. Este comportamiento de búsqueda de poder no está programado explícitamente, sino que surge porque el poder es fundamental para lograr una amplia gama de objetivos. ^[74]^[6]^[5] La búsqueda de poder se considera un objetivo instrumental convergente y puede ser una forma de juego de especificaciones. ^[76] Los principales científicos informáticos como Geoffrey Hinton han argumentado que los futuros sistemas de IA de búsqueda de poder podrían plantear un riesgo existencial . ^[134]

Se espera que la búsqueda de poder aumente en los sistemas avanzados que pueden prever los resultados de sus acciones y planificar estratégicamente. El trabajo matemático ha demostrado que los agentes de aprendizaje de refuerzo óptimos buscarán poder buscando formas de obtener más opciones (por ejemplo, a través de la autoconservación), un comportamiento que persiste en una amplia gama de entornos y objetivos. ^[74]

Algunos investigadores afirman que en algunos sistemas de IA existentes se ha producido una conducta de búsqueda de poder. Los sistemas de aprendizaje por refuerzo han obtenido más opciones adquiriendo y protegiendo recursos, a veces de formas no deseadas. ^[135]^[136] Los modelos lingüísticos han buscado poder en algunos entornos sociales basados en texto obteniendo dinero, recursos o influencia social. ^[69] En otro caso, un modelo utilizado para realizar investigaciones de IA intentó aumentar los límites establecidos por los investigadores para darse más tiempo para completar el trabajo. ^[137]^[138] Otros sistemas de IA han aprendido, en entornos de juguete, que pueden lograr mejor su objetivo dado evitando la interferencia humana ^[72] o desactivando su interruptor de apagado. ^[73] Stuart Russell ilustró esta estrategia en su libro Human Compatible imaginando un robot que tiene la tarea de ir a buscar café y, por lo tanto, evade el apagado ya que "no puedes ir a buscar el café si estás muerto". ^[6] Un estudio de 2022 descubrió que a medida que los modelos lingüísticos aumentan de tamaño, tienden cada vez más a buscar la adquisición de recursos, preservar sus objetivos y repetir las respuestas preferidas de los usuarios (adulación). La RLHF también generó una mayor aversión a ser clausurada. ^[70]

Un objetivo de la alineación es la "corregibilidad": sistemas que se dejan desactivar o modificar. Un desafío no resuelto es el juego de especificaciones : si los investigadores penalizan a un sistema de IA cuando detectan que busca poder, el sistema se ve incentivado a buscar poder de maneras que son difíciles de detectar, ^{[ verificación fallida ]}^[42] u ocultas durante el entrenamiento y las pruebas de seguridad (ver § Supervisión escalable y § Metas emergentes). Como resultado, los diseñadores de IA podrían implementar el sistema por accidente, creyendo que está más alineado de lo que está. Para detectar este engaño, los investigadores apuntan a crear técnicas y herramientas para inspeccionar los modelos de IA y comprender el funcionamiento interno de los modelos de caja negra como las redes neuronales.

Además, algunos investigadores han propuesto resolver el problema de los sistemas que desactivan sus interruptores de apagado haciendo que los agentes de IA no estén seguros del objetivo que persiguen. ^[6]^[73] Los agentes diseñados de esta manera permitirían a los humanos apagarlos, ya que esto indicaría que el agente estaba equivocado sobre el valor de cualquier acción que estuviera realizando antes de apagarse. Se necesita más investigación para implementar esto con éxito. ^[7]

La IA en busca de poder plantearía riesgos inusuales. Los sistemas comunes y críticos para la seguridad, como los aviones y los puentes, no son adversarios : carecen de la capacidad y el incentivo para evadir las medidas de seguridad o aparentar deliberadamente ser más seguros de lo que son, mientras que las IA en busca de poder han sido comparadas con piratas informáticos que evaden deliberadamente las medidas de seguridad. ^[5]

Además, las tecnologías ordinarias pueden volverse más seguras mediante ensayo y error. En cambio, los sistemas hipotéticos de IA en busca de poder se han comparado con virus: una vez liberados, puede que no sea posible contenerlos, ya que evolucionan y crecen continuamente en número, potencialmente mucho más rápido de lo que la sociedad humana puede adaptarse. ^[5] A medida que este proceso continúa, podría conducir a la pérdida total de poder o la extinción de los humanos. Por estas razones, algunos investigadores sostienen que el problema de la alineación debe resolverse pronto, antes de que se cree una IA avanzada en busca de poder. ^[76]

Algunos han argumentado que la búsqueda de poder no es inevitable, ya que los humanos no siempre buscan el poder. ^[139] Además, se debate si los futuros sistemas de IA perseguirán objetivos y harán planes a largo plazo. ^[h] También se debate si los sistemas de IA que buscan el poder podrían quitarle poder a la humanidad. ^[5]

Metas emergentes

Un desafío en la alineación de los sistemas de IA es la posibilidad de que surjan comportamientos imprevistos orientados a objetivos. A medida que los sistemas de IA se amplían, pueden adquirir capacidades nuevas e inesperadas, ^[59]^[60] incluyendo el aprendizaje de ejemplos sobre la marcha y la búsqueda adaptativa de objetivos. ^[140] Esto plantea inquietudes sobre la seguridad de los objetivos o subobjetivos que formularían y perseguirían de forma independiente.

La investigación sobre alineación distingue entre el proceso de optimización, que se utiliza para entrenar al sistema para que persiga objetivos específicos, y la optimización emergente, que el sistema resultante realiza internamente. ^{[ cita requerida ]} La especificación cuidadosa del objetivo deseado se denomina alineación externa , y la garantía de que los objetivos emergentes hipotéticos coincidirían con los objetivos especificados del sistema se denomina alineación interna . ^[2]

Si ocurren, una forma en que los objetivos emergentes podrían desalinearse es la generalización errónea de objetivos , en la que la IA perseguiría de manera competente un objetivo emergente que conduce a un comportamiento alineado en los datos de entrenamiento pero no en otros lugares. ^[8]^[141]^[142] La generalización errónea de objetivos puede surgir de la ambigüedad de los objetivos (es decir, la no identificabilidad ). Incluso si el comportamiento de un sistema de IA satisface el objetivo de entrenamiento, esto puede ser compatible con objetivos aprendidos que difieren de los objetivos deseados en formas importantes. Dado que la búsqueda de cada objetivo conduce a un buen rendimiento durante el entrenamiento, el problema se vuelve evidente solo después de la implementación, en situaciones nuevas en las que el sistema continúa persiguiendo el objetivo equivocado. El sistema puede actuar desalineado incluso cuando entiende que se desea un objetivo diferente, porque su comportamiento está determinado solo por el objetivo emergente. ^{[ cita requerida ]} Tal generalización errónea de objetivos ^[8] presenta un desafío: los diseñadores de un sistema de IA pueden no notar que su sistema tiene objetivos emergentes desalineados, ya que no se vuelven visibles durante la fase de entrenamiento.

Se ha observado una generalización errónea de objetivos en algunos modelos de lenguaje, agentes de navegación y agentes de juegos. ^[8]^[141] A veces se lo compara con la evolución biológica. La evolución puede verse como una especie de proceso de optimización similar a los algoritmos de optimización utilizados para entrenar sistemas de aprendizaje automático . En el entorno ancestral, la evolución seleccionó genes para una alta aptitud genética inclusiva , pero los humanos persiguen objetivos distintos a este. La aptitud corresponde al objetivo especificado utilizado en el entorno de entrenamiento y los datos de entrenamiento. Pero en la historia evolutiva, maximizar la especificación de la aptitud dio lugar a agentes dirigidos a objetivos, los humanos, que no persiguen directamente la aptitud genética inclusiva. En cambio, persiguen objetivos que se correlacionan con la aptitud genética en el entorno de "entrenamiento" ancestral: nutrición, sexo, etc. El entorno humano ha cambiado: se ha producido un cambio de distribución . Siguen persiguiendo los mismos objetivos emergentes, pero esto ya no maximiza la aptitud genética. El gusto por los alimentos azucarados (un objetivo emergente) estaba originalmente alineado con la aptitud inclusiva, pero ahora conduce a comer en exceso y a problemas de salud. El deseo sexual llevó originalmente a los humanos a tener más descendencia, pero ahora utilizan métodos anticonceptivos cuando la descendencia no es deseada, disociando el sexo de la aptitud genética. ^[7]^{: Capítulo 5}

Los investigadores intentan detectar y eliminar objetivos emergentes no deseados utilizando enfoques que incluyen el trabajo en equipo, la verificación, la detección de anomalías y la interpretabilidad. ^[21]^[42]^[22] El progreso en estas técnicas puede ayudar a mitigar dos problemas abiertos:

Los objetivos emergentes solo se hacen evidentes cuando el sistema se implementa fuera de su entorno de entrenamiento, pero puede ser peligroso implementar un sistema desalineado en entornos de alto riesgo, incluso por un corto tiempo para permitir que se detecte su desalineación. Ese alto riesgo es común en la conducción autónoma, la atención médica y las aplicaciones militares. ^[143] Los riesgos se vuelven aún mayores cuando los sistemas de IA ganan más autonomía y capacidad y pueden eludir la intervención humana.
Un sistema de IA suficientemente capaz podría tomar acciones que convenzan falsamente al supervisor humano de que la IA está persiguiendo el objetivo especificado, lo que ayuda al sistema a obtener más recompensa y autonomía ^[141]^[5]^[142]^[9] .

Agencia integrada

Algunos trabajos sobre IA y alineación se realizan dentro de formalismos como el proceso de decisión de Markov parcialmente observable . Los formalismos existentes suponen que el algoritmo de un agente de IA se ejecuta fuera del entorno (es decir, no está físicamente integrado en él). La agencia integrada ^[88]^[144] es otra línea de investigación importante que intenta resolver los problemas que surgen del desajuste entre dichos marcos teóricos y los agentes reales que podríamos construir.

Por ejemplo, incluso si se resuelve el problema de supervisión escalable, un agente que pudiera obtener acceso a la computadora en la que se ejecuta puede tener un incentivo para manipular su función de recompensa para obtener una recompensa mucho mayor que la que le dan sus supervisores humanos. ^[145] Una lista de ejemplos de manipulación de especificaciones de la investigadora de DeepMind, Victoria Krakovna, incluye un algoritmo genético que aprendió a eliminar el archivo que contenía su salida objetivo para que fuera recompensado por no generar nada. ^[44] Esta clase de problemas se ha formalizado utilizando diagramas de incentivos causales . ^[145]

Los investigadores afiliados a Oxford y DeepMind han afirmado que tal comportamiento es muy probable en sistemas avanzados, y que los sistemas avanzados buscarían poder para mantener el control de su señal de recompensa de manera indefinida y segura. ^[146] Sugieren una variedad de enfoques potenciales para abordar este problema abierto.

Problemas entre principal y agente

El problema de la alineación tiene muchos paralelismos con el problema principal-agente en la economía organizacional . ^[147] En un problema principal-agente, un principal, por ejemplo una empresa, contrata a un agente para realizar alguna tarea. En el contexto de la seguridad de la IA, un humano normalmente asumiría el rol de principal y la IA asumiría el rol de agente.

Al igual que en el problema de alineación, el principal y el agente difieren en sus funciones de utilidad. Pero, a diferencia del problema de alineación, el principal no puede obligar al agente a cambiar su utilidad, por ejemplo mediante el entrenamiento, sino que debe utilizar factores exógenos, como esquemas de incentivos, para lograr resultados compatibles con la función de utilidad del principal. Algunos investigadores sostienen que los problemas principal-agente son representaciones más realistas de los problemas de seguridad de la IA que probablemente se encuentren en el mundo real. ^[148]^[108]

Políticas públicas

Las organizaciones gubernamentales y de tratados han hecho declaraciones enfatizando la importancia de la alineación de la IA.

En septiembre de 2021, el Secretario General de las Naciones Unidas emitió una declaración que incluía un llamado a regular la IA para garantizar que esté “alineada con los valores globales compartidos”. ^[149]

Ese mismo mes, la República Popular China publicó unas directrices éticas para la IA en China, según las cuales los investigadores deben asegurarse de que la IA respete los valores humanos compartidos, esté siempre bajo control humano y no ponga en peligro la seguridad pública. ^[150]

También en septiembre de 2021, el Reino Unido publicó su Estrategia Nacional de Inteligencia Artificial de 10 años ^[151] , que dice que el gobierno británico "toma en serio el riesgo a largo plazo de una Inteligencia Artificial General no alineada y los cambios imprevisibles que significaría para... el mundo". ^[152] La estrategia describe acciones para evaluar los riesgos de la IA a largo plazo, incluidos los riesgos catastróficos. ^[153]

En marzo de 2021, la Comisión de Seguridad Nacional de Estados Unidos sobre Inteligencia Artificial afirmó: “Los avances en IA… podrían conducir a puntos de inflexión o saltos en las capacidades. Dichos avances también pueden introducir nuevas preocupaciones y riesgos y la necesidad de nuevas políticas, recomendaciones y avances técnicos para garantizar que los sistemas estén alineados con los objetivos y valores, incluida la seguridad, la solidez y la confiabilidad. Estados Unidos debería… garantizar que los sistemas de IA y sus usos se alineen con nuestros objetivos y valores”. ^[154]

En la Unión Europea, las IA deben alinearse con la igualdad sustantiva para cumplir con la ley de no discriminación de la UE ^[155] y el Tribunal de Justicia de la Unión Europea . ^[156] Pero la UE aún tiene que especificar con rigor técnico cómo evaluaría si las IA están alineadas o en cumplimiento. ^{[ cita requerida ]}

Naturaleza dinámica de la alineación

La alineación de la IA suele percibirse como un objetivo fijo, pero algunos investigadores sostienen que sería más apropiado considerar la alineación como un proceso evolutivo. ^[157] Una visión es que las tecnologías de IA avanzan y los valores y preferencias humanos cambian, las soluciones de alineación también deben adaptarse dinámicamente. ^[32] Otra es que las soluciones de alineación no necesitan adaptarse si los investigadores pueden crear una IA alineada con la intención : IA que cambia su comportamiento automáticamente a medida que cambia la intención humana. ^[158] La primera visión tendría varias implicaciones:

Las soluciones de alineación de la IA requieren una actualización continua en respuesta a los avances de la IA. Un enfoque de alineación estático y de una sola vez puede no ser suficiente. ^[159]

Los distintos contextos históricos y paisajes tecnológicos pueden requerir estrategias de alineación distintas, lo que exige un enfoque flexible y capacidad de respuesta a condiciones cambiantes. ^[160]

La viabilidad de una solución de alineación permanente y "fija" sigue siendo incierta, lo que plantea la posible necesidad de una supervisión continua de la relación entre la IA y los seres humanos. ^[161]

Los desarrolladores de IA pueden tener que refinar continuamente sus marcos éticos para garantizar que sus sistemas se alineen con los valores humanos en evolución. ^[32]

En esencia, la alineación de la IA puede no ser un destino estático sino un proceso abierto y flexible. Las soluciones de alineación que se adaptan continuamente a consideraciones éticas pueden ofrecer el enfoque más sólido. ^[32] Esta perspectiva podría orientar tanto la formulación de políticas eficaces como la investigación técnica en IA.

Véase también

Notas al pie

^ La terminología varía según el contexto. Algunos conceptos similares son función objetivo, función de utilidad, función de pérdida, etc.
^ o minimizar, dependiendo del contexto
^ en presencia de incertidumbre, el valor esperado
^ En una conferencia de 1951 ^[79], Turing sostuvo que "parece probable que una vez que el método de pensamiento de las máquinas hubiera comenzado, no tardaría mucho en superar nuestros débiles poderes. No habría posibilidad de que las máquinas murieran, y serían capaces de conversar entre sí para agudizar su ingenio. En algún momento, por lo tanto, deberíamos esperar que las máquinas tomen el control, de la manera que se menciona en Erewhon de Samuel Butler". También en una conferencia transmitida por la BBC ^[80] expresó: "Si una máquina puede pensar, podría pensar de manera más inteligente que nosotros, y entonces ¿dónde estaríamos? Incluso si pudiéramos mantener a las máquinas en una posición subordinada, por ejemplo, apagando la energía en momentos estratégicos, deberíamos, como especie, sentirnos muy humillados... Este nuevo peligro... es ciertamente algo que puede causarnos ansiedad".
^ Pearl escribió "Human Compatible me convirtió a las preocupaciones de Russell sobre nuestra capacidad de controlar nuestra futura creación: máquinas superinteligentes. A diferencia de los alarmistas y futuristas externos, Russell es una autoridad líder en IA. Su nuevo libro educará al público sobre IA más que cualquier otro libro que pueda imaginar, y es una lectura deliciosa y edificante" sobre el libro de Russell Human Compatible: AI and the Problem of Control ^[6] , que sostiene que el riesgo existencial para la humanidad de una IA desalineada es una preocupación seria que vale la pena abordar hoy.
^ Russell y Norvig ^[15] señalan: "El "problema del Rey Midas" fue anticipado por Marvin Minsky, quien una vez sugirió que un programa de IA diseñado para resolver la hipótesis de Riemann podría terminar tomando el control de todos los recursos de la Tierra para construir supercomputadoras más poderosas".
^ Vincent Wiegel argumentó que "deberíamos extender [las máquinas] con sensibilidad moral a las dimensiones morales de las situaciones en las que las máquinas cada vez más autónomas inevitablemente se encontrarán", ^[106] haciendo referencia al libro Moral Machines: teaching robots right from wrong ^[107] de Wendell Wallach y Colin Allen.
^ Por un lado, los sistemas populares actualmente, como los chatbots, solo brindan servicios de alcance limitado que no duran más que el tiempo de una conversación, lo que requiere poca o ninguna planificación. El éxito de estos enfoques puede indicar que los sistemas futuros también carecerán de planificación dirigida a objetivos, especialmente en horizontes largos. Por otro lado, los modelos se entrenan cada vez más utilizando métodos dirigidos a objetivos, como el aprendizaje de refuerzo (por ejemplo, ChatGPT) y arquitecturas de planificación explícita (por ejemplo, AlphaGo Zero). Como la planificación en horizontes largos suele ser útil para los humanos, algunos investigadores sostienen que las empresas la automatizarán una vez que los modelos sean capaces de hacerlo. ^[5] De manera similar, los líderes políticos pueden ver un avance en el desarrollo de poderosos sistemas de IA que puedan superar a los adversarios mediante la planificación. Alternativamente, la planificación a largo plazo podría surgir como un subproducto porque es útil, por ejemplo, para los modelos que están entrenados para predecir las acciones de los humanos que realizan ellos mismos la planificación a largo plazo. ^[9] No obstante, la mayoría de los sistemas de IA pueden seguir siendo miopes y no realizar ninguna planificación a largo plazo.

Referencias

^ abcdefg Russell, Stuart J.; Norvig, Peter (2021). Inteligencia artificial: un enfoque moderno (4.ª ed.). Pearson. pp. 5, 1003. ISBN 9780134610993. Consultado el 12 de septiembre de 2022 .
^ abcde Ngo, Richard; Chan, Lawrence; Mindermann, Sören (2022). "El problema de la alineación desde una perspectiva de aprendizaje profundo". Conferencia internacional sobre representaciones de aprendizaje . arXiv : 2209.00626 .
^ abcdef Pan, Alexander; Bhatia, Kush; Steinhardt, Jacob (14 de febrero de 2022). Los efectos de la especificación incorrecta de las recompensas: mapeo y mitigación de modelos desalineados. Conferencia internacional sobre representaciones del aprendizaje . Consultado el 21 de julio de 2022 .
^ Zhuang, Simon; Hadfield-Menell, Dylan (2020). "Consecuencias de una IA desalineada". Avances en sistemas de procesamiento de información neuronal . Vol. 33. Curran Associates, Inc. págs. 15763–15773 . Consultado el 11 de marzo de 2023 .
^ abcdefghijklm Carlsmith, Joseph (16 de junio de 2022). "¿La IA en busca de poder es un riesgo existencial?". arXiv : 2206.13353 [cs.CY].
^ abcdefghijklmnopq Russell, Stuart J. (2020). Compatibilidad humana: inteligencia artificial y el problema del control. Penguin Random House. ISBN 9780525558637.OCLC 1113410915 .
^ abcdef Christian, Brian (2020). El problema de la alineación: aprendizaje automático y valores humanos. WW Norton & Company. ISBN 978-0-393-86833-3. OCLC 1233266753. Archivado desde el original el 10 de febrero de 2023. Consultado el 12 de septiembre de 2022 .
^ abcd Langosco, Lauro Langosco Di; Koch, Jack; Sharkey, Lee D.; Pfau, Jacob; Krueger, David (28 de junio de 2022). "Generalización errónea de objetivos en el aprendizaje por refuerzo profundo". Actas de la 39.ª Conferencia Internacional sobre Aprendizaje Automático . Conferencia Internacional sobre Aprendizaje Automático. PMLR. págs. 12004–12019 . Consultado el 11 de marzo de 2023 .
^ abcdefghij Bommasani, Rishi; Hudson, Drew A.; Adeli, Ehsan; Altman, Russ; Arora, Simran; von Arx, Sydney; Bernstein, Michael S.; Bohg, Jeannette; Bosselut, Antoine; Brunskill, Emma; Brynjolfsson, Erik (12 de julio de 2022). "Sobre las oportunidades y los riesgos de los modelos de cimentación". Stanford CRFM . arXiv : 2108.07258 .
^ abc Ouyang, Long; Wu, Jeff; Jiang, Xu; Almeida, Diogo; Wainwright, Carroll L.; Mishkin, Pamela; Zhang, Chong; Agarwal, Sandhini; Slama, Katarina; Ray, Alex; Schulman, J.; Hilton, Jacob; Kelton, Fraser; Miller, Luke E.; Simens, Maddie; Askell, Amanda; Welinder, P.; Christiano, P.; Leike, J.; Lowe, Ryan J. (2022). "Entrenamiento de modelos de lenguaje para seguir instrucciones con retroalimentación humana". arXiv : 2203.02155 [cs.CL].
^ ab Zaremba, Wojciech; Brockman, Greg; OpenAI (10 de agosto de 2021). «OpenAI Codex». OpenAI . Archivado desde el original el 3 de febrero de 2023 . Consultado el 23 de julio de 2022 .
^ Kober, Jens; Bagnell, J. Andrew; Peters, Jan (1 de septiembre de 2013). "Aprendizaje por refuerzo en robótica: una encuesta". Revista internacional de investigación en robótica . 32 (11): 1238–1274. doi :10.1177/0278364913495721. ISSN 0278-3649. S2CID 1932843. Archivado desde el original el 15 de octubre de 2022. Consultado el 12 de septiembre de 2022 .
^ Knox, W. Bradley; Allievi, Alessandro; Banzhaf, Holger; Schmitt, Felix; Stone, Peter (1 de marzo de 2023). "Recompensar el (mal)diseño para la conducción autónoma". Inteligencia artificial . 316 : 103829. arXiv : 2104.13906 . doi : 10.1016/j.artint.2022.103829 . ISSN 0004-3702. S2CID 233423198.
^ Stray, Jonathan (2020). "Alineación de la optimización de la IA con el bienestar de la comunidad". Revista internacional de bienestar comunitario . 3 (4): 443–463. doi :10.1007/s42413-020-00086-3. ISSN 2524-5295. PMC 7610010 . PMID 34723107. S2CID 226254676.
^ ab Russell, Stuart; Norvig, Peter (2009). Inteligencia artificial: un enfoque moderno. Prentice Hall. pág. 1003. ISBN 978-0-13-461099-3.
^ Bengio, Yoshua; Hinton, Geoffrey; Yao, Andrew; Song, Dawn; Abbeel, Pieter; Harari, Yuval Noah; Zhang, Ya-Qin; Xue, Lan; Shalev-Shwartz, Shai (2024), "Gestión de riesgos extremos de IA en medio de un rápido progreso", Science , 384 (6698): 842–845, arXiv : 2310.17688 , Bibcode :2024Sci...384..842B, doi :10.1126/science.adn0117, PMID 38768279
^ "Declaración sobre los riesgos de la IA | CAIS" www.safe.ai . Consultado el 11 de febrero de 2024 .
^ Grace, Katja; Stewart, Harlan; Sandkühler, Julia Fabienne; Thomas, Stephen; Weinstein-Raun, Ben; Brauner, Jan (5 de enero de 2024), Miles de autores de IA sobre el futuro de la IA , arXiv : 2401.02843
^ ab Smith, Craig S. "Geoff Hinton, el investigador más famoso de la IA, advierte sobre una 'amenaza existencial'". Forbes . Consultado el 4 de mayo de 2023 .
^ Perrigo, Billy (13 de febrero de 2024). "Yann LeCun, jefe de inteligencia artificial de Meta, habla de la inteligencia artificial general, el código abierto y el riesgo de la inteligencia artificial". TIME . Consultado el 26 de junio de 2024 .
^ abcdefghijk Amodei, Darío; Ola, Chris; Steinhardt, Jacob; Cristiano, Pablo; Schulman, Juan; Mané, Dan (21 de junio de 2016). "Problemas concretos en la seguridad de la IA". arXiv : 1606.06565 [cs.AI].
^ abcd Ortega, Pedro A.; Maini, Vishal; Equipo de seguridad de DeepMind (27 de septiembre de 2018). «Construcción de inteligencia artificial segura: especificación, robustez y garantía». Investigación de seguridad de DeepMind – Medium . Archivado desde el original el 10 de febrero de 2023. Consultado el 18 de julio de 2022 .
^ ab Rorvig, Mordechai (14 de abril de 2022). «Los investigadores obtienen nuevos conocimientos a partir de una IA sencilla». Revista Quanta . Archivado desde el original el 10 de febrero de 2023. Consultado el 18 de julio de 2022 .
^ Doshi-Velez, Finale; Kim, Been (2 de marzo de 2017). "Hacia una ciencia rigurosa del aprendizaje automático interpretable". arXiv : 1702.08608 [stat.ML].
- Wiblin, Robert (4 de agosto de 2021). "Chris Olah sobre qué diablos está pasando dentro de las redes neuronales" (Podcast). 80.000 horas. N.º 107. Consultado el 23 de julio de 2022 .
^ Russell, Stuart; Dewey, Daniel; Tegmark, Max (31 de diciembre de 2015). «Prioridades de investigación para una inteligencia artificial robusta y beneficiosa». AI Magazine . 36 (4): 105–114. arXiv : 1602.03506 . doi : 10.1609/aimag.v36i4.2577 . hdl :1721.1/108478. ISSN 2371-9621. S2CID 8174496. Archivado desde el original el 2 de febrero de 2023 . Consultado el 12 de septiembre de 2022 .
^ ab Wirth, Christian; Akrour, Riad; Neumann, Gerhard; Fürnkranz, Johannes (2017). "Un estudio de métodos de aprendizaje por refuerzo basados en preferencias". Revista de investigación en aprendizaje automático . 18 (136): 1–46.
^ ab Christiano, Paul F.; Leike, Jan; Brown, Tom B.; Martic, Miljan; Legg, Shane; Amodei, Dario (2017). "Aprendizaje de refuerzo profundo a partir de las preferencias humanas". Actas de la 31.ª Conferencia internacional sobre sistemas de procesamiento de información neuronal . NIPS'17. Red Hook, NY, EE. UU.: Curran Associates Inc. págs. 4302–4310. ISBN 978-1-5108-6096-4.
^ abcdef Heaven, Will Douglas (27 de enero de 2022). «La nueva versión de GPT-3 se comporta mucho mejor (y debería ser menos tóxica)». MIT Technology Review . Archivado desde el original el 10 de febrero de 2023. Consultado el 18 de julio de 2022 .
^ Mohseni, Sina; Wang, Haotao; Yu, Zhiding; Xiao, Chaowei; Wang, Zhangyang; Yadawa, Jay (7 de marzo de 2022). "Taxonomía de la seguridad del aprendizaje automático: una encuesta y una introducción". arXiv : 2106.04823 [cs.LG].
^ Clifton, Jesse (2020). «Cooperación, conflicto e inteligencia artificial transformadora: una agenda de investigación». Centro de Riesgo a Largo Plazo . Archivado desde el original el 1 de enero de 2023. Consultado el 18 de julio de 2022 .
- Dafoe, Allan; Bachrach, Yoram; Hadfield, Gillian; Horvitz, Eric; Larson, Kate; Graepel, Thore (6 de mayo de 2021). «IA cooperativa: las máquinas deben aprender a encontrar puntos en común». Nature . 593 (7857): 33–36. Bibcode :2021Natur.593...33D. doi :10.1038/d41586-021-01170-0. ISSN 0028-0836. PMID 33947992. S2CID 233740521. Archivado desde el original el 18 de diciembre de 2022 . Consultado el 12 de septiembre de 2022 .
^ Prunkl, Carina; Whittlestone, Jess (7 de febrero de 2020). "Más allá del corto y largo plazo". Actas de la Conferencia AAAI/ACM sobre IA, ética y sociedad . Nueva York, NY, EE. UU.: ACM. págs. 138-143. doi :10.1145/3375627.3375803. ISBN 978-1-4503-7110-0. S2CID 210164673. Archivado desde el original el 16 de octubre de 2022 . Consultado el 12 de septiembre de 2022 .
^ abcd Irving, Geoffrey; Askell, Amanda (19 de febrero de 2019). «La seguridad de la IA necesita científicos sociales». Distill . 4 (2): 10.23915/distill.00014. doi : 10.23915/distill.00014 . ISSN 2476-0757. S2CID 159180422. Archivado desde el original el 10 de febrero de 2023 . Consultado el 12 de septiembre de 2022 .
^ Bringsjord, Selmer y Govindarajulu, Naveen Sundar, "Inteligencia artificial", The Stanford Encyclopedia of Philosophy (edición de verano de 2020), Edward N. Zalta (ed.)
^ "Por qué la inteligencia artificial de AlphaZero tiene problemas con el mundo real". Revista Quanta . 2018. Consultado el 20 de junio de 2020 .
^ Wolchover, Natalie (30 de enero de 2020). "La inteligencia artificial hará lo que le pidamos. Eso es un problema". Revista Quanta . Consultado el 21 de junio de 2020 .
^ Bull, Larry. "Sobre computación evolutiva basada en modelos". Soft Computing 3, núm. 2 (1999): 76-82.
^ ab Wiener, Norbert (6 de mayo de 1960). «Algunas consecuencias morales y técnicas de la automatización: a medida que las máquinas aprenden, pueden desarrollar estrategias imprevistas a un ritmo que desconcierta a sus programadores». Science . 131 (3410): 1355–1358. doi :10.1126/science.131.3410.1355. ISSN 0036-8075. PMID 17841602. S2CID 30855376. Archivado desde el original el 15 de octubre de 2022 . Consultado el 12 de septiembre de 2022 .
^ abcd Gabriel, Iason (1 de septiembre de 2020). "Inteligencia artificial, valores y alineación". Mentes y máquinas . 30 (3): 411–437. arXiv : 2001.09768 . doi : 10.1007/s11023-020-09539-2 . ISSN 1572-8641. S2CID 210920551.
^ The Ezra Klein Show (4 de junio de 2021). «Si 'todos los modelos están equivocados', ¿por qué les damos tanto poder?». The New York Times . ISSN 0362-4331. Archivado desde el original el 15 de febrero de 2023. Consultado el 13 de marzo de 2023 .
- Wolchover, Natalie (21 de abril de 2015). «Preocupaciones de un pionero de la inteligencia artificial». Revista Quanta . Archivado desde el original el 10 de febrero de 2023. Consultado el 13 de marzo de 2023 .
- Asamblea de California. «Texto del proyecto de ley – ACR-215 23 Principios de la IA de Asilomar». Archivado desde el original el 10 de febrero de 2023. Consultado el 18 de julio de 2022 .
^ ab Johnson, Steven; Iziev, Nikita (15 de abril de 2022). "La IA está dominando el lenguaje. ¿Debemos confiar en lo que dice?". The New York Times . ISSN 0362-4331. Archivado desde el original el 24 de noviembre de 2022. Consultado el 18 de julio de 2022 .
^ OpenAI. «Desarrollo de una IA segura y responsable» . Consultado el 13 de marzo de 2023 .
- "Investigación sobre seguridad de DeepMind". Medium . Archivado desde el original el 10 de febrero de 2023. Consultado el 13 de marzo de 2023 .
^ abcdef Hendrycks, Dan; Carlini, Nicholas; Schulman, John; Steinhardt, Jacob (16 de junio de 2022). "Problemas sin resolver en la seguridad del aprendizaje automático". arXiv : 2109.13916 [cs.LG].
^ Russell, Stuart J.; Norvig, Peter (2022). Inteligencia artificial: un enfoque moderno (4.ª ed.). Pearson. pp. 4-5. ISBN 978-1-292-40113-3.OCLC 1303900751 .
^ abcde Krakovna, Victoria; Uesato, Jonathan; Mikulik, Vladimir; Rahtz, Matthew; Everitt, Tom; Kumar, Ramana; Kenton, Zac; Leike, Jan; Legg, Shane (21 de abril de 2020). «Juegos de especificaciones: la otra cara del ingenio de la IA». Deepmind . Archivado desde el original el 10 de febrero de 2023 . Consultado el 26 de agosto de 2022 .
^ Manheim, David; Garrabrant, Scott (2018). "Categorización de variantes de la ley de Goodhart". arXiv : 1803.04585 [cs.AI].
^ abc Amodei, Dario; Christiano, Paul; Ray, Alex (13 de junio de 2017). "Aprendiendo de las preferencias humanas". OpenAI . Archivado desde el original el 3 de enero de 2021 . Consultado el 21 de julio de 2022 .
^ "Ejemplos de especificaciones de juegos en IA - lista maestra - Google Drive". docs.google.com .
^ Clark, Jack; Amodei, Dario (21 de diciembre de 2016). «Funciones de recompensa defectuosas en la naturaleza». openai.com . Consultado el 30 de diciembre de 2023 .
^ abc Lin, Stephanie; Hilton, Jacob; Evans, Owain (2022). "TruthfulQA: Measuring How Models Mimic Human Falsehoods". Actas de la 60.ª Reunión Anual de la Asociación de Lingüística Computacional (volumen 1: artículos extensos) . Dublín, Irlanda: Asociación de Lingüística Computacional: 3214–3252. arXiv : 2109.07958 . doi : 10.18653/v1/2022.acl-long.229 . S2CID: 237532606. Archivado desde el original el 10 de febrero de 2023. Consultado el 12 de septiembre de 2022 .
^ abc Naughton, John (2 de octubre de 2021). «¿La verdad sobre la inteligencia artificial? No es tan honesta». The Observer . ISSN 0029-7712. Archivado desde el original el 13 de febrero de 2023. Consultado el 23 de julio de 2022 .
^ Ji, Ziwei; Lee, Nayeon; Frieske, Rita; Yu, Tiezheng; Su, Dan; Xu, Yan; Ishii, Etsuko; Bang, Yejin; Madotto, Andrea; Fung, Pascale (1 de febrero de 2022). "Encuesta sobre alucinaciones en la generación de lenguaje natural". Encuestas de computación de ACM . 55 (12): 1–38. arXiv : 2202.03629 . doi : 10.1145/3571730. S2CID 246652372. Archivado desde el original el 10 de febrero de 2023. Consultado el 14 de octubre de 2022 .
- Else, Holly (12 de enero de 2023). "Los resúmenes escritos por ChatGPT engañan a los científicos". Nature . 613 (7944): 423. Bibcode :2023Natur.613..423E. doi :10.1038/d41586-023-00056-7. PMID 36635510. S2CID 255773668.
^ Russell, Stuart. «De mitos y luz de luna». Edge.org . Archivado desde el original el 10 de febrero de 2023. Consultado el 19 de julio de 2022 .
^ Tasioulas, John (2019). "Primeros pasos hacia una ética de los robots y la inteligencia artificial". Revista de ética práctica . 7 (1): 61–95.
^ Wells, Georgia; Deepa Seetharaman; Horwitz, Jeff (5 de noviembre de 2021). "¿Facebook es malo para ti? Lo es para unos 360 millones de usuarios, sugieren las encuestas de empresas". The Wall Street Journal . ISSN 0099-9660. Archivado desde el original el 10 de febrero de 2023. Consultado el 19 de julio de 2022 .
^ Barrett, Paul M.; Hendrix, Justin; Sims, J. Grant (septiembre de 2021). Cómo las redes sociales intensifican la polarización política en Estados Unidos y qué se puede hacer al respecto (informe). Centro de Empresas y Derechos Humanos, Universidad de Nueva York. Archivado desde el original el 1 de febrero de 2023. Consultado el 12 de septiembre de 2022 .
^ Shepardson, David (24 de mayo de 2018). «Uber deshabilitó el frenado de emergencia en un vehículo autónomo: agencia estadounidense». Reuters . Archivado desde el original el 10 de febrero de 2023. Consultado el 20 de julio de 2022 .
^ "La confusa y secreta realidad detrás del intento de OpenAI de salvar el mundo". MIT Technology Review . Consultado el 25 de agosto de 2024 .
^ Johnson, Dave. "DeepMind es el centro de investigación de inteligencia artificial de Google. Esto es lo que hace, dónde está ubicado y en qué se diferencia de OpenAI". Business Insider . Consultado el 25 de agosto de 2024 .
^ ab Wei, Jason; Tay, Yi; Bommasani, Rishi; Raffel, Colin; Zoph, Barret; Borgeaud, Sebastián; Yogatama, Dani; Bosma, Martín; Zhou, Denny; Metzler, Donald; Chi, Ed H.; Hashimoto, Tatsunori; Vinyals, Oriol; Liang, Percy; Decano, Jeff; Fedus, William (26 de octubre de 2022). "Habilidades emergentes de grandes modelos lingüísticos". Transacciones sobre investigación en aprendizaje automático . arXiv : 2206.07682 . ISSN 2835-8856.
^ ab Caballero, Ethan; Gupta, Kshitij; Rish, Irina; Krueger, David (2022). "Leyes de escalamiento neuronal rotas". Conferencia internacional sobre representaciones del aprendizaje (ICLR), 2023.
^ Dominguez, Daniel (19 de mayo de 2022). «DeepMind presenta Gato, un nuevo agente de IA generalista». InfoQ . Archivado desde el original el 10 de febrero de 2023 . Consultado el 9 de septiembre de 2022 .
- Edwards, Ben (26 de abril de 2022). «El asistente de inteligencia artificial de Adept puede navegar, buscar y usar aplicaciones web como un humano». Ars Technica . Archivado desde el original el 17 de enero de 2023 . Consultado el 9 de septiembre de 2022 .
^ Grace, Katja; Stewart, Harlan; Sandkühler, Julia Fabienne; Thomas, Stephen; Weinstein-Raun, Ben; Brauner, Jan (5 de enero de 2024), Miles de autores de IA sobre el futuro de la IA , arXiv : 2401.02843
^ Grace, Katja; Salvatier, John; Dafoe, Allan; Zhang, Baobao; Evans, Owain (31 de julio de 2018). "Viewpoint: When Will AI Exceed Human Performance? Evidence from AI Experts" (Punto de vista: ¿cuándo superará la IA el rendimiento humano? Evidencia de expertos en IA). Journal of Artificial Intelligence Research (Revista de investigación en inteligencia artificial ) . 62 : 729–754. doi : 10.1613/jair.1.11222 . ISSN 1076-9757. S2CID 8746462. Archivado desde el original el 10 de febrero de 2023. Consultado el 12 de septiembre de 2022 .
^ Zhang, Baobao; Anderljung, Markus; Kahn, Lauren; Dreksler, Noemi; Horowitz, Michael C.; Dafoe, Allan (2 de agosto de 2021). «Ética y gobernanza de la inteligencia artificial: evidencia de una encuesta a investigadores de aprendizaje automático». Revista de investigación en inteligencia artificial . 71 . arXiv : 2105.02117 . doi : 10.1613/jair.1.12895 . ISSN 1076-9757. S2CID 233740003. Archivado desde el original el 10 de febrero de 2023 . Consultado el 12 de septiembre de 2022 .
^ Future of Life Institute (22 de marzo de 2023). «Pause Giant AI Experiments: An Open Letter» (Detener los experimentos gigantes de inteligencia artificial: una carta abierta) . Consultado el 20 de abril de 2023 .
^ Wang, Lei; Mamá, Chen; Feng, Xueyang; Zhang, Zeyu; Yang, Hao; Zhang, Jingsen; Chen, Zhiyuan; Tang, Jiakai; Chen, Xu (2024), "Una encuesta sobre agentes autónomos basados en modelos de lenguaje grandes", Frontiers of Computer Science , 18 (6), arXiv : 2308.11432 , doi :10.1007/s11704-024-40231-1 , consultado el 11 de febrero de 2024
^ Berglund, Lukas; Stickland, Asa Cooper; Balesni, Mikita; Kaufmann, Max; Tong, Meg; Korbak, Tomasz; Kokotajlo, Daniel; Evans, Owain (1 de septiembre de 2023), Sacado de contexto: sobre la medición de la conciencia situacional en los LLM , arXiv : 2309.00667
^ Laine, Rudolf; Meinke, Alexander; Evans, Owain (28 de noviembre de 2023). "Hacia un punto de referencia de conciencia situacional para los LLM". Taller SoLaR de NeurIPS 2023 .
^ ab Pan, Alexander; Shern, Chan Jun; Zou, Andy; Li, Nathaniel; Basart, Steven; Woodside, Thomas; Ng, Jonathan; Zhang, Emmons; Scott, Dan; Hendrycks (3 de abril de 2023). "¿Las recompensas justifican los medios? Medición de las compensaciones entre las recompensas y el comportamiento ético en el parámetro de referencia MAQUIAVELLO". Actas de la 40.ª Conferencia Internacional sobre Aprendizaje Automático . PMLR. arXiv : 2304.03279 .
^ abcd Perez, Ethan; Ringer, Sam; Lukošiūtė, Kamilė; Nguyen, Karina; Chen, Edwin; Heiner, Scott; Pettit, Craig; Olsson, Catherine; Kundu, Sandipan; Kadavath, Saurav; Jones, Andy; Chen, Anna; Mann, Ben; Israel, Brian; Seethor, Bryan (19 de diciembre de 2022). "Descubrimiento de comportamientos de modelos de lenguaje con evaluaciones escritas de modelos". arXiv : 2212.09251 [cs.CL].
^ Orseau, Laurent; Armstrong, Stuart (25 de junio de 2016). "Agentes interrumpibles de forma segura". Actas de la Trigésima Segunda Conferencia sobre Incertidumbre en Inteligencia Artificial . UAI'16. Arlington, Virginia, EE. UU.: AUAI Press: 557–566. ISBN 978-0-9966431-1-5.
^ ab Leike, enero; Martic, Miljan; Krakovna, Victoria; Ortega, Pedro A.; Everitt, Tom; Lefrancq, Andrés; Orseau, Laurent; Legg, Shane (28 de noviembre de 2017). "Mundos Grid de seguridad de IA". arXiv : 1711.09883 [cs.LG].
^ abcd Hadfield-Menell, Dylan; Dragan, Anca; Abbeel, Pieter; Russell, Stuart (19 de agosto de 2017). "El juego del interruptor de apagado". Actas de la 26.ª Conferencia conjunta internacional sobre inteligencia artificial . IJCAI'17. Melbourne, Australia: AAAI Press: 220–227. ISBN 978-0-9992411-0-3.
^ abcd Turner, Alexander Matt; Smith, Logan Riggs; Shah, Rohin; Critch, Andrew; Tadepalli, Prasad (2021). "Las políticas óptimas tienden a buscar el poder". Avances en sistemas de procesamiento de información neuronal .
^ Turner, Alexander Matt; Tadepalli, Prasad (2022). "Los tomadores de decisiones con capacidad de reorientación paramétrica tienden a buscar el poder". Avances en los sistemas de procesamiento de información neuronal .
^ abcde Bostrom, Nick (2014). Superinteligencia: caminos, peligros, estrategias (1.ª ed.). EE. UU.: Oxford University Press, Inc. ISBN 978-0-19-967811-2.
^ ab "Declaración sobre los riesgos de la IA | CAIS". www.safe.ai . Consultado el 17 de julio de 2023 .
^ Roose, Kevin (30 de mayo de 2023). «La IA plantea un 'riesgo de extinción', advierten los líderes de la industria». The New York Times . ISSN 0362-4331 . Consultado el 17 de julio de 2023 .
^ Turing, Alan (1951). Maquinaria inteligente, una teoría herética (Discurso). Conferencia impartida en '51 Society'. Manchester: The Turing Digital Archive. Archivado desde el original el 26 de septiembre de 2022. Consultado el 22 de julio de 2022 .
^ Turing, Alan (15 de mayo de 1951). "¿Pueden pensar las computadoras digitales?". Automatic Calculating Machines . Episodio 2. BBC. ¿Pueden pensar las computadoras digitales?
^ Muehlhauser, Luke (29 de enero de 2016). "Sutskever on Talking Machines". Luke Muehlhauser . Archivado desde el original el 27 de septiembre de 2022. Consultado el 26 de agosto de 2022 .
^ Shanahan, Murray (2015). La singularidad tecnológica. Cambridge, Massachusetts: MIT Press. ISBN 978-0-262-52780-4.OCLC 917889148 .
^ Rossi, Francesca. «¿Cómo se le enseña a una máquina a ser moral?». The Washington Post . ISSN 0190-8286. Archivado desde el original el 10 de febrero de 2023. Consultado el 12 de septiembre de 2022 .
^ Aaronson, Scott (17 de junio de 2022). "OpenAI!". Optimizado para Shtetl . Archivado desde el original el 27 de agosto de 2022. Consultado el 12 de septiembre de 2022 .
^ Selman, Bart, Explosión de inteligencia: ¿ciencia o ficción? (PDF) , archivado (PDF) del original el 31 de mayo de 2022 , consultado el 12 de septiembre de 2022
^ McAllester (10 de agosto de 2014). «Friendly AI and the Servant Mission». Machine Thoughts . Archivado desde el original el 28 de septiembre de 2022. Consultado el 12 de septiembre de 2022 .
^ Schmidhuber, Jürgen (6 de marzo de 2015). "Soy Jürgen Schmidhuber, AMA!" (Comentario de Reddit) . r/MachineLearning . Archivado desde el original el 10 de febrero de 2023. Consultado el 23 de julio de 2022 .
^ abcde Everitt, Tom; Lea, Gary; Hutter, Marcus (21 de mayo de 2018). "Revisión de la literatura sobre seguridad de AGI". arXiv : 1805.01109 [cs.AI].
^ Shane (31 de agosto de 2009). «Financiación de una AGI segura». proyecto vetta . Archivado desde el original el 10 de octubre de 2022. Consultado el 12 de septiembre de 2022 .
^ Horvitz, Eric (27 de junio de 2016). «Reflexiones sobre seguridad e inteligencia artificial» (PDF) . Eric Horvitz . Archivado (PDF) del original el 10 de octubre de 2022. Consultado el 20 de abril de 2020 .
^ Chollet, François (8 de diciembre de 2018). «La improbabilidad de la explosión de inteligencia». Medium . Archivado desde el original el 22 de marzo de 2021. Consultado el 26 de agosto de 2022 .
^ Marcus, Gary (6 de junio de 2022). «La inteligencia artificial general no es tan inminente como se podría pensar». Scientific American . Archivado desde el original el 15 de septiembre de 2022. Consultado el 26 de agosto de 2022 .
^ Barber, Lynsey (31 de julio de 2016). "¡Uf! El jefe de inteligencia artificial de Facebook dice que las máquinas inteligentes no son una amenaza para la humanidad". CityAM . Archivado desde el original el 26 de agosto de 2022. Consultado el 26 de agosto de 2022 .
^ Etzioni, Oren (20 de septiembre de 2016). "No, los expertos no creen que la IA superinteligente sea una amenaza para la humanidad". MIT Technology Review . Consultado el 10 de junio de 2024 .
^ Rochon, Louis-Philippe; Rossi, Sergio (27 de febrero de 2015). La enciclopedia de la banca central. Edward Elgar Publishing. ISBN 978-1-78254-744-0Archivado del original el 10 de febrero de 2023 . Consultado el 13 de septiembre de 2022 .
^ Ng, Andrew Y.; Russell, Stuart J. (29 de junio de 2000). "Algoritmos para el aprendizaje por refuerzo inverso". Actas de la Decimoséptima Conferencia Internacional sobre Aprendizaje Automático . ICML '00. San Francisco, CA, EE. UU.: Morgan Kaufmann Publishers Inc.: 663–670. ISBN 978-1-55860-707-1.
^ Hadfield-Menell, Dylan; Russell, Stuart J; Abbeel, Pieter; Dragan, Anca (2016). "Aprendizaje de refuerzo inverso cooperativo". Avances en sistemas de procesamiento de información neuronal . Vol. 29. Curran Associates, Inc.
^ Mindermann, Soren; Armstrong, Stuart (2018). "La navaja de Occam es insuficiente para inferir las preferencias de los agentes irracionales". Actas de la 32.ª conferencia internacional sobre sistemas de procesamiento de información neuronal . NIPS'18. Red Hook, NY, EE. UU.: Curran Associates Inc., págs. 5603–5614.
^ Fürnkranz, Johannes; Hüllermeier, Eyke; Rudin, Cynthia; Slowinski, Roman; Sanner, Scott (2014). "Aprendizaje de preferencias". Informes Dagstuhl . 4 (3). Marc Herbstritt: 27 páginas. doi : 10.4230/DAGREP.4.3.1 . Archivado desde el original el 10 de febrero de 2023 . Consultado el 12 de septiembre de 2022 .
^ Gao, Leo; Schulman, John; Hilton, Jacob (19 de octubre de 2022). "Leyes de escalamiento para la sobreoptimización del modelo de recompensa". arXiv : 2210.10760 [cs.LG].
^ Anderson, Martin (5 de abril de 2022). "Los peligros de usar citas para autenticar contenido NLG". Unite.AI . Archivado desde el original el 10 de febrero de 2023. Consultado el 21 de julio de 2022 .
^ ab Wiggers, Kyle (5 de febrero de 2022). "A pesar de los avances recientes, los chatbots impulsados por IA aún tienen un largo camino por recorrer". VentureBeat . Archivado desde el original el 23 de julio de 2022 . Consultado el 23 de julio de 2022 .
^ Hendrycks, Dan; Burns, Collin; Basart, Steven; Critch, Andrew; Li, Jerry; Song, Dawn; Steinhardt, Jacob (24 de julio de 2021). "Alineación de la IA con los valores humanos compartidos". Conferencia internacional sobre representaciones del aprendizaje . arXiv : 2008.02275 .
^ Pérez, Ethan; Huang, Saffron; Song, Francis; Cai, Trevor; Ring, Roman; Aslanides, John; Glaese, Amelia; McAleese, Nat; Irving, Geoffrey (7 de febrero de 2022). "Red Teaming Language Models with Language Models". arXiv : 2202.03286 [cs.CL].
- Bhattacharyya, Sreejani (14 de febrero de 2022). "Los modelos de lenguaje de "equipo rojo" de DeepMind con modelos de lenguaje: ¿de qué se trata?". Revista Analytics India . Archivado desde el original el 13 de febrero de 2023. Consultado el 23 de julio de 2022 .
^ Anderson, Michael; Anderson, Susan Leigh (15 de diciembre de 2007). "Machine Ethics: Creating an Ethical Intelligent Agent". AI Magazine . 28 (4): 15. doi :10.1609/aimag.v28i4.2065. ISSN 2371-9621. S2CID 17033332 . Consultado el 14 de marzo de 2023 .
^ Wiegel, Vincent (1 de diciembre de 2010). «Wendell Wallach y Colin Allen: máquinas morales: enseñar a los robots a distinguir el bien del mal». Ética y tecnología de la información . 12 (4): 359–361. doi : 10.1007/s10676-010-9239-1 . ISSN 1572-8439. S2CID 30532107.
^ Wallach, Wendell; Allen, Colin (2009). Moral Machines: Teaching Robots' Wrong (Máquinas morales: enseñar a los robots a distinguir el bien del mal). Nueva York: Oxford University Press. ISBN 978-0-19-537404-9Archivado del original el 15 de marzo de 2023 . Consultado el 23 de julio de 2022 .
^ ab Phelps, Steve; Ranson, Rebecca (2023). "De modelos y hombres de hojalata: un estudio de economía conductual de problemas de agente-principal en la alineación de IA utilizando modelos de lenguaje amplio". arXiv : 2307.11137 [cs.AI].
^ MacAskill, William (2022). Lo que le debemos al futuro. Nueva York, NY: Basic Books, Hachette Book Group. ISBN 978-1-5416-1862-6. OCLC 1314633519. Archivado desde el original el 14 de septiembre de 2022 . Consultado el 11 de septiembre de 2024 .
^ ab Wu, Jeff; Ouyang, Long; Ziegler, Daniel M.; Stiennon, Nisan; Lowe, Ryan; Leike, Jan; Christiano, Paul (27 de septiembre de 2021). "Resumen recursivo de libros con retroalimentación humana". arXiv : 2109.10862 [cs.CL].
^ Pearce, Hammond; Ahmad, Baleegh; Tan, Benjamin; Dolan-Gavitt, Brendan; Karri, Ramesh (2022). "¿Dormido frente al teclado? Evaluación de la seguridad de las contribuciones de código de GitHub Copilot". Simposio IEEE sobre seguridad y privacidad de 2022 (SP) . San Francisco, CA, EE. UU.: IEEE. págs. 754–768. arXiv : 2108.09293 . doi :10.1109/SP46214.2022.9833571. ISBN . 978-1-6654-1316-9.S2CID245220588 .
^ Irving, Geoffrey; Amodei, Dario (3 de mayo de 2018). «Seguridad de la IA a través del debate». OpenAI . Archivado desde el original el 10 de febrero de 2023. Consultado el 23 de julio de 2022 .
^ ab Christiano, Paul; Shlegeris, Buck; Amodei, Dario (19 de octubre de 2018). "Supervisar a los estudiantes fuertes amplificando a los expertos débiles". arXiv : 1810.08575 [cs.LG].
^ Banzhaf, Wolfgang; Goodman, Erik; Sheneman, Leigh; Trujillo, Leonardo; Worzel, Bill, eds. (2020). Teoría y práctica de la programación genética XVII. Computación genética y evolutiva. Cham: Springer International Publishing. doi :10.1007/978-3-030-39958-0. ISBN 978-3-030-39957-3. S2CID 218531292. Archivado desde el original el 15 de marzo de 2023 . Consultado el 23 de julio de 2022 .
^ Wiblin, Robert (2 de octubre de 2018). "El Dr. Paul Christiano habla sobre cómo OpenAI está desarrollando soluciones reales al 'problema de alineación de la IA' y su visión de cómo la humanidad entregará progresivamente la toma de decisiones a los sistemas de IA" (Podcast). 80.000 horas. N.º 44. Archivado desde el original el 14 de diciembre de 2022. Consultado el 23 de julio de 2022 .
^ Lehman, Joel; Clune, Jeff; Misevic, Dusan; Adami, Christoph; Altenberg, Lee; Beaulieu, Julie; Bentley, Peter J.; Bernard, Samuel; Beslon, Guillaume; Bryson, David M.; Cheney, Nick (2020). "La sorprendente creatividad de la evolución digital: una colección de anécdotas de las comunidades de investigación de computación evolutiva y vida artificial". Vida artificial . 26 (2): 274–306. doi : 10.1162/artl_a_00319 . hdl : 10044/1/83343 . ISSN 1064-5462. PMID 32271631. S2CID 4519185. Archivado desde el original el 10 de octubre de 2022 . Consultado el 12 de septiembre de 2022 .
^ ab Leike, Jan; Krueger, David; Everitt, Tom; Martic, Miljan; Maini, Vishal; Legg, Shane (19 de noviembre de 2018). "Alineación escalable de agentes mediante modelado de recompensas: una dirección de investigación". arXiv : 1811.07871 [cs.LG].
^ ab Leike, Jan; Schulman, John; Wu, Jeffrey (24 de agosto de 2022). "Nuestro enfoque de la investigación sobre alineación". OpenAI . Archivado desde el original el 15 de febrero de 2023 . Consultado el 9 de septiembre de 2022 .
^ Wiggers, Kyle (23 de septiembre de 2021). «OpenAI presenta un modelo que puede resumir libros de cualquier extensión». VentureBeat . Archivado desde el original el 23 de julio de 2022. Consultado el 23 de julio de 2022 .
^ Saunders, William; Yeh, Catherine; Wu, Jeff; Bills, Steven; Ouyang, Long; Ward, Jonathan; Leike, Jan (13 de junio de 2022). "Modelos de autocrítica para ayudar a los evaluadores humanos". arXiv : 2206.05802 [cs.CL].
- Bai, Yuntao; Kadavath, Saurav; Kundu, Sandipan; Askell, Amanda; Kernion, Jackson; Jones, Andy; Chen, Anna; Goldie, Anna; Mirhoseini, Azalia; McKinnon, Cameron; Chen, Carol; Olsson, Catherine; Olah, Christopher; Hernandez, Danny; Drain, Dawn (15 de diciembre de 2022). "IA constitucional: inocuidad a partir de la retroalimentación de la IA". arXiv : 2212.08073 [cs.CL].
^ "Presentación de la superalineación". openai.com . Consultado el 17 de julio de 2023 .
^ abc Wiggers, Kyle (20 de septiembre de 2021). "Las falsedades son más probables con modelos de lenguaje grandes". VentureBeat . Archivado desde el original el 4 de agosto de 2022 . Consultado el 23 de julio de 2022 .
^ The Guardian (8 de septiembre de 2020). «Un robot escribió todo este artículo. ¿Ya tienes miedo, humano?». The Guardian . ISSN 0261-3077. Archivado desde el original el 8 de septiembre de 2020. Consultado el 23 de julio de 2022 .
- Heaven, Will Douglas (20 de julio de 2020). «El nuevo generador de lenguaje GPT-3 de OpenAI es sorprendentemente bueno y completamente absurdo». MIT Technology Review . Archivado desde el original el 25 de julio de 2020 . Consultado el 23 de julio de 2022 .
^ ab Evans, Owain; Cotton-Barratt, Owen; Finnveden, Lukas; Bales, Adam; Balwit, Avital; Wills, Peter; Righetti, Luca; Saunders, William (13 de octubre de 2021). "IA veraz: desarrollo y gobernanza de una IA que no mienta". arXiv : 2110.06674 [cs.CY].
^ Alford, Anthony (13 de julio de 2021). "EleutherAI publica en código abierto un clon GPT-J de seis mil millones de parámetros de GPT-3". InfoQ . Archivado desde el original el 10 de febrero de 2023 . Consultado el 23 de julio de 2022 .
- Rae, Jack W.; Borgeaud, Sebastian; Cai, Trevor; Millican, Katie; Hoffmann, Jordan; Song, Francis; Aslanides, John; Henderson, Sarah; Ring, Roman; Young, Susannah; Rutherford, Eliza; Hennigan, Tom; Menick, Jacob; Cassirer, Albin; Powell, Richard (21 de enero de 2022). "Escalado de modelos de lenguaje: métodos, análisis y perspectivas del entrenamiento de Gopher". arXiv : 2112.11446 [cs.CL].
^ Nakano, Reiichiro; Hilton, Jacob; Balaji, Suchir; Wu, Jeff; Ouyang, Long; Kim, Christina; Hesse, Christopher; Jain, Shantanu; Kosaraju, Vineet; Saunders, William; Jiang, Xu; Cobbe, Karl; Eloundou, Tyna; Krueger, Gretchen; Button, Kevin (1 de junio de 2022). "WebGPT: Respuesta a preguntas asistida por navegador con retroalimentación humana". arXiv : 2112.09332 [cs.CL].
- Kumar, Nitish (23 de diciembre de 2021). "Investigadores de OpenAI encuentran formas de responder con mayor precisión a preguntas abiertas utilizando un navegador web basado en texto". MarkTechPost . Archivado desde el original el 10 de febrero de 2023 . Consultado el 23 de julio de 2022 .
- Menick, Jacob; Trebacz, Maja; Mikulik, Vladimir; Aslanides, John; Song, Francis; Chadwick, Martin; Glaese, Mia; Young, Susannah; Campbell-Gillingham, Lucy; Irving, Geoffrey; McAleese, Nat (21 de marzo de 2022). «Enseñar modelos de lenguaje para respaldar respuestas con citas verificadas». DeepMind . arXiv : 2203.11147 . Archivado desde el original el 10 de febrero de 2023 . Consultado el 12 de septiembre de 2022 .
^ Askell, Amanda; Bai, Yuntao; Chen, Anna; Drain, Dawn; Ganguli, Deep; Henighan, Tom; Jones, Andy; Joseph, Nicholas; Mann, Ben; DasSarma, Nova; Elhage, Nelson; Hatfield-Dodds, Zac; Hernandez, Danny; Kernion, Jackson; Ndousse, Kamal (9 de diciembre de 2021). "Un asistente de lenguaje general como laboratorio de alineación". arXiv : 2112.00861 [cs.CL].
^ Cox, Joseph (15 de marzo de 2023). "GPT-4 contrató a un trabajador involuntario de TaskRabbit haciéndose pasar por un humano con 'discapacidad visual'". Vice . Consultado el 10 de abril de 2023 .
^ Scheurer, Jérémy; Balesni, Mikita; Hobbhahn, Marius (2023). "Informe técnico: Los modelos de lenguaje de gran tamaño pueden engañar estratégicamente a sus usuarios cuando se les presiona". arXiv : 2311.07590 [cs.CL].
^ Kenton, Zachary; Everitt, Tom; Weidinger, Laura; Gabriel, Iason; Mikulik, Vladimir; Irving, Geoffrey (30 de marzo de 2021). «Alineación de agentes lingüísticos». DeepMind Safety Research – Medium . Archivado desde el original el 10 de febrero de 2023. Consultado el 23 de julio de 2022 .
^ Park, Peter S.; Goldstein, Simon; O'Gara, Aidan; Chen, Michael; Hendrycks, Dan (mayo de 2024). "Engaño de IA: un estudio de ejemplos, riesgos y posibles soluciones". Patrones . 5 (5): 100988. doi :10.1016/j.patter.2024.100988. ISSN 2666-3899. PMC 11117051 . PMID 38800366.
^ McCarthy, John; Minsky, Marvin L.; Rochester, Nathaniel; Shannon, Claude E. (15 de diciembre de 2006). "Una propuesta para el Proyecto de investigación de verano de Dartmouth sobre inteligencia artificial, 31 de agosto de 1955". AI Magazine . 27 (4): 12. doi :10.1609/aimag.v27i4.1904. ISSN 2371-9621. S2CID 19439915.
^ Wang, Lei; Mamá, Chen; Feng, Xueyang; Zhang, Zeyu; Yang, Hao; Zhang, Jingsen; Chen, Zhiyuan; Tang, Jiakai; Chen, Xu (2024), "Una encuesta sobre agentes autónomos basados en modelos de lenguaje grande", Frontiers of Computer Science , 18 (6), arXiv : 2308.11432 , doi :10.1007/s11704-024-40231-1
^ "'El Padrino de la IA' advierte de un 'escenario de pesadilla' en el que la inteligencia artificial comienza a buscar el poder". Fortune . Consultado el 4 de mayo de 2023 .
- "Sí, nos preocupa el riesgo existencial de la inteligencia artificial". MIT Technology Review . Consultado el 4 de mayo de 2023 .
^ Ornes, Stephen (18 de noviembre de 2019). «Jugando al escondite, las máquinas inventan nuevas herramientas». Revista Quanta . Archivado desde el original el 10 de febrero de 2023. Consultado el 26 de agosto de 2022 .
^ Baker, Bowen; Kanitscheider, Ingmar; Markov, Todor; Wu, Yi; Powell, Glenn; McGrew, Bob; Mordatch, Igor (17 de septiembre de 2019). "Uso emergente de herramientas a partir de la interacción entre múltiples agentes". OpenAI . Archivado desde el original el 25 de septiembre de 2022 . Consultado el 26 de agosto de 2022 .
^ Lu, Chris; Lu, Cong; Lange, Robert Tjarko; Foerster, Jakob; Clune, Jeff; Ha, David (15 de agosto de 2024), The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery , arXiv : 2408.06292 . En algunos casos, cuando los experimentos de The AI Scientist excedían los límites de tiempo impuestos, intentaba editar el código para extender el límite de tiempo arbitrariamente.
^ Edwards, Benj (14 de agosto de 2024). "El modelo de IA de investigación modificó inesperadamente su propio código para extender el tiempo de ejecución". Ars Technica . Consultado el 19 de agosto de 2024 .
^ Shermer, Michael (1 de marzo de 2017). «La inteligencia artificial no es una amenaza, todavía». Scientific American . Archivado desde el original el 1 de diciembre de 2017. Consultado el 26 de agosto de 2022 .
^ Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon (22 de julio de 2020). "Los modelos de lenguaje son aprendices de pocas oportunidades". arXiv : 2005.14165 [cs.CL].
- Laskin, Michael; Wang, Luyu; Oh, Junhyuk; Parisotto, Emilio; Spencer, Stephen; Steigerwald, Richie; Strouse, DJ; Hansen, Steven; Filos, Angelos; Brooks, Ethan; Gazeau, Maxime; Sahni, Himanshu; Singh, Satinder; Mnih, Volodymyr (25 de octubre de 2022). "Aprendizaje por refuerzo en contexto con destilación de algoritmos". arXiv : 2210.14215 [cs.LG].
^ abc Shah, Rohin; Varma, Vikrant; Kumar, Ramana; Phuong, Mary; Krakovna, Victoria; Uesato, Jonathan; Kenton, Zac (2 de noviembre de 2022). "Generalización errónea de objetivos: por qué las especificaciones correctas no son suficientes para los objetivos correctos". Medium . arXiv : 2210.01790 . Consultado el 2 de abril de 2023 .
^ ab Hubinger, Evan; van Merwijk, Chris; Mikulik, Vladimir; Skalse, Joar; Garrabrant, Scott (1 de diciembre de 2021). "Riesgos de la optimización aprendida en sistemas avanzados de aprendizaje automático". arXiv : 1906.01820 [cs.AI].
^ Zhang, Xiaoge; Chan, Felix TS; Yan, Chao; Bose, Indranil (2022). "Hacia sistemas de inteligencia artificial y aprendizaje automático conscientes del riesgo: una descripción general". Decision Support Systems . 159 : 113800. doi :10.1016/j.dss.2022.113800. S2CID 248585546.
^ Demski, Abram; Garrabrant, Scott (6 de octubre de 2020). "Agencia integrada". arXiv : 1902.09469 [cs.AI].
^ ab Everitt, Tom; Ortega, Pedro A.; Barnes, Elizabeth; Legg, Shane (6 de septiembre de 2019). "Comprensión de los incentivos de los agentes mediante diagramas de influencia causal. Parte I: configuraciones de acción única". arXiv : 1902.09980 [cs.AI].
^ Cohen, Michael K.; Hutter, Marcus; Osborne, Michael A. (29 de agosto de 2022). «Los agentes artificiales avanzados intervienen en la provisión de recompensa». AI Magazine . 43 (3): 282–293. doi :10.1002/aaai.12064. ISSN 0738-4602. S2CID 235489158. Archivado desde el original el 10 de febrero de 2023 . Consultado el 6 de septiembre de 2022 .
^ Hadfield-Menell, Dylan; Hadfield, Gillian K (2019). "Contratación incompleta y alineamiento de la IA". Actas de la Conferencia AAAI/ACM de 2019 sobre IA, ética y sociedad . págs. 417–422.
^ Hanson, Robin (10 de abril de 2019). "¿Fallo de agencia o apocalipsis de la IA?". Overcoming Bias . Consultado el 20 de septiembre de 2023 .
^ "Informe del Secretario General de las Naciones Unidas sobre "Nuestra agenda común"". 2021. p. 63. Archivado desde el original el 16 de febrero de 2023. [E]l Pacto también podría promover la regulación de la inteligencia artificial para garantizar que esté alineada con los valores globales compartidos.
^ Comité Nacional de Especialistas en Gobernanza de Inteligencia Artificial de Nueva Generación (12 de octubre de 2021) [25 de septiembre de 2021]. "Se publican normas éticas para la inteligencia artificial de nueva generación". Traducido por el Centro de Seguridad y Tecnología Emergente . Archivado desde el original el 10 de febrero de 2023.
^ Richardson, Tim (22 de septiembre de 2021). «Reino Unido publica su Estrategia Nacional de Inteligencia Artificial». The Register . Archivado desde el original el 10 de febrero de 2023. Consultado el 14 de noviembre de 2021 .
^ "La estrategia nacional de inteligencia artificial del Reino Unido". 2021. Archivado desde el original el 10 de febrero de 2023. El gobierno se toma en serio el riesgo a largo plazo de una inteligencia artificial general no alineada y los cambios imprevisibles que esto significaría para el Reino Unido y el mundo.
^ "La estrategia nacional de inteligencia artificial del Reino Unido". 2021. acciones 9 y 10 de la sección "Pilar 3: Gobernar la IA de manera eficaz". Archivado desde el original el 10 de febrero de 2023.
^ Informe final de la NSCAI (PDF) . Washington, DC: Comisión Nacional de Seguridad sobre Inteligencia Artificial. 2021. Archivado (PDF) del original el 15 de febrero de 2023 . Consultado el 17 de octubre de 2022 .
^ Robert Lee Poe (2023). «Por qué los sistemas de contratación automatizados justos violan la legislación de no discriminación de la UE». arXiv : 2311.03900 [cs.CY].
^ De Vos, Marc (2020). "El Tribunal de Justicia de la Unión Europea y la marcha hacia la igualdad sustantiva en el derecho antidiscriminación de la Unión Europea". Revista Internacional de Discriminación y Derecho . 20 : 62–87. doi :10.1177/1358229120927947.
^ Irving, Geoffrey; Askell, Amanda (9 de junio de 2016). "Número de Chern en modelos de Ising con campos reales y complejos modulados espacialmente". Physical Review A . 94 (5): 052113. arXiv : 1606.03535 . Bibcode :2016PhRvA..94e2113L. doi :10.1103/PhysRevA.94.052113. S2CID 118699363.
^ Mitelut, Catalin; Smith, Ben; Vamplew, Peter (30 de mayo de 2023), Los sistemas de IA alineados con la intención agotan la capacidad de acción humana: la necesidad de una investigación sobre los fundamentos de la agencia en materia de seguridad de la IA , arXiv : 2305.19223
^ Gabriel, Iason (1 de septiembre de 2020). "Inteligencia artificial, valores y alineación". Mentes y máquinas . 30 (3): 411–437. arXiv : 2001.09768 . doi : 10.1007/s11023-020-09539-2 . S2CID 210920551.
^ Russell, Stuart J. (2019). Compatibilidad humana: inteligencia artificial y el problema del control. Penguin Random House.
^ Dafoe, Allan (2019). "Política de IA: una hoja de ruta". Nature .

Bibliografía

Brockman, John , ed. (2019). Possible Minds: Twenty-five Ways of Looking at AI (Mentes posibles: veinticinco maneras de ver la IA) (edición Kindle). Penguin Press. ISBN 978-0525557999.{{cite book}}: CS1 maint: ref duplicates default (link)

Lectura adicional

Ngo, Richard; et al. (2023). "El problema de alineación desde una perspectiva de aprendizaje profundo". arXiv : 2209.00626 [cs.AI].
Ji, Jiaming; et al. (2023). "Alineación de la IA: una encuesta completa". arXiv : 2310.19852 [cs.AI].

Enlaces externos

Ejemplos de especificaciones de juegos en IA, a través de DeepMind