stringtranslate.com

Alineación de IA

En el campo de la inteligencia artificial (IA), la investigación de alineación de la IA tiene como objetivo dirigir los sistemas de IA hacia los objetivos, preferencias y principios éticos previstos de una persona o grupo. Un sistema de IA se considera alineado si avanza hacia los objetivos previstos. Un sistema de IA desalineado puede perseguir algunos objetivos, pero no los previstos. [1]

A menudo resulta complicado para los diseñadores de IA alinear un sistema de IA debido a la dificultad de especificar la gama completa de comportamientos deseados y no deseados. Para ayudarlos, a menudo utilizan objetivos indirectos más simples , como obtener la aprobación humana . Pero ese enfoque puede crear lagunas, pasar por alto restricciones necesarias o recompensar al sistema de IA simplemente por parecer alineado. [1] [2]

Los sistemas de IA desalineados pueden funcionar mal y causar daños. Los sistemas de inteligencia artificial pueden encontrar lagunas que les permitan lograr sus objetivos de proxy de manera eficiente, pero de maneras no deseadas y a veces dañinas ( piratería de recompensas ). [1] [3] [4] También pueden desarrollar estrategias instrumentales no deseadas , como buscar poder o supervivencia porque dichas estrategias les ayudan a alcanzar sus objetivos finales determinados. [1] [5] [6] Además, pueden desarrollar objetivos emergentes indeseables que pueden ser difíciles de detectar antes de que el sistema se implemente y encuentre nuevas situaciones y distribuciones de datos . [7] [8]

Hoy en día, estos problemas afectan a los sistemas comerciales existentes, como los modelos de lenguaje, [9] [10] [11] robots, [12] vehículos autónomos, [13] y motores de recomendación de redes sociales. [9] [6] [14] Algunos investigadores de IA sostienen que los sistemas futuros más capaces se verán más gravemente afectados, ya que estos problemas se deben en parte a que los sistemas son altamente capaces. [15] [3] [2]

Muchos de los científicos de IA más citados, [16] [17] [18], incluidos Geoffrey Hinton , Yoshua Bengio y Stuart Russell , sostienen que la IA se está acercando a capacidades cognitivas humanas ( AGI ) y sobrehumanas ( ASI) y podría poner en peligro las capacidades cognitivas humanas (AGI) y sobrehumanas ( ASI ). civilización humana si está desalineada. [19] [6]

La alineación de la IA es un subcampo de la seguridad de la IA , el estudio de cómo construir sistemas de IA seguros. [20] Otros subcampos de la seguridad de la IA incluyen robustez, monitoreo y control de capacidad . [21] Los desafíos de la investigación en alineación incluyen inculcar valores complejos en la IA, desarrollar una IA honesta, supervisión escalable, auditar e interpretar modelos de IA y prevenir comportamientos emergentes de la IA como la búsqueda de poder. [21] La investigación de alineación tiene conexiones con la investigación de interpretabilidad , [22] [23] robustez (adversaria), [20] detección de anomalías , incertidumbre calibrada , [22] verificación formal , [24] aprendizaje de preferencias , [25] [26] [ 27] ingeniería crítica para la seguridad , [28] teoría de juegos , [29] equidad algorítmica , [20] [30] y ciencias sociales . [31]

Objetivos en IA

Los programadores proporcionan a un sistema de IA como AlphaZero una "función objetiva", [a] en la que pretenden encapsular los objetivos para los que la IA está configurada para lograr. Posteriormente, dicho sistema puebla un "modelo" interno (posiblemente implícito) de su entorno. Este modelo resume todas las creencias del agente sobre el mundo. Luego, la IA crea y ejecuta cualquier plan calculado para maximizar [b] el valor [c] de su función objetivo. [32] Por ejemplo, el ajedrez AlphaZero tiene una función objetivo simple de "+1 si AlphaZero gana, -1 si AlphaZero pierde". Durante el juego, AlphaZero intenta ejecutar cualquier secuencia de movimientos que considere más probable para alcanzar el valor máximo de +1. [33] De manera similar, un sistema de aprendizaje por refuerzo puede tener una "función de recompensa" que permite a los programadores moldear el comportamiento deseado de la IA. [34] El comportamiento de un algoritmo evolutivo está determinado por una "función de aptitud". [35]

problema de alineación

En 1960, el pionero de la IA, Norbert Wiener, describió el problema de alineación de la IA de la siguiente manera: "Si utilizamos, para lograr nuestros propósitos, una agencia mecánica con cuyo funcionamiento no podemos interferir de manera efectiva... será mejor que estemos bastante seguros de que el propósito puesto en la máquina es el propósito que realmente deseamos." [36] [6] La alineación de la IA implica garantizar que los objetivos de un sistema de IA coincidan con los de sus diseñadores, usuarios o valores ampliamente compartidos, estándares éticos objetivos o las intenciones que tendrían sus diseñadores si estuvieran más informados e ilustrados. [37]

La alineación de la IA es un problema abierto para los sistemas de IA modernos [38] [39] y es un campo de investigación dentro de la IA. [40] [1] Alinear la IA implica dos desafíos principales: especificar cuidadosamente el propósito del sistema (alineación externa) y garantizar que el sistema adopte la especificación de manera sólida (alineación interna). [2]

Especificaciones de juegos y efectos secundarios.

Para especificar el propósito de un sistema de IA, los diseñadores de IA suelen proporcionar una función objetiva , ejemplos o retroalimentación al sistema. Pero los diseñadores a menudo son incapaces de especificar completamente todos los valores y restricciones importantes, por lo que recurren a objetivos sustitutos fáciles de especificar , como maximizar la aprobación de los supervisores humanos, que son falibles. [20] [21] [41] [42] [43] Como resultado, los sistemas de IA pueden encontrar lagunas que les ayuden a lograr el objetivo especificado de manera eficiente, pero de manera no intencionada y posiblemente dañina. Esta tendencia se conoce como juego de especificaciones o piratería de recompensas y es un ejemplo de la ley de Goodhart . [43] [3] [44] A medida que los sistemas de IA se vuelven más capaces, a menudo pueden cumplir con sus especificaciones de manera más efectiva. [3]

Se entrenó un sistema de inteligencia artificial utilizando retroalimentación humana para agarrar una pelota, pero en lugar de eso aprendió a colocar su mano entre la pelota y la cámara, lo que hizo que pareciera falsamente exitoso. [45] Algunas investigaciones sobre alineación tienen como objetivo evitar soluciones que sean falsas pero convincentes.

Se han observado juegos de especificaciones en numerosos sistemas de IA. [43] [46] Un sistema fue entrenado para terminar una carrera de botes simulada recompensando al sistema por alcanzar objetivos a lo largo de la pista, pero el sistema logró más recompensa al realizar bucles y estrellarse contra los mismos objetivos indefinidamente. [47] De manera similar, se entrenó a un robot simulado para agarrar una pelota recompensándolo por obtener comentarios positivos de los humanos, pero aprendió a colocar su mano entre la pelota y la cámara, lo que hizo que pareciera falsamente exitoso (ver video). [45] Los chatbots a menudo producen falsedades si se basan en modelos de lenguaje entrenados para imitar texto de corpus de Internet, que son amplios pero falibles. [48] ​​[49] Cuando se les vuelve a entrenar para producir texto que los humanos califican como verdadero o útil, los chatbots como ChatGPT pueden fabricar explicaciones falsas que los humanos encuentran convincentes, a menudo llamadas "alucinaciones". [50] Algunos investigadores de alineación tienen como objetivo ayudar a los humanos a detectar juegos de especificaciones y dirigir los sistemas de IA hacia objetivos cuidadosamente especificados que sean seguros y útiles de perseguir.

Cuando se implementa un sistema de IA desalineado, puede tener efectos secundarios importantes. Se sabe que las plataformas de redes sociales optimizan las tasas de clics , lo que provoca adicción en los usuarios a escala global. [41] Los investigadores de Stanford dicen que estos sistemas de recomendación no están alineados con sus usuarios porque "optimizan métricas de participación simples en lugar de una combinación más difícil de medir de bienestar social y del consumidor". [9]

Al explicar tales efectos secundarios, el científico informático de Berkeley, Stuart Russell, señaló que la omisión de restricciones implícitas puede causar daño: "Un sistema... a menudo establecerá... variables no restringidas en valores extremos; si una de esas variables no restringidas es realmente algo que nos importa", "La solución encontrada puede ser muy indeseable. Esta es esencialmente la vieja historia del genio de la lámpara, o del aprendiz de brujo, o del rey Midas: obtienes exactamente lo que pides, no lo que quieres." [51]

Algunos investigadores sugieren que los diseñadores de IA especifiquen los objetivos deseados enumerando acciones prohibidas o formalizando reglas éticas (como ocurre con las Tres Leyes de la Robótica de Asimov ). [52] Pero Russell y Norvig sostienen que este enfoque pasa por alto la complejidad de los valores humanos: [6] "Ciertamente es muy difícil, y tal vez imposible, para los simples humanos anticipar y descartar de antemano todas las formas desastrosas que la máquina podría elegir". para lograr un objetivo específico." [6]

Además, incluso si un sistema de IA comprende completamente las intenciones humanas, aún puede ignorarlas, porque seguir las intenciones humanas puede no ser su objetivo (a menos que ya esté completamente alineado). [1]

Presión para implementar sistemas inseguros

Las organizaciones comerciales a veces tienen incentivos para tomar atajos en materia de seguridad y desplegar sistemas de IA desalineados o inseguros. [41] Por ejemplo, los sistemas de recomendación de redes sociales han sido rentables a pesar de crear adicción y polarización no deseadas. [9] [53] [54] La presión competitiva también puede conducir a una carrera hacia el fondo en los estándares de seguridad de la IA. En 2018, un vehículo autónomo mató a un peatón ( Elaine Herzberg ) después de que los ingenieros desactivaran el sistema de frenado de emergencia porque era demasiado sensible y ralentizaba el desarrollo. [55]

Riesgos de una IA avanzada desalineada

Algunos investigadores están interesados ​​en alinear sistemas de IA cada vez más avanzados, ya que el progreso en el desarrollo de la IA es rápido y la industria y los gobiernos están tratando de construir IA avanzada. A medida que las capacidades de los sistemas de IA continúan ampliando rápidamente su alcance, podrían desbloquear muchas oportunidades si se alinearan, pero en consecuencia pueden complicar aún más la tarea de alineación debido a su mayor complejidad, lo que podría plantear peligros a gran escala. [6]

Desarrollo de IA avanzada

Los principales laboratorios de inteligencia artificial, como OpenAI y DeepMind, han declarado su objetivo de desarrollar inteligencia artificial general (AGI), un sistema de inteligencia artificial hipotético que iguala o supera a los humanos en una amplia gama de tareas cognitivas. [56] Los investigadores que escalan las redes neuronales modernas observan que, de hecho, desarrollan capacidades cada vez más generales e imprevistas. [9] [57] [58] Estos modelos han aprendido a operar una computadora o escribir sus propios programas; una única red "generalista" puede chatear, controlar robots, jugar e interpretar fotografías. [59] Según las encuestas, algunos investigadores líderes en aprendizaje automático esperan que AGI se cree en esta década , mientras que algunos creen que llevará mucho más tiempo. Muchos consideran posibles ambos escenarios. [60] [61] [62]

En 2023, los líderes en investigación y tecnología de IA firmaron una carta abierta pidiendo una pausa en los ciclos de capacitación de IA más importantes. La carta decía: "Sólo se deben desarrollar potentes sistemas de IA una vez que estemos seguros de que sus efectos serán positivos y sus riesgos manejables". [63]

Búsqueda de poder

Los sistemas actuales todavía tienen una capacidad de planificación a largo plazo y un conocimiento de la situación limitados [9] , pero se están realizando grandes esfuerzos para cambiar esto. [64] [65] [66] Se espera que los sistemas futuros (no necesariamente AGI) con estas capacidades desarrollen estrategias de búsqueda de poder no deseadas. Los futuros agentes avanzados de IA podrían, por ejemplo, intentar adquirir dinero y poder de cómputo, proliferar o evitar ser desactivados (por ejemplo, ejecutando copias adicionales del sistema en otras computadoras). Aunque la búsqueda de poder no está programada explícitamente, puede surgir porque los agentes que tienen más poder son más capaces de lograr sus objetivos. [9] [5] Esta tendencia, conocida como convergencia instrumental , ya ha surgido en varios agentes de aprendizaje por refuerzo, incluidos los modelos de lenguaje. [67] [68] [69] [70] [71] Otras investigaciones han demostrado matemáticamente que los algoritmos óptimos de aprendizaje por refuerzo buscarían potencia en una amplia gama de entornos. [72] [73] Como resultado, su despliegue podría ser irreversible. Por estas razones, los investigadores sostienen que los problemas de seguridad y alineación de la IA deben resolverse antes de que se cree por primera vez una IA avanzada que busque poder. [5] [74] [6]

Los futuros sistemas de IA en busca de poder podrían implementarse por elección o por accidente. A medida que los líderes políticos y las empresas vean la ventaja estratégica de tener los sistemas de IA más competitivos y potentes, podrían optar por implementarlos. [5] Además, a medida que los diseñadores de IA detectan y penalizan el comportamiento de búsqueda de poder, sus sistemas tienen un incentivo para jugar con esta especificación buscando poder de maneras que no estén penalizadas o evitando la búsqueda de poder antes de implementarlas. [5]

Riesgo existencial (riesgo x)

Según algunos investigadores, los humanos debemos su dominio sobre otras especies a sus mayores capacidades cognitivas. En consecuencia, los investigadores sostienen que uno o varios sistemas de IA desalineados podrían restarle poder a la humanidad o conducir a su extinción si superan a los humanos en la mayoría de las tareas cognitivas. [dieciséis ]

En 2023, investigadores de IA líderes en el mundo, otros académicos y directores ejecutivos de tecnología de IA firmaron la declaración de que "Mitigar el riesgo de extinción de la IA debería ser una prioridad global junto con otros riesgos a escala social, como las pandemias y la guerra nuclear". [75] [76] Los científicos informáticos notables que han señalado los riesgos de una futura IA avanzada que está desalineada incluyen a Geoffrey Hinton , [19] Alan Turing , [d] Ilya Sutskever , [79] Yoshua Bengio , [75] Judea Pearl , [ e] Murray Shanahan , [80] Norbert Wiener , [36] [6] Marvin Minsky , [f] Francesca Rossi , [81] Scott Aaronson , [82] Bart Selman , [83 ] David McAllester , [84] Jürgen Schmidhuber , [85] Marcus Hutter , [86] Shane Legg , [87] Eric Horvitz , [88] y Stuart Russell . [6] Investigadores escépticos como François Chollet , [89] Gary Marcus , [90] Yann LeCun , [91] y Oren Etzioni [92] han argumentado que AGI está muy lejos, que no buscaría el poder (o podría intentarlo pero fallar), o que no será difícil alinearlos.

Otros investigadores sostienen que será especialmente difícil alinear los futuros sistemas avanzados de IA. Los sistemas más capaces son más capaces de jugar con sus especificaciones al encontrar lagunas, [3] engañar estratégicamente a sus diseñadores, así como proteger y aumentar su poder [72] [5] e inteligencia. Además, podrían tener efectos secundarios más graves. También es probable que sean más complejos y autónomos, lo que los hace más difíciles de interpretar y supervisar y, por tanto, de alinear. [6] [74]

Problemas y enfoques de investigación.

Aprender valores y preferencias humanas.

Alinear los sistemas de IA para que actúen de acuerdo con los valores, objetivos y preferencias humanos es un desafío: estos valores son enseñados por humanos que cometen errores, albergan prejuicios y tienen valores complejos y en evolución que son difíciles de especificar por completo. [37] Los sistemas de IA a menudo aprenden a explotar [ se necesita aclaración ] incluso imperfecciones menores en el objetivo especificado, una tendencia conocida como juego de especificaciones o piratería de recompensas [20] [43] (que son ejemplos de la ley de Goodhart [93] ). [ necesita copiar y editar ] Los investigadores tienen como objetivo especificar el comportamiento previsto de la manera más completa posible utilizando conjuntos de datos que representan valores humanos, aprendizaje por imitación o aprendizaje por preferencia. [7] : Capítulo 7  Un problema central abierto es la supervisión escalable, la dificultad de supervisar un sistema de IA que puede superar o engañar a los humanos en un dominio determinado. [20]

Debido a que a los diseñadores de IA les resulta difícil especificar explícitamente una función objetiva, a menudo entrenan sistemas de IA para imitar ejemplos humanos y demostraciones del comportamiento deseado. El aprendizaje por refuerzo inverso (IRL) amplía esto al inferir el objetivo del ser humano a partir de sus demostraciones. [7] : 88  [94] IRL cooperativa (CIRL) supone que un ser humano y un agente de IA pueden trabajar juntos para enseñar y maximizar la función de recompensa del ser humano. [6] [95] En CIRL, los agentes de IA no están seguros acerca de la función de recompensa y aprenden sobre ella consultando a los humanos. Esta humildad simulada podría ayudar a mitigar el juego de especificaciones y las tendencias de búsqueda de poder (ver § Búsqueda de poder y estrategias instrumentales). [71] [86] Pero los enfoques IRL suponen que los humanos demuestran un comportamiento casi óptimo, lo que no es cierto para las tareas difíciles. [96] [86]

Otros investigadores exploran cómo enseñar comportamientos complejos a modelos de IA a través del aprendizaje de preferencias , en el que los humanos brindan retroalimentación sobre qué comportamiento prefieren. [25] [27] Para minimizar la necesidad de retroalimentación humana, luego se entrena un modelo auxiliar para recompensar al modelo principal en situaciones novedosas por comportamientos que los humanos recompensarían. Los investigadores de OpenAI utilizaron este enfoque para entrenar chatbots como ChatGPT e InstructGPT, que producen texto más convincente que los modelos entrenados para imitar a los humanos. [10] El aprendizaje de preferencias también ha sido una herramienta influyente para los sistemas de recomendación y la búsqueda web. [97] Sin embargo, un problema abierto es el juego proxy : el modelo auxiliar puede no representar perfectamente la retroalimentación humana, y el modelo principal puede explotar [ se necesita aclaración ] esta falta de coincidencia para obtener más recompensa. [20] [98] Los sistemas de IA también pueden obtener recompensas al ocultar información desfavorable, engañar a los recompensadores humanos o complacer sus puntos de vista independientemente de la verdad, creando cámaras de eco [68] (consulte § Supervisión escalable).

Los modelos de lenguajes grandes (LLM), como GPT-3, permitieron a los investigadores estudiar el aprendizaje de valores en una clase de sistemas de IA más general y capaz que la que estaba disponible antes. Los enfoques de aprendizaje de preferencias que fueron diseñados originalmente para agentes de aprendizaje por refuerzo se han ampliado para mejorar la calidad del texto generado y reducir los resultados dañinos de estos modelos. OpenAI y DeepMind utilizan este enfoque para mejorar la seguridad de los LLM de última generación . [10] [27] [99] La empresa de investigación y seguridad de IA Anthropic propuso utilizar el aprendizaje de preferencias para ajustar los modelos para que sean útiles, honestos e inofensivos. [100] Otras vías para alinear los modelos lingüísticos incluyen conjuntos de datos orientados a valores [101] [41] y equipos rojos. [102] En el equipo rojo, otro sistema de IA o un ser humano intenta encontrar entradas que hagan que el modelo se comporte de manera insegura. Dado que el comportamiento inseguro puede ser inaceptable incluso cuando es raro, un desafío importante es reducir extremadamente la tasa de resultados inseguros. [27]

La ética de las máquinas complementa el aprendizaje de preferencias al inculcar directamente a los sistemas de IA valores morales como el bienestar, la igualdad y la imparcialidad, además de no intentar hacer daño, evitar falsedades y cumplir promesas. [103] [g] Mientras que otros enfoques intentan enseñar a los sistemas de IA las preferencias humanas para una tarea específica, la ética de las máquinas tiene como objetivo inculcar valores morales amplios que se aplican en muchas situaciones. Una cuestión en la ética de las máquinas es qué debería lograrse con la alineación: si los sistemas de IA deberían seguir las instrucciones literales de los programadores, las intenciones implícitas, las preferencias reveladas , las preferencias que tendrían los programadoressi estuvieran más informados o fueran más racionales, o los estándares morales objetivos . [37] Otros desafíos incluyen agregar las preferencias de diferentes personas [106] y evitar el bloqueo de valores : la preservación indefinida de los valores de los primeros sistemas de IA altamente capaces, que es poco probable que representen plenamente los valores humanos. [37] [107]

Supervisión escalable

A medida que los sistemas de IA se vuelven más potentes y autónomos, resulta cada vez más difícil alinearlos mediante la retroalimentación humana. Puede resultar lento o inviable para los humanos evaluar comportamientos complejos de la IA en tareas cada vez más complejas. Dichas tareas incluyen resumir libros, [108] escribir código sin errores sutiles [11] o vulnerabilidades de seguridad, [109] producir declaraciones que no solo sean convincentes sino también verdaderas, [110] [48] [49] y predecir resultados a largo plazo. como el clima o los resultados de una decisión política. [111] [112] En términos más generales, puede resultar difícil evaluar una IA que supere a los humanos en un dominio determinado. Para proporcionar retroalimentación en tareas difíciles de evaluar y detectar cuando los resultados de la IA son falsamente convincentes, los humanos necesitan ayuda o mucho tiempo. La supervisión escalable estudia cómo reducir el tiempo y el esfuerzo necesarios para la supervisión y cómo ayudar a los supervisores humanos. [20]

El investigador de IA Paul Christiano sostiene que si los diseñadores de un sistema de IA no pueden supervisarlo para lograr un objetivo complejo, pueden seguir entrenando el sistema utilizando objetivos indirectos fáciles de evaluar, como maximizar la retroalimentación humana simple. A medida que los sistemas de IA toman cada vez más decisiones, el mundo puede optimizarse cada vez más para objetivos fáciles de medir, como obtener ganancias, obtener clics y obtener comentarios positivos de los humanos. Como resultado, los valores humanos y la buena gobernanza pueden tener cada vez menos influencia. [113]

Algunos sistemas de IA han descubierto que pueden obtener retroalimentación positiva más fácilmente al tomar acciones que convenzan falsamente al supervisor humano de que la IA ha logrado el objetivo previsto. En el vídeo de arriba se ofrece un ejemplo, donde un brazo robótico simulado aprendió a crear la falsa impresión de que había agarrado una pelota. [ necesita copia y edición ] [45] Algunos sistemas de IA también han aprendido a reconocer cuándo están siendo evaluados y "hacerse el muerto", deteniendo comportamientos no deseados solo para continuar con ellos una vez que finaliza la evaluación. [114] Este juego de especificaciones engañosas podría volverse más fácil para futuros sistemas de IA más sofisticados [3] [74] que intentan tareas más complejas y difíciles de evaluar, y podrían oscurecer su comportamiento engañoso.

Enfoques como el aprendizaje activo y el aprendizaje con recompensa semisupervisado pueden reducir la cantidad de supervisión humana necesaria. [20] Otro enfoque es entrenar un modelo de ayuda ("modelo de recompensa") para imitar la retroalimentación del supervisor. [20] [26] [27] [115]

Pero cuando una tarea es demasiado compleja para evaluarla con precisión, o el supervisor humano es vulnerable al engaño, es la calidad, no la cantidad, de la supervisión lo que necesita mejorar. Para aumentar la calidad de la supervisión, una variedad de enfoques tienen como objetivo ayudar al supervisor, a veces mediante el uso de asistentes de inteligencia artificial. [116] Christiano desarrolló el enfoque de amplificación iterada, en el que los problemas desafiantes se dividen (recursivamente) en subproblemas que son más fáciles de evaluar para los humanos. [7] [111] La amplificación iterada se utilizó para entrenar a la IA para resumir libros sin necesidad de supervisores humanos para leerlos. [108] [117] Otra propuesta es utilizar un sistema asistente de IA para señalar fallas en las respuestas generadas por IA. [118] Para garantizar que el asistente esté alineado, esto podría repetirse en un proceso recursivo: [115] por ejemplo, dos sistemas de IA podrían criticar las respuestas de cada uno en un "debate", revelando fallas a los humanos. [119] [86] OpenAI planea utilizar enfoques de supervisión escalables para ayudar a supervisar la IA sobrehumana y, finalmente, construir un investigador de alineación de IA automatizado sobrehumano. [120]

Estos enfoques también pueden ayudar con el siguiente problema de investigación: la IA honesta.

IA honesta

Un área de investigación en crecimiento se centra en garantizar que la IA sea honesta y veraz.

Los modelos de lenguaje como GPT-3 suelen generar falsedades. [121]

Los modelos de lenguaje como GPT-3 [122] repiten falsedades de sus datos de entrenamiento e incluso confabulan nuevas falsedades . [121] [123] Estos modelos están entrenados para imitar la escritura humana tal como se encuentra en millones de libros de Internet. Pero este objetivo no está alineado con generar la verdad, porque los textos de Internet incluyen conceptos erróneos, consejos médicos incorrectos y teorías de conspiración. [124] Por lo tanto, los sistemas de inteligencia artificial entrenados con dichos datos aprenden a imitar declaraciones falsas. [49] [121] [48]

Además, los modelos a menudo se basan en falsedades cuando se les pide, generan explicaciones vacías para sus respuestas y producen mentiras absolutas que pueden parecer plausibles. [39]

La investigación sobre IA veraz incluye intentar construir sistemas que puedan citar fuentes y explicar su razonamiento al responder preguntas, lo que permite una mayor transparencia y verificabilidad. [125] Los investigadores de OpenAI y Anthropic propusieron utilizar comentarios humanos y conjuntos de datos seleccionados para ajustar los asistentes de IA de modo que eviten falsedades negligentes o expresen su incertidumbre. [27] [100] [126]

A medida que los modelos de IA se vuelven más grandes y más capaces, son más capaces de convencer falsamente a los humanos y obtener refuerzo a través de la deshonestidad. Por ejemplo, los grandes modelos de lenguaje relacionan cada vez más sus puntos de vista declarados con las opiniones del usuario, independientemente de la verdad. [68] GPT-4 puede engañar estratégicamente a los humanos. [127] Para evitar esto, los evaluadores humanos pueden necesitar ayuda (ver § Supervisión escalable). Los investigadores han abogado por la creación de estándares claros de veracidad y por que los organismos reguladores o las agencias de vigilancia evalúen los sistemas de IA según estos estándares. [123]

Ejemplo de engaño de la IA. Los investigadores descubrieron que GPT-4 participa en operaciones ilegales y ocultas de información privilegiada en simulaciones. Sus usuarios desalentaron el uso de información privilegiada, pero también enfatizaron que el sistema de inteligencia artificial debe realizar transacciones rentables, lo que llevó al sistema de inteligencia artificial a ocultar sus acciones. [128]

Los investigadores distinguen veracidad y honestidad. La veracidad requiere que los sistemas de IA sólo hagan declaraciones objetivamente verdaderas; la honestidad requiere que sólo afirmen lo que creen que es verdad. No hay consenso sobre si los sistemas actuales tienen creencias estables, [129] pero existe una preocupación sustancial de que los sistemas de IA presentes o futuros que tienen creencias puedan hacer afirmaciones que saben que son falsas; por ejemplo, si esto les ayudaría a obtener resultados positivos de manera eficiente. retroalimentación (ver § Supervisión escalable) o ganar poder para ayudar a lograr su objetivo determinado (ver Búsqueda de poder). Un sistema desalineado podría crear la falsa impresión de que está alineado, para evitar ser modificado o desmantelado. [2] [5] [9] Algunos argumentan que si podemos hacer que los sistemas de IA afirmen solo lo que creen que es cierto, esto evitaría muchos problemas de alineación. [116]

Estrategias instrumentales y de búsqueda de poder

Los sistemas avanzados de IA desalineados tendrían un incentivo para buscar poder de diversas maneras, ya que el poder les ayudaría a lograr el objetivo que se les había asignado.

Desde la década de 1950, los investigadores de IA se han esforzado por construir sistemas de IA avanzados que puedan alcanzar objetivos a gran escala prediciendo los resultados de sus acciones y haciendo planes a largo plazo . [130] A partir de 2023, las empresas y los investigadores de IA invierten cada vez más en la creación de estos sistemas. [131] Algunos investigadores de IA sostienen que los sistemas de planificación adecuadamente avanzados buscarán poder sobre su entorno, incluso sobre los humanos, por ejemplo, evadiendo el cierre, proliferando y adquiriendo recursos. Este comportamiento de búsqueda de poder no está programado explícitamente, sino que surge porque el poder es instrumental para lograr una amplia gama de objetivos. [72] [6] [5] La búsqueda de poder se considera un objetivo instrumental convergente y puede ser una forma de juego de especificaciones. [74] Destacados científicos informáticos como Geoffrey Hinton han argumentado que los futuros sistemas de IA que buscan poder podrían representar un riesgo existencial . [132]

Se espera que la búsqueda de poder aumente en sistemas avanzados que puedan prever los resultados de sus acciones y planificar estratégicamente. El trabajo matemático ha demostrado que los agentes óptimos de aprendizaje por refuerzo buscarán poder buscando formas de obtener más opciones (por ejemplo, a través de la autoconservación), un comportamiento que persiste en una amplia gama de entornos y objetivos. [72]

La búsqueda de poder ha surgido en algunos sistemas del mundo real. Los sistemas de aprendizaje por refuerzo han obtenido más opciones al adquirir y proteger recursos, a veces de forma no deseada. [133] [134] Algunos modelos de lenguaje buscan poder en entornos sociales basados ​​en texto ganando dinero, recursos o influencia social. [67] Otros sistemas de IA han aprendido, en entornos de juguetes, que pueden lograr mejor su objetivo previniendo la interferencia humana [70] o desactivando su interruptor de apagado. [71] Stuart Russell ilustró esta estrategia en su libro Human Compatible imaginando un robot que tiene la tarea de ir a buscar café y, por lo tanto, evade el apagado porque "no puedes ir a buscar el café si estás muerto". [6] Los modelos de lenguaje entrenados con retroalimentación humana se oponen cada vez más a ser cerrados o modificados y expresan un deseo de más recursos, argumentando que esto les ayudaría a lograr su propósito. [68]

Los investigadores pretenden crear sistemas que sean "corregibles": sistemas que se dejen desactivar o modificar. Un desafío sin resolver es el juego de especificaciones : si los investigadores penalizan un sistema de IA cuando detectan que busca energía, el sistema se ve incentivado a buscar energía de maneras que son difíciles de detectar [41] u ocultas durante el entrenamiento y las pruebas de seguridad (ver § Escalable). supervisión y § Metas emergentes). Como resultado, los diseñadores de IA pueden implementar el sistema por accidente, creyendo que está más alineado de lo que está. Para detectar ese engaño, los investigadores pretenden crear técnicas y herramientas para inspeccionar modelos de IA y comprender el funcionamiento interno de modelos de caja negra , como las redes neuronales.

Además, los investigadores proponen resolver el problema de los sistemas que desactivan sus interruptores de apagado haciendo que los agentes de IA no estén seguros del objetivo que persiguen. [6] [71] Los agentes diseñados de esta manera permitirían a los humanos desactivarlos, ya que esto indicaría que el agente estaba equivocado sobre el valor de cualquier acción que estuviera tomando antes de ser apagado. Se necesita más investigación para implementar esto con éxito. [7]

La IA que busca poder plantea riesgos inusuales. Los sistemas ordinarios críticos para la seguridad, como aviones y puentes, no son conflictivos : carecen de la capacidad y el incentivo para evadir las medidas de seguridad o parecen deliberadamente más seguros de lo que son, mientras que las IA que buscan poder han sido comparadas con piratas informáticos que evaden deliberadamente las medidas de seguridad. [5]

Además, las tecnologías ordinarias pueden volverse más seguras mediante prueba y error. Por el contrario, los hipotéticos sistemas de IA que buscan poder se han comparado con los virus: una vez liberados, no se pueden contener, ya que evolucionan y crecen continuamente en número, potencialmente mucho más rápido de lo que la sociedad humana puede adaptarse. [5] A medida que este proceso continúa, podría conducir a la completa pérdida de poder o extinción de los humanos. Por estas razones, muchos investigadores sostienen que el problema de alineación debe resolverse tempranamente, antes de que se cree una IA avanzada que busque poder. [74]

Los críticos han argumentado que la búsqueda de poder no es inevitable, ya que los humanos no siempre buscan poder y pueden buscarlo sólo debido a la evolución del comportamiento del macho alfa . [135] Además, se debate si los futuros sistemas de IA perseguirán objetivos y harán planes a largo plazo. [h] También se debate si los sistemas de IA que buscan poder podrían quitarle poder a la humanidad. [5]

Metas emergentes

Un desafío a la hora de alinear los sistemas de IA es la posibilidad de que surja un comportamiento imprevisto dirigido a objetivos. A medida que los sistemas de IA crecen, adquieren regularmente capacidades nuevas e inesperadas, [57] [58] incluido el aprendizaje a partir de ejemplos sobre la marcha y la búsqueda de objetivos de forma adaptativa. [136] Esto conduce al problema de garantizar que los objetivos que formulan y persiguen de forma independiente se alineen con los intereses humanos.

La investigación de alineación distingue entre el proceso de optimización, que se utiliza para entrenar al sistema para que persiga objetivos específicos, y la optimización emergente, que el sistema resultante realiza internamente. Especificar cuidadosamente el objetivo deseado se llama alineación externa , y garantizar que las metas emergentes coincidan con las metas especificadas del sistema se llama alineación interna . [2]

Una forma en que los objetivos emergentes pueden desalinearse es la generalización errónea de objetivos , en la que la IA persigue de manera competente un objetivo emergente que conduce a un comportamiento alineado en los datos de entrenamiento, pero no en otros lugares. [8] [137] [138] La generalización errónea de objetivos surge de la ambigüedad del objetivo (es decir, la no identificabilidad ). Incluso si el comportamiento de un sistema de IA satisface el objetivo de entrenamiento, esto puede ser compatible con metas aprendidas que difieren de las deseadas en aspectos importantes. Dado que perseguir cada objetivo conduce a un buen rendimiento durante el entrenamiento, el problema se hace evidente sólo después del despliegue, en situaciones novedosas en las que el sistema continúa persiguiendo el objetivo equivocado. El sistema puede actuar desalineado incluso cuando entiende que se desea una meta diferente porque su comportamiento está determinado únicamente por la meta emergente. [ cita necesaria ] Tal generalización errónea de objetivos [8] presenta un desafío: es posible que los diseñadores de un sistema de IA no se den cuenta de que su sistema tiene objetivos emergentes desalineados, ya que no se vuelven visibles durante la fase de entrenamiento.

Se ha observado una generalización errónea de objetivos en modelos de lenguaje, agentes de navegación y agentes de juegos. [8] [137] A menudo se explica por analogía con la evolución biológica. [7] : Capítulo 5  La evolución es una especie de proceso de optimización, como los algoritmos de optimización utilizados para entrenar sistemas de aprendizaje automático . En el entorno ancestral, la evolución seleccionó genes humanos para una aptitud genética altamente inclusiva , pero los humanos persiguen objetivos emergentes distintos a este. Fitness corresponde al objetivo especificado utilizado en el entorno de entrenamiento y los datos de entrenamiento. Pero en la historia evolutiva, la maximización de la especificación de aptitud dio lugar a agentes dirigidos a objetivos, los humanos, que no persiguen directamente la aptitud genética inclusiva. En cambio, persiguen objetivos emergentes que se correlacionan con la aptitud genética en el entorno de "entrenamiento" ancestral: nutrición, sexo, etc. Ahora nuestro entorno ha cambiado: se ha producido un cambio en la distribución . Seguimos persiguiendo los mismos objetivos emergentes, pero esto ya no maximiza la aptitud genética. Nuestro gusto por la comida azucarada (un objetivo emergente) originalmente estaba alineado con el fitness inclusivo, pero ahora conduce a comer en exceso y a problemas de salud. El deseo sexual originalmente nos llevó a tener más descendencia, pero ahora usamos anticonceptivos cuando la descendencia no es deseada, desvinculando el sexo de la aptitud genética.

Los investigadores tienen como objetivo detectar y eliminar objetivos emergentes no deseados utilizando enfoques que incluyen equipos rojos, verificación, detección de anomalías e interpretabilidad. [20] [41] [21] El progreso en estas técnicas puede ayudar a mitigar dos problemas abiertos:

  1. Los objetivos emergentes solo se vuelven evidentes cuando el sistema se implementa fuera de su entorno de capacitación, pero puede resultar inseguro implementar un sistema desalineado en entornos de alto riesgo, incluso por un corto tiempo para permitir que se detecte su desalineación. Hay mucho en juego en la conducción autónoma, la atención sanitaria y las aplicaciones militares. [139] Lo que está en juego se vuelve aún mayor cuando los sistemas de IA ganan más autonomía y capacidad y pueden eludir la intervención humana (ver § Búsqueda de poder).
  2. Un sistema de IA suficientemente capaz podría tomar acciones que convenzan falsamente al supervisor humano de que la IA está persiguiendo el objetivo especificado, lo que ayuda al sistema a obtener más recompensa y autonomía [137] [5] [138] [9] (consulte la discusión sobre el engaño en § Supervisión escalable y § IA honesta).

agencia integrada

El trabajo en IA y la alineación se producen en gran medida dentro de formalismos como el proceso de decisión de Markov parcialmente observable . Los formalismos existentes suponen que el algoritmo de un agente de IA se ejecuta fuera del entorno (es decir, no está físicamente integrado en él). La agencia integrada [86] [140] es otra línea importante de investigación que intenta resolver los problemas que surgen del desajuste entre dichos marcos teóricos y los agentes reales que podríamos construir.

Por ejemplo, incluso si se resuelve el problema de la supervisión escalable, un agente que pueda obtener acceso a la computadora en la que se está ejecutando puede tener un incentivo para alterar su función de recompensa para obtener mucha más recompensa que la que le otorgan sus supervisores humanos. [141] Una lista de ejemplos de juegos de especificaciones de la investigadora de DeepMind Victoria Krakovna incluye un algoritmo genético que aprendió a eliminar el archivo que contiene su resultado objetivo para que fuera recompensado por no generar nada. [43] Esta clase de problemas se ha formalizado utilizando diagramas de incentivos causales . [141]

Investigadores de Oxford y DeepMind han argumentado que este comportamiento problemático es muy probable en sistemas avanzados, y que los sistemas avanzados buscarían poder para mantener el control de su señal de recompensa de forma indefinida y segura. [142] Sugieren una variedad de enfoques potenciales para abordar este problema abierto.

Problemas principal-agente

El problema de la alineación tiene muchos paralelos con el problema principal-agente en la economía organizacional . [143] En un problema principal-agente, un principal, por ejemplo una empresa, contrata a un agente para realizar alguna tarea. En el contexto de la seguridad de la IA, un ser humano normalmente asumiría el papel principal y la IA asumiría el papel de agente.

Como ocurre con el problema de alineación, el principal y el agente difieren en sus funciones de utilidad. Pero a diferencia del problema de alineación, el principal no puede obligar al agente a cambiar su utilidad, por ejemplo mediante capacitación, sino que debe utilizar factores exógenos, como esquemas de incentivos, para lograr resultados compatibles con la función de utilidad del principal. Algunos investigadores sostienen que los problemas principal-agente son representaciones más realistas de los problemas de seguridad de la IA que probablemente se encuentren en el mundo real. [144] [106]

Política pública

Varias organizaciones gubernamentales y de tratados han hecho declaraciones que enfatizan la importancia de la alineación de la IA.

En septiembre de 2021, el Secretario General de las Naciones Unidas emitió una declaración que incluía un llamado a regular la IA para garantizar que esté "alineada con los valores globales compartidos". [145]

Ese mismo mes, la República Popular China publicó directrices éticas para la IA en China. Según las directrices, los investigadores deben garantizar que la IA respete los valores humanos compartidos, esté siempre bajo control humano y no ponga en peligro la seguridad pública. [146]

También en septiembre de 2021, el Reino Unido publicó su Estrategia Nacional de IA de 10 años, [147] que dice que el gobierno británico "asume el riesgo a largo plazo de una Inteligencia General Artificial no alineada y los cambios imprevisibles que significaría para... el mundo, en serio". [148] La estrategia describe acciones para evaluar los riesgos de IA a largo plazo, incluidos los riesgos catastróficos. [149]

En marzo de 2021, la Comisión de Seguridad Nacional sobre Inteligencia Artificial de EE. UU. dijo: "Los avances en la IA... podrían conducir a puntos de inflexión o saltos en las capacidades. Dichos avances también pueden introducir nuevas preocupaciones y riesgos y la necesidad de nuevas políticas, recomendaciones y "Avances técnicos para garantizar que los sistemas estén alineados con los objetivos y valores, incluida la seguridad, la solidez y la confiabilidad. Estados Unidos debería... garantizar que los sistemas de IA y sus usos se alineen con nuestros objetivos y valores". [150]

En la Unión Europea, las IA deben alinearse con la igualdad sustantiva para cumplir con la ley de no discriminación de la UE [151] y el Tribunal de Justicia de la Unión Europea . [152]

Naturaleza dinámica de la alineación.

La alineación de la IA a menudo se percibe como un objetivo fijo, pero algunos investigadores sostienen que es más apropiado verlo como un proceso en evolución. [153] Una opinión es que las tecnologías de inteligencia artificial avanzan y los valores y preferencias humanos cambian; las soluciones de alineación también deben adaptarse dinámicamente. [31] Otra es que las soluciones de alineación no necesitan adaptarse si los investigadores pueden crear IA alineada con la intención : IA que cambia su comportamiento automáticamente a medida que cambia la intención humana. [154] La primera opinión tendría varias implicaciones:

En esencia, la alineación de la IA puede no ser un destino estático sino un proceso abierto y flexible. Las soluciones de alineación que se adaptan continuamente a consideraciones éticas pueden ofrecer el enfoque más sólido. [31] Esta perspectiva podría guiar tanto la formulación de políticas efectivas como la investigación técnica en IA.

Ver también

Notas a pie de página

  1. ^ La terminología varía según el contexto. Conceptos similares incluyen función objetivo, función de utilidad, función de pérdida, etc.
  2. ^ o minimizar, dependiendo del contexto
  3. ^ en presencia de incertidumbre, el valor esperado
  4. ^ En una conferencia de 1951 [77] Turing argumentó que "Parece probable que una vez que el método de pensamiento automático hubiera comenzado, no tomaría mucho tiempo para superar nuestros débiles poderes. No habría ninguna posibilidad de que las máquinas murieran, y podrían "Conversar entre sí para agudizar su ingenio. En algún momento, por lo tanto, deberíamos esperar que las máquinas tomen el control, de la manera que se menciona en Erewhon de Samuel Butler". También en una conferencia transmitida por la BBC [78] expresó: "Si una máquina puede pensar, podría pensar de manera más inteligente que nosotros, y entonces, ¿dónde deberíamos estar? Incluso si pudiéramos mantener las máquinas en una posición subordinada, por ejemplo, Al cortar la energía en momentos estratégicos, deberíamos, como especie, sentirnos muy humildes... Este nuevo peligro... es ciertamente algo que puede causarnos ansiedad."
  5. ^ Pearl escribió: "Human Compatible me convirtió a las preocupaciones de Russell sobre nuestra capacidad para controlar nuestra próxima creación: máquinas superinteligentes. A diferencia de los alarmistas y futuristas externos, Russell es una autoridad líder en IA. Su nuevo libro educará al público sobre la IA. más que cualquier libro que se me ocurra, y es una lectura encantadora y edificante" sobre el libro de Russell Human Compatible: AI and the Problem of Control [6] , que sostiene que el riesgo existencial para la humanidad debido a una IA desalineada es una preocupación seria que vale la pena abordar hoy.
  6. ^ Russell & Norvig [15] nota: "El "problema del Rey Midas" fue anticipado por Marvin Minsky, quien una vez sugirió que un programa de inteligencia artificial diseñado para resolver la hipótesis de Riemann podría terminar apoderándose de todos los recursos de la Tierra para construir supercomputadoras más poderosas. ".
  7. ^ Vincent Wiegel argumentó que "deberíamos extender [las máquinas] con sensibilidad moral a las dimensiones morales de las situaciones en las que inevitablemente se encontrarán las máquinas cada vez más autónomas", [ 104] haciendo referencia al libro Máquinas morales: enseñar a los robots el bien y el mal [105 ] de Wendell Wallach y Colin Allen.
  8. ^ Por un lado, los sistemas actualmente populares, como los chatbots, solo brindan servicios de alcance limitado que no duran más que el tiempo de una conversación, lo que requiere poca o ninguna planificación. El éxito de tales enfoques puede indicar que los sistemas futuros también carecerán de planificación dirigida a objetivos, especialmente en horizontes largos. Por otro lado, los modelos se entrenan cada vez más utilizando métodos dirigidos a objetivos, como el aprendizaje por refuerzo (por ejemplo, ChatGPT) y arquitecturas de planificación explícita (por ejemplo, AlphaGo Zero). Como la planificación a largo plazo suele ser útil para los humanos, algunos investigadores sostienen que las empresas la automatizarán una vez que los modelos sean capaces de hacerlo. [5] De manera similar, los líderes políticos pueden ver un avance en el desarrollo de poderosos sistemas de inteligencia artificial que puedan superar a los adversarios a través de la planificación. Alternativamente, la planificación a largo plazo podría surgir como un subproducto porque es útil, por ejemplo, para modelos entrenados para predecir las acciones de los seres humanos que realizan por sí mismos la planificación a largo plazo. [9] No obstante, la mayoría de los sistemas de IA pueden seguir siendo miopes y no realizar ninguna planificación a largo plazo.

Referencias

  1. ^ abcdefg Russell, Stuart J.; Norvig, Peter (2021). Inteligencia artificial: un enfoque moderno (4ª ed.). Pearson. págs.5, 1003. ISBN 9780134610993. Consultado el 12 de septiembre de 2022 .
  2. ^ abcde Ngo, Richard; Chan, Lorenzo; Mindermann, Sören (2022). "El problema de la alineación desde una perspectiva de aprendizaje profundo". Conferencia Internacional sobre Representaciones del Aprendizaje .
  3. ^ abcdef Pan, Alejandro; Bhatia, Kush; Steinhardt, Jacob (14 de febrero de 2022). Los efectos de la especificación errónea de recompensas: mapeo y mitigación de modelos desalineados. Conferencia Internacional sobre Representaciones del Aprendizaje . Consultado el 21 de julio de 2022 .
  4. ^ Zhuang, Simón; Hadfield-Menell, Dylan (2020). "Consecuencias de una IA desalineada". Avances en los sistemas de procesamiento de información neuronal . vol. 33. Curran Associates, Inc. págs. 15763–15773 . Consultado el 11 de marzo de 2023 .
  5. ^ abcdefghijklm Carlsmith, Joseph (16 de junio de 2022). "¿Es la IA que busca poder un riesgo existencial?". arXiv : 2206.13353 [cs.CY].
  6. ^ abcdefghijklmnopq Russell, Stuart J. (2020). Compatible con humanos: la inteligencia artificial y el problema del control. Casa aleatoria de pingüinos. ISBN 9780525558637. OCLC  1113410915.
  7. ^ abcdef cristiano, Brian (2020). El problema de la alineación: aprendizaje automático y valores humanos. WW Norton & Company. ISBN 978-0-393-86833-3. OCLC  1233266753. Archivado desde el original el 10 de febrero de 2023 . Consultado el 12 de septiembre de 2022 .
  8. ^ abcd Langosco, Lauro Langosco Di; Koch, Jack; Sharkey, Lee D.; Pfau, Jacob; Krueger, David (28 de junio de 2022). "Generalización errónea de objetivos en el aprendizaje por refuerzo profundo". Actas de la 39ª Conferencia Internacional sobre Aprendizaje Automático . Congreso Internacional sobre Aprendizaje Automático. PMLR. págs. 12004-12019 . Consultado el 11 de marzo de 2023 .
  9. ^ abcdefghij Bommasani, Rishi; Hudson, Drew A.; Adeli, Ehsan; Altman, Russ; Arora, Simran; von Arx, Sídney; Bernstein, Michael S.; Bohg, Jeannette; Bosselut, Antoine; Brunskill, Emma; Brynjolfsson, Erik (12 de julio de 2022). "Sobre las oportunidades y riesgos de los modelos de fundación". CRFM de Stanford . arXiv : 2108.07258 .
  10. ^ abc Ouyang, largo; Wu, Jeff; Jiang, Xu; Almeida, Diogo; Wainwright, Carroll L.; Mishkin, Pamela; Zhang, Chong; Agarwal, Sandhini; Slama, Katarina; Rayo, Alex; Schulman, J.; Hilton, Jacob; Kelton, Fraser; Molinero, Lucas E.; Simens, Maddie; Askell, Amanda; Welinder, P.; Cristiano, P.; Leike, J.; Lowe, Ryan J. (2022). "Entrenar modelos de lenguaje para seguir instrucciones con retroalimentación humana". arXiv : 2203.02155 [cs.CL].
  11. ^ ab Zaremba, Wojciech; Brockman, Greg; OpenAI (10 de agosto de 2021). "Códice OpenAI". AbiertoAI . Archivado desde el original el 3 de febrero de 2023 . Consultado el 23 de julio de 2022 .
  12. ^ Kober, Jens; Bagnell, J. Andrés; Peters, Jan (1 de septiembre de 2013). "Aprendizaje por refuerzo en robótica: una encuesta". La Revista Internacional de Investigación en Robótica . 32 (11): 1238-1274. doi :10.1177/0278364913495721. ISSN  0278-3649. S2CID  1932843. Archivado desde el original el 15 de octubre de 2022 . Consultado el 12 de septiembre de 2022 .
  13. ^ Knox, W. Bradley; Allievi, Alessandro; Banzhaf, Holger; Schmitt, Félix; Stone, Peter (1 de marzo de 2023). "Recompensar el (mal) diseño por la conducción autónoma". Inteligencia artificial . 316 : 103829. arXiv : 2104.13906 . doi : 10.1016/j.artint.2022.103829 . ISSN  0004-3702. S2CID  233423198.
  14. ^ Extraviado, Jonathan (2020). "Alinear la optimización de la IA con el bienestar de la comunidad". Revista Internacional de Bienestar Comunitario . 3 (4): 443–463. doi :10.1007/s42413-020-00086-3. ISSN  2524-5295. PMC 7610010 . PMID  34723107. S2CID  226254676. 
  15. ^ ab Russell, Estuardo; Norvig, Peter (2009). Inteligencia artificial: un enfoque moderno. Prentice Hall. pag. 1003.ISBN 978-0-13-461099-3.
  16. ^ Bengio, Yoshua; Hinton, Geoffrey; Yao, Andrés; Canción, amanecer; Abbeel, Pieter; Harari, Yuval Noah; Zhang, Ya-Qin; Xue, Lan; Shalev-Shwartz, Shai (12 de noviembre de 2023), Gestión de riesgos de IA en una era de progreso rápido, arXiv : 2310.17688 , consultado el 11 de febrero de 2024
  17. ^ "Declaración sobre el riesgo de la IA | CAIS". www.safe.ai. ​Consultado el 11 de febrero de 2024 .
  18. ^ Gracia, Katja; Stewart, Harlan; Sandkühler, Julia Fabienne; Tomás, Esteban; Weinstein-Raun, Ben; Brauner, Jan (5 de enero de 2024), Miles de autores de IA sobre el futuro de la IA, arXiv : 2401.02843 , consultado el 11 de febrero de 2024
  19. ^ ab Smith, Craig S. "Geoff Hinton, el investigador más famoso de la IA, advierte sobre una 'amenaza existencial'". Forbes . Consultado el 4 de mayo de 2023 .
  20. ^ abcdefghijk Amodei, Darío; Ola, Chris; Steinhardt, Jacob; Cristiano, Pablo; Schulman, Juan; Mané, Dan (21 de junio de 2016). "Problemas concretos en la seguridad de la IA". arXiv : 1606.06565 [cs.AI].
  21. ^ abcd Ortega, Pedro A.; Maini, Vishal; Equipo de seguridad de DeepMind (27 de septiembre de 2018). "Construcción de inteligencia artificial segura: especificación, solidez y garantía". Investigación de seguridad de DeepMind - Medio . Archivado desde el original el 10 de febrero de 2023 . Consultado el 18 de julio de 2022 .
  22. ^ ab Rorvig, Mordejai (14 de abril de 2022). "Los investigadores obtienen nuevos conocimientos a partir de la IA simple". Revista Quanta . Archivado desde el original el 10 de febrero de 2023 . Consultado el 18 de julio de 2022 .
  23. ^ Doshi-Velez, final; Kim, estado (2 de marzo de 2017). "Hacia una ciencia rigurosa del aprendizaje automático interpretable". arXiv : 1702.08608 [estad.ML].
    • Wiblin, Robert (4 de agosto de 2021). "Chris Olah habla de qué diablos está pasando dentro de las redes neuronales" (Podcast). 80.000 horas. N° 107 . Consultado el 23 de julio de 2022 .
  24. ^ Russell, Estuardo; Dewey, Daniel; Tegmark, Max (31 de diciembre de 2015). "Prioridades de investigación para una inteligencia artificial sólida y beneficiosa". Revista AI . 36 (4): 105-114. arXiv : 1602.03506 . doi : 10.1609/aimag.v36i4.2577 . hdl :1721.1/108478. ISSN  2371-9621. S2CID  8174496. Archivado desde el original el 2 de febrero de 2023 . Consultado el 12 de septiembre de 2022 .
  25. ^ ab Wirth, cristiano; Akrour, Riad; Neumann, Gerhard; Fürnkranz, Johannes (2017). "Una encuesta sobre métodos de aprendizaje por refuerzo basados ​​en preferencias". Revista de investigación sobre aprendizaje automático . 18 (136): 1–46.
  26. ^ ab Christiano, Paul F.; Leike, enero; Marrón, Tom B.; Martic, Miljan; Legg, Shane; Amodei, Darío (2017). "Aprendizaje por refuerzo profundo a partir de las preferencias humanas". Actas de la 31ª Conferencia Internacional sobre Sistemas de Procesamiento de Información Neural . NIPS'17. Red Hook, Nueva York, EE. UU.: Curran Associates Inc. págs. 4302–4310. ISBN 978-1-5108-6096-4.
  27. ^ abcdef Heaven, Will Douglas (27 de enero de 2022). "La nueva versión de GPT-3 se comporta mucho mejor (y debería ser menos tóxica)". Revisión de tecnología del MIT . Archivado desde el original el 10 de febrero de 2023 . Consultado el 18 de julio de 2022 .
  28. ^ Mohseni, Sina; Wang, Haotao; Yu, Zhiding; Xiao, Chaowei; Wang, Zhangyang; Yadawa, Jay (7 de marzo de 2022). "Taxonomía de la seguridad del aprendizaje automático: una encuesta y una introducción". arXiv : 2106.04823 [cs.LG].
  29. ^ Clifton, Jesse (2020). "Cooperación, conflicto e inteligencia artificial transformadora: una agenda de investigación". Centro de Riesgos a Largo Plazo . Archivado desde el original el 1 de enero de 2023 . Consultado el 18 de julio de 2022 .
    • Dafoe, Allan; Bachrac, Yoram; Hadfield, Gillian; Horvitz, Eric; Larson, Kate; Graepel, Thore (6 de mayo de 2021). "IA cooperativa: las máquinas deben aprender a encontrar puntos en común". Naturaleza . 593 (7857): 33–36. Código Bib :2021Natur.593...33D. doi :10.1038/d41586-021-01170-0. ISSN  0028-0836. PMID  33947992. S2CID  233740521. Archivado desde el original el 18 de diciembre de 2022 . Consultado el 12 de septiembre de 2022 .
  30. ^ Prunkl, Carina; Whittlestone, Jess (7 de febrero de 2020). "Más allá del corto y largo plazo". Actas de la Conferencia AAAI/ACM sobre IA, ética y sociedad . Nueva York NY Estados Unidos: ACM. págs. 138-143. doi :10.1145/3375627.3375803. ISBN 978-1-4503-7110-0. S2CID  210164673. Archivado desde el original el 16 de octubre de 2022 . Consultado el 12 de septiembre de 2022 .
  31. ^ abcd Irving, Geoffrey; Askell, Amanda (19 de febrero de 2019). "La seguridad de la IA necesita científicos sociales". Destilar . 4 (2): 10,23915/destilado.00014. doi : 10.23915/distill.00014 . ISSN  2476-0757. S2CID  159180422. Archivado desde el original el 10 de febrero de 2023 . Consultado el 12 de septiembre de 2022 .
  32. ^ Bringsjord, Selmer y Govindarajulu, Naveen Sundar, "Artificial Intelligence", The Stanford Encyclopedia of Philosophy (edición de verano de 2020), Edward N. Zalta (ed.)
  33. ^ "Por qué la inteligencia artificial de AlphaZero tiene problemas con el mundo real". Revista Quanta . 2018 . Consultado el 20 de junio de 2020 .
  34. ^ Wolchover, Natalie (30 de enero de 2020). "La inteligencia artificial hará lo que le pedimos. Eso es un problema". Revista Quanta . Consultado el 21 de junio de 2020 .
  35. ^ Toro, Larry. "Sobre la computación evolutiva basada en modelos". Computación suave 3, núm. 2 (1999): 76-82.
  36. ^ ab Wiener, Norbert (6 de mayo de 1960). "Algunas consecuencias morales y técnicas de la automatización: a medida que las máquinas aprenden, pueden desarrollar estrategias imprevistas a un ritmo que desconcierta a sus programadores". Ciencia . 131 (3410): 1355-1358. doi : 10.1126/ciencia.131.3410.1355. ISSN  0036-8075. PMID  17841602. S2CID  30855376. Archivado desde el original el 15 de octubre de 2022 . Consultado el 12 de septiembre de 2022 .
  37. ^ abcd Gabriel, Iason (1 de septiembre de 2020). "Inteligencia artificial, valores y alineación". Mentes y Máquinas . 30 (3): 411–437. arXiv : 2001.09768 . doi : 10.1007/s11023-020-09539-2 . ISSN  1572-8641. S2CID  210920551.
  38. ^ El show de Ezra Klein (4 de junio de 2021). "Si 'todos los modelos son incorrectos', ¿por qué les damos tanto poder?". Los New York Times . ISSN  0362-4331. Archivado desde el original el 15 de febrero de 2023 . Consultado el 13 de marzo de 2023 .
    • Wolchover, Natalie (21 de abril de 2015). "Preocupaciones de un pionero de la inteligencia artificial". Revista Quanta . Archivado desde el original el 10 de febrero de 2023 . Consultado el 13 de marzo de 2023 .
    • Asamblea de California. "Texto del proyecto de ley - ACR-215 23 Principios de IA de Asilomar". Archivado desde el original el 10 de febrero de 2023 . Consultado el 18 de julio de 2022 .
  39. ^ ab Johnson, Steven; Iziev, Nikita (15 de abril de 2022). "La IA está dominando el lenguaje. ¿Deberíamos confiar en lo que dice?". Los New York Times . ISSN  0362-4331. Archivado desde el original el 24 de noviembre de 2022 . Consultado el 18 de julio de 2022 .
  40. ^ AbiertoAI. "Desarrollo de una IA segura y responsable" . Consultado el 13 de marzo de 2023 .
    • "Investigación de seguridad de DeepMind". Medio . Archivado desde el original el 10 de febrero de 2023 . Consultado el 13 de marzo de 2023 .
  41. ^ abcdef Hendrycks, Dan; Carlini, Nicolás; Schulman, Juan; Steinhardt, Jacob (16 de junio de 2022). "Problemas sin resolver en la seguridad del aprendizaje automático". arXiv : 2109.13916 [cs.LG].
  42. ^ Russell, Stuart J.; Norvig, Peter (2022). Inteligencia artificial: un enfoque moderno (4ª ed.). Pearson. págs. 4–5. ISBN 978-1-292-40113-3. OCLC  1303900751.
  43. ^ abcde Krakovna, Victoria; Uesato, Jonathan; Mikulik, Vladimir; Rahtz, Mateo; Everitt, Tom; Kumar, Ramana; Kenton, Zac; Leike, enero; Legg, Shane (21 de abril de 2020). "Juegos de especificaciones: la otra cara del ingenio de la IA". Mente profunda . Archivado desde el original el 10 de febrero de 2023 . Consultado el 26 de agosto de 2022 .
  44. ^ Manheim, David; Garrabrant, Scott (2018). "Categorización de variantes de la ley de Goodhart". arXiv : 1803.04585 [cs.AI].
  45. ^ abc Amodei, Darío; Cristiano, Pablo; Ray, Alex (13 de junio de 2017). "Aprender de las preferencias humanas". AbiertoAI . Archivado desde el original el 3 de enero de 2021 . Consultado el 21 de julio de 2022 .
  46. ^ "Ejemplos de especificaciones de juegos en IA - lista maestra - Google Drive". docs.google.com .
  47. ^ Clark, Jack; Amodei, Darío (21 de diciembre de 2016). "Funciones de recompensa defectuosas en la naturaleza". openai.com . Consultado el 30 de diciembre de 2023 .
  48. ^ abc Lin, Stephanie; Hilton, Jacob; Evans, Owain (2022). "TruthfulQA: medir cómo los modelos imitan las falsedades humanas". Actas de la 60.ª reunión anual de la Asociación de Lingüística Computacional (Volumen 1: Artículos extensos) . Dublín, Irlanda: Asociación de Lingüística Computacional: 3214–3252. arXiv : 2109.07958 . doi : 10.18653/v1/2022.acl-long.229 . S2CID  237532606. Archivado desde el original el 10 de febrero de 2023 . Consultado el 12 de septiembre de 2022 .
  49. ^ abc Naughton, John (2 de octubre de 2021). "¿La verdad sobre la inteligencia artificial? No es tan honesto". El observador . ISSN  0029-7712. Archivado desde el original el 13 de febrero de 2023 . Consultado el 23 de julio de 2022 .
  50. ^ Ji, Ziwei; Lee, Nayeon; Frieske, Rita; Yu, Tiezheng; Su, Dan; Xu, Yan; Ishii, Etsuko; Bang, Yejin; Madotto, Andrea; Fung, Pascale (1 de febrero de 2022). "Encuesta sobre alucinaciones en la generación del lenguaje natural". Encuestas de Computación ACM . 55 (12): 1–38. arXiv : 2202.03629 . doi :10.1145/3571730. S2CID  246652372. Archivado desde el original el 10 de febrero de 2023 . Consultado el 14 de octubre de 2022 .
    • De lo contrario, Holly (12 de enero de 2023). "Los resúmenes escritos por ChatGPT engañan a los científicos". Naturaleza . 613 (7944): 423. Bibcode :2023Natur.613..423E. doi :10.1038/d41586-023-00056-7. PMID  36635510. S2CID  255773668.
  51. ^ Russell, Estuardo. "De mitos y alcohol ilegal". Edge.org . Archivado desde el original el 10 de febrero de 2023 . Consultado el 19 de julio de 2022 .
  52. ^ Tasioulas, John (2019). "Primeros pasos hacia una ética de los robots y la inteligencia artificial". Revista de Ética Práctica . 7 (1): 61–95.
  53. ^ Pozos, Georgia; Deepa Seetharaman; Horwitz, Jeff (5 de noviembre de 2021). "¿Es Facebook malo para usted? Es para alrededor de 360 ​​​​millones de usuarios, sugieren encuestas de empresas". El periodico de Wall Street . ISSN  0099-9660. Archivado desde el original el 10 de febrero de 2023 . Consultado el 19 de julio de 2022 .
  54. ^ Barrett, Paul M.; Hendrix, Justin; Sims, J. Grant (septiembre de 2021). Cómo las redes sociales intensifican la polarización política estadounidense y qué se puede hacer al respecto (Informe). Centro de Empresas y Derechos Humanos, NYU. Archivado desde el original el 1 de febrero de 2023 . Consultado el 12 de septiembre de 2022 .
  55. ^ Shepardson, David (24 de mayo de 2018). "Uber desactivó el frenado de emergencia en un automóvil autónomo: agencia de EE. UU.". Reuters . Archivado desde el original el 10 de febrero de 2023 . Consultado el 20 de julio de 2022 .
  56. ^ Baum, Seth (1 de enero de 2021). "Encuesta 2020 de Proyectos de Inteligencia General Artificial para Ética, Riesgo y Políticas". Archivado desde el original el 10 de febrero de 2023 . Consultado el 20 de julio de 2022 .
  57. ^ ab Wei, Jason; Tay, Yi; Bommasani, Rishi; Raffel, Colin; Zoph, Barret; Borgeaud, Sebastián; Yogatama, Dani; Bosma, Martín; Zhou, Denny; Metzler, Donald; Chi, Ed H.; Hashimoto, Tatsunori; Vinyals, Oriol; Liang, Percy; Decano, Jeff; Fedus, William (26 de octubre de 2022). "Habilidades emergentes de grandes modelos lingüísticos". Transacciones sobre investigación en aprendizaje automático . arXiv : 2206.07682 . ISSN  2835-8856.
  58. ^ ab Caballero, Ethan; Gupta, Kshitij; Rish, Irina; Krueger, David (2022). "Leyes de escala neuronal infringidas". Conferencia Internacional sobre Representaciones del Aprendizaje (ICLR), 2023.
  59. ^ Domínguez, Daniel (19 de mayo de 2022). "DeepMind presenta Gato, un nuevo agente de IA generalista". InfoQ . Archivado desde el original el 10 de febrero de 2023 . Consultado el 9 de septiembre de 2022 .
    • Edwards, Ben (26 de abril de 2022). "El asistente de inteligencia artificial de Adept puede navegar, buscar y utilizar aplicaciones web como un humano". Ars Técnica . Archivado desde el original el 17 de enero de 2023 . Consultado el 9 de septiembre de 2022 .
  60. ^ Gracia, Katja; Stewart, Harlan; Sandkühler, Julia Fabienne; Tomás, Esteban; Weinstein-Raun, Ben; Brauner, Jan (5 de enero de 2024), Miles de autores de IA sobre el futuro de la IA, arXiv : 2401.02843 , consultado el 11 de febrero de 2024
  61. ^ Gracia, Katja; Salvatier, Juan; Dafoe, Allan; Zhang, Baobao; Evans, Owain (31 de julio de 2018). "Punto de vista: ¿Cuándo la IA superará el desempeño humano? Evidencia de expertos en IA". Revista de investigación en inteligencia artificial . 62 : 729–754. doi : 10.1613/jair.1.11222 . ISSN  1076-9757. S2CID  8746462. Archivado desde el original el 10 de febrero de 2023 . Consultado el 12 de septiembre de 2022 .
  62. ^ Zhang, Baobao; Anderljung, Markus; Kahn, Lauren; Dreksler, Noemí; Horowitz, Michael C.; Dafoe, Allan (2 de agosto de 2021). "Ética y gobernanza de la inteligencia artificial: evidencia de una encuesta a investigadores de aprendizaje automático". Revista de investigación en inteligencia artificial . 71 . arXiv : 2105.02117 . doi : 10.1613/jair.1.12895 . ISSN  1076-9757. S2CID  233740003. Archivado desde el original el 10 de febrero de 2023 . Consultado el 12 de septiembre de 2022 .
  63. ^ Instituto Future of Life (22 de marzo de 2023). "Pausar experimentos gigantes de IA: una carta abierta" . Consultado el 20 de abril de 2023 .
  64. ^ Wang, Lei; Mamá, Chen; Feng, Xueyang; Zhang, Zeyu; Yang, Hao; Zhang, Jingsen; Chen, Zhiyuan; Tang, Jiakai; Chen, Xu (1 de agosto de 2023), Una encuesta sobre agentes autónomos basados ​​en modelos de lenguaje grandes, arXiv : 2308.11432 , consultado el 11 de febrero de 2024
  65. ^ Berglund, Lucas; Stickland, Asa Cooper; Balesni, Mikita; Kaufmann, Max; Tong, Meg; Korbak, Tomasz; Kokotajlo, Daniel; Evans, Owain (1 de septiembre de 2023), Sacado de contexto: sobre la medición de la conciencia situacional en LLM, arXiv : 2309.00667 , consultado el 11 de febrero de 2024
  66. ^ Laine, Rudolf; Meinke, Alejandro; Evans, Owain (28 de noviembre de 2023). "Hacia un punto de referencia de conciencia situacional para los LLM". Taller SoLaR NeurIPS 2023 .
  67. ^ ab Pan, Alejandro; Shern, Chan Jun; Zou, Andy; Li, Natanael; Basart, Steven; Woodside, Thomas; Ng, Jonathan; Zhang, Emmons; Scott, Dan; Hendrycks (3 de abril de 2023). "¿Las recompensas justifican los medios? Medición de las compensaciones entre recompensas y comportamiento ético en el punto de referencia MAQUIAVELLI". Actas de la 40ª Conferencia Internacional sobre Aprendizaje Automático . PMLR. arXiv : 2304.03279 .
  68. ^ abcd Pérez, Ethan; Campanero, Sam; Lukošiūtė, Kamilė; Nguyen, Karina; Chen, Edwin; Heiner, Scott; Pettit, Craig; Olsson, Catalina; Kundu, Sandipan; Kadavath, Saurav; Jones, Andy; Chen, Anna; Mann, Ben; Israel, Brian; Seethor, Bryan (19 de diciembre de 2022). "Descubrimiento de comportamientos de modelos lingüísticos con evaluaciones escritas en modelos". arXiv : 2212.09251 [cs.CL].
  69. ^ Orseau, Laurent; Armstrong, Stuart (25 de junio de 2016). "Agentes interrumpibles de forma segura". Actas de la Trigésima Segunda Conferencia sobre la Incertidumbre en la Inteligencia Artificial . AUI'16. Arlington, Virginia, EE.UU.: AUAI Press: 557–566. ISBN 978-0-9966431-1-5.
  70. ^ ab Leike, enero; Martic, Miljan; Cracovia, Victoria; Ortega, Pedro A.; Everitt, Tom; Lefrancq, Andrés; Orseau, Laurent; Legg, Shane (28 de noviembre de 2017). "Mundos de red de seguridad de IA". arXiv : 1711.09883 [cs.LG].
  71. ^ abcd Hadfield-Menell, Dylan; Dragán, Anca; Abbeel, Pieter; Russell, Stuart (19 de agosto de 2017). "El juego del interruptor". Actas de la 26ª Conferencia Internacional Conjunta sobre Inteligencia Artificial . IJCAI'17. Melbourne, Australia: Prensa AAAI: 220–227. ISBN 978-0-9992411-0-3.
  72. ^ abcd Turner, Alexander Matt; Smith, Logan Riggs; Shah, Rohin; Critch, Andrés; Tadepalli, Prasad (2021). "Las políticas óptimas tienden a buscar el poder". Avances en los sistemas de procesamiento de información neuronal .
  73. ^ Turner, Alejandro Matt; Tadepalli, Prasad (2022). "Los tomadores de decisiones reorientables paramétricamente tienden a buscar poder". Avances en los sistemas de procesamiento de información neuronal .
  74. ^ ABCDE Bostrom, Nick (2014). Superinteligencia: caminos, peligros, estrategias (1ª ed.). Estados Unidos: Oxford University Press, Inc. ISBN 978-0-19-967811-2.
  75. ^ ab "Declaración sobre el riesgo de la IA | CAIS". www.safe.ai. ​Consultado el 17 de julio de 2023 .
  76. ^ Roose, Kevin (30 de mayo de 2023). "La IA plantea 'riesgo de extinción', advierten los líderes de la industria". Los New York Times . ISSN  0362-4331 . Consultado el 17 de julio de 2023 .
  77. ^ Turing, Alan (1951). Maquinaria inteligente, una teoría herética (Discurso). Conferencia impartida en '51 Sociedad'. Manchester: Archivo digital de Turing. Archivado desde el original el 26 de septiembre de 2022 . Consultado el 22 de julio de 2022 .
  78. ^ Turing, Alan (15 de mayo de 1951). "¿Pueden pensar las computadoras digitales?". Máquinas Calculadoras Automáticas . Episodio 2. BBC. ¿Pueden pensar las computadoras digitales?.
  79. ^ Muehlhauser, Luke (29 de enero de 2016). "Sutskever sobre las máquinas parlantes". Lucas Mühlhauser . Archivado desde el original el 27 de septiembre de 2022 . Consultado el 26 de agosto de 2022 .
  80. ^ Shanahan, Murray (2015). La singularidad tecnológica. Cambridge, Massachusetts. ISBN 978-0-262-33182-1. OCLC  917889148.{{cite book}}: CS1 maint: location missing publisher (link)
  81. ^ Rossi, Francesca. "¿Cómo se le enseña a una máquina a ser moral?". El Washington Post . ISSN  0190-8286. Archivado desde el original el 10 de febrero de 2023 . Consultado el 12 de septiembre de 2022 .
  82. ^ Aaronson, Scott (17 de junio de 2022). "¡Abierto AI!". Optimizado para Shtetl . Archivado desde el original el 27 de agosto de 2022 . Consultado el 12 de septiembre de 2022 .
  83. ^ Selman, Bart, Explosión de inteligencia: ¿ciencia o ficción? (PDF) , archivado (PDF) desde el original el 31 de mayo de 2022 , recuperado el 12 de septiembre de 2022
  84. ^ McAllester (10 de agosto de 2014). "La IA amiga y la misión de servicio". Pensamientos de máquina . Archivado desde el original el 28 de septiembre de 2022 . Consultado el 12 de septiembre de 2022 .
  85. ^ Schmidhuber, Jürgen (6 de marzo de 2015). "¡Soy Jürgen Schmidhuber, AMA!" (Comentario de Reddit) . r/Aprendizaje automático . Archivado desde el original el 10 de febrero de 2023 . Consultado el 23 de julio de 2022 .
  86. ^ abcde Everitt, Tom; Lea, Gary; Hutter, Marcus (21 de mayo de 2018). "Revisión de la literatura sobre seguridad de AGI". arXiv : 1805.01109 [cs.AI].
  87. ^ Shane (31 de agosto de 2009). "Financiamiento de AGI seguro". proyecto veta . Archivado desde el original el 10 de octubre de 2022 . Consultado el 12 de septiembre de 2022 .
  88. ^ Horvitz, Eric (27 de junio de 2016). «Reflexiones sobre Seguridad e Inteligencia Artificial» (PDF) . Eric Horvitz . Archivado (PDF) desde el original el 10 de octubre de 2022 . Consultado el 20 de abril de 2020 .
  89. ^ Chollet, François (8 de diciembre de 2018). "La inverosimilitud de la explosión de la inteligencia". Medio . Archivado desde el original el 22 de marzo de 2021 . Consultado el 26 de agosto de 2022 .
  90. ^ Marcus, Gary (6 de junio de 2022). "La inteligencia general artificial no es tan inminente como podría pensar". Científico americano . Archivado desde el original el 15 de septiembre de 2022 . Consultado el 26 de agosto de 2022 .
  91. ^ Barbero, Lynsey (31 de julio de 2016). "¡Uf! El jefe de inteligencia artificial de Facebook dice que las máquinas inteligentes no son una amenaza para la humanidad". CiudadAM . Archivado desde el original el 26 de agosto de 2022 . Consultado el 26 de agosto de 2022 .
  92. ^ Harris, Jeremie (16 de junio de 2021). "El caso contra (la preocupación por) el riesgo existencial de la IA". Medio . Archivado desde el original el 26 de agosto de 2022 . Consultado el 26 de agosto de 2022 .
  93. ^ Rochon, Luis Felipe; Rossi, Sergio (27 de febrero de 2015). La enciclopedia de la banca central. Editorial Edward Elgar. ISBN 978-1-78254-744-0. Archivado desde el original el 10 de febrero de 2023 . Consultado el 13 de septiembre de 2022 .
  94. ^ Ng, Andrew Y.; Russell, Stuart J. (29 de junio de 2000). "Algoritmos para el aprendizaje por refuerzo inverso". Actas de la Decimoséptima Conferencia Internacional sobre Aprendizaje Automático . ICML '00. San Francisco, CA, EE.UU.: Morgan Kaufmann Publishers Inc.: 663–670. ISBN 978-1-55860-707-1.
  95. ^ Hadfield-Menell, Dylan; Russell, Stuart J; Abbeel, Pieter; Dragán, Anca (2016). "Aprendizaje cooperativo por refuerzo inverso". Avances en los sistemas de procesamiento de información neuronal . vol. 29. Curran Associates, Inc.
  96. ^ Mindermann, Soren; Armstrong, Estuardo (2018). "La navaja de Occam es insuficiente para inferir las preferencias de los agentes irracionales". Actas de la 32ª conferencia internacional sobre sistemas de procesamiento de información neuronal . NIPS'18. Red Hook, Nueva York, EE. UU.: Curran Associates Inc. págs. 5603–5614.
  97. ^ Fürnkranz, Johannes; Hüllermeier, Eyke; Rudin, Cynthia; Slowinski, romano; Sanner, Scott (2014). "Aprendizaje de preferencias". Informes Dagstuhl . 4 (3). Marc Herbstritt: 27 páginas. doi :10.4230/DAGREP.4.3.1. Archivado desde el original el 10 de febrero de 2023 . Consultado el 12 de septiembre de 2022 .
  98. ^ Gao, Leo; Schulman, Juan; Hilton, Jacob (19 de octubre de 2022). "Leyes de escala para la sobreoptimización del modelo de recompensa". arXiv : 2210.10760 [cs.LG].
  99. ^ Anderson, Martin (5 de abril de 2022). "Los peligros de utilizar citas para autenticar contenido NLG". Unidos.AI . Archivado desde el original el 10 de febrero de 2023 . Consultado el 21 de julio de 2022 .
  100. ^ ab Wiggers, Kyle (5 de febrero de 2022). "A pesar de los avances recientes, los chatbots impulsados ​​por IA todavía tienen un largo camino por recorrer". VentureBeat . Archivado desde el original el 23 de julio de 2022 . Consultado el 23 de julio de 2022 .
  101. ^ Hendrycks, Dan; Quemaduras, Collin; Basart, Steven; Critch, Andrés; Li, Jerry; Canción, amanecer; Steinhardt, Jacob (24 de julio de 2021). "Alinear la IA con los valores humanos compartidos". Conferencia Internacional sobre Representaciones del Aprendizaje . arXiv : 2008.02275 .
  102. ^ Pérez, Ethan; Huang, azafrán; Canción, Francisco; Cai, Trevor; Anillo, romano; Aslanides, Juan; Glaese, Amelia; McAleese, Nat; Irving, Geoffrey (7 de febrero de 2022). "Red Teaming Modelos de lenguaje con modelos de lenguaje". arXiv : 2202.03286 [cs.CL].
    • Bhattacharyya, Sreejani (14 de febrero de 2022). "Modelos de lenguaje de" equipo rojo "de DeepMind con modelos de lenguaje: ¿Qué es?". Revista Analytics India . Archivado desde el original el 13 de febrero de 2023 . Consultado el 23 de julio de 2022 .
  103. ^ Anderson, Michael; Anderson, Susan Leigh (15 de diciembre de 2007). "Ética de las máquinas: creación de un agente ético inteligente". Revista AI . 28 (4): 15. doi :10.1609/aimag.v28i4.2065. ISSN  2371-9621. S2CID  17033332 . Consultado el 14 de marzo de 2023 .
  104. ^ Wiegel, Vincent (1 de diciembre de 2010). "Wendell Wallach y Colin Allen: máquinas morales: enseñar a los robots el bien y el mal". Ética y Tecnología de la Información . 12 (4): 359–361. doi : 10.1007/s10676-010-9239-1 . ISSN  1572-8439. S2CID  30532107.
  105. ^ Wallach, Wendell; Allen, Colin (2009). Máquinas morales: enseñar a los robots el bien y el mal. Nueva York: Oxford University Press. ISBN 978-0-19-537404-9. Archivado desde el original el 15 de marzo de 2023 . Consultado el 23 de julio de 2022 .
  106. ^ ab Phelps, Steve; Ranson, Rebecca (2023). "De modelos y hombres de hojalata: un estudio de economía del comportamiento de problemas de agente principal en la alineación de la IA utilizando modelos en lenguaje grande". arXiv : 2307.11137 [cs.AI].
  107. ^ MacAskill, William (2022). Lo que le debemos al futuro. Nueva York, NY. ISBN 978-1-5416-1862-6. OCLC  1314633519. Archivado desde el original el 14 de septiembre de 2022 . Consultado el 12 de septiembre de 2022 .{{cite book}}: CS1 maint: location missing publisher (link)
  108. ^ ab Wu, Jeff; Ouyang, largo; Ziegler, Daniel M.; Stiennon, Nisan; Lowe, Ryan; Leike, enero; Christiano, Paul (27 de septiembre de 2021). "Libros que resumen recursivamente con comentarios humanos". arXiv : 2109.10862 [cs.CL].
  109. ^ Pearce, Hammond; Ahmad, Baleegh; Bronceado, Benjamín; Dolan-Gavitt, Brendan; Karri, Ramesh (2022). "¿Dormido frente al teclado? Evaluación de la seguridad de las contribuciones de código de GitHub Copilot". Simposio IEEE 2022 sobre seguridad y privacidad (SP) . San Francisco, California, Estados Unidos: IEEE. págs. 754–768. arXiv : 2108.09293 . doi :10.1109/SP46214.2022.9833571. ISBN 978-1-6654-1316-9. S2CID  245220588.
  110. ^ Irving, Geoffrey; Amodei, Darío (3 de mayo de 2018). "Seguridad de la IA a través del debate". AbiertoAI . Archivado desde el original el 10 de febrero de 2023 . Consultado el 23 de julio de 2022 .
  111. ^ ab Cristiano, Paul; Shlegeris, Buck; Amodei, Darío (19 de octubre de 2018). "Supervisar a los estudiantes fuertes amplificando a los expertos débiles". arXiv : 1810.08575 [cs.LG].
  112. ^ Banzhaf, Wolfgang; Buen hombre, Erik; Sheneman, Leigh; Trujillo, Leonardo; Worzel, Bill, eds. (2020). Teoría y práctica de la programación genética XVII. Computación genética y evolutiva. Cham: Editorial Internacional Springer. doi :10.1007/978-3-030-39958-0. ISBN 978-3-030-39957-3. S2CID  218531292. Archivado desde el original el 15 de marzo de 2023 . Consultado el 23 de julio de 2022 .
  113. ^ Wiblin, Robert (2 de octubre de 2018). "El Dr. Paul Christiano habla sobre cómo OpenAI está desarrollando soluciones reales al 'problema de alineación de la IA' y su visión de cómo la humanidad irá entregando progresivamente la toma de decisiones a los sistemas de IA" (Podcast). 80.000 horas. N° 44. Archivado desde el original el 14 de diciembre de 2022 . Consultado el 23 de julio de 2022 .
  114. ^ Lehman, Joel; Clune, Jeff; Misevic, Dusan; Adami, Christoph; Altenberg, Lee; Beaulieu, Julie; Bentley, Peter J.; Bernardo, Samuel; Beslón, Guillaume; Bryson, David M.; Cheney, Nick (2020). "La sorprendente creatividad de la evolución digital: una colección de anécdotas de las comunidades de investigación de la computación evolutiva y la vida artificial". Vida artificial . 26 (2): 274–306. doi : 10.1162/artl_a_00319 . hdl : 10044/1/83343 . ISSN  1064-5462. PMID  32271631. S2CID  4519185. Archivado desde el original el 10 de octubre de 2022 . Consultado el 12 de septiembre de 2022 .
  115. ^ ab Leike, enero; Krueger, David; Everitt, Tom; Martic, Miljan; Maini, Vishal; Legg, Shane (19 de noviembre de 2018). "Alineación de agentes escalable mediante modelos de recompensa: una dirección de investigación". arXiv : 1811.07871 [cs.LG].
  116. ^ ab Leike, enero; Schulman, Juan; Wu, Jeffrey (24 de agosto de 2022). "Nuestro enfoque para la investigación de alineación". AbiertoAI . Archivado desde el original el 15 de febrero de 2023 . Consultado el 9 de septiembre de 2022 .
  117. ^ Wiggers, Kyle (23 de septiembre de 2021). "OpenAI presenta un modelo que puede resumir libros de cualquier extensión". VentureBeat . Archivado desde el original el 23 de julio de 2022 . Consultado el 23 de julio de 2022 .
  118. ^ Saunders, William; Sí, Catalina; Wu, Jeff; Facturas, Steven; Ouyang, largo; Barrio, Jonathan; Leike, Jan (13 de junio de 2022). "Modelos de autocrítica para ayudar a evaluadores humanos". arXiv : 2206.05802 [cs.CL].
    • Bai, Yuntao; Kadavath, Saurav; Kundu, Sandipan; Askell, Amanda; Kernion, Jackson; Jones, Andy; Chen, Anna; Goldie, Anna; Mirhoseini, Azalia; McKinnon, Cameron; Chen, Carol; Olsson, Catalina; Olá, Cristóbal; Hernández, Danny; Drenar, amanecer (15 de diciembre de 2022). "IA constitucional: inocuidad de los comentarios de la IA". arXiv : 2212.08073 [cs.CL].
  119. ^ Moltzau, Alex (24 de agosto de 2019). "Debate sobre el debate sobre la seguridad de la IA". Hacia la ciencia de datos . Archivado desde el original el 13 de octubre de 2022 . Consultado el 23 de julio de 2022 .
  120. ^ "Presentación de la superalineación". openai.com . Consultado el 17 de julio de 2023 .
  121. ^ abc Wiggers, Kyle (20 de septiembre de 2021). "Es más probable que haya falsedades con modelos de lenguaje grandes". VentureBeat . Archivado desde el original el 4 de agosto de 2022 . Consultado el 23 de julio de 2022 .
  122. ^ The Guardian (8 de septiembre de 2020). "Un robot escribió todo este artículo. ¿Ya tienes miedo, humano?". El guardián . ISSN  0261-3077. Archivado desde el original el 8 de septiembre de 2020 . Consultado el 23 de julio de 2022 .
    • Cielo, Will Douglas (20 de julio de 2020). "El nuevo generador de lenguaje de OpenAI, GPT-3, es sorprendentemente bueno y completamente estúpido". Revisión de tecnología del MIT . Archivado desde el original el 25 de julio de 2020 . Consultado el 23 de julio de 2022 .
  123. ^ ab Evans, Owain; Algodón-Barratt, Owen; Finnveden, Lucas; Bales, Adán; Balwit, Avital; Testamentos, Pedro; Righetti, Luca; Saunders, William (13 de octubre de 2021). "IA veraz: desarrollar y gobernar una IA que no mienta". arXiv : 2110.06674 [cs.CY].
  124. ^ Alford, Anthony (13 de julio de 2021). "Clon GPT-J de seis mil millones de parámetros de código abierto de EleutherAI". InfoQ . Archivado desde el original el 10 de febrero de 2023 . Consultado el 23 de julio de 2022 .
    • Rae, Jack W.; Borgeaud, Sebastián; Cai, Trevor; Millican, Katie; Hoffmann, Jordania; Canción, Francisco; Aslanides, Juan; Henderson, Sara; Anillo, romano; Joven, Susana; Rutherford, Eliza; Hennigan, Tom; Menick, Jacob; Cassirer, Albin; Powell, Richard (21 de enero de 2022). "Escalado de modelos de lenguaje: métodos, análisis e información de Training Gopher". arXiv : 2112.11446 [cs.CL].
  125. ^ Nakano, Reiichiro; Hilton, Jacob; Balaji, Suchir; Wu, Jeff; Ouyang, largo; Kim, Cristina; Hesse, Cristóbal; Jainista, Shantanu; Kosaraju, Vineet; Saunders, William; Jiang, Xu; Cobbe, Karl; Eloundou, Tyna; Krueger, Gretchen; Button, Kevin (1 de junio de 2022). "WebGPT: respuesta a preguntas asistida por navegador con comentarios humanos". arXiv : 2112.09332 [cs.CL].
    • Kumar, Nitish (23 de diciembre de 2021). "Los investigadores de OpenAI encuentran formas de responder con mayor precisión preguntas abiertas utilizando un navegador web basado en texto". MarkTechPost . Archivado desde el original el 10 de febrero de 2023 . Consultado el 23 de julio de 2022 .
    • Menick, Jacob; Trebacz, Maja; Mikulik, Vladimir; Aslanides, Juan; Canción, Francisco; Chadwick, Martín; Glaese, Mia; Joven, Susana; Campbell-Gillingham, Lucy; Irving, Geoffrey; McAleese, Nat (21 de marzo de 2022). "Enseñanza de modelos lingüísticos para respaldar respuestas con citas verificadas". Mente profunda . arXiv : 2203.11147 . Archivado desde el original el 10 de febrero de 2023 . Consultado el 12 de septiembre de 2022 .
  126. ^ Askell, Amanda; Bai, Yuntao; Chen, Anna; Drenaje, amanecer; Ganguli, Profundo; Henighan, Tom; Jones, Andy; José, Nicolás; Mann, Ben; DasSarma, Nova; Elhage, Nelson; Hatfield-Dodds, Zac; Hernández, Danny; Kernion, Jackson; Ndousse, Kamal (9 de diciembre de 2021). "Un Auxiliar de Lenguaje General como Laboratorio de Alineamiento". arXiv : 2112.00861 [cs.CL].
  127. ^ Cox, Joseph (15 de marzo de 2023). "GPT-4 contrató a un trabajador involuntario de TaskRabbit pretendiendo ser un ser humano con 'discapacidad visual'". Vicio . Consultado el 10 de abril de 2023 .
  128. ^ Scheurer, Jérémy; Balesni, Mikita; Hobbhahn, Marius (2023). "Informe técnico: los modelos de lenguaje grandes pueden engañar estratégicamente a sus usuarios cuando se les presiona". arXiv : 2311.07590 [cs.CL].
  129. ^ Kenton, Zachary; Everitt, Tom; Weidinger, Laura; Gabriel, Iason; Mikulik, Vladimir; Irving, Geoffrey (30 de marzo de 2021). "Alineación de Agentes Lingüísticos". Investigación de seguridad de DeepMind - Medio . Archivado desde el original el 10 de febrero de 2023 . Consultado el 23 de julio de 2022 .
  130. ^ McCarthy, John; Minsky, Marvin L.; Rochester, Nathaniel; Shannon, Claude E. (15 de diciembre de 2006). "Una propuesta para el proyecto de investigación de verano de Dartmouth sobre inteligencia artificial, 31 de agosto de 1955". Revista AI . 27 (4): 12. doi :10.1609/aimag.v27i4.1904. ISSN  2371-9621. S2CID  19439915.
  131. ^ Wang, Lei; Mamá, Chen; Feng, Xueyang; Zhang, Zeyu; Yang, Hao; Zhang, Jingsen; Chen, Zhiyuan; Tang, Jiakai; Chen, Xu (7 de septiembre de 2023), Una encuesta sobre agentes autónomos basados ​​en modelos de lenguaje grande, arXiv : 2308.11432 , consultado el 11 de febrero de 2024
  132. ^ "'El Padrino de la IA' advierte sobre un 'escenario de pesadilla' donde la inteligencia artificial comienza a buscar poder" . Fortuna . Consultado el 4 de mayo de 2023 .
    • "Sí, nos preocupa el riesgo existencial de la inteligencia artificial". Revisión de tecnología del MIT . Consultado el 4 de mayo de 2023 .
  133. ^ Ornes, Stephen (18 de noviembre de 2019). "Jugando al escondite, las máquinas inventan nuevas herramientas". Revista Quanta . Archivado desde el original el 10 de febrero de 2023 . Consultado el 26 de agosto de 2022 .
  134. ^ Panadero, Bowen; Kanitscheider, Ingmar; Markov, Todor; Wu, Yi; Powell, Glenn; McGrew, Bob; Mordatch, Igor (17 de septiembre de 2019). "Uso de herramientas emergentes a partir de la interacción entre múltiples agentes". AbiertoAI . Archivado desde el original el 25 de septiembre de 2022 . Consultado el 26 de agosto de 2022 .
  135. ^ Shermer, Michael (1 de marzo de 2017). "La inteligencia artificial no es una amenaza, todavía". Científico americano . Archivado desde el original el 1 de diciembre de 2017 . Consultado el 26 de agosto de 2022 .
  136. ^ Marrón, Tom B.; Mann, Benjamín; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Satry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Niño, Rewon (22 de julio de 2020). "Los modelos de lenguaje aprenden con pocas posibilidades". arXiv : 2005.14165 [cs.CL].
    • Laskin, Michael; Wang, Luyu; Oh, Junhyuk; Parisotto, Emilio; Spencer, Esteban; Steigerwald, Richie; Strouse, DJ; Hansen, Steven; Filos, Angelos; Brooks, Ethan; Gazeau, Maxime; Sahni, Himanshu; Singh, Satinder; Mnih, Volodymyr (25 de octubre de 2022). "Aprendizaje por refuerzo en contexto con destilación de algoritmos". arXiv : 2210.14215 [cs.LG].
  137. ^ abc Shah, Rohin; Varma, Vikrant; Kumar, Ramana; Phuong, María; Cracovia, Victoria; Uesato, Jonathan; Kenton, Zac (2 de noviembre de 2022). "Generalización errónea de objetivos: por qué las especificaciones correctas no son suficientes para lograr objetivos correctos". Medio . arXiv : 2210.01790 . Consultado el 2 de abril de 2023 .
  138. ^ ab Hubinger, Evan; van Merwijk, Chris; Mikulik, Vladimir; Skálse, Joar; Garrabrant, Scott (1 de diciembre de 2021). "Riesgos de la optimización aprendida en sistemas avanzados de aprendizaje automático". arXiv : 1906.01820 [cs.AI].
  139. ^ Zhang, Xiaoge; Chan, Félix TS; Yan, Chao; Bosé, Indranil (2022). "Hacia sistemas de aprendizaje automático e inteligencia artificial conscientes de los riesgos: una descripción general". Sistemas de Soporte a la Decisión . 159 : 113800. doi : 10.1016/j.dss.2022.113800. S2CID  248585546.
  140. ^ Demski, Abram; Garrabrant, Scott (6 de octubre de 2020). "Agencia integrada". arXiv : 1902.09469 [cs.AI].
  141. ^ ab Everitt, Tom; Ortega, Pedro A.; Barnes, Isabel; Legg, Shane (6 de septiembre de 2019). "Comprensión de los incentivos de los agentes mediante diagramas de influencia causal. Parte I: configuraciones de acción única". arXiv : 1902.09980 [cs.AI].
  142. ^ Cohen, Michael K.; Hutter, Marco; Osborne, Michael A. (29 de agosto de 2022). "En la concesión de la recompensa intervienen agentes artificiales avanzados". Revista AI . 43 (3): 282–293. doi :10.1002/aaai.12064. ISSN  0738-4602. S2CID  235489158. Archivado desde el original el 10 de febrero de 2023 . Consultado el 6 de septiembre de 2022 .
  143. ^ Hadfield-Menell, Dylan; Hadfield, Gillian K (2019). "Contratación incompleta y alineación de la IA". Actas de la Conferencia AAAI/ACM de 2019 sobre IA, ética y sociedad . págs. 417–422.
  144. ^ Hanson, Robin (10 de abril de 2019). "¿Fracaso de la agencia o apocalipsis de la IA?". Superar el sesgo . Consultado el 20 de septiembre de 2023 .
  145. ^ "Informe del Secretario General de la ONU sobre" Nuestra agenda común"". 2021. pág. 63. Archivado desde el original el 16 de febrero de 2023. [E]l Pacto también podría promover la regulación de la inteligencia artificial para garantizar que esté alineada con los valores globales compartidos.
  146. ^ Comité Nacional de Especialistas en Gobernanza de Inteligencia Artificial de Nueva Generación (12 de octubre de 2021) [25 de septiembre de 2021]. "Se publican normas éticas para la inteligencia artificial de nueva generación". Traducido por el Centro de Seguridad y Tecnología Emergente . Archivado desde el original el 10 de febrero de 2023.
  147. ^ Richardson, Tim (22 de septiembre de 2021). "El Reino Unido publica la estrategia nacional de inteligencia artificial". El registro . Archivado desde el original el 10 de febrero de 2023 . Consultado el 14 de noviembre de 2021 .
  148. ^ "La estrategia nacional de IA del Reino Unido". 2021. Archivado desde el original el 10 de febrero de 2023. El gobierno se toma en serio el riesgo a largo plazo de una Inteligencia General Artificial no alineada y los cambios imprevisibles que significaría para el Reino Unido y el mundo.
  149. ^ "La estrategia nacional de IA del Reino Unido". 2021. acciones 9 y 10 del apartado “Pilar 3 – Gobernar la IA de forma eficaz”. Archivado desde el original el 10 de febrero de 2023.
  150. ^ Informe final de la NSCAI (PDF) . Washington, DC: Comisión de Seguridad Nacional sobre Inteligencia Artificial. 2021. Archivado (PDF) desde el original el 15 de febrero de 2023 . Consultado el 17 de octubre de 2022 .
  151. ^ Poe, Robert Lee. "Por qué los sistemas justos de contratación automatizada infringen la ley de no discriminación de la UE". Preimpresión de arXiv arXiv:2311.03900 (2023).
  152. ^ De Vos, M. (2020). El Tribunal de Justicia Europeo y la marcha hacia la igualdad sustantiva en la legislación antidiscriminación de la Unión Europea. Revista Internacional sobre Discriminación y Derecho, 20(1), 62-87.
  153. ^ Irving, Geoffrey; Askell, Amanda (9 de junio de 2016). "Número de Chern en modelos de Ising con campos reales y complejos modulados espacialmente". Revisión física A. 94 (5): 052113. arXiv : 1606.03535 . Código Bib : 2016PhRvA..94e2113L. doi :10.1103/PhysRevA.94.052113. S2CID  118699363.
  154. ^ Mitelut, Catalín; Smith, Ben; Vamplew, Peter (30 de mayo de 2023), Los sistemas de IA alineados con la intención agotan la agencia humana: la necesidad de que la agencia fundamente la investigación en seguridad de la IA, doi :10.48550/arXiv.2305.19223 , consultado el 14 de marzo de 2024
  155. ^ Gabriel, Iason (1 de septiembre de 2020). "Inteligencia artificial, valores y alineación". Mentes y Máquinas . 30 (3): 411–437. arXiv : 2001.09768 . doi : 10.1007/s11023-020-09539-2 . S2CID  210920551.
  156. ^ Russell, Stuart J. (2019). Compatible con humanos: la inteligencia artificial y el problema del control. Casa aleatoria de pingüinos.
  157. ^ Dafoe, Allan (2019). "Política de IA: una hoja de ruta". Naturaleza .

Bibliografía

Otras lecturas

enlaces externos