Área de investigación para hacer que la IA sea segura y beneficiosa
La seguridad de la IA es un campo interdisciplinario centrado en la prevención de accidentes, usos indebidos u otras consecuencias perjudiciales derivadas de los sistemas de inteligencia artificial (IA). Abarca la ética de las máquinas y la alineación de la IA , que tienen como objetivo garantizar que los sistemas de IA sean morales y beneficiosos, así como supervisar los sistemas de IA para detectar riesgos y mejorar su fiabilidad. El campo se ocupa especialmente de los riesgos existenciales que plantean los modelos avanzados de IA.
Más allá de la investigación técnica, la seguridad de la IA implica el desarrollo de normas y políticas que promuevan la seguridad. Ganó una popularidad significativa en 2023, con el rápido progreso de la IA generativa y las preocupaciones públicas expresadas por investigadores y directores ejecutivos sobre los posibles peligros. Durante la Cumbre de Seguridad de la IA de 2023 , Estados Unidos y el Reino Unido establecieron su propio Instituto de Seguridad de la IA . Sin embargo, los investigadores han expresado su preocupación por el hecho de que las medidas de seguridad de la IA no estén a la altura del rápido desarrollo de las capacidades de la IA. [1]
Motivaciones
Los académicos debaten los riesgos actuales derivados de fallos críticos de los sistemas , [2] sesgos , [3] y vigilancia habilitada por IA, [4] así como riesgos emergentes como el desempleo tecnológico , la manipulación digital, [5] la militarización, [6] los ciberataques habilitados por IA [7] y el bioterrorismo . [8] También analizan los riesgos especulativos derivados de la pérdida de control de futuros agentes de inteligencia artificial general (AGI), [9] o de que la IA permita dictaduras perpetuamente estables. [10]
Seguridad existencial
Algunos han criticado las preocupaciones sobre la IAG, como Andrew Ng , quien las comparó en 2015 con “preocuparse por la superpoblación en Marte cuando aún no hemos puesto un pie en el planeta”. [13] Stuart J. Russell , por otro lado, insta a la cautela, argumentando que “es mejor anticipar el ingenio humano que subestimarlo”. [14]
Los investigadores de IA tienen opiniones muy diferentes sobre la gravedad y las principales fuentes de riesgo que plantea la tecnología de IA [15] [16] [17] , aunque las encuestas sugieren que los expertos se toman en serio los riesgos de consecuencias elevadas. En dos encuestas a investigadores de IA, el encuestado medio era optimista sobre la IA en general, pero otorgaba una probabilidad del 5 % a un resultado "extremadamente malo (por ejemplo, la extinción humana )" de la IA avanzada. [15] En una encuesta de 2022 a la comunidad de procesamiento del lenguaje natural , el 37 % estuvo de acuerdo o estuvo débilmente de acuerdo en que es plausible que las decisiones de IA puedan conducir a una catástrofe que sea "al menos tan mala como una guerra nuclear total". [18]
Historia
Los riesgos de la IA comenzaron a discutirse seriamente al comienzo de la era informática :
Además, si avanzamos en la dirección de crear máquinas que aprendan y cuyo comportamiento se modifique con la experiencia, debemos afrontar el hecho de que cada grado de independencia que le demos a la máquina es un grado de posible desafío a nuestros deseos.
—Norbert Wiener (1949) [19]
Entre 2008 y 2009, la Asociación para el Avance de la Inteligencia Artificial ( AAAI ) encargó un estudio para explorar y abordar las posibles influencias sociales a largo plazo de la investigación y el desarrollo de la IA. El panel se mostró en general escéptico respecto de las opiniones radicales expresadas por los autores de ciencia ficción, pero estuvo de acuerdo en que "sería valiosa una investigación adicional sobre métodos para comprender y verificar la gama de comportamientos de los sistemas computacionales complejos para minimizar los resultados inesperados". [20]
En 2011, Roman Yampolskiy introdujo el término "ingeniería de seguridad de IA" [21] en la conferencia de Filosofía y Teoría de la Inteligencia Artificial [22] , enumerando fallas anteriores de los sistemas de IA y argumentando que "la frecuencia y gravedad de tales eventos aumentarán constantemente a medida que las IA se vuelvan más capaces". [23]
En 2014, el filósofo Nick Bostrom publicó el libro Superinteligencia: caminos, peligros, estrategias . Opina que el auge de la IAG tiene el potencial de crear varios problemas sociales, que van desde el desplazamiento de la fuerza laboral por parte de la IA, la manipulación de las estructuras políticas y militares, hasta incluso la posibilidad de la extinción humana. [24] Su argumento de que los futuros sistemas avanzados pueden representar una amenaza para la existencia humana impulsó a Elon Musk , [25] Bill Gates , [26] y Stephen Hawking [27] a expresar preocupaciones similares.
Ese mismo año, un grupo de académicos dirigido por el profesor Stuart Russell fundó el Centro de IA Compatible con los Humanos en la Universidad de California en Berkeley y el Future of Life Institute otorgó 6,5 millones de dólares en subvenciones para investigaciones destinadas a "garantizar que la inteligencia artificial (IA) siga siendo segura, ética y beneficiosa". [29]
En 2016, la Oficina de Política Científica y Tecnológica de la Casa Blanca y la Universidad Carnegie Mellon anunciaron el Taller Público sobre Seguridad y Control para la Inteligencia Artificial [30] , que fue uno de una serie de cuatro talleres de la Casa Blanca destinados a investigar "las ventajas y desventajas" de la IA. [31] Ese mismo año, se publicó Problemas concretos en la seguridad de la IA, una de las primeras y más influyentes agendas técnicas de seguridad de la IA. [32]
En 2017, el Future of Life Institute patrocinó la Conferencia Asilomar sobre IA beneficiosa , donde más de 100 líderes de opinión formularon principios para una IA beneficiosa, entre ellos "Evitar la raza: los equipos que desarrollan sistemas de IA deben cooperar activamente para evitar recortar los estándares de seguridad". [33]
En 2018, el equipo de seguridad de DeepMind describió los problemas de seguridad de la IA en cuanto a especificación, robustez [34] y garantía. [35] El año siguiente, los investigadores organizaron un taller en el ICLR que se centró en estas áreas problemáticas. [36]
En 2021, se publicó Unsolved Problems in ML Safety, que describe las direcciones de investigación en robustez, monitoreo, alineación y seguridad sistémica. [37]
En 2023, Rishi Sunak dijo que quiere que el Reino Unido sea el "hogar geográfico de la regulación global de la seguridad de la IA" y que sea anfitrión de la primera cumbre mundial sobre seguridad de la IA. [38] La cumbre sobre seguridad de la IA tuvo lugar en noviembre de 2023 y se centró en los riesgos de mal uso y pérdida de control asociados con los modelos de IA de vanguardia. [39] Durante la cumbre se anunció la intención de crear el Informe científico internacional sobre la seguridad de la IA avanzada [40] .
En 2024, Estados Unidos y el Reino Unido forjaron una nueva alianza en materia de ciencia de la seguridad de la IA. El memorando de entendimiento fue firmado el 1 de abril de 2024 por la secretaria de Comercio de Estados Unidos, Gina Raimondo , y la secretaria de Tecnología del Reino Unido, Michelle Donelan, para desarrollar conjuntamente pruebas avanzadas de modelos de IA, tras los compromisos anunciados en una Cumbre de Seguridad de la IA en Bletchley Park en noviembre. [41]
Enfoque de la investigación
Las áreas de investigación de seguridad de la IA incluyen robustez, monitoreo y alineación. [37] [35]
Robustez
Robustez adversaria
Los sistemas de IA suelen ser vulnerables a ejemplos adversarios o "entradas a modelos de aprendizaje automático (ML) que un atacante ha diseñado intencionalmente para provocar que el modelo cometa un error". [42] Por ejemplo, en 2013, Szegedy et al. descubrieron que agregar perturbaciones imperceptibles específicas a una imagen podría provocar que se clasifique incorrectamente con alta confianza. [43] Esto sigue siendo un problema con las redes neuronales, aunque en trabajos recientes las perturbaciones son generalmente lo suficientemente grandes como para ser perceptibles. [44] [45] [46]
Se predice que todas las imágenes de la derecha serán un avestruz después de aplicar la perturbación. (Izquierda) es una muestra predicha correctamente, (centro) perturbación aplicada magnificada por 10x, (derecha) ejemplo adversario. [43]
La robustez adversarial suele estar asociada a la seguridad. [47] Los investigadores demostraron que una señal de audio podría modificarse imperceptiblemente para que los sistemas de voz a texto la transcriban a cualquier mensaje que elija el atacante. [48] Los sistemas de detección de intrusiones en la red [49] y malware [50] también deben ser robustos ante los adversarios, ya que los atacantes pueden diseñar sus ataques para engañar a los detectores.
Los modelos que representan objetivos (modelos de recompensa) también deben ser robustos frente a situaciones adversas. Por ejemplo, un modelo de recompensa podría estimar cuán útil es una respuesta de texto y un modelo de lenguaje podría ser entrenado para maximizar esta puntuación. [51] Los investigadores han demostrado que si un modelo de lenguaje es entrenado durante el tiempo suficiente, aprovechará las vulnerabilidades del modelo de recompensa para lograr una mejor puntuación y tener un peor desempeño en la tarea prevista. [52] Este problema se puede abordar mejorando la robustez adversaria del modelo de recompensa. [53] En términos más generales, cualquier sistema de IA utilizado para evaluar otro sistema de IA debe ser robusto frente a situaciones adversas. Esto podría incluir herramientas de monitoreo, ya que también podrían ser manipuladas para producir una recompensa más alta. [54]
Escucha
Estimación de la incertidumbre
A menudo es importante que los operadores humanos evalúen cuánto deben confiar en un sistema de IA, especialmente en entornos de alto riesgo, como el diagnóstico médico. [55] Los modelos de ML generalmente expresan confianza al generar probabilidades; sin embargo, a menudo son demasiado confiados, [56] especialmente en situaciones que difieren de aquellas para las que fueron entrenados. [57] La investigación de calibración tiene como objetivo hacer que las probabilidades del modelo se correspondan lo más posible con la verdadera proporción en que el modelo es correcto.
De manera similar, la detección de anomalías o detección de distribución fuera de rango (OOD) tiene como objetivo identificar cuándo un sistema de IA se encuentra en una situación inusual. Por ejemplo, si un sensor de un vehículo autónomo no funciona correctamente o se encuentra con un terreno difícil, debería alertar al conductor para que tome el control o se detenga. [58] La detección de anomalías se ha implementado simplemente entrenando un clasificador para distinguir entradas anómalas y no anómalas, [59] aunque se utilizan una variedad de técnicas adicionales. [60] [61]
Detección de usos maliciosos
Los académicos [6] y las agencias gubernamentales han expresado su preocupación por el hecho de que los sistemas de IA podrían utilizarse para ayudar a actores maliciosos a construir armas, [62] manipular la opinión pública, [63] [64] o automatizar ataques cibernéticos. [65] Estas preocupaciones son una preocupación práctica para empresas como OpenAI, que alojan potentes herramientas de IA en línea. [66] Para evitar el uso indebido, OpenAI ha creado sistemas de detección que marcan o restringen a los usuarios en función de su actividad. [67]
Transparencia
Las redes neuronales se han descrito a menudo como cajas negras [68] , lo que significa que es difícil entender por qué toman las decisiones que toman como resultado de la enorme cantidad de cálculos que realizan. [69] Esto hace que sea difícil anticipar fallas. En 2018, un automóvil autónomo mató a un peatón después de no poder identificarlo. Debido a la naturaleza de caja negra del software de IA, la razón de la falla sigue sin estar clara. [70] También genera debates en la atención médica sobre si se deben usar modelos estadísticamente eficientes pero opacos. [71]
Un beneficio fundamental de la transparencia es la explicabilidad . [72] A veces es un requisito legal proporcionar una explicación de por qué se tomó una decisión para garantizar la imparcialidad, por ejemplo, para filtrar automáticamente las solicitudes de empleo o la asignación de puntaje crediticio . [72]
Otro beneficio es revelar la causa de las fallas. [68] A principios de la pandemia de COVID-19 de 2020, los investigadores utilizaron herramientas de transparencia para demostrar que los clasificadores de imágenes médicas estaban "prestando atención" a las etiquetas irrelevantes de los hospitales. [73]
Las técnicas de transparencia también se pueden utilizar para corregir errores. Por ejemplo, en el artículo "Localización y edición de asociaciones factuales en GPT", los autores pudieron identificar parámetros del modelo que influyeron en la forma en que respondía a las preguntas sobre la ubicación de la Torre Eiffel. Luego pudieron "editar" este conocimiento para hacer que el modelo respondiera a las preguntas como si creyera que la torre estaba en Roma en lugar de Francia. [74] Aunque en este caso los autores indujeron un error, estos métodos podrían utilizarse potencialmente para corregirlos de manera eficiente. Las técnicas de edición de modelos también existen en la visión artificial. [75]
Por último, algunos han argumentado que la opacidad de los sistemas de IA es una fuente importante de riesgo y que una mejor comprensión de cómo funcionan podría prevenir fallas de alta consecuencia en el futuro. [76] La investigación de interpretabilidad "interna" tiene como objetivo hacer que los modelos de ML sean menos opacos. Un objetivo de esta investigación es identificar qué representan las activaciones neuronales internas. [77] [78] Por ejemplo, los investigadores identificaron una neurona en el sistema de inteligencia artificial CLIP que responde a imágenes de personas con disfraces de Spiderman, bocetos de Spiderman y la palabra "araña". [79] También implica explicar las conexiones entre estas neuronas o "circuitos". [80] [81] Por ejemplo, los investigadores han identificado mecanismos de coincidencia de patrones en la atención del transformador que pueden desempeñar un papel en cómo los modelos de lenguaje aprenden de su contexto. [82] La "interpretabilidad interna" se ha comparado con la neurociencia. En ambos casos, el objetivo es comprender qué está sucediendo en un sistema complejo, aunque los investigadores de ML tienen el beneficio de poder tomar medidas perfectas y realizar ablaciones arbitrarias. [83]
Detección de troyanos
Los modelos de ML pueden contener potencialmente "troyanos" o "puertas traseras": vulnerabilidades que los actores maliciosos incorporan maliciosamente en un sistema de IA. Por ejemplo, un sistema de reconocimiento facial troyanizado podría otorgar acceso cuando una pieza específica de joyería esté a la vista; [37] o un vehículo autónomo troyanizado puede funcionar normalmente hasta que un disparador específico sea visible. [84] Tenga en cuenta que un adversario debe tener acceso a los datos de entrenamiento del sistema para plantar un troyano. [ cita requerida ] Esto podría no ser difícil de hacer con algunos modelos grandes como CLIP o GPT-3, ya que se entrenan con datos de Internet disponibles públicamente. [85] Los investigadores pudieron plantar un troyano en un clasificador de imágenes modificando solo 300 de los 3 millones de imágenes de entrenamiento. [86] Además de representar un riesgo de seguridad, los investigadores han argumentado que los troyanos proporcionan un entorno concreto para probar y desarrollar mejores herramientas de monitoreo. [54]
Alineación
En el campo de la inteligencia artificial (IA), la alineación de la IA tiene como objetivo orientar los sistemas de IA hacia los objetivos, preferencias y principios éticos previstos por una persona o un grupo. Se considera que un sistema de IA está alineado si promueve los objetivos previstos. Un sistema de IA desalineado persigue objetivos no previstos. [87]
A menudo, resulta complicado para los diseñadores de IA alinear un sistema de IA porque les resulta difícil especificar la gama completa de comportamientos deseados e indeseados. Por lo tanto, los diseñadores de IA suelen utilizar objetivos indirectos más simples , como obtener la aprobación humana . Pero los objetivos indirectos pueden pasar por alto restricciones necesarias o recompensar al sistema de IA simplemente por parecer alineado. [87] [88]
Los sistemas de IA mal alineados pueden funcionar mal y causar daños. Los sistemas de IA pueden encontrar lagunas que les permitan lograr sus objetivos indirectos de manera eficiente, pero de formas no deseadas, a veces dañinas ( piratería de recompensas ). [87] [89] [90] También pueden desarrollar estrategias instrumentales no deseadas , como buscar poder o supervivencia, porque tales estrategias los ayudan a lograr sus objetivos finales determinados. [87] [91] [92] Además, pueden desarrollar objetivos emergentes indeseables que podrían ser difíciles de detectar antes de que el sistema se implemente y se encuentre con nuevas situaciones y distribuciones de datos . [93] [94]
Hoy en día, algunos de estos problemas afectan a los sistemas comerciales existentes, como los grandes modelos de lenguaje , [95] [96] [97] robots , [98] vehículos autónomos , [99] y motores de recomendación de redes sociales . [95] [92] [100] Algunos investigadores de IA sostienen que los sistemas futuros más capaces se verán más gravemente afectados porque estos problemas son en parte resultado de las altas capacidades. [101] [89] [88]
Es común que los riesgos de la IA (y los riesgos tecnológicos en general) se clasifiquen como mal uso o accidentes . [119] Algunos académicos han sugerido que este marco se queda corto. [119] Por ejemplo, la Crisis de los Misiles de Cuba no fue claramente un accidente o un mal uso de la tecnología. [119] Los analistas de políticas Zwetsloot y Dafoe escribieron: "Las perspectivas de mal uso y accidente tienden a centrarse solo en el último paso de una cadena causal que conduce a un daño: es decir, la persona que hizo un mal uso de la tecnología o el sistema que se comportó de manera no deseada... A menudo, sin embargo, la cadena causal relevante es mucho más larga". Los riesgos a menudo surgen de factores "estructurales" o "sistémicos", como las presiones competitivas, la difusión de los daños, el desarrollo acelerado, los altos niveles de incertidumbre y una cultura de seguridad inadecuada. [119] En el contexto más amplio de la ingeniería de seguridad , los factores estructurales como la "cultura de seguridad organizacional" desempeñan un papel central en el popular marco de análisis de riesgos STAMP. [120]
Inspirados por la perspectiva estructural, algunos investigadores han enfatizado la importancia de utilizar el aprendizaje automático para mejorar los factores de seguridad sociotécnica, por ejemplo, utilizando ML para la ciberdefensa, mejorando la toma de decisiones institucionales y facilitando la cooperación. [37]
Ciberdefensa
Algunos investigadores temen que la IA agrave el desequilibrio existente entre ciberatacantes y ciberdefensores. [121] Esto aumentaría los incentivos para atacar primero y podría llevar a ataques más agresivos y desestabilizadores. Para mitigar este riesgo, algunos han abogado por un mayor énfasis en la ciberdefensa. Además, la seguridad del software es esencial para evitar que los modelos de IA potentes sean robados y mal utilizados. [6] Estudios recientes han demostrado que la IA puede mejorar significativamente las tareas de ciberseguridad tanto técnicas como administrativas al automatizar las tareas rutinarias y mejorar la eficiencia general. [122]
Mejorar la toma de decisiones institucionales
El avance de la IA en los ámbitos económico y militar podría precipitar desafíos políticos sin precedentes. [123] Algunos académicos han comparado la dinámica de la carrera de la IA con la de la Guerra Fría, donde el juicio cuidadoso de un pequeño número de tomadores de decisiones a menudo marcaba la diferencia entre la estabilidad y la catástrofe. [124] Los investigadores de la IA han argumentado que las tecnologías de IA también podrían utilizarse para ayudar en la toma de decisiones. [37] Por ejemplo, los investigadores están empezando a desarrollar sistemas de previsión [125] y asesoramiento basados en la IA. [126]
Facilitar la cooperación
Muchas de las mayores amenazas globales (guerra nuclear, [127] cambio climático, [128] etc.) han sido enmarcadas como desafíos a la cooperación. Como en el conocido escenario del dilema del prisionero , algunas dinámicas pueden llevar a malos resultados para todos los actores, incluso cuando actúan óptimamente en su propio interés. Por ejemplo, ningún actor tiene fuertes incentivos para abordar el cambio climático, aunque las consecuencias puedan ser significativas si nadie interviene. [128]
Un desafío importante para la cooperación en IA es evitar una "carrera hacia el abismo". [129] En este escenario, los países o las empresas compiten por construir sistemas de IA más capaces y descuidan la seguridad, lo que lleva a un accidente catastrófico que perjudica a todos los involucrados. Las preocupaciones sobre escenarios como estos han inspirado esfuerzos tanto políticos [130] como técnicos [131] para facilitar la cooperación entre humanos, y potencialmente también entre sistemas de IA. La mayoría de las investigaciones sobre IA se centran en el diseño de agentes individuales para que cumplan funciones aisladas (a menudo en juegos de "un solo jugador"). [132] Los académicos han sugerido que a medida que los sistemas de IA se vuelven más autónomos, puede volverse esencial estudiar y dar forma a la forma en que interactúan. [132]
Desafíos de los modelos lingüísticos de gran tamaño
En los últimos años, el desarrollo de modelos de lenguaje a gran escala (LLM, por sus siglas en inglés) ha generado inquietudes únicas en el campo de la seguridad de la IA. Los investigadores Bender y Gebru et al. [133] han destacado los costos ambientales y financieros asociados con el entrenamiento de estos modelos, enfatizando que el consumo de energía y la huella de carbono de los procedimientos de entrenamiento como los de los modelos Transformer pueden ser sustanciales. Además, estos modelos a menudo se basan en conjuntos de datos masivos y no curados basados en Internet, que pueden codificar puntos de vista hegemónicos y sesgados, marginando aún más a los grupos subrepresentados. Los datos de entrenamiento a gran escala, aunque vastos, no garantizan la diversidad y a menudo reflejan las visiones del mundo de demografías privilegiadas, lo que lleva a modelos que perpetúan los sesgos y estereotipos existentes. Esta situación se ve agravada por la tendencia de estos modelos a producir texto aparentemente coherente y fluido, que puede inducir a error a los usuarios a atribuir significado e intención donde no existe ninguno, un fenómeno descrito como "loros estocásticos". Por lo tanto, estos modelos plantean riesgos de amplificar los sesgos sociales, difundir información errónea y ser utilizados con fines maliciosos, como generar propaganda extremista o deepfakes. Para abordar estos desafíos, los investigadores abogan por una planificación más cuidadosa en la creación de conjuntos de datos y el desarrollo de sistemas, enfatizando la necesidad de proyectos de investigación que contribuyan positivamente a un ecosistema tecnológico equitativo. [134] [135]
En la gobernanza
La gobernanza de la IA se ocupa en términos generales de la creación de normas, estándares y regulaciones para guiar el uso y desarrollo de los sistemas de IA. [124]
Investigación
La investigación sobre la gobernanza de la seguridad de la IA abarca desde investigaciones fundamentales sobre los posibles impactos de la IA hasta aplicaciones específicas. En el lado fundamental, los investigadores han sostenido que la IA podría transformar muchos aspectos de la sociedad debido a su amplia aplicabilidad, comparándola con la electricidad y la máquina de vapor. [137] Algunos trabajos se han centrado en anticipar los riesgos específicos que pueden surgir de estos impactos, por ejemplo, los riesgos del desempleo masivo, [138] la militarización, [139] la desinformación, [140] la vigilancia, [141] y la concentración de poder. [142] Otros trabajos exploran los factores de riesgo subyacentes, como la dificultad de monitorear la industria de la IA en rápida evolución, [143] la disponibilidad de modelos de IA, [144] y la dinámica de la "carrera hacia el abismo". [129] [145] Allan Dafoe, el jefe de gobernanza y estrategia a largo plazo en DeepMind ha enfatizado los peligros de las carreras y la necesidad potencial de cooperación: "puede ser casi una condición necesaria y suficiente para la seguridad y alineación de la IA que haya un alto grado de precaución antes de implementar sistemas avanzados y poderosos; sin embargo, si los actores compiten en un dominio con grandes retornos para los pioneros o una ventaja relativa, entonces se verán presionados a elegir un nivel subóptimo de precaución". [130] Una línea de investigación se centra en el desarrollo de enfoques, marcos y métodos para evaluar la rendición de cuentas de la IA, orientando y promoviendo auditorías de sistemas basados en IA. [146] [147] [148]
Escalar las medidas de seguridad de la IA local para convertirlas en soluciones globales
Al abordar el problema de la seguridad de la IA, es importante destacar la distinción entre soluciones locales y globales. Las soluciones locales se centran en los sistemas de IA individuales, garantizando que sean seguros y beneficiosos, mientras que las soluciones globales buscan implementar medidas de seguridad para todos los sistemas de IA en varias jurisdicciones. Algunos investigadores [149] argumentan la necesidad de escalar las medidas de seguridad locales a un nivel global, proponiendo una clasificación para estas soluciones globales. Este enfoque subraya la importancia de los esfuerzos de colaboración en la gobernanza internacional de la seguridad de la IA, enfatizando que ninguna entidad puede gestionar eficazmente los riesgos asociados con las tecnologías de IA. Esta perspectiva se alinea con los esfuerzos en curso en la formulación de políticas internacionales y los marcos regulatorios, que apuntan a abordar los complejos desafíos planteados por los sistemas avanzados de IA en todo el mundo. [150] [151]
Acción gubernamental
Algunos expertos han argumentado que es demasiado pronto para regular la IA y han expresado su preocupación por que las regulaciones obstaculizarán la innovación y sería una tontería "apresurarse a regular en la ignorancia". [152] [153] Otros, como el magnate empresarial Elon Musk , piden acciones preventivas para mitigar los riesgos catastróficos. [154]
Fuera de la legislación formal, los organismos gubernamentales han presentado recomendaciones éticas y de seguridad. En marzo de 2021, la Comisión de Seguridad Nacional de Estados Unidos sobre Inteligencia Artificial informó que los avances en IA pueden hacer que sea cada vez más importante "garantizar que los sistemas estén alineados con los objetivos y valores, incluida la seguridad, la solidez y la confiabilidad". [155] Posteriormente, el Instituto Nacional de Estándares y Tecnología elaboró un marco para la gestión del riesgo de IA, que aconseja que cuando "existan riesgos catastróficos, el desarrollo y la implementación deben cesar de manera segura hasta que los riesgos puedan gestionarse de manera suficiente". [156]
En septiembre de 2021, la República Popular China publicó directrices éticas para el uso de la IA en China, haciendo hincapié en que las decisiones en materia de IA deben permanecer bajo control humano y pidiendo mecanismos de rendición de cuentas. Ese mismo mes, el Reino Unido publicó su Estrategia Nacional de IA de 10 años, [157] que establece que el gobierno británico "se toma en serio el riesgo a largo plazo de una Inteligencia Artificial General no alineada y los cambios imprevisibles que significaría para... el mundo". [158] La estrategia describe acciones para evaluar los riesgos a largo plazo de la IA, incluidos los riesgos catastróficos. [158] El gobierno británico celebró la primera gran cumbre mundial sobre seguridad de la IA. Esta tuvo lugar el 1 y 2 de noviembre de 2023 y se describió como "una oportunidad para que los responsables políticos y los líderes mundiales consideren los riesgos inmediatos y futuros de la IA y cómo estos riesgos pueden mitigarse mediante un enfoque coordinado a nivel mundial". [159] [160]
Las organizaciones gubernamentales, particularmente en los Estados Unidos, también han fomentado el desarrollo de investigaciones técnicas sobre seguridad de la IA. La Actividad de Proyectos de Investigación Avanzada de Inteligencia inició el proyecto TrojAI para identificar y proteger contra ataques de troyanos a los sistemas de IA. [161] La DARPA participa en investigaciones sobre inteligencia artificial explicable y en la mejora de la solidez contra ataques adversarios . [162] [163] Y la Fundación Nacional de Ciencias apoya al Centro para el Aprendizaje Automático Confiable y está proporcionando millones de dólares en financiación para la investigación empírica sobre seguridad de la IA. [164]
En 2024, la Asamblea General de las Naciones Unidas adoptó la primera resolución mundial sobre la promoción de sistemas de IA “seguros, protegidos y confiables” que enfatizaba el respeto, la protección y la promoción de los derechos humanos en el diseño, desarrollo, implementación y uso de la IA. [165]
En mayo de 2024, el Departamento de Ciencia, Innovación y Tecnología (DSIT) anunció una financiación de 8,5 millones de libras esterlinas para la investigación sobre seguridad de la IA en el marco del Programa de subvenciones rápidas para la seguridad sistémica de la IA, dirigido por Christopher Summerfield y Shahar Avin en el Instituto de Seguridad de la IA, en colaboración con el Instituto de Investigación e Innovación del Reino Unido . La secretaria de Tecnología, Michelle Donelan, anunció el plan en la Cumbre de Seúl sobre la IA , afirmando que el objetivo era hacer que la IA fuera segura en toda la sociedad y que las propuestas prometedoras podrían recibir más financiación. El Reino Unido también firmó un acuerdo con otros 10 países y la UE para formar una red internacional de institutos de seguridad de la IA para promover la colaboración y compartir información y recursos. Además, el Instituto de Seguridad de la IA del Reino Unido tenía previsto abrir una oficina en San Francisco. [166]
Autorregulación corporativa
Los laboratorios y las empresas de IA generalmente respetan prácticas y normas de seguridad que no están contempladas en la legislación formal. [167] Uno de los objetivos de los investigadores en gobernanza es dar forma a estas normas. Entre los ejemplos de recomendaciones de seguridad que se encuentran en la literatura se incluyen la realización de auditorías de terceros, [168] ofrecer recompensas por encontrar fallas, [168] compartir incidentes de IA [168] (se creó una base de datos de incidentes de IA para este propósito), [169] seguir pautas para determinar si se deben publicar investigaciones o modelos, [144] y mejorar la información y la ciberseguridad en los laboratorios de IA. [170]
Las empresas también han asumido compromisos. Cohere, OpenAI y AI21 propusieron y acordaron "mejores prácticas para implementar modelos de lenguaje", centrándose en mitigar el uso indebido. [171] Para evitar contribuir a la dinámica de las carreras, OpenAI también ha declarado en su carta que "si un proyecto alineado con el valor y consciente de la seguridad se acerca a la construcción de una IAG antes que nosotros, nos comprometemos a dejar de competir con este proyecto y comenzar a ayudar" [172]. Además, líderes de la industria como el director ejecutivo de DeepMind, Demis Hassabis, y el director de IA de Facebook, Yann LeCun, han firmado cartas abiertas como los Principios de Asilomar [33] y la Carta Abierta sobre Armas Autónomas. [173]
^ Perrigo, Billy (2 de noviembre de 2023). «La cumbre sobre seguridad de la inteligencia artificial del Reino Unido finaliza con un progreso limitado, pero significativo». Time . Consultado el 2 de junio de 2024 .
^ De-Arteaga, Maria (13 de mayo de 2020). Aprendizaje automático en entornos de alto riesgo: riesgos y oportunidades (PhD). Universidad Carnegie Mellon.
^ Mehrabi, Ninareh; Morstatter, Fred; Saxena, Nripsuta; Lerman, Kristina; Galstyan, Aram (2021). "Una encuesta sobre sesgo y equidad en el aprendizaje automático". Encuestas de computación de ACM . 54 (6): 1–35. arXiv : 1908.09635 . doi :10.1145/3457607. ISSN 0360-0300. S2CID 201666566. Archivado desde el original el 23 de noviembre de 2022. Consultado el 28 de noviembre de 2022 .
^ Feldstein, Steven (2019). La expansión global de la vigilancia con inteligencia artificial (informe). Fundación Carnegie para la Paz Internacional.
^ Barnes, Beth (2021). "Riesgos de la persuasión con IA". Lesswrong . Archivado desde el original el 23 de noviembre de 2022. Consultado el 23 de noviembre de 2022 .
^ abc Brundage, Miles; Avin, Shahar; Clark, Jack; Toner, Helen; Eckersley, Peter; Garfinkel, Ben; Dafoe, Allan; Scharre, Paul; Zeitzoff, Thomas; Filar, Bobby; Anderson, Hyrum; Roff, Heather; Allen, Gregory C; Steinhardt, Jacob; Flynn, Carrick (30 de abril de 2018). "El uso malintencionado de la inteligencia artificial: previsión, prevención y mitigación". Repositorio Apollo-University Of Cambridge, Repositorio Apollo-University Of Cambridge. Repositorio Apollo - University of Cambridge. doi :10.17863/cam.22520. S2CID 3385567. Archivado desde el original el 23 de noviembre de 2022. Consultado el 28 de noviembre de 2022 .{{cite journal}}: Requiere citar revista |journal=( ayuda )
^ Davies, Pascale (26 de diciembre de 2022). «Cómo se prepara la OTAN para una nueva era de ciberataques de IA». euronews . Consultado el 23 de marzo de 2024 .
^ Ahuja, Anjana (7 de febrero de 2024). "No se debe descartar el potencial bioterrorista de la IA". Financial Times . Consultado el 23 de marzo de 2024 .
^ Carlsmith, Joseph (16 de junio de 2022). "¿Es la IA en busca de poder un riesgo existencial?". arXiv : 2206.13353 .{{cite journal}}: Requiere citar revista |journal=( ayuda )
^ Minardi, Di (16 de octubre de 2020). "El sombrío destino que podría ser 'peor que la extinción'". BBC . Consultado el 23 de marzo de 2024 .
^ Carlsmith, Joseph (16 de junio de 2022). "¿Es la IA en busca de poder un riesgo existencial?". arXiv : 2206.13353 [cs.CY].
^ Taylor, Chloe (2 de mayo de 2023). «'El Padrino de la IA' advierte de un 'escenario de pesadilla' en el que la inteligencia artificial comienza a buscar el poder». Fortune .
^ "El experto en inteligencia artificial Peter Voss dice que el problema de alineación de la IA es falso | NextBigFuture.com". 2023-04-04 . Consultado el 2023-07-23 .
^ Dafoe, Allan (2016). «Sí, nos preocupa el riesgo existencial de la inteligencia artificial». MIT Technology Review . Archivado desde el original el 28 de noviembre de 2022. Consultado el 28 de noviembre de 2022 .
^ ab Grace, Katja; Salvatier, John; Dafoe, Allan; Zhang, Baobao; Evans, Owain (31 de julio de 2018). "Punto de vista: ¿cuándo superará la IA el rendimiento humano? Evidencia de expertos en IA". Revista de investigación en inteligencia artificial . 62 : 729–754. doi : 10.1613/jair.1.11222 . ISSN 1076-9757. S2CID 8746462. Archivado desde el original el 10 de febrero de 2023 . Consultado el 28 de noviembre de 2022 .
^ Zhang, Baobao; Anderljung, Markus; Kahn, Lauren; Dreksler, Noemi; Horowitz, Michael C.; Dafoe, Allan (5 de mayo de 2021). "Ética y gobernanza de la inteligencia artificial: evidencia de una encuesta a investigadores de aprendizaje automático". Revista de investigación en inteligencia artificial . 71 . arXiv : 2105.02117 . doi :10.1613/jair.1.12895.
^ Stein-Perlman, Zach; Weinstein-Raun, Benjamin; Grace (4 de agosto de 2022). "Encuesta de expertos de 2022 sobre el progreso en IA". Impactos de la IA . Archivado desde el original el 23 de noviembre de 2022. Consultado el 23 de noviembre de 2022 .
^ Michael, Julián; Holtzman, Ari ; Parrish, Alicia; Mueller, Aarón; Wang, Alex; Chen, Angélica; Madaán, Divyam; Nangia, Nikita; Pang, Richard Yuanzhe; Phang, Jason; Bowman, Samuel R. (26 de agosto de 2022). "¿Qué creen los investigadores de PNL? Resultados de la metaencuesta comunitaria de PNL". Asociación de Lingüística Computacional . arXiv : 2208.12852 .
^ Markoff, John (20 de mayo de 2013). «En 1949, imaginó una era de robots». The New York Times . ISSN 0362-4331. Archivado desde el original el 23 de noviembre de 2022. Consultado el 23 de noviembre de 2022 .
^ Asociación para el Avance de la Inteligencia Artificial. «Panel Presidencial de la AAAI sobre el Futuro de la IA a Largo Plazo». Archivado desde el original el 2022-09-01 . Consultado el 2022-11-23 .
^ Yampolskiy, Roman V.; Corrector ortográfico, MS (25 de octubre de 2016). "Seguridad de la inteligencia artificial y ciberseguridad: una cronología de las fallas de la IA". arXiv : 1610.07997 .{{cite journal}}: Requiere citar revista |journal=( ayuda )
^ "PT-AI 2011 – Filosofía y teoría de la inteligencia artificial (PT-AI 2011)". Archivado desde el original el 23 de noviembre de 2022. Consultado el 23 de noviembre de 2022 .
^ Yampolskiy, Roman V. (2013), Müller, Vincent C. (ed.), "Ingeniería de seguridad de inteligencia artificial: por qué la ética de las máquinas es un enfoque equivocado", Filosofía y teoría de la inteligencia artificial , Estudios en filosofía aplicada, epistemología y ética racional, vol. 5, Berlín; Heidelberg, Alemania: Springer Berlin Heidelberg, págs. 389–396, doi :10.1007/978-3-642-31674-6_29, ISBN978-3-642-31673-9, archivado desde el original el 15 de marzo de 2023 , consultado el 23 de noviembre de 2022
^ McLean, Scott; Read, Gemma JM; Thompson, Jason; Baber, Chris; Stanton, Neville A.; Salmon, Paul M. (4 de julio de 2023). "Los riesgos asociados con la inteligencia artificial general: una revisión sistemática". Revista de inteligencia artificial experimental y teórica . 35 (5): 649–663. Bibcode :2023JETAI..35..649M. doi : 10.1080/0952813X.2021.1964003 . hdl : 11343/289595 . ISSN 0952-813X. S2CID 238643957.
^ Wile, Rob (3 de agosto de 2014). "Elon Musk: La inteligencia artificial es 'potencialmente más peligrosa que las armas nucleares'". Business Insider . Consultado el 22 de febrero de 2024 .
^ Kuo, Kaiser (31 de marzo de 2015). Robin Li, director ejecutivo de Baidu, entrevista a Bill Gates y Elon Musk en el Foro de Boao, 29 de marzo de 2015. El evento se produce en el minuto 55:49. Archivado desde el original el 23 de noviembre de 2022. Consultado el 23 de noviembre de 2022 .
^ Cellan-Jones, Rory (2 de diciembre de 2014). «Stephen Hawking advierte que la inteligencia artificial podría acabar con la humanidad». BBC News . Archivado desde el original el 30 de octubre de 2015. Consultado el 23 de noviembre de 2022 .
^ Future of Life Institute. «Prioridades de investigación para una inteligencia artificial robusta y beneficiosa: una carta abierta». Future of Life Institute . Archivado desde el original el 2022-11-23 . Consultado el 2022-11-23 .
^ Future of Life Institute (octubre de 2016). «Programa de subvenciones para la investigación en inteligencia artificial». Future of Life Institute . Archivado desde el original el 23 de noviembre de 2022. Consultado el 23 de noviembre de 2022 .
^ "SafArtInt 2016". Archivado desde el original el 23 de noviembre de 2022. Consultado el 23 de noviembre de 2022 .
^ Bach, Deborah (2016). "La Universidad de Wisconsin organizará el primero de cuatro talleres públicos de la Casa Blanca sobre inteligencia artificial". UW News . Archivado desde el original el 23 de noviembre de 2022 . Consultado el 23 de noviembre de 2022 .
^ Amodei, Darío; Ola, Chris; Steinhardt, Jacob; Cristiano, Pablo; Schulman, Juan; Mané, Dan (25 de julio de 2016). "Problemas concretos en la seguridad de la IA". arXiv : 1606.06565 .{{cite journal}}: Requiere citar revista |journal=( ayuda )
^ ab Future of Life Institute. «Principios de la IA». Future of Life Institute . Archivado desde el original el 2022-11-23 . Consultado el 2022-11-23 .
^ Yohsua, Bengio; Daniel, Privitera; Tamay, Besiroglu; Rishi, Bommasani; Stephen, Casper; Yejin, Choi; Danielle, Goldfarb; Hoda, Heidari; Leila, Khalatbari (mayo de 2024). Informe científico internacional sobre la seguridad de la IA avanzada (informe). Departamento de Ciencia, Innovación y Tecnología.
^ ab Research, DeepMind Safety (2018-09-27). "Construcción de inteligencia artificial segura: especificación, robustez y garantía". Medium . Archivado desde el original el 2023-02-10 . Consultado el 2022-11-23 .
^ "Taller ICLR 2019 de SafeML". Archivado desde el original el 23 de noviembre de 2022. Consultado el 23 de noviembre de 2022 .
^ abcde Hendrycks, Dan; Carlini, Nicholas; Schulman, John; Steinhardt, Jacob (16 de junio de 2022). "Problemas sin resolver en la seguridad del aprendizaje automático". arXiv : 2109.13916 .{{cite journal}}: Requiere citar revista |journal=( ayuda )
^ Browne, Ryan (12 de junio de 2023). "El primer ministro británico Rishi Sunak propone que el Reino Unido sea el hogar de la regulación de la seguridad de la IA mientras Londres aspira a ser el próximo Silicon Valley". CNBC . Consultado el 25 de junio de 2023 .
^ Bertuzzi, Luca (18 de octubre de 2023). «La cumbre de seguridad de la IA del Reino Unido pondrá de relieve el riesgo de perder el control humano sobre los modelos 'fronterizos'». Euractiv . Consultado el 2 de marzo de 2024 .
^ Bengio, Yoshua; Privitera, Daniel; Bommasani, Rishi; Casper, Esteban; Goldfarb, Danielle; Mavroudis, Vasilios; Khalatbari, Leila; Mazeika, Mantas; Hoda, Heidari (17 de mayo de 2024). "Informe científico internacional sobre la seguridad de la IA avanzada" (PDF) . GOBIERNO DEL REINO UNIDO . Archivado desde el original el 15 de junio de 2024 . Consultado el 8 de julio de 2024 .
^ Shepardson, David (1 de abril de 2024). «Estados Unidos y Gran Bretaña anuncian una alianza para la seguridad y las pruebas de la IA» . Consultado el 2 de abril de 2024 .
^ Goodfellow, Ian; Papernot, Nicolas; Huang, Sandy; Duan, Rocky; Abbeel, Pieter; Clark, Jack (24 de febrero de 2017). "Ataque al aprendizaje automático con ejemplos adversarios". OpenAI . Archivado desde el original el 24 de noviembre de 2022 . Consultado el 24 de noviembre de 2022 .
^ ab Szegedy, cristiano; Zaremba, Wojciech; Sutskever, Ilya; Bruna, Juana; Erhan, Dumitru; Buen compañero, Ian; Fergus, Rob (19 de febrero de 2014). "Propiedades intrigantes de las redes neuronales". ICLR . arXiv : 1312.6199 .
^ Kurakin, Alexey; Goodfellow, Ian; Bengio, Samy (10 de febrero de 2017). "Ejemplos adversarios en el mundo físico". ICLR . arXiv : 1607.02533 .
^ Madry, Aleksander; Makelov, Aleksandar; Schmidt, Ludwig; Tsipras, Dimitris; Vladu, Adrian (4 de septiembre de 2019). "Hacia modelos de aprendizaje profundo resistentes a ataques adversarios". ICLR . arXiv : 1706.06083 .
^ Kannan, Harini; Kurakin, Alexey; Goodfellow, Ian (16 de marzo de 2018). "Emparejamiento logit adversario". arXiv : 1803.06373 .{{cite journal}}: Requiere citar revista |journal=( ayuda )
^ Gilmer, Justin; Adams, Ryan P.; Goodfellow, Ian; Andersen, David; Dahl, George E. (19 de julio de 2018). "Motivación de las reglas del juego para la investigación de ejemplos adversarios". arXiv : 1807.06732 .{{cite journal}}: Requiere citar revista |journal=( ayuda )
^ Carlini, Nicholas; Wagner, David (29 de marzo de 2018). "Ejemplos de audio adversarios: ataques dirigidos a la conversión de voz a texto". Talleres de seguridad y privacidad del IEEE . arXiv : 1801.01944 .
^ Sheatsley, Ryan; Papernot, Nicolas; Weisman, Michael; Verma, Gunjan; McDaniel, Patrick (9 de septiembre de 2022). "Ejemplos adversarios en dominios restringidos". arXiv : 2011.01183 .{{cite journal}}: Requiere citar revista |journal=( ayuda )
^ Suciu, Octavian; Coull, Scott E.; Johns, Jeffrey (13 de abril de 2019). "Explorando ejemplos adversarios en la detección de malware". Talleres de seguridad y privacidad del IEEE . arXiv : 1810.08280 .
^ Ouyang, Long; Wu, Jeff; Jiang, Xu; Almeida, Diogo; Wainwright, Carroll L.; Mishkin, Pamela; Zhang, Chong; Agarwal, Sandhini; Slama, Katarina; Ray, Alex; Schulman, John; Hilton, Jacob; Kelton, Fraser; Miller, Luke; Simens, Maddie (4 de marzo de 2022). "Entrenamiento de modelos de lenguaje para seguir instrucciones con retroalimentación humana". NeurIPS . arXiv : 2203.02155 .
^ Gao, Leo; Schulman, John; Hilton, Jacob (19 de octubre de 2022). "Leyes de escalamiento para la sobreoptimización del modelo de recompensa". ICML . arXiv : 2210.10760 .
^ Yu, Sihyun; Ahn, Sungsoo; Song, Le; Shin, Jinwoo (27 de octubre de 2021). "RoMA: Adaptación robusta del modelo para la optimización basada en modelos fuera de línea". NeurIPS . arXiv : 2110.14188 .
^ ab Hendrycks, Dan; Mazeika, Mantas (20 de septiembre de 2022). "Análisis de riesgo X para la investigación en IA". arXiv : 2206.05862 .{{cite journal}}: Requiere citar revista |journal=( ayuda )
^ Tran, Khoa A.; Kondrashova, Olga; Bradley, Andrew; Williams, Elizabeth D.; Pearson, John V.; Waddell, Nicola (2021). "Aprendizaje profundo en el diagnóstico, pronóstico y selección del tratamiento del cáncer". Genome Medicine . 13 (1): 152. doi : 10.1186/s13073-021-00968-x . ISSN 1756-994X. PMC 8477474 . PMID 34579788.
^ Guo, Chuan; Pleiss, Geoff; Sun, Yu; Weinberger, Kilian Q. (6 de agosto de 2017). "Sobre la calibración de redes neuronales modernas". Actas de la 34.ª conferencia internacional sobre aprendizaje automático . Actas de la investigación sobre aprendizaje automático. Vol. 70. PMLR. págs. 1321–1330.
^ Ovadia, Yaniv; Fertig, Emily; Ren, Jie; Nado, Zachary; Sculley, D.; Nowozin, Sebastian; Dillon, Joshua V.; Lakshminarayanan, Balaji; Snoek, Jasper (17 de diciembre de 2019). "¿Puede confiar en la incertidumbre de su modelo? Evaluación de la incertidumbre predictiva bajo un cambio de conjunto de datos". NeurIPS . arXiv : 1906.02530 .
^ Muñeco de peluche, Daniel; Breitenstein, Jasmín; Heidecker, Florián; Bieshaar, Martín; Enfermo, Bernardo; Fingscheidt, Tim; Zöllner, J. Marius (2021). "Descripción de casos de esquina en conducción automatizada: objetivos y desafíos". 2021 Conferencia internacional IEEE/CVF sobre talleres de visión por computadora (ICCVW) . págs. 1023-1028. arXiv : 2109.09607 . doi :10.1109/ICCVW54120.2021.00119. ISBN978-1-6654-0191-3. Número de identificación del sujeto 237572375.
^ Hendrycks, Dan; Mazeika, Mantas; Dietterich, Thomas (28 de enero de 2019). "Detección de anomalías profundas con exposición a valores atípicos". ICLR . arXiv : 1812.04606 .
^ Wang, Haoqi; Li, Zhizhong; Feng, Litong; Zhang, Wayne (21 de marzo de 2022). "ViM: fuera de distribución con coincidencia de logit virtual". CVPR . arXiv : 2203.10807 .
^ Hendrycks, Dan; Gimpel, Kevin (3 de octubre de 2018). "Una línea base para detectar ejemplos mal clasificados y fuera de distribución en redes neuronales". ICLR . arXiv : 1610.02136 .
^ Urbina, Fabio; Lentzos, Filippa; Invernizzi, Cédric; Ekins, Sean (2022). "Uso dual del descubrimiento de fármacos impulsado por inteligencia artificial". Nature Machine Intelligence . 4 (3): 189–191. doi :10.1038/s42256-022-00465-9. ISSN 2522-5839. PMC 9544280 . PMID 36211133.
^ Centro de Seguridad y Tecnología Emergente; Buchanan, Ben; Lohn, Andrew; Musser, Micah; Sedova, Katerina (2021). "Verdad, mentiras y automatización: cómo los modelos de lenguaje podrían cambiar la desinformación". doi : 10.51593/2021ca003 . S2CID 240522878. Archivado desde el original el 24 de noviembre de 2022 . Consultado el 28 de noviembre de 2022 .{{cite journal}}: Requiere citar revista |journal=( ayuda )
^ "La propaganda como servicio puede estar en el horizonte si se abusa de los grandes modelos lingüísticos". VentureBeat . 2021-12-14. Archivado desde el original el 2022-11-24 . Consultado el 2022-11-24 .
^ Centro de Seguridad y Tecnología Emergente; Buchanan, Ben; Bansemer, John; Cary, Dakota; Lucas, Jack; Musser, Micah (2020). "Automatización de los ciberataques: publicidad exagerada y realidad". Centro de Seguridad y Tecnología Emergente . doi : 10.51593/2020ca002 . S2CID 234623943. Archivado desde el original el 24 de noviembre de 2022 . Consultado el 28 de noviembre de 2022 .
^ "Lecciones aprendidas sobre la seguridad y el uso indebido de los modelos lingüísticos". OpenAI . 2022-03-03. Archivado desde el original el 2022-11-24 . Consultado el 2022-11-24 .
^ Markov, Todor; Zhang, Chong; Agarwal, Sandhini; Eloundou, Tyna; Lee, Teddy; Adler, Steven; Jiang, Angela; Weng, Lilian (10 de agosto de 2022). "Herramientas de moderación de contenido nuevas y mejoradas". OpenAI . Archivado desde el original el 11 de enero de 2023 . Consultado el 24 de noviembre de 2022 .
^ ab Savage, Neil (29 de marzo de 2022). "Entrando en la caja negra de la inteligencia artificial". Nature . doi :10.1038/d41586-022-00858-1. PMID 35352042. S2CID 247792459. Archivado desde el original el 24 de noviembre de 2022 . Consultado el 24 de noviembre de 2022 .
^ Centro de Seguridad y Tecnología Emergente; Rudner, Tim; Toner, Helen (2021). "Conceptos clave en seguridad de la IA: interpretabilidad en el aprendizaje automático". PLOS ONE . doi : 10.51593/20190042 . S2CID 233775541. Archivado desde el original el 2022-11-24 . Consultado el 2022-11-28 .
^ McFarland, Matt (19 de marzo de 2018). "Uber retira los coches autónomos tras el primer accidente mortal de un vehículo autónomo". CNNMoney . Archivado desde el original el 24 de noviembre de 2022 . Consultado el 24 de noviembre de 2022 .
^ Felder, Ryan Marshall (julio de 2021). "Aceptando el problema de la caja negra: cómo justificar los sistemas de inteligencia artificial en la atención médica". Hastings Center Report . 51 (4): 38–45. doi :10.1002/hast.1248. ISSN 0093-0334. PMID 33821471.
^ ab Doshi-Velez, Finale; Kortz, Mason; Budish, Ryan; Bavitz, Chris; Gershman, Sam; O'Brien, David; Scott, Kate; Schieber, Stuart; Waldo, James; Weinberger, David; Weller, Adrian; Wood, Alexandra (2019-12-20). "Responsabilidad de la IA ante la ley: el papel de la explicación". arXiv : 1711.01134 .{{cite journal}}: Requiere citar revista |journal=( ayuda )
^ Fong, Ruth; Vedaldi, Andrea (2017). "Explicaciones interpretables de las cajas negras mediante perturbación significativa". Conferencia internacional IEEE sobre visión artificial (ICCV) de 2017. págs. 3449–3457. arXiv : 1704.03296 . doi :10.1109/ICCV.2017.371. ISBN978-1-5386-1032-9. Número de identificación del sujeto 1633753.
^ Meng, Kevin; Bau, David; Andonian, Alex; Belinkov, Yonatan (2022). "Localización y edición de asociaciones factuales en GPT". Avances en sistemas de procesamiento de información neuronal . 35 . arXiv : 2202.05262 .
^ Räuker, Tilman; Ho, Anson; Casper, Stephen; Hadfield-Menell, Dylan (5 de septiembre de 2022). "Hacia una IA transparente: un estudio sobre la interpretación de las estructuras internas de las redes neuronales profundas". IEEE SaTML . arXiv : 2207.13243 .
^ Bau, David; Zhou, Bolei; Khosla, Aditya; Oliva, Aude; Torralba, Antonio (19 de abril de 2017). "Disección de redes: cuantificación de la interpretabilidad de representaciones visuales profundas". CVPR . arXiv : 1704.05796 .
^ McGrath, Thomas; Kapishnikov, Andrei; Tomašev, Nenad; Pearce, Adam; Wattenberg, Martin; Hassabis, Demis; Kim, Been; Paquet, Ulrich; Kramnik, Vladimir (2022-11-22). "Adquisición de conocimientos de ajedrez en AlphaZero". Actas de la Academia Nacional de Ciencias . 119 (47): e2206625119. arXiv : 2111.09259 . Código Bibliográfico :2022PNAS..11906625M. doi : 10.1073/pnas.2206625119 . ISSN 0027-8424. PMC 9704706 . PMID 36375061.
^ Olah, Chris; Cammarata, Nick; Schubert, Ludwig; Goh, Gabriel; Petrov, Michael; Carter, Shan (2020). "Zoom in: Una introducción a los circuitos". Distill . 5 (3). doi : 10.23915/distill.00024.001 . S2CID 215930358.
^ Cammarata, Nick; Goh, Gabriel; Carter, Shan; Voss, Chelsea; Schubert, Ludwig; Olah, Chris (2021). "Circuitos de curvas". Distill . 6 (1). doi :10.23915/distill.00024.006 (inactivo 2024-09-19). Archivado desde el original el 5 de diciembre de 2022 . Consultado el 5 de diciembre de 2022 .{{cite journal}}: CS1 maint: DOI inactivo a partir de septiembre de 2024 ( enlace )
^ Olah, Christopher. "Interpretabilidad vs Neurociencia [nota preliminar]". Archivado desde el original el 2022-11-24 . Consultado el 2022-11-24 .
^ Gu, Tianyu; Dolan-Gavitt, Brendan; Garg, Siddharth (11 de marzo de 2019). "BadNets: identificación de vulnerabilidades en la cadena de suministro del modelo de aprendizaje automático". arXiv : 1708.06733 .{{cite journal}}: Requiere citar revista |journal=( ayuda )
^ Chen, Xinyun; Liu, Chang; Li, Bo; Lu, Kimberly; Song, Dawn (14 de diciembre de 2017). "Ataques de puerta trasera dirigidos a sistemas de aprendizaje profundo mediante envenenamiento de datos". arXiv : 1712.05526 .{{cite journal}}: Requiere citar revista |journal=( ayuda )
^ Carlini, Nicholas; Terzis, Andreas (28 de marzo de 2022). "Envenenamiento y backdooring en el aprendizaje contrastivo". ICLR . arXiv : 2106.09667 .
^ abcd Russell, Stuart J.; Norvig, Peter (2021). Inteligencia artificial: un enfoque moderno (4.ª ed.). Pearson. pp. 5, 1003. ISBN9780134610993. Recuperado el 12 de septiembre de 2022 .
^ ab Ngo, Richard; Chan, Lawrence; Mindermann, Sören (2022). "El problema de la alineación desde una perspectiva de aprendizaje profundo". Conferencia internacional sobre representaciones de aprendizaje . arXiv : 2209.00626 .
^ ab Pan, Alexander; Bhatia, Kush; Steinhardt, Jacob (14 de febrero de 2022). Los efectos de la especificación incorrecta de las recompensas: mapeo y mitigación de modelos desalineados. Conferencia internacional sobre representaciones del aprendizaje . Consultado el 21 de julio de 2022 .
^ Zhuang, Simon; Hadfield-Menell, Dylan (2020). "Consecuencias de una IA desalineada". Avances en sistemas de procesamiento de información neuronal . Vol. 33. Curran Associates, Inc. págs. 15763–15773 . Consultado el 11 de marzo de 2023 .
^ Carlsmith, Joseph (16 de junio de 2022). "¿Es la IA en busca de poder un riesgo existencial?". arXiv : 2206.13353 [cs.CY].
^ abc Russell, Stuart J. (2020). Compatibilidad humana: inteligencia artificial y el problema del control. Penguin Random House. ISBN9780525558637.OCLC 1113410915 .
^ Christian, Brian (2020). El problema de la alineación: aprendizaje automático y valores humanos. WW Norton & Company. ISBN978-0-393-86833-3. OCLC 1233266753. Archivado desde el original el 10 de febrero de 2023 . Consultado el 12 de septiembre de 2022 .
^ Langosco, Lauro Langosco Di; Koch, Jack; Sharkey, Lee D.; Pfau, Jacob; Krueger, David (28 de junio de 2022). "Generalización errónea de objetivos en el aprendizaje por refuerzo profundo". Actas de la 39.ª Conferencia Internacional sobre Aprendizaje Automático . Conferencia Internacional sobre Aprendizaje Automático. PMLR. págs. 12004–12019 . Consultado el 11 de marzo de 2023 .
^ ab Bommasani, Rishi; Hudson, Drew A.; Adeli, Ehsan; Altman, Russ; Arora, Simran; von Arx, Sydney; Bernstein, Michael S.; Bohg, Jeannette; Bosselut, Antoine; Brunskill, Emma; Brynjolfsson, Erik (12 de julio de 2022). "Sobre las oportunidades y los riesgos de los modelos de cimentación". Stanford CRFM . arXiv : 2108.07258 .
^ Ouyang, Long; Wu, Jeff; Jiang, Xu; Almeida, Diogo; Wainwright, Carroll L.; Mishkin, Pamela; Zhang, Chong; Agarwal, Sandhini; Slama, Katarina; Ray, Alex; Schulman, J.; Hilton, Jacob; Kelton, Fraser; Miller, Luke E.; Simens, Maddie; Askell, Amanda; Welinder, P.; Christiano, P.; Leike, J.; Lowe, Ryan J. (2022). "Entrenamiento de modelos de lenguaje para seguir instrucciones con retroalimentación humana". arXiv : 2203.02155 [cs.CL].
^ Zaremba, Wojciech; Brockman, Greg; OpenAI (10 de agosto de 2021). «OpenAI Codex». OpenAI . Archivado desde el original el 3 de febrero de 2023 . Consultado el 23 de julio de 2022 .
^ Kober, Jens; Bagnell, J. Andrew; Peters, Jan (1 de septiembre de 2013). "Aprendizaje de refuerzo en robótica: una encuesta". Revista internacional de investigación en robótica . 32 (11): 1238–1274. doi :10.1177/0278364913495721. ISSN 0278-3649. S2CID 1932843. Archivado desde el original el 15 de octubre de 2022. Consultado el 12 de septiembre de 2022 .
^ Knox, W. Bradley; Allievi, Alessandro; Banzhaf, Holger; Schmitt, Felix; Stone, Peter (1 de marzo de 2023). "Recompensar el (mal)diseño para la conducción autónoma". Inteligencia artificial . 316 : 103829. arXiv : 2104.13906 . doi : 10.1016/j.artint.2022.103829 . ISSN 0004-3702. S2CID 233423198.
^ Stray, Jonathan (2020). "Alineación de la optimización de la IA con el bienestar de la comunidad". Revista internacional de bienestar comunitario . 3 (4): 443–463. doi :10.1007/s42413-020-00086-3. ISSN 2524-5295. PMC 7610010 . PMID 34723107. S2CID 226254676.
^ Russell, Stuart; Norvig, Peter (2009). Inteligencia artificial: un enfoque moderno. Prentice Hall. pág. 1003. ISBN978-0-13-461099-3.
^ Bengio, Yoshua; Hinton, Geoffrey; Yao, Andrés; Canción, amanecer; Abbeel, Pieter; Harari, Yuval Noah; Zhang, Ya-Qin; Xue, Lan; Shalev-Shwartz, Shai (2024), "Gestión de riesgos extremos de IA en medio de un rápido progreso", Science , 384 (6698): 842–845, arXiv : 2310.17688 , Bibcode :2024Sci...384..842B, doi :10.1126/science .adn0117, PMID 38768279
^ "Declaración sobre los riesgos de la IA | CAIS" www.safe.ai . Consultado el 11 de febrero de 2024 .
^ Grace, Katja; Stewart, Harlan; Sandkühler, Julia Fabienne; Thomas, Stephen; Weinstein-Raun, Ben; Brauner, Jan (5 de enero de 2024), Miles de autores de IA sobre el futuro de la IA , arXiv : 2401.02843
^ Smith, Craig S. "Geoff Hinton, el investigador más famoso de la IA, advierte sobre una 'amenaza existencial'". Forbes . Consultado el 4 de mayo de 2023 .
^ Perrigo, Billy (13 de febrero de 2024). "Yann LeCun, jefe de inteligencia artificial de Meta, habla sobre la inteligencia artificial general, el código abierto y el riesgo de la inteligencia artificial". TIME . Consultado el 26 de junio de 2024 .
^ abc Amodei, Dario; Olah, Chris; Steinhardt, Jacob; Christiano, Paul; Schulman, John; Mané, Dan (21 de junio de 2016). "Problemas concretos en la seguridad de la IA". arXiv : 1606.06565 [cs.AI].
^ ab Ortega, Pedro A.; Maini, Vishal; Equipo de seguridad de DeepMind (2018-09-27). «Construcción de inteligencia artificial segura: especificación, robustez y garantía». Investigación de seguridad de DeepMind – Medium . Archivado desde el original el 10 de febrero de 2023. Consultado el 18 de julio de 2022 .
^ ab Rorvig, Mordechai (14 de abril de 2022). "Los investigadores obtienen nuevos conocimientos a partir de una IA sencilla". Revista Quanta . Archivado desde el original el 10 de febrero de 2023. Consultado el 18 de julio de 2022 .
^ Doshi-Velez, Finale; Kim, Been (2 de marzo de 2017). "Hacia una ciencia rigurosa del aprendizaje automático interpretable". arXiv : 1702.08608 [stat.ML].
Wiblin, Robert (4 de agosto de 2021). "Chris Olah sobre qué diablos está pasando dentro de las redes neuronales" (Podcast). 80.000 horas. N.º 107. Consultado el 23 de julio de 2022 .
^ Russell, Stuart; Dewey, Daniel; Tegmark, Max (31 de diciembre de 2015). "Prioridades de investigación para una inteligencia artificial robusta y beneficiosa". AI Magazine . 36 (4): 105–114. arXiv : 1602.03506 . doi : 10.1609/aimag.v36i4.2577 . hdl :1721.1/108478. ISSN 2371-9621. S2CID 8174496. Archivado desde el original el 2 de febrero de 2023 . Consultado el 12 de septiembre de 2022 .
^ Wirth, Christian; Akrour, Riad; Neumann, Gerhard; Fürnkranz, Johannes (2017). "Un estudio de métodos de aprendizaje por refuerzo basados en preferencias". Revista de investigación en aprendizaje automático . 18 (136): 1–46.
^ Christiano, Paul F.; Leike, Jan; Brown, Tom B.; Martic, Miljan; Legg, Shane; Amodei, Dario (2017). "Aprendizaje de refuerzo profundo a partir de las preferencias humanas". Actas de la 31.ª Conferencia internacional sobre sistemas de procesamiento de información neuronal . NIPS'17. Red Hook, NY, EE. UU.: Curran Associates Inc. págs. 4302–4310. ISBN978-1-5108-6096-4.
^ Heaven, Will Douglas (27 de enero de 2022). «La nueva versión de GPT-3 se comporta mucho mejor (y debería ser menos tóxica)». MIT Technology Review . Archivado desde el original el 10 de febrero de 2023. Consultado el 18 de julio de 2022 .
^ Mohseni, Sina; Wang, Haotao; Yu, Zhiding; Xiao, Chaowei; Wang, Zhangyang; Yadawa, Jay (7 de marzo de 2022). "Taxonomía de la seguridad del aprendizaje automático: una encuesta y una introducción". arXiv : 2106.04823 [cs.LG].
^ Clifton, Jesse (2020). «Cooperación, conflicto e inteligencia artificial transformadora: una agenda de investigación». Centro de Riesgo a Largo Plazo . Archivado desde el original el 1 de enero de 2023. Consultado el 18 de julio de 2022 .
Dafoe, Allan; Bachrach, Yoram; Hadfield, Gillian; Horvitz, Eric; Larson, Kate; Graepel, Thore (6 de mayo de 2021). «IA cooperativa: las máquinas deben aprender a encontrar puntos en común». Nature . 593 (7857): 33–36. Bibcode :2021Natur.593...33D. doi :10.1038/d41586-021-01170-0. ISSN 0028-0836. PMID 33947992. S2CID 233740521. Archivado desde el original el 18 de diciembre de 2022 . Consultado el 12 de septiembre de 2022 .
^ Prunkl, Carina; Whittlestone, Jess (7 de febrero de 2020). "Más allá del corto y largo plazo". Actas de la Conferencia AAAI/ACM sobre IA, ética y sociedad . Nueva York, NY, EE. UU.: ACM. págs. 138-143. doi :10.1145/3375627.3375803. ISBN978-1-4503-7110-0. S2CID 210164673. Archivado desde el original el 16 de octubre de 2022 . Consultado el 12 de septiembre de 2022 .
^ Irving, Geoffrey; Askell, Amanda (19 de febrero de 2019). "La seguridad de la IA necesita científicos sociales". Distill . 4 (2): 10.23915/distill.00014. doi : 10.23915/distill.00014 . ISSN 2476-0757. S2CID 159180422. Archivado desde el original el 10 de febrero de 2023 . Consultado el 12 de septiembre de 2022 .
^ abcd Zwetsloot, Remco; Dafoe, Allan (11 de febrero de 2019). "Reflexiones sobre los riesgos de la IA: accidentes, uso indebido y estructura". Lawfare . Archivado desde el original el 19 de agosto de 2023 . Consultado el 24 de noviembre de 2022 .
^ Zhang, Yingyu; Dong, Chuntong; Guo, Weiqun; Dai, Jiabao; Zhao, Ziming (2022). "Modelo y proceso de accidentes teóricos de sistemas (STAMP): una revisión de la literatura". Safety Science . 152 : 105596. doi :10.1016/j.ssci.2021.105596. S2CID 244550153. Archivado desde el original el 2023-03-15 . Consultado el 2022-11-28 .
^ Centro de Seguridad y Tecnología Emergente; Hoffman, Wyatt (2021). "IA y el futuro de la competencia cibernética". Informe de la CSET . doi : 10.51593/2020ca007 . S2CID 234245812. Archivado desde el original el 24 de noviembre de 2022. Consultado el 28 de noviembre de 2022 .
^ Gafni, Ruti; Levy, Yair (1 de enero de 2024). "El papel de la inteligencia artificial (IA) en la mejora de la eficiencia de las tareas técnicas y de gestión de la ciberseguridad". Information & Computer Security . ahead-of-print (ahead-of-print). doi :10.1108/ICS-04-2024-0102. ISSN 2056-4961.
^ Centro de Seguridad y Tecnología Emergente; Imbrie, Andrew; Kania, Elsa (2019). "Seguridad, protección y estabilidad de la IA entre las grandes potencias: opciones, desafíos y lecciones aprendidas para un compromiso pragmático". doi : 10.51593/20190051 . S2CID 240957952. Archivado desde el original el 24 de noviembre de 2022 . Consultado el 28 de noviembre de 2022 .{{cite journal}}: Requiere citar revista |journal=( ayuda )
^ ab Future of Life Institute (2019-03-27). Estrategia, política y gobernanza de la IA (Allan Dafoe). El evento ocurre a las 22:05. Archivado desde el original el 2022-11-23 . Consultado el 2022-11-23 .
^ Zou, Andy; Xiao, Tristan; Jia, Ryan; Kwon, Joe; Mazeika, Mantas; Li, Richard; Song, Dawn; Steinhardt, Jacob; Evans, Owain; Hendrycks, Dan (9 de octubre de 2022). "Pronosticar eventos mundiales futuros con redes neuronales". NeurIPS . arXiv : 2206.15474 .
^ Gathani, Sneha; Hulsebos, Madelon; Gale, James; Haas, Peter J.; Demiralp, Çağatay (8 de febrero de 2022). "Aumento de la toma de decisiones mediante análisis hipotéticos interactivos". Conferencia sobre investigación innovadora en sistemas de datos . arXiv : 2109.06160 .
^ Lindelauf, Roy (2021), Osinga, Frans; Sweijs, Tim (eds.), "Disuasión nuclear en la era algorítmica: teoría de juegos revisada", NL ARMS Netherlands Annual Review of Military Studies 2020 , Nl Arms, La Haya: TMC Asser Press, págs. 421–436, doi : 10.1007/978-94-6265-419-8_22 , ISBN978-94-6265-418-1, Número de identificación del sujeto 229449677
^ ab Newkirk II, Vann R. (21 de abril de 2016). "¿El cambio climático es un dilema del prisionero o una cacería de ciervos?". The Atlantic . Archivado desde el original el 24 de noviembre de 2022. Consultado el 24 de noviembre de 2022 .
^ ab Armstrong, Stuart; Bostrom, Nick; Shulman, Carl. Corriendo hacia el precipicio: un modelo de desarrollo de la inteligencia artificial (informe). Future of Humanity Institute, Universidad de Oxford.
^ ab Dafoe, Allan. Gobernanza de la IA: una agenda de investigación (informe). Centro para la Gobernanza de la IA, Future of Humanity Institute, Universidad de Oxford.
^ Dafoe, Allan; Hughes, Edward; Bachrach, Yoram; Collins, Tantum; McKee, Kevin R.; Leibo, Joel Z.; Larson, Kate; Graepel, Thore (15 de diciembre de 2020). "Problemas abiertos en la IA cooperativa". NeurIPS . arXiv : 2012.08630 .
^ ab Dafoe, Allan; Bachrach, Yoram; Hadfield, Gillian; Horvitz, Eric; Larson, Kate; Graepel, Thore (2021). «IA cooperativa: las máquinas deben aprender a encontrar puntos en común». Nature . 593 (7857): 33–36. Bibcode :2021Natur.593...33D. doi :10.1038/d41586-021-01170-0. PMID 33947992. S2CID 233740521. Archivado desde el original el 22 de noviembre de 2022 . Consultado el 24 de noviembre de 2022 .
^ Bender, EM, Gebru, T., McMillan-Major, A. y Shmitchell, S. (2021). Sobre los peligros de los loros estocásticos: ¿pueden los modelos lingüísticos ser demasiado grandes? 🦜. FAccT '21: Actas de la Conferencia ACM de 2021 sobre equidad, rendición de cuentas y transparencia, 610-623. https://doi.org/10.1145/3442188.3445922.
^ Strubell, E., Ganesh, A. y McCallum, A. (2019). Consideraciones energéticas y políticas para el aprendizaje profundo en PNL. Preimpresión de arXiv arXiv:1906.02243.
^ Schwartz, R., Dodge, J., Smith, NA y Etzioni, O. (2020). Inteligencia artificial ecológica. Comunicaciones de la ACM, 63(12), 54-63. https://doi.org/10.1145/3442188.3445922.
^ Satariano, Adam; Specia, Megan (1 de noviembre de 2023). «Los líderes mundiales advierten que la IA podría causar daños «catastróficos»». The New York Times . ISSN 0362-4331 . Consultado el 20 de abril de 2024 .
^ Crafts, Nicholas (23 de septiembre de 2021). «La inteligencia artificial como tecnología de propósito general: una perspectiva histórica». Oxford Review of Economic Policy . 37 (3): 521–536. doi : 10.1093/oxrep/grab012 . ISSN 0266-903X. Archivado desde el original el 24 de noviembre de 2022 . Consultado el 28 de noviembre de 2022 .
^葉俶禎; 黃子君; 張媁雯; 賴志樫 (1 de diciembre de 2020). "Desplazamiento laboral en la era de la inteligencia artificial: una revisión sistemática de la literatura".臺灣東亞文明研究學刊. 17 (2). doi :10.6163/TJEAS.202012_17(2).0002. ISSN 1812-6243.
^ Johnson, James (3 de abril de 2019). «Inteligencia artificial y guerra futura: implicaciones para la seguridad internacional». Defense & Security Analysis . 35 (2): 147–169. doi :10.1080/14751798.2019.1600800. ISSN 1475-1798. S2CID 159321626. Archivado desde el original el 24 de noviembre de 2022. Consultado el 28 de noviembre de 2022 .
^ Kertysova, Katarina (12 de diciembre de 2018). «Inteligencia artificial y desinformación: cómo la IA cambia la forma en que se produce, se difunde y se puede contrarrestar la desinformación». Seguridad y derechos humanos . 29 (1–4): 55–81. doi : 10.1163/18750230-02901005 . ISSN 1874-7337. S2CID 216896677. Archivado desde el original el 24 de noviembre de 2022 . Consultado el 28 de noviembre de 2022 .
^ Feldstein, Steven (2019). La expansión global de la vigilancia con inteligencia artificial . Fundación Carnegie para la Paz Internacional.
^ Agrawal, Ajay; Gans, Joshua; Goldfarb, Avi (2019). La economía de la inteligencia artificial: una agenda. Chicago, Illinois. ISBN978-0-226-61347-5. OCLC 1099435014. Archivado desde el original el 15 de marzo de 2023. Consultado el 28 de noviembre de 2022 .{{cite book}}: CS1 maint: location missing publisher (link)
^ Whittlestone, Jess; Clark, Jack (31 de agosto de 2021). "Por qué y cómo los gobiernos deberían supervisar el desarrollo de la IA". arXiv : 2108.12427 .{{cite journal}}: Requiere citar revista |journal=( ayuda )
^ ab Shevlane, Toby (2022). "Sharing Powerful AI Models | GovAI Blog". Centro para la Gobernanza de la IA . Archivado desde el original el 2022-11-24 . Consultado el 2022-11-24 .
^ Askell, Amanda; Brundage, Miles; Hadfield, Gillian (10 de julio de 2019). "El papel de la cooperación en el desarrollo responsable de la IA". arXiv : 1907.04534 .{{cite journal}}: Requiere citar revista |journal=( ayuda )
^ Gursoy, Furkan; Kakadiaris, Ioannis A. (31 de agosto de 2022), Tarjetas de sistema para la toma de decisiones basada en IA para políticas públicas , arXiv : 2203.04754
^ Cobbe, Jennifer; Lee, Michelle Seng Ah; Singh, Jatinder (1 de marzo de 2021). "Toma de decisiones automatizada revisable: un marco para sistemas algorítmicos responsables". Actas de la Conferencia ACM de 2021 sobre equidad, responsabilidad y transparencia . FAccT '21. Nueva York, NY, EE. UU.: Association for Computing Machinery. págs. 598–609. doi : 10.1145/3442188.3445921 . ISBN .978-1-4503-8309-7.
^ Raji, Inioluwa Deborah; Smart, Andrew; White, Rebecca N.; Mitchell, Margaret; Gebru, Timnit; Hutchinson, Ben; Smith-Loud, Jamila; Theron, Daniel; Barnes, Parker (27 de enero de 2020). "Closing the AI accounting gap: Defining an end-to-end framework for internal something auditing" (Cerrar la brecha de rendición de cuentas de la IA: definir un marco integral para la auditoría algorítmica interna). Actas de la Conferencia de 2020 sobre imparcialidad, rendición de cuentas y transparencia . FAT* '20. Nueva York, NY, EE. UU.: Association for Computing Machinery. págs. 33–44. doi : 10.1145/3351095.3372873 . ISBN .978-1-4503-6936-7.
^ Turchin, Alexey; Dench, David; Green, Brian Patrick (2019). "Soluciones globales frente a soluciones locales para el problema de seguridad de la IA". Big Data y computación cognitiva . 3 (16): 1–25. doi : 10.3390/bdcc3010016 .
^ Ziegler, Bart (8 de abril de 2022). "¿Ha llegado el momento de regular la IA?". Wall Street Journal .
^ Smith, John (15 de mayo de 2022). "Gobernanza global de la inteligencia artificial: oportunidades y desafíos". The Guardian .
^ Ziegler, Bart (8 de abril de 2022). "¿Ha llegado el momento de regular la IA?". Wall Street Journal . Archivado desde el original el 24 de noviembre de 2022. Consultado el 24 de noviembre de 2022 .
^ Reed, Chris (13 de septiembre de 2018). "¿Cómo deberíamos regular la inteligencia artificial?". Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences . 376 (2128): 20170360. Bibcode :2018RSPTA.37670360R. doi :10.1098/rsta.2017.0360. ISSN 1364-503X. PMC 6107539 . PMID 30082306.
^ Belton, Keith B. (7 de marzo de 2019). "¿Cómo se debería regular la IA?". IndustryWeek . Archivado desde el original el 29 de enero de 2022. Consultado el 24 de noviembre de 2022 .
^ Comisión de Seguridad Nacional sobre Inteligencia Artificial (2021), Informe final
^ Instituto Nacional de Estándares y Tecnología (12 de julio de 2021). «Marco de gestión de riesgos de IA». NIST . Archivado desde el original el 24 de noviembre de 2022. Consultado el 24 de noviembre de 2022 .
^ Richardson, Tim (2021). «Gran Bretaña publica una estrategia nacional de inteligencia artificial a 10 años». Archivado desde el original el 10 de febrero de 2023. Consultado el 24 de noviembre de 2022 .
^ ab "Guía: Estrategia nacional de IA". GOV.UK . 2021. Archivado desde el original el 2023-02-10 . Consultado el 2022-11-24 .
^ Hardcastle, Kimberley (23 de agosto de 2023). "Estamos hablando mucho de IA en este momento, y no es un momento demasiado pronto". The Conversation . Consultado el 31 de octubre de 2023 .
^ "El icónico Bletchley Park acogerá la Cumbre de seguridad de la inteligencia artificial del Reino Unido a principios de noviembre". GOV.UK . Consultado el 31 de octubre de 2023 .
^ Oficina del Director de Inteligencia Nacional, Actividad de Proyectos de Investigación Avanzada de Inteligencia. «IARPA – TrojAI». Archivado desde el original el 2022-11-24 . Consultado el 2022-11-24 .
^ Turek, Matt. "Inteligencia artificial explicable". Archivado desde el original el 19 de febrero de 2021. Consultado el 24 de noviembre de 2022 .
^ Draper, Bruce. "Garantizar la robustez de la IA frente al engaño". Agencia de Proyectos de Investigación Avanzada de Defensa . Archivado desde el original el 2023-01-09 . Consultado el 2022-11-24 .
^ National Science Foundation (23 de febrero de 2023). «Safe Learning-Enabled Systems». Archivado desde el original el 26 de febrero de 2023. Consultado el 27 de febrero de 2023 .
^ "La Asamblea General adopta una resolución histórica sobre inteligencia artificial". Noticias ONU . 21 de marzo de 2024. Archivado desde el original el 20 de abril de 2024 . Consultado el 21 de abril de 2024 .
^ Say, Mark (23 de mayo de 2024). «DSIT anuncia financiación para la investigación sobre seguridad de la IA». Archivado desde el original el 24 de mayo de 2024. Consultado el 11 de junio de 2024 .
^ Mäntymäki, Matti; Minkkinen, Matti; Birkstedt, Teemu; Viljanen, Mika (2022). "Definición de la gobernanza organizacional de la IA". IA y ética . 2 (4): 603–609. doi : 10.1007/s43681-022-00143-x . ISSN 2730-5953. S2CID 247119668.
^ abc Brundage, Miles; Avin, Shahar; Wang, Jasmine; Belfield, Haydn; Krueger, Gretchen; Hadfield, Gillian; Khlaaf, Heidy; Yang, Jingying; Toner, Helen; Fong, Ruth; Maharaj, Tegan; Koh, Pang Wei; Hooker, Sara; Leung, Jade; Trask, Andrew (20 de abril de 2020). "Hacia un desarrollo de IA confiable: mecanismos para respaldar afirmaciones verificables". arXiv : 2004.07213 .{{cite journal}}: Requiere citar revista |journal=( ayuda )
^ "Bienvenido a la base de datos de incidentes de inteligencia artificial". Archivado desde el original el 2022-11-24 . Consultado el 2022-11-24 .
^ Wiblin, Robert; Harris, Keiran (2022). "Nova DasSarma explica por qué la seguridad de la información puede ser fundamental para el desarrollo seguro de los sistemas de IA". 80.000 horas . Archivado desde el original el 24 de noviembre de 2022. Consultado el 24 de noviembre de 2022 .
^ OpenAI (2022-06-02). "Mejores prácticas para implementar modelos de lenguaje". OpenAI . Archivado desde el original el 2023-03-15 . Consultado el 2022-11-24 .
^ OpenAI. «Carta de OpenAI». OpenAI . Archivado desde el original el 4 de marzo de 2021. Consultado el 24 de noviembre de 2022 .
^ Future of Life Institute (2016). "Carta abierta sobre armas autónomas: investigadores en IA y robótica". Future of Life Institute . Archivado desde el original el 2023-09-22 . Consultado el 2022-11-24 .
Enlaces externos
Problemas sin resolver en la seguridad del aprendizaje automático
Sobre las oportunidades y los riesgos de los modelos de fundación
Una visión general de los riesgos catastróficos de la IA