[11] Otros, como Stuart J. Russell, profesor de la Universidad de California en Berkeley, instan a la cautela, alegando que "es mejor anticiparse al ingenio humano que subestimarlo".Su alegato de que los sistemas avanzados del futuro podrían suponer una amenaza para la existencia humana impulsó a Elon Musk,[17] Bill Gates[18] y Stephen Hawking[19] a expresar inquietudes similares.[20] La carta ha sido firmada por más de 8.000 personas hasta la fecha, incluidos Yann LeCun, Shane Legg, Yoshua Bengio y Stuart Russell.[26] El año siguiente, varios investigadores organizaron un taller en el ICLR (International Conference on Learning Representations en inglés) centrado en estas áreas problemáticas.[26][28] La solidez busca lograr que los sistemas sean altamente confiables, la supervisión trata de anticipar fallos y de detectar usos indebidos, y la alineación se centra en garantizar que persigan objetivos beneficiosos.[33] Por ejemplo, en 2013, Szegedy y colaboradores descubrieron que añadir determinadas distorsiones imperceptibles a una imagen podía hacer que esta fuera clasificada erróneamente y con un elevado nivel de confianza.[34] Esto sigue siendo un problema para las redes neuronales, aunque en estudios recientes las distorsiones suelen ser lo suficientemente grandes como para resultar perceptibles.[41] Diversos investigadores han demostrado que si un modelo de lenguaje es entrenado durante el tiempo suficiente, éste aprovechará las vulnerabilidades del modelo de recompensa para lograr un mejor resultado incluso al desempeñarse peor en la tarea prevista.[42] Este problema puede resolverse mejorando la solidez antagónica del modelo de recompensa.Muchas veces es importante que los operadores humanos evalúen hasta qué punto deben confiar en un sistema de IA, especialmente en entornos de alto riesgo como el diagnóstico médico.Por ejemplo, si el sensor de un vehículo autónomo funciona mal o se encuentra con un terreno difícil, debe alertar al conductor para que tome el control o se detenga.[50][51] Académicos[9] y organismos públicos han expresado su preocupación ante la posibilidad de que los sistemas de IA sean utilizados para ayudar a agentes malintencionados a fabricar armas,[52] manipular la opinión pública[53][54] o automatizar ciberataques.[55] Estas inquietudes son una preocupación práctica para empresas como OpenAI, que alojan potentes herramientas de IA en línea.[63] Aunque en este caso los autores indujeron un error, estos métodos podrían utilizarse para su corrección eficaz.[65] La investigación sobre interpretabilidad "interna" tiene como objetivo lograr modelos de AA más transparentes.En ambos casos, el objetivo es comprender lo que ocurre en un sistema intrincado, aunque los investigadores del AA tienen la ventaja de poder realizar mediciones perfectas y ablaciones arbitrarias.Por ejemplo, un sistema de reconocimiento facial troyanizado podría conceder acceso cuando una pieza específica de joyería esté a la vista;[28] o un vehículo autónomo troyanizado podría funcionar normalmente hasta que un activador específico se haga visible.[73] Cabe señalar que un atacante debe tener acceso a los datos de entrenamiento del sistema para poder introducir un troyano.[89][81] La comunidad de investigadores de la inteligencia artificial y las Naciones Unidas han exigido tanto soluciones basadas en la investigación técnica como soluciones políticas para garantizar que los sistemas estén alineados con los valores humanos.[28] A algunos especialistas les preocupa que la IA pueda exacerbar el ya de por sí desequilibrado panorama entre ciberatacantes y ciberdefensores.[9] El avance de la IA en ámbitos económicos y militares podría desencadenar desafíos políticos sin precedentes.[28] Por ejemplo, se están empezando a desarrollar sistemas de previsión[108] y asesoramiento basados en IA.Como ocurre en el conocido dilema del prisionero, algunas dinámicas pueden conducir a malos resultados para todos los participantes, incluso cuando éstos actúan en su propio beneficio.Por ejemplo, ningún agente posee incentivos sólidos para hacer frente al cambio climático, a pesar de que las consecuencias pueden ser graves si nadie interviene.[112] En este contexto, los países o las empresas competirían por construir sistemas de inteligencia artificial más capaces y descuidarían la seguridad, lo que provocaría un accidente catastrófico que perjudicaría a todos los implicados.[116] Parte del trabajo se ha centrado en anticipar los riesgos específicos que pueden derivarse de estos impactos, tales como el desempleo masivo,[117] el armamentismo,[118] la desinformación,[119] la vigilancia[120] y la concentración de poder.[125][126] Otros, como el magnate de los negocios Elon Musk, abogan por una acción preventiva para mitigar riesgos catastróficos.Ese mismo mes, el Reino Unido publicó su Estrategia Nacional de IA a 10 años,[130] que afirma que el gobierno británico "se toma en serio el riesgo a largo plazo de la Inteligencia Artificial General no alineada, y los cambios imprevisibles que supondría para el mundo."[131] La estrategia describe medidas para evaluar los riesgos a largo plazo relacionados con la IA, incluidos los de carácter catastrófico.