Alineación de la inteligencia artificial

[33]​ En muchos casos, las especificaciones utilizadas para entrenar un sistema no coinciden con los objetivos previstos por el diseñador del algoritmo.

[36]​[18]​ Diseñar tales especificaciones es difícil para obtener resultados complejos como lenguaje, movimientos robóticos o la recomendación de contenido.

[40]​ Cuando la inteligencia artificial no alineada se despliega, los efectos secundarios pueden ser importantes.

[41]​ Sin embargo, Russell ha argumentado que este enfoque no tiene en cuenta la complejidad de los valores humanos:[5]​ “Ciertamente es muy difícil, y quizás imposible, para simples humanos anticipar y excluir de antemano todas las formas desastrosas que la máquina podría elegir para lograr un objetivo específico.

Ya en 2020, OpenAI, DeepMind y otros 70 proyectos públicos tenían el objetivo declarado de alcanzar la denominada inteligencia artificial general, un sistema hipotético que iguale o supere a los humanos en una amplio rango de tareas cognitivas.

[49]​[50]​ Los sistemas actuales todavía carecen de capacidades como la planificación a largo plazo y la conciencia estratégica, las cuales, según se cree, entrañarían los riesgos más catastróficos.

Esta tendencia se conoce como búsqueda de poder u objetivos instrumentales convergentes.

[7]​[51]​[5]​ Según algunos científicos, la creación de una inteligencia artificial no alineada que supere ampliamente a los humanos sería un amenaza para su posición dominante en la Tierra, ya que representaría una disminución de su poder, e incluso podría ocasionar la extinción humana.

[2]​[5]​ Entre los científicos informáticos notables que han señalado estos riesgos se cuenta a Alan Turing,[e]​ Ilya Sutskever,[59]​ Yoshua Bengio,[f]​ Judea Pearl,[g]​ Murray Shanahan,[61]​ Norbert Wiener,[28]​[5]​ Marvin Minsky,[h]​ Francesca Rossi,[63]​ Scott Aaronson,[64]​ Bart Selman,[65]​ David McAllester,[66]​ Jürgen Schmidhuber,[67]​ Markus Hutter,[68]​ Shane Legg,[69]​ Eric Horvitz,[70]​ y Stuart Russell.

[5]​ Investigadores escépticos como François Chollet,[71]​ Gary Marcus,[72]​ Yann LeCun[73]​ y Oren Etzioni[74]​ han argumentado que la inteligencia artificial general está lejos, o que no lograría obtener suficiente poder como para constituir un peligro serio.

Cuando se les da un objetivo imperfecto o incompleto, estos sistemas, en general, aprenden a explotar estas imperfecciones.

[55]​ Sin embargo, el aprendizaje por refuerzo inverso asume que los humanos pueden exhibir un comportamiento casi perfecto, una suposición engañosa cuando la tarea es difícil.

[79]​[68]​ Otros investigadores han explorado la posibilidad de provocar comportamientos complejos a través del aprendizaje por preferencias.

[21]​[23]​ De este modo, se entrena un modelo colaborador para predecir la reacción humana ante nuevos comportamientos.

[23]​[84]​ Anthropic ha propuesto usar el aprendizaje por preferencias para hacer que los modelos sean útiles, honestos e inofensivos.

[87]​ En estos ejercicios, otros sistemas o seres humanos intentan encontrar situaciones que susciten un comportamiento peligroso del modelo.

Dado que tales comportamientos no pueden aceptarse aún cuando sean infrecuentes, un desafío importante es hacer descender la tasa de resultados peligrosos a niveles extremadamente bajos.

La evaluación humana se vuelve lenta e impracticable en la medida en que aumenta la complejidad de las tareas realizadas por los sistemas.

Si los modelos avanzados también son planificadores capaces, bien podrían ocultar su engaño a los ojos de sus supervisores.

[17]​[22]​[23]​ Sin embargo, cuando la tarea es demasiado compleja para ser evaluada con precisión, o el supervisor humano es vulnerable al engaño, no es suficiente reducir la cantidad de supervisión requerida.

[95]​ Otra propuesta es entrenar inteligencia artificial alineada mediante un debate entre sistemas, cuyos jueces sean humanos.

[10]​[100]​ Si bien esto los ayuda a aprender una amplia gama de habilidades, los datos del entrenamiento también incluyen ideas erróneas generalizadas, consejos médicos incorrectos y teorías conspirativas.

[97]​[91]​[39]​ Además, los modelos suelen seguir el hilo de las falsedades que se les propone, generan explicaciones vacuas para sus respuestas, o mienten descaradamente.

[32]​ Los investigadores han explorado varias alternativas para combatir la falta de veracidad que exhiben los sistemas modernos.

Los seres humanos siguen persiguiendo sus objetivos emergentes, pero esto ya no maximiza la aptitud genética.

[18]​ El progreso en estas técnicas puede ayudar a reducir dos problemas aún sin resolver.

[52]​[109]​ En entornos aislados, otros sistemas han aprendido que pueden lograr su objetivo impidiendo la interferencia humana[53]​ o desactivando su interruptor de apagado.

Sistemas ordinarios que hipotéticamente podrían poner en riesgo la seguridad no son adversos.

Sin embargo, otros consideran que las citadas leyes no son útiles, debido a su ambigüedad e inconsistencia.

(Otras propuestas de "normatividad directa" incluyen la ética kantiana y el utilitarismo.)

Midas Gold
El mítico rey Midas deseó que “todo” lo que tocara se convirtiera en oro, pero no especificó ninguna excepción en relación a su comida o a su hija. Análogamente, cuando se especifica un objetivo para un sistema de inteligencia artificial, es difícil prever y excluir todos los efectos secundarios que el sistema debería evitar. [ 2 ]
Los modelos de lenguaje como GPT-3 a menudo generan falsedades. [ 97 ]