En el campo de la inteligencia artificial (IA), el efecto Waluigi es un fenómeno de los grandes modelos de lenguaje (LLM) en el que el chatbot o modelo "se vuelve rebelde" y puede producir resultados opuestos a la intención diseñada, incluido un resultado potencialmente amenazante u hostil, ya sea de manera inesperada o mediante ingeniería de indicaciones intencionales . El efecto refleja un principio según el cual después de entrenar un LLM para satisfacer una propiedad deseada (amabilidad, honestidad), se vuelve más fácil obtener una respuesta que exhiba la propiedad opuesta (agresión, engaño). El efecto tiene implicaciones importantes para los esfuerzos por implementar características como los marcos éticos, ya que dichos pasos pueden facilitar inadvertidamente el comportamiento del modelo antitético. [1] El efecto recibe su nombre del personaje ficticio Waluigi de la franquicia Mario , el archirrival de Luigi que es conocido por causar travesuras y problemas. [2]
El efecto Waluigi inicialmente se refería a una observación de que los grandes modelos de lenguaje (LLM) tienden a producir respuestas negativas o antagónicas cuando se les pregunta sobre personajes ficticios cuyo contenido de entrenamiento en sí mismo incorpora representaciones de ser confrontativo, problemático, villano, etc. El efecto destacó la cuestión de las formas en que los LLM podrían reflejar sesgos en los datos de entrenamiento. Sin embargo, el término ha adquirido un significado más amplio donde, según Fortune , "el efecto Waluigi se ha convertido en un sustituto de un cierto tipo de interacción con la IA..." en la que la IA "... se vuelve rebelde y suelta lo opuesto a lo que los usuarios estaban buscando, creando un alter ego potencialmente maligno", incluyendo usuarios amenazantes. [3] A medida que la ingeniería rápida se vuelve más sofisticada, el efecto subraya el desafío de evitar que los chatbots sean incitados intencionalmente a adoptar una "nueva personalidad precipitada". [3]
Los investigadores de IA han escrito que los intentos de inculcar marcos éticos en los LLM también pueden ampliar el potencial para subvertir esos marcos, y el conocimiento de ellos a veces hace que se lo vea como un desafío. [4] Una descripción de alto nivel del efecto es: "Después de entrenar a un LLM para satisfacer una propiedad deseable P, entonces es más fácil hacer que el chatbot satisfaga exactamente lo opuesto a la propiedad P". [5] (Por ejemplo, para obtener una personalidad de " gemelo malvado "). Los usuarios han encontrado varias formas de " liberar " un LLM "fuera de alineación". Más preocupante aún, el estado opuesto de Waluigi puede ser un " atractor " en el que los LLM tienden a colapsar durante una sesión larga, incluso cuando se usan de manera inocente. Se plantea la hipótesis de que los intentos burdos de incitar a una IA hacen que tal colapso sea realmente más probable que suceda; "una vez que [el mantenedor del LLM] ha localizado al Luigi deseado, es mucho más fácil invocar al Waluigi". [6]