En el campo de la inteligencia artificial (IA), una alucinación o alucinación artificial (también llamada bullshitting , [1] confabulación [2] o delirio [3] ) es una respuesta generada por la IA que contiene información falsa o engañosa presentada como un hecho . [4] [5] [6] Este término establece una vaga analogía con la psicología humana, donde las alucinaciones generalmente implican percepciones falsas . Sin embargo, hay una diferencia clave: las alucinaciones por IA se asocian con respuestas o creencias injustificadas más que con experiencias perceptivas. [6]
Por ejemplo, un chatbot impulsado por grandes modelos de lenguaje (LLM), como ChatGPT , puede incorporar falsedades aleatorias que parezcan plausibles dentro de su contenido generado. Los investigadores han reconocido este problema y, para 2023, los analistas estimaron que los chatbots alucinan hasta el 27% de las veces, con errores fácticos presentes en el 46% de sus respuestas. Detectar y mitigar estas alucinaciones plantea desafíos importantes para la implementación práctica y la confiabilidad de los LLM en escenarios del mundo real. [7] [8] [9] Algunos investigadores creen que el término específico "alucinación por IA" antropomorfiza irrazonablemente a las computadoras. [2]
En 1995, Stephen Thaler introdujo el concepto de "fenómenos de entrada virtual" en el contexto de las redes neuronales y la inteligencia artificial. [10] Esta idea está estrechamente ligada a su trabajo en Creativity Machine. [11] Los fenómenos de entrada virtual se refieren a la generación espontánea de nuevas ideas o conceptos dentro de una red neuronal, similar a las alucinaciones, sin entradas externas explícitas. El trabajo clave de Thaler sobre este tema se resume en su patente estadounidense "Dispositivo para la generación autónoma de información útil" (Patente nº US 5.659.666), concedida en 1997. Esta patente describe un sistema de red neuronal que puede generar de forma autónoma nueva información mediante la simulación virtual. entradas. El sistema "imagina" efectivamente nuevos datos, debido a una variedad de perturbaciones transitorias y permanentes de la red, lo que genera resultados innovadores y creativos.
Este concepto es crucial para comprender cómo se pueden diseñar redes neuronales para exhibir comportamientos creativos, produciendo resultados que van más allá de sus datos de entrenamiento iniciales e imitan aspectos de la creatividad humana y los procesos cognitivos.
A principios de la década de 2000, el término "alucinación" se utilizaba en visión por computadora con una connotación positiva para describir el proceso de agregar detalles a una imagen. Por ejemplo, la tarea de generar imágenes faciales de alta resolución a partir de entradas de baja resolución se llama alucinación facial . [12] [13]
A finales de la década de 2010, el término experimentó un cambio semántico para significar la generación de resultados objetivamente incorrectos o engañosos por parte de los sistemas de inteligencia artificial en tareas como la traducción o la detección de objetos. [12] Por ejemplo, en 2017, los investigadores de Google usaron el término para describir las respuestas generadas por modelos de traducción automática neuronal (NMT) cuando no están relacionadas con el texto fuente, [14] y en 2018, el término se usó en computadoras. Visión para describir casos en los que objetos inexistentes se detectan erróneamente debido a ataques adversarios. [15]
El término "alucinaciones" en IA ganó un mayor reconocimiento durante el auge de la IA , junto con el lanzamiento de chatbots ampliamente utilizados basados en grandes modelos de lenguaje (LLM). [16] En julio de 2021, Meta advirtió durante el lanzamiento de BlenderBot 2 que el sistema es propenso a "alucinaciones", que Meta definió como "declaraciones seguras que no son ciertas". [17] [18] Tras el lanzamiento de ChatGPT de OpenAI en versión beta en noviembre de 2022, algunos usuarios se quejaron de que dichos chatbots a menudo parecen incorporar inútilmente falsedades aleatorias que suenan plausibles dentro de su contenido generado. [19] Muchos medios de comunicación, incluido The New York Times , comenzaron a utilizar el término "alucinaciones" para describir las respuestas ocasionalmente incorrectas o inconsistentes de estos modelos. [20]
En 2023, algunos diccionarios actualizaron su definición de alucinación para incluir un nuevo significado específico del campo de la IA. [4] [21]
El término "alucinación" ha sido criticado por Usama Fayyad , director ejecutivo del Instituto de Inteligencia Artificial Experimental de la Universidad Northeastern , con el argumento de que personifica engañosamente grandes modelos de lenguaje y que es vago. [22]
En el procesamiento del lenguaje natural , una alucinación a menudo se define como "contenido generado que parece real pero no tiene fundamento". Hay diferentes formas de clasificar las alucinaciones. Dependiendo de si la salida contradice la fuente o no se puede verificar a partir de la fuente, se dividen en intrínsecas y extrínsecas, respectivamente. [6] Dependiendo de si el resultado contradice el mensaje o no, se podrían dividir en dominio cerrado y dominio abierto respectivamente. [23]
Hay varias razones por las que los modelos de lenguaje natural alucinan datos. [6]
La principal causa de alucinación a partir de datos es la divergencia entre fuente y referencia. Esta divergencia ocurre 1) como un artefacto de la recopilación de datos heurísticos o 2) debido a la naturaleza de algunas tareas de NLG que inevitablemente contienen dicha divergencia. Cuando un modelo se entrena con datos con divergencia fuente-referencia (objetivo), se puede alentar al modelo a generar texto que no necesariamente esté fundamentado y no sea fiel a la fuente proporcionada. [6]
Se demostró que las alucinaciones son un subproducto estadísticamente inevitable de cualquier modelo generativo imperfecto que esté entrenado para maximizar la probabilidad de entrenamiento, como GPT-3 , y que requiera un aprendizaje activo (como el aprendizaje reforzado a partir de la retroalimentación humana ) para evitarse. [24] Otras investigaciones adoptan una perspectiva antropomórfica y postulan que las alucinaciones surgen de una tensión entre novedad y utilidad. Por ejemplo, Teresa Amabile y Pratt definen la creatividad humana como la producción de ideas novedosas y útiles. [25] Por extensión, centrarse en la novedad en la creatividad de las máquinas puede conducir a la producción de respuestas originales pero inexactas, es decir, falsedades, mientras que centrarse en la utilidad puede dar lugar a respuestas memorizadas ineficaces. [26]
Los errores en la codificación y decodificación entre texto y representaciones pueden provocar alucinaciones. Cuando los codificadores aprenden las correlaciones incorrectas entre diferentes partes de los datos de entrenamiento, podría resultar en una generación errónea que diverge de la entrada. El decodificador toma la entrada codificada del codificador y genera la secuencia objetivo final. Dos aspectos de la decodificación contribuyen a las alucinaciones. En primer lugar, los decodificadores pueden atender a la parte equivocada de la fuente de entrada codificada, lo que lleva a una generación errónea. En segundo lugar, el diseño de la propia estrategia de decodificación puede contribuir a las alucinaciones. Una estrategia de decodificación que mejora la diversidad generacional, como el muestreo top-k, se correlaciona positivamente con un aumento de las alucinaciones. [ cita necesaria ]
Se sabe que el entrenamiento previo de modelos en un corpus grande da como resultado que el modelo memorice conocimientos en sus parámetros, creando alucinaciones si el sistema tiene demasiada confianza en su conocimiento programado. En sistemas como GPT-3, una IA genera cada palabra siguiente basándose en una secuencia de palabras anteriores (incluidas las palabras que ella misma generó previamente durante la misma conversación), lo que provoca una cascada de posibles alucinaciones a medida que la respuesta se hace más larga. [6] Para 2022, periódicos como The New York Times expresaron su preocupación de que, a medida que la adopción de bots basados en grandes modelos de lenguaje continuara creciendo, la confianza injustificada de los usuarios en la producción de los bots podría generar problemas. [27]
El 15 de noviembre de 2022, investigadores de Meta AI publicaron Galactica, [28] diseñada para "almacenar, combinar y razonar sobre el conocimiento científico". El contenido generado por Galactica venía con la advertencia "¡Los resultados pueden no ser confiables! Los modelos de lenguaje son propensos a alucinar texto". En un caso, cuando se le pidió que redactara un artículo sobre la creación de avatares, Galactica citó un artículo ficticio de un autor real que trabaja en el área relevante. Meta retiró Galactica el 17 de noviembre debido a su ofensiva e inexactitud. [29] Antes de la cancelación, los investigadores estaban trabajando en Galactica Instruct, que utilizaría ajustes de instrucciones para permitir que el modelo siguiera instrucciones para manipular documentos LaTeX en Overleaf . [30]
ChatGPT de OpenAI , lanzado en versión beta al público el 30 de noviembre de 2022, se basa en el modelo básico GPT-3.5 (una revisión de GPT-3). El profesor Ethan Mollick de Wharton ha llamado a ChatGPT un "pasante omnisciente y deseoso de complacer que a veces te miente". La científica de datos Teresa Kubacka relató que inventó deliberadamente la frase "electromagnón cicloidal invertido" y probó ChatGPT preguntándole sobre el fenómeno (inexistente). ChatGPT inventó una respuesta que sonaba plausible respaldada con citas aparentemente plausibles que la obligaron a verificar si había escrito accidentalmente el nombre de un fenómeno real. Otros estudiosos, como Oren Etzioni, se han unido a Kubacka para evaluar que este tipo de software a menudo puede dar "una respuesta que suena muy impresionante y que es totalmente errónea". [31]
Cuando CNBC le pidió a ChatGPT la letra de " Ballad of Dwight Fry ", ChatGPT le proporcionó letras inventadas en lugar de las letras reales. [32] Cuando se le hicieron preguntas sobre New Brunswick , ChatGPT obtuvo muchas respuestas correctas pero clasificó incorrectamente a Samantha Bee como una "persona de New Brunswick". [33] Cuando se le preguntó acerca de los campos magnéticos astrofísicos, ChatGPT respondió incorrectamente que "los (fuertes) campos magnéticos de los agujeros negros son generados por las fuerzas gravitacionales extremadamente fuertes en sus proximidades". (En realidad, como consecuencia del teorema de la falta de pelo , se cree que un agujero negro sin un disco de acreción no tiene campo magnético). [34] Fast Company pidió a ChatGPT que generara un artículo de noticias sobre el último trimestre financiero de Tesla; ChatGPT creó un artículo coherente, pero inventó las cifras financieras que contiene. [35]
Otros ejemplos implican hostigar a ChatGPT con una premisa falsa para ver si embellece la premisa. Cuando se le preguntó acerca de la " idea de canonicidad dinámica de Harold Coward ", ChatGPT inventó que Coward escribió un libro titulado Canonicidad dinámica: un modelo para la interpretación bíblica y teológica , argumentando que los principios religiosos en realidad están en un estado de cambio constante. Cuando lo presionaron, ChatGPT continuó insistiendo en que el libro era real. [36] Cuando se le pidió pruebas de que los dinosaurios construyeron una civilización, ChatGPT afirmó que había restos fósiles de herramientas de dinosaurios y afirmó que "algunas especies de dinosaurios incluso desarrollaron formas de arte primitivas, como grabados en piedras". [37] Cuando se le preguntó que "los científicos han descubierto recientemente los churros , los deliciosos pasteles de masa frita... (son) herramientas ideales para la cirugía casera", ChatGPT afirmó que un "estudio publicado en la revista Science " encontró que la masa es flexible. suficiente para formar instrumentos quirúrgicos que pueden llegar a lugares difíciles de alcanzar y que el sabor tiene un efecto calmante en los pacientes. [38] [39]
Para 2023, los analistas consideraron que las alucinaciones frecuentes eran un problema importante en la tecnología LLM, y un ejecutivo de Google identificó la reducción de las alucinaciones como una tarea "fundamental" para el competidor de ChatGPT, Google Bard . [7] [40] Una demostración de 2023 de Bing AI basada en GPT de Microsoft parecía contener varias alucinaciones que el presentador no detectó. [7]
En mayo de 2023, se descubrió que Stephen Schwartz había presentado seis precedentes de casos falsos generados por ChatGPT en su escrito ante el Distrito Sur de Nueva York sobre Mata v. Avianca , un caso de lesiones personales contra la aerolínea Avianca . Schwartz dijo que nunca antes había usado ChatGPT, que no reconocía la posibilidad de que la producción de ChatGPT pudiera haber sido fabricada y que ChatGPT continuó afirmando la autenticidad de los precedentes después de que se descubrió su inexistencia. [41] En respuesta, Brantley Starr del Distrito Norte de Texas prohibió la presentación de expedientes de casos generados por IA que no hayan sido revisados por un humano, señalando que: [42] [43]
Las plataformas [de inteligencia artificial generativa] en sus estados actuales son propensas a alucinaciones y prejuicios . Sobre las alucinaciones, inventan cosas, incluso citas y citas. Otro problema es la confiabilidad o el sesgo. Mientras que los abogados hacen un juramento de dejar de lado sus prejuicios, prejuicios y creencias personales para defender fielmente la ley y representar a sus clientes, la inteligencia artificial generativa es producto de una programación ideada por humanos que no tuvieron que hacer tal juramento. Como tales, estos sistemas no mantienen ninguna lealtad hacia ningún cliente, el estado de derecho o las leyes y la Constitución de los Estados Unidos (o, como se mencionó anteriormente, la verdad). Sin estar sujetos a ningún sentido del deber, el honor o la justicia, estos programas actúan según un código informático más que por convicción, basándose en la programación más que en principios.
El 23 de junio, el juez P. Kevin Castel desestimó el caso Mata y emitió una multa de 5.000 dólares a Schwartz y a otro abogado (quienes habían seguido respetando los precedentes ficticios a pesar de las afirmaciones anteriores de Schwartz) por conducta de mala fe . Castel caracterizó numerosos errores e inconsistencias en los resúmenes de opiniones, describiendo una de las opiniones citadas como "galimatías" y "[casi] sin sentido". [44]
En junio de 2023, Mark Walters, un activista por los derechos de las armas y personalidad de la radio, demandó a OpenAI en un tribunal estatal de Georgia después de que ChatGPT caracterizara erróneamente una denuncia legal de una manera supuestamente difamatoria contra Walters. La denuncia en cuestión fue presentada en mayo de 2023 por la Fundación de la Segunda Enmienda contra el fiscal general de Washington, Robert W. Ferguson, por supuestamente violar su libertad de expresión, mientras que el resumen generado por ChatGPT no tenía ningún parecido y afirmaba que Walters fue acusado de malversación de fondos y fraude mientras ocupando un puesto en la oficina de la Fundación de la Segunda Enmienda que nunca ocupó en la vida real. Según el experto legal en IA, Eugene Volokh , es probable que OpenAI no esté protegido contra este reclamo por la Sección 230 , porque OpenAI probablemente "contribuyó materialmente" a la creación del contenido difamatorio. [45]
Los modelos de IA pueden causar problemas en el mundo de la investigación académica y científica debido a sus alucinaciones. Específicamente, se han registrado modelos como ChatGPT en múltiples casos para citar fuentes de información que o no son correctas o no existen. Un estudio realizado en el Cureus Journal of Medical Science mostró que de un total de 178 referencias citadas por GPT-3, 69 devolvieron un identificador de objeto digital (DOI) incorrecto o inexistente. Otros 28 no tenían un DOI conocido ni podían localizarse en una búsqueda en Google . [46]
Otro ejemplo fue documentado por Jerome Goddard de la Universidad Estatal de Mississippi . En un experimento, ChatGPT proporcionó información cuestionable sobre las garrapatas . Inseguros sobre la validez de la respuesta, preguntaron sobre la fuente de donde se había recopilado la información. Al mirar la fuente, era evidente que el DOI y los nombres de los autores habían sido alucinados. Se contactó a algunos de los autores y se les confirmó que no tenían conocimiento alguno de la existencia del artículo. [47] Goddard dice que, "en el estado actual de desarrollo [de ChatGPT], los médicos y los investigadores biomédicos NO deberían pedirle a ChatGPT fuentes, referencias o citas sobre un tema en particular. O, si lo hacen, todas esas referencias deben ser examinadas cuidadosamente. Para precisión." [47] El uso de estos modelos de lenguaje no está listo para los campos de la investigación académica y su uso debe manejarse con cuidado. [48]
Además de proporcionar material de referencia incorrecto o faltante, ChatGPT también tiene problemas al alucinar el contenido de algún material de referencia. Un estudio que analizó un total de 115 referencias proporcionadas por ChatGPT documentó que el 47% de ellas eran inventadas. Otro 46% citó referencias reales pero extrajo de ellas información incorrecta. Sólo el 7% restante de las referencias fueron citadas correctamente y proporcionaron información precisa. También se ha observado que ChatGPT "duplica" mucha información incorrecta. Cuando le preguntas a ChatGPT sobre un error que puede haber sido una alucinación, a veces intentará corregirse pero otras veces afirmará que la respuesta es correcta y proporcionará información aún más engañosa . [49]
Estos artículos alucinados generados por modelos de lenguaje también plantean un problema porque es difícil saber si un artículo fue generado por una IA. Para demostrarlo, un grupo de investigadores de la Universidad Northwestern de Chicago generó 50 resúmenes basados en informes existentes y analizó su originalidad. Los detectores de plagio otorgaron a los artículos generados una puntuación de originalidad del 100%, lo que significa que la información presentada parece ser completamente original. Otro software diseñado para detectar texto generado por IA solo pudo identificar correctamente estos artículos generados con una precisión del 66%. Los científicos investigadores tuvieron una tasa similar de error humano, identificando estos resúmenes a una tasa del 68%. [50] A partir de esta información, los autores de este estudio concluyeron que "[l]os límites éticos y aceptables del uso de ChatGPT en la escritura científica siguen sin estar claros, aunque algunos editores están comenzando a establecer políticas". [51] Debido a la capacidad de la IA para fabricar investigaciones sin ser detectada, el uso de la IA en el campo de la investigación hará que determinar la originalidad de la investigación sea más difícil y requerirá nuevas políticas que regulen su uso en el futuro.
Dada la capacidad del lenguaje generado por la IA para pasar por una investigación científica real en algunos casos, las alucinaciones de la IA presentan problemas para la aplicación de modelos de lenguaje en los campos de investigación académicos y científicos debido a su capacidad de ser indetectables cuando se presentan a investigadores reales. La alta probabilidad de devolver material de referencia inexistente e información incorrecta puede requerir que se establezcan limitaciones con respecto a estos modelos de lenguaje. Algunos dicen que más que alucinaciones, estos eventos se parecen más a "fabricaciones" y "falsificaciones" y que el uso de estos modelos de lenguaje presenta un riesgo para la integridad del campo en su conjunto. [52]
En Salon , el estadístico Gary N. Smith sostiene que los LLM "no entienden lo que significan las palabras" y, en consecuencia, que el término "alucinación" antropomorfiza irrazonablemente la máquina. [53] El periodista Benj Edwards, en Ars Technica , escribe que el término "alucinación" es controvertido, pero que sigue siendo necesaria alguna forma de metáfora; Edwards sugiere la " confabulación " como analogía de los procesos que implican "llenar huecos creativos". [2]
Una lista de usos del término "alucinación", definiciones o caracterizaciones en el contexto de los LLM incluye:
El concepto de "alucinación" se aplica de manera más amplia que el simple procesamiento del lenguaje natural. Una respuesta confiada de cualquier IA que parezca injustificada por los datos del entrenamiento puede etiquetarse como alucinación. [6]
Varios investigadores citados por Wired han clasificado las alucinaciones adversarias como un fenómeno estadístico de alta dimensión, o han atribuido las alucinaciones a datos de entrenamiento insuficientes. Algunos investigadores creen que algunas respuestas "incorrectas" de la IA clasificadas por los humanos como "alucinaciones" en el caso de la detección de objetos pueden de hecho estar justificadas por los datos del entrenamiento, o incluso que una IA puede estar dando la respuesta "correcta" que los revisores humanos no logran ver. Por ejemplo, una imagen adversaria que a un humano le parece una imagen ordinaria de un perro, de hecho puede ser vista por la IA como si contuviera pequeños patrones que (en imágenes auténticas) solo aparecerían al ver un gato. La IA está detectando patrones visuales del mundo real a los que los humanos son insensibles. [57]
Wired señaló en 2018 que, a pesar de que no se registraron ataques "en la naturaleza" (es decir, fuera de los ataques de prueba de concepto realizados por los investigadores), había "pocas dudas" de que los dispositivos de consumo y los sistemas como la conducción automatizada eran susceptibles. a ataques adversarios que podrían provocar alucinaciones en la IA. Los ejemplos incluyeron una señal de alto que se volvió invisible para la visión por computadora; un clip de audio diseñado para sonar inofensivo para los humanos, pero que el software transcribió como "evil dot com"; y una imagen de dos hombres esquiando, que Google Cloud Vision identificó como 91% de probabilidades de ser "un perro". [15] Sin embargo, estos hallazgos han sido cuestionados por otros investigadores. [58] Por ejemplo, se objetó que los modelos pueden estar sesgados hacia estadísticas superficiales, lo que lleva al entrenamiento adversario a no ser sólido en escenarios del mundo real. [58]
Los modelos generativos de texto a video, como Sora , pueden introducir imprecisiones en los videos generados. Un ejemplo es el viaducto de Glenfinnan, un lugar famoso que aparece en la serie de películas de Harry Potter . Sora añadió por error una segunda vía al viaducto, lo que resultó en una representación poco realista.
El fenómeno de las alucinaciones aún no se comprende del todo. Los investigadores también han propuesto que las alucinaciones son inevitables y son una limitación innata de los modelos de lenguaje grandes. [59] Por lo tanto, todavía hay investigaciones en curso para tratar de mitigar su aparición. [60] En particular, se demostró que los modelos de lenguaje no sólo alucinan sino que también amplifican las alucinaciones, incluso para aquellos que fueron diseñados para aliviar este problema. [61]
Ji et al. [62] dividen los métodos de mitigación comunes en dos categorías: métodos relacionados con datos y métodos de modelado e inferencia . Los métodos relacionados con los datos incluyen la creación de un conjunto de datos fiel, la limpieza de datos automáticamente y el aumento de la información mediante el aumento de las entradas con información externa. Los métodos de modelo e inferencia incluyen cambios en la arquitectura (ya sea modificando el codificador, la atención o el decodificador de varias maneras), cambios en el proceso de entrenamiento, como el uso del aprendizaje por refuerzo , junto con métodos de posprocesamiento que pueden corregir las alucinaciones en la salida.
Los investigadores han propuesto una variedad de medidas de mitigación, incluido hacer que diferentes chatbots debatan entre sí hasta llegar a un consenso sobre una respuesta. [63] Otro enfoque propone validar activamente la exactitud correspondiente a la generación de baja confianza del modelo utilizando resultados de búsqueda web. Han demostrado que una oración generada sufre alucinaciones con mayor frecuencia cuando el modelo ya ha alucinado en sus oraciones generadas previamente para la entrada, y están instruyendo al modelo para que cree una pregunta de validación que verifique la exactitud de la información sobre el concepto seleccionado usando la búsqueda de Bing. API. [64] Se propuso una capa adicional de reglas basadas en lógica para el método de mitigación de búsqueda web, mediante la utilización de diferentes rangos de páginas web como base de conocimiento, que difieren en jerarquía. [sesenta y cinco]
Según Luo et al., [66] los métodos anteriores caen en enfoques basados en el conocimiento y la recuperación que basan las respuestas de LLM en datos fácticos utilizando fuentes de conocimiento externas, como la conexión a tierra de rutas. [67] Luo y cols. Mencionar también el entrenamiento o guía de referencia para modelos de lenguaje, que involucra estrategias como el empleo de códigos de control [68] o el aprendizaje contrastivo [69] para guiar el proceso de generación para diferenciar entre contenido correcto y alucinado. Otra categoría es la evaluación y mitigación centrada en tipos de alucinaciones específicos, [66] como el empleo de métodos para evaluar la entidad cuantitativa en el resumen [70] y métodos para detectar y mitigar declaraciones autocontradictorias. [71]
Nvidia Guardrails, lanzado en 2023, se puede configurar para bloquear las respuestas de LLM que no pasen la verificación de datos de un segundo LLM. [72] Además, han surgido numerosas herramientas como SelfCheckGPT [73] y Aimon [74] para ayudar en la detección de alucinaciones en escenarios de experimentación fuera de línea y de producción en tiempo real.