Alucinación (inteligencia artificial)

Un video generado por Sora del Viaducto de Glenfinnan , que muestra incorrectamente una segunda vía donde el viaducto real solo tiene una, y una segunda chimenea en su aparente interpretación del tren The Jacobite , que también tiene distorsión en las ventanas del cuarto vagón.

En el campo de la inteligencia artificial (IA), una alucinación o alucinación artificial (también llamada bullshitting , ^[1]^[2] confabulación ^[3] o delirio ^[4] ) es una respuesta generada por la IA que contiene información falsa o engañosa presentada como un hecho . ^[5]^[6]^[7] Este término traza una analogía vaga con la psicología humana, donde la alucinación generalmente implica percepciones falsas . Sin embargo, hay una diferencia clave: la alucinación de la IA se asocia con respuestas erróneas en lugar de experiencias perceptivas. ^[7]

Por ejemplo, un chatbot impulsado por grandes modelos de lenguaje (LLM), como ChatGPT , puede incorporar falsedades aleatorias que suenen plausibles dentro de su contenido generado. Los investigadores han reconocido este problema y, para 2023, los analistas estimaron que los chatbots alucinan hasta un 27% del tiempo, ^[8] con errores factuales presentes en el 46% de los textos generados. ^[9] Detectar y mitigar estas alucinaciones plantea desafíos significativos para la implementación práctica y la confiabilidad de los LLM en escenarios del mundo real. ^[10]^[8]^[9] Algunos investigadores creen que el término específico "alucinación de IA" antropomorfiza irrazonablemente a las computadoras. ^[3]

Término

Origen

En 1995, Stephen Thaler introdujo el concepto de "fenómenos de entrada virtual" en el contexto de las redes neuronales y la inteligencia artificial. ^[11] Esta idea está estrechamente vinculada a su trabajo sobre la Máquina de la Creatividad. ^[12] Los fenómenos de entrada virtual se refieren a la generación espontánea de nuevas ideas o conceptos dentro de una red neuronal, similar a las alucinaciones, sin entradas externas explícitas. El trabajo clave de Thaler sobre este tema está encapsulado en su patente estadounidense "Dispositivo para la generación autónoma de información útil" (Patente n.° US 5.659.666), otorgada en 1997. Esta patente describe un sistema de red neuronal que puede generar de manera autónoma nueva información mediante la simulación de entradas virtuales. El sistema "imagina" efectivamente nuevos datos, debido a una variedad de perturbaciones transitorias y permanentes de la red, lo que conduce a resultados innovadores y creativos.

Este concepto es crucial para entender cómo se pueden diseñar redes neuronales para exhibir comportamientos creativos, produciendo resultados que van más allá de sus datos de entrenamiento iniciales e imitan aspectos de la creatividad humana y los procesos cognitivos.

A principios de la década de 2000, el término "alucinación" se utilizó en la visión artificial con una connotación positiva para describir el proceso de agregar detalles a una imagen. Por ejemplo, la tarea de generar imágenes de rostros de alta resolución a partir de entradas de baja resolución se denomina alucinación facial . ^[13]^[14]

A fines de la década de 2010, el término experimentó un cambio semántico para significar la generación de resultados factualmente incorrectos o engañosos por parte de los sistemas de IA en tareas como la traducción o la detección de objetos. ^[13] Por ejemplo, en 2017, los investigadores de Google utilizaron el término para describir las respuestas generadas por los modelos de traducción automática neuronal (NMT) cuando no están relacionadas con el texto de origen, ^[15] y en 2018, el término se utilizó en visión artificial para describir instancias en las que se detectan erróneamente objetos inexistentes debido a ataques adversarios. ^[16]

El término "alucinaciones" en IA ganó un reconocimiento más amplio durante el auge de la IA , junto con el lanzamiento de chatbots ampliamente utilizados basados en grandes modelos de lenguaje (LLM). ^[17] En julio de 2021, Meta advirtió durante su lanzamiento de BlenderBot 2 que el sistema es propenso a "alucinaciones", que Meta definió como "declaraciones seguras que no son verdaderas". ^[18]^[19] Tras el lanzamiento de ChatGPT de OpenAI en versión beta en noviembre de 2022, algunos usuarios se quejaron de que estos chatbots a menudo parecen incrustar sin sentido falsedades aleatorias que suenan plausibles dentro de su contenido generado. ^[20] Muchos medios de comunicación, incluido The New York Times , comenzaron a utilizar el término "alucinaciones" para describir las respuestas ocasionalmente incorrectas o inconsistentes de estos modelos. ^[21]

En 2023, algunos diccionarios actualizaron su definición de alucinación para incluir este nuevo significado específico del campo de la IA. ^[5]^[22]

Crítica

El término "alucinación" ha sido criticado por Usama Fayyad , director ejecutivo del Instituto de Inteligencia Artificial Experimental de la Universidad del Noreste , con el argumento de que personifica de manera engañosa grandes modelos de lenguaje y que es vago. ^[23]

En el procesamiento del lenguaje natural

Una traducción en el banco de pruebas Vicuna LLM del inglés al idioma construido Lojban , y luego nuevamente al inglés en una nueva ronda, genera un artefacto surrealista a partir de Génesis 1:6 ( RSV ).

En el procesamiento del lenguaje natural , una alucinación se define a menudo como "contenido generado que parece factual pero no tiene fundamento". ^[24] Hay diferentes formas de categorizar las alucinaciones. Dependiendo de si el resultado contradice la fuente o no se puede verificar a partir de la fuente, se dividen en intrínsecas y extrínsecas, respectivamente. ^[7] Dependiendo de si el resultado contradice el mensaje o no, se pueden dividir en dominio cerrado y dominio abierto respectivamente. ^[25]

Causas

Hay varias razones por las que los modelos de lenguaje natural pueden alucinar datos. ^[7]

Alucinación a partir de datos

La principal causa de alucinaciones a partir de datos es la divergencia entre la fuente y la referencia. Esta divergencia ocurre 1) como un artefacto de la recopilación de datos heurísticos o 2) debido a la naturaleza de algunas tareas de NLG que inevitablemente contienen dicha divergencia. Cuando un modelo se entrena con datos con divergencia entre la fuente y la referencia (objetivo), se puede incitar al modelo a generar texto que no necesariamente está fundamentado y no es fiel a la fuente proporcionada. ^[7]

Alucinación por modelado

Se ha demostrado que la alucinación es un subproducto estadísticamente inevitable de cualquier modelo generativo imperfecto que se entrena para maximizar la probabilidad de entrenamiento, como GPT-3 , y requiere un aprendizaje activo (como el aprendizaje de refuerzo a partir de la retroalimentación humana ) para evitarlo. ^[26] Otras investigaciones adoptan una perspectiva antropomórfica y postulan que las alucinaciones surgen de una tensión entre novedad y utilidad. Por ejemplo, Teresa Amabile y Pratt definen la creatividad humana como la producción de ideas novedosas y útiles. ^[27] Por extensión, un enfoque en la novedad en la creatividad de las máquinas puede conducir a la producción de respuestas originales pero inexactas, es decir, falsedades, mientras que un enfoque en la utilidad puede resultar en respuestas memorizadas de manera ineficaz. [28 ^]

Los errores en la codificación y decodificación entre texto y representaciones pueden causar alucinaciones. Cuando los codificadores aprenden las correlaciones incorrectas entre diferentes partes de los datos de entrenamiento, esto podría resultar en una generación errónea que diverge de la entrada. El decodificador toma la entrada codificada del codificador y genera la secuencia objetivo final. Dos aspectos de la decodificación contribuyen a las alucinaciones. Primero, los decodificadores pueden prestar atención a la parte incorrecta de la fuente de entrada codificada, lo que lleva a una generación errónea. Segundo, el diseño de la estrategia de decodificación en sí puede contribuir a las alucinaciones. Una estrategia de decodificación que mejora la diversidad de generación, como el muestreo top-k, se correlaciona positivamente con un aumento de las alucinaciones. ^{[ cita requerida ]}

Se sabe que el preentrenamiento de modelos en un corpus grande da como resultado que el modelo memorice el conocimiento en sus parámetros, lo que crea alucinaciones si el sistema confía demasiado en su conocimiento incorporado. En sistemas como GPT-3, una IA genera cada palabra siguiente basándose en una secuencia de palabras anteriores (incluidas las palabras que ella misma ha generado previamente durante la misma conversación), lo que provoca una cascada de posibles alucinaciones a medida que la respuesta se hace más larga. ^[7] Para 2022, artículos como The New York Times expresaron su preocupación por que, a medida que la adopción de bots basados en grandes modelos de lenguaje siguiera creciendo, la confianza injustificada de los usuarios en el resultado de los bots podría generar problemas. ^[29]

Ejemplos

El 15 de noviembre de 2022, los investigadores de Meta AI publicaron Galactica, ^[30] diseñada para "almacenar, combinar y razonar sobre el conocimiento científico". El contenido generado por Galactica venía con la advertencia "¡Los resultados pueden no ser confiables! Los modelos de lenguaje son propensos a alucinar el texto". En un caso, cuando se le pidió que redactara un artículo sobre la creación de avatares, Galactica citó un artículo ficticio de un autor real que trabaja en el área relevante. Meta retiró Galactica el 17 de noviembre debido a su carácter ofensivo e inexacto. ^[31] Antes de la cancelación, los investigadores estaban trabajando en Galactica Instruct, que utilizaría el ajuste de instrucciones para permitir que el modelo siguiera instrucciones para manipular documentos LaTeX en Overleaf . ^[32]

El ChatGPT de OpenAI , lanzado en versión beta al público el 30 de noviembre de 2022, se basa en el modelo base GPT-3.5 (una revisión de GPT-3). El profesor Ethan Mollick de Wharton ha llamado a ChatGPT un "pasante omnisciente, ansioso por complacer y que a veces te miente". La científica de datos Teresa Kubacka ha contado que inventó deliberadamente la frase "electromagnón cicloidal invertido" y puso a prueba ChatGPT preguntándole sobre el fenómeno (inexistente). ChatGPT inventó una respuesta que sonaba plausible respaldada con citas que parecían plausibles que la obligaron a verificar dos veces si había escrito accidentalmente el nombre de un fenómeno real. Otros académicos como Oren Etzioni se han unido a Kubacka al evaluar que este tipo de software a menudo puede dar "una respuesta que suena muy impresionante pero que es totalmente errónea". ^[33]

Cuando CNBC le pidió a ChatGPT la letra de " Balada de Dwight Fry ", ChatGPT proporcionó letras inventadas en lugar de la letra real. ^[34] Cuando se le hicieron preguntas sobre Nuevo Brunswick , ChatGPT obtuvo muchas respuestas correctas, pero clasificó incorrectamente a Samantha Bee como una "persona de Nuevo Brunswick". ^[35] Cuando se le preguntó sobre los campos magnéticos astrofísicos, ChatGPT se ofreció incorrectamente a decir que "los campos magnéticos (fuertes) de los agujeros negros son generados por las fuerzas gravitacionales extremadamente fuertes en su vecindad". (En realidad, como consecuencia del teorema de no pelo , se cree que un agujero negro sin un disco de acreción no tiene campo magnético). ^[36] Fast Company le pidió a ChatGPT que generara un artículo de noticias sobre el último trimestre financiero de Tesla; ChatGPT creó un artículo coherente, pero inventó las cifras financieras que contenía. ^[37]

Otros ejemplos incluyen tentar a ChatGPT con una premisa falsa para ver si embellece la premisa. Cuando se le preguntó sobre " la idea de canonicidad dinámica de Harold Coward ", ChatGPT inventó que Coward escribió un libro titulado Canonicidad dinámica: un modelo para la interpretación bíblica y teológica , argumentando que los principios religiosos están en realidad en un estado de cambio constante. Cuando se le presionó, ChatGPT continuó insistiendo en que el libro era real. ^[38] Cuando se le pidió una prueba de que los dinosaurios construyeron una civilización, ChatGPT afirmó que había restos fósiles de herramientas de dinosaurios y afirmó que "Algunas especies de dinosaurios incluso desarrollaron formas primitivas de arte, como grabados en piedras". ^[39] Cuando se le preguntó que "Los científicos han descubierto recientemente los churros , los deliciosos pasteles de masa frita... (son) herramientas ideales para la cirugía casera", ChatGPT afirmó que un "estudio publicado en la revista Science " encontró que la masa es lo suficientemente flexible como para formar instrumentos quirúrgicos que pueden llegar a lugares difíciles de alcanzar, y que el sabor tiene un efecto calmante en los pacientes. ^[40]^[41]

En 2023, los analistas consideraron que las alucinaciones frecuentes eran un problema importante en la tecnología LLM, y un ejecutivo de Google identificó la reducción de las alucinaciones como una tarea "fundamental" para el competidor de ChatGPT, Google Bard . ^[10]^[42] Una demostración de 2023 para Bing AI basada en GPT de Microsoft parecía contener varias alucinaciones que el presentador no detectó. ^[10]

En mayo de 2023, se descubrió que Stephen Schwartz había presentado seis precedentes de casos falsos generados por ChatGPT en su escrito al Distrito Sur de Nueva York sobre Mata v. Avianca , un caso de lesiones personales contra la aerolínea Avianca . Schwartz dijo que nunca antes había utilizado ChatGPT, que no reconocía la posibilidad de que el resultado de ChatGPT pudiera haber sido inventado y que ChatGPT continuó afirmando la autenticidad de los precedentes después de que se descubrió su inexistencia. ^[43] En respuesta, Brantley Starr del Distrito Norte de Texas prohibió la presentación de expedientes de casos generados por IA que no hayan sido revisados por un humano, señalando que: ^[44]^[45]

Las plataformas de [inteligencia artificial generativa] en su estado actual son propensas a alucinaciones y sesgos . En el caso de las alucinaciones, inventan cosas, incluso citas y referencias. Otro problema es la confiabilidad o el sesgo. Mientras que los abogados juran dejar de lado sus prejuicios, sesgos y creencias personales para defender fielmente la ley y representar a sus clientes, la inteligencia artificial generativa es el producto de una programación ideada por humanos que no tuvieron que jurar tal juramento. Como tales, estos sistemas no tienen lealtad hacia ningún cliente, el estado de derecho o las leyes y la Constitución de los Estados Unidos (o, como se mencionó anteriormente, la verdad). Sin estar sujetos a ningún sentido del deber, el honor o la justicia, estos programas actúan de acuerdo con un código informático en lugar de convicciones, basándose en la programación en lugar de en principios.

El 23 de junio, el juez P. Kevin Castel desestimó el caso Mata y multó a Schwartz y a otro abogado con 5.000 dólares por mala fe (los dos habían seguido defendiendo los precedentes ficticios a pesar de las afirmaciones previas de Schwartz) . Castel calificó los numerosos errores e inconsistencias de los resúmenes de las opiniones y describió una de las opiniones citadas como "un galimatías" y "[casi] absurda". ^[46]

En junio de 2023, Mark Walters, activista por los derechos de armas y personalidad de la radio, demandó a OpenAI en un tribunal estatal de Georgia después de que ChatGPT tergiversara una denuncia legal de una manera que supuestamente era difamatoria contra Walters. La denuncia en cuestión fue presentada en mayo de 2023 por la Second Amendment Foundation contra el fiscal general de Washington, Robert W. Ferguson , por supuestamente violar su libertad de expresión, mientras que el resumen generado por ChatGPT no tenía ningún parecido y afirmaba que Walters fue acusado de malversación y fraude mientras ocupaba un puesto en la oficina de la Second Amendment Foundation que nunca ocupó en la vida real. Según el experto legal en inteligencia artificial Eugene Volokh , es probable que OpenAI no esté protegida contra esta demanda por la Sección 230 , porque OpenAI probablemente "contribuyó materialmente" a la creación del contenido difamatorio. ^[47]

Investigación científica

Los modelos de IA pueden causar problemas en el mundo de la investigación académica y científica debido a sus alucinaciones. En concreto, se ha registrado que modelos como ChatGPT citan en múltiples casos fuentes de información que no son correctas o que no existen. Un estudio realizado en el Cureus Journal of Medical Science mostró que de un total de 178 referencias citadas por GPT-3, 69 devolvieron un identificador de objeto digital (DOI) incorrecto o inexistente. Otras 28 no tenían un DOI conocido ni se pudieron localizar en una búsqueda de Google . ^[48]

Otro caso fue documentado por Jerome Goddard de la Universidad Estatal de Mississippi . En un experimento, ChatGPT había proporcionado información cuestionable sobre las garrapatas . Inseguros sobre la validez de la respuesta, preguntaron sobre la fuente de la que se había obtenido la información. Al mirar la fuente, era evidente que el DOI y los nombres de los autores habían sido alucinados. Se contactó a algunos de los autores y confirmaron que no tenían conocimiento alguno de la existencia del artículo. ^[49] Goddard dice que, "en el estado actual de desarrollo [de ChatGPT], los médicos e investigadores biomédicos NO deberían pedir a ChatGPT fuentes, referencias o citas sobre un tema en particular. O, si lo hacen, todas esas referencias deberían ser examinadas cuidadosamente para comprobar su precisión". ^[49] El uso de estos modelos de lenguaje no está listo para los campos de investigación académica y su uso debe manejarse con cuidado. ^[50]

Además de proporcionar material de referencia incorrecto o faltante, ChatGPT también tiene problemas con la alucinación del contenido de algunos materiales de referencia. Un estudio que analizó un total de 115 referencias proporcionadas por ChatGPT documentó que el 47% de ellas eran inventadas. Otro 46% citó referencias reales pero extrajo información incorrecta de ellas. Solo el 7% restante de las referencias se citaron correctamente y proporcionaron información precisa. También se ha observado que ChatGPT "duplica" mucha de la información incorrecta. Cuando se le pregunta sobre un error que puede haber sido alucinado, a veces ChatGPT intentará corregirlo, pero otras veces afirmará que la respuesta es correcta y proporcionará información aún más engañosa . ^[51]

Estos artículos alucinados generados por modelos de lenguaje también plantean un problema porque es difícil determinar si un artículo fue generado por una IA. Para demostrarlo, un grupo de investigadores de la Universidad Northwestern de Chicago generó 50 resúmenes basados en informes existentes y analizó su originalidad. Los detectores de plagio dieron a los artículos generados una puntuación de originalidad del 100%, lo que significa que la información presentada parece ser completamente original. Otro software diseñado para detectar texto generado por IA solo pudo identificar correctamente estos artículos generados con una precisión del 66%. Los científicos investigadores tuvieron una tasa similar de error humano, identificando estos resúmenes con una tasa del 68%. ^[52] A partir de esta información, los autores de este estudio concluyeron que "los límites éticos y aceptables del uso de ChatGPT en la escritura científica siguen sin estar claros, aunque algunos editores están comenzando a establecer políticas". [ ^53] Debido a la capacidad de la IA para fabricar investigaciones sin ser detectada, el uso de la IA en el campo de la investigación hará que determinar la originalidad de la investigación sea más difícil y requerirá nuevas políticas que regulen su uso en el futuro.

Dada la capacidad del lenguaje generado por IA de pasar por investigación científica real en algunos casos, las alucinaciones de IA presentan problemas para la aplicación de modelos de lenguaje en los campos académicos y científicos de investigación debido a su capacidad de ser indetectables cuando se presentan a investigadores reales. La alta probabilidad de devolver material de referencia inexistente e información incorrecta puede requerir que se establezcan limitaciones con respecto a estos modelos de lenguaje. Algunos dicen que, en lugar de alucinaciones, estos eventos son más parecidos a "invenciones" y "falsificaciones" y que el uso de estos modelos de lenguaje presenta un riesgo para la integridad del campo en su conjunto. ^[54]

Terminologías

En Salon , el estadístico Gary N. Smith sostiene que los LLM "no entienden lo que significan las palabras" y, en consecuencia, que el término "alucinación" antropomorfiza irrazonablemente a la máquina. ^[55] El periodista Benj Edwards, en Ars Technica , escribe que el término "alucinación" es controvertido, pero que sigue siendo necesaria alguna forma de metáfora; Edwards sugiere la " confabulación " como analogía para los procesos que implican "llenar huecos de forma creativa". ^[3]

Una lista de usos del término "alucinación", definiciones o caracterizaciones en el contexto de los LLM incluyen:

"una tendencia a inventar hechos en momentos de incertidumbre" (OpenAI, mayo de 2023) ^[56]
"Los errores lógicos de un modelo" (OpenAI, mayo de 2023) ^[56]
"inventando información en su totalidad, pero comportándose como si estuvieran diciendo hechos" ( CNBC , mayo de 2023) ^[56]
"inventando información" ( The Verge , febrero de 2023) ^[57]

En otros usos de la inteligencia artificial

El concepto de "alucinación" se aplica a un ámbito más amplio que el del procesamiento del lenguaje natural. Una respuesta segura de cualquier IA que parezca errónea según los datos de entrenamiento puede calificarse de alucinación. ^[7]

Detección de objetos

Varios investigadores citados por Wired han clasificado las alucinaciones adversarias como un fenómeno estadístico de alta dimensión, o han atribuido las alucinaciones a datos de entrenamiento insuficientes. Algunos investigadores creen que algunas respuestas "incorrectas" de la IA clasificadas por los humanos como "alucinaciones" en el caso de la detección de objetos pueden, de hecho, estar justificadas por los datos de entrenamiento, o incluso que una IA puede estar dando la respuesta "correcta" que los revisores humanos no están viendo. Por ejemplo, una imagen adversaria que, para un humano, parece una imagen normal de un perro, puede de hecho ser vista por la IA como si contuviera pequeños patrones que (en imágenes auténticas) solo aparecerían al ver un gato. La IA está detectando patrones visuales del mundo real a los que los humanos no son sensibles. ^[59]

En 2018, Wired señaló que, a pesar de que no se registraron ataques "en la naturaleza" (es decir, fuera de los ataques de prueba de concepto realizados por investigadores), había "pocas disputas" sobre el hecho de que los dispositivos de consumo y los sistemas como la conducción automatizada eran susceptibles a ataques adversarios que podían hacer que la IA alucinara. Entre los ejemplos se incluían una señal de stop que se volvió invisible para la visión artificial; un clip de audio diseñado para sonar inocuo para los humanos, pero que el software transcribió como "evil dot com"; y una imagen de dos hombres en esquís, que Google Cloud Vision identificó como 91% probable de ser "un perro".^[16] Sin embargo, estos hallazgos han sido cuestionados por otros investigadores.^[60] Por ejemplo, se objetó que los modelos pueden estar sesgados hacia estadísticas superficiales, lo que hace que el entrenamiento adversario no sea sólido en escenarios del mundo real.^[60]

Inteligencia artificial generativa de texto a audio

La inteligencia artificial generativa de texto a audio, o más ampliamente conocida como síntesis de texto a voz (TTS), según la modalidad, se sabe que produce resultados inexactos e inesperados. ^[61]

Inteligencia artificial generativa de texto a imagen

Los modelos de texto a imagen, como Stable Diffusion , Midjourney y otros, si bien son impresionantes en su capacidad de generar imágenes a partir de descripciones de texto, a menudo producen resultados inexactos o inesperados.

Un problema notable es la generación de imágenes históricamente inexactas. Por ejemplo, Gemini representó a los antiguos romanos como individuos negros ^[62] o a los soldados alemanes nazis como personas de color ^[63] , lo que provocó controversia y llevó a Google a detener la generación de imágenes que involucraban a personas en Gemini. ^[64]

Inteligencia artificial generativa de texto a video

Los modelos generativos de texto a video, como Sora , pueden introducir imprecisiones en los videos generados. Un ejemplo es el viaducto de Glenfinnan, un famoso monumento que aparece en la serie de películas de Harry Potter . Sora agregó por error una segunda vía al ferrocarril del viaducto, lo que dio como resultado una representación poco realista.

Métodos de mitigación

El fenómeno de las alucinaciones aún no se comprende por completo. Los investigadores también han propuesto que las alucinaciones son inevitables y constituyen una limitación innata de los grandes modelos lingüísticos. ^[65] Por lo tanto, todavía hay investigaciones en curso para intentar mitigar su ocurrencia. ^[66] En particular, se ha demostrado que los modelos lingüísticos no solo alucinan, sino que también amplifican las alucinaciones, incluso en el caso de aquellos que fueron diseñados para aliviar este problema. ^[67]

Ji et al. ^[68] dividen el método de mitigación común en dos categorías: métodos relacionados con los datos y métodos de modelado e inferencia . Los métodos relacionados con los datos incluyen la construcción de un conjunto de datos fiel, la limpieza automática de los datos y el aumento de la información mediante la ampliación de las entradas con información externa. Los métodos de modelado e inferencia incluyen cambios en la arquitectura (ya sea modificando el codificador, la atención o el decodificador de varias maneras), cambios en el proceso de entrenamiento, como el uso del aprendizaje de refuerzo , junto con métodos de posprocesamiento que pueden corregir alucinaciones en la salida.

Los investigadores han propuesto una variedad de medidas de mitigación, incluyendo hacer que diferentes chatbots debatan entre sí hasta que lleguen a un consenso sobre una respuesta. ^[69] Otro enfoque propone validar activamente la corrección correspondiente a la generación de baja confianza del modelo utilizando resultados de búsqueda web. Han demostrado que una oración generada se alucina con más frecuencia cuando el modelo ya ha alucinado en sus oraciones generadas previamente para la entrada, y están instruyendo al modelo para crear una pregunta de validación que verifique la exactitud de la información sobre el concepto seleccionado utilizando la API de búsqueda de Bing . ^[70] Se propuso una capa adicional de reglas basadas en lógica para el método de mitigación de búsqueda web, utilizando diferentes rangos de páginas web como base de conocimiento, que difieren en jerarquía. ^[71]

Según Luo et al., ^[72] los métodos anteriores se enmarcan en enfoques basados en el conocimiento y la recuperación que fundamentan las respuestas de LLM en datos factuales utilizando fuentes de conocimiento externas, como la fundamentación de trayectorias ^[73] . Luo et al. también mencionan el entrenamiento o la guía de referencia para modelos de lenguaje, que implica estrategias como el empleo de códigos de control ^[74] o el aprendizaje contrastivo ^[75] para guiar el proceso de generación para diferenciar entre contenido correcto y alucinado. Otra categoría es la evaluación y mitigación centrada en tipos específicos de alucinaciones ^[72] , como el empleo de métodos para evaluar la entidad de cantidad en el resumen ^[76] y métodos para detectar y mitigar declaraciones autocontradictorias ^{[77] .}

Nvidia Guardrails, lanzado en 2023, se puede configurar para codificar ciertas respuestas a través de un script en lugar de dejarlas en manos del LLM. ^[78] Además, han surgido numerosas herramientas como SelfCheckGPT ^[79] y Aimon ^[80] para ayudar en la detección de alucinaciones en la experimentación fuera de línea y en escenarios de producción en tiempo real.

Véase también

Referencias

^ Dolan, Eric W. (9 de junio de 2024). "Académicos: la IA no está "alucinando", sino mintiendo". PsyPost - Noticias de psicología . Consultado el 11 de junio de 2024 .
^ Hicks, Michael Townsen; Humphries, James; Slater, Joe (8 de junio de 2024). "ChatGPT es una tontería". Ética y tecnología de la información . 26 (2): 38. doi : 10.1007/s10676-024-09775-5 . ISSN 1572-8439.
^ abc Edwards, Benj (6 de abril de 2023). "Por qué ChatGPT y Bing Chat son tan buenos inventando cosas". Ars Technica . Consultado el 11 de junio de 2023 .
^ "Sacudiendo los cimientos: delirios en modelos secuenciales de interacción y control". www.deepmind.com . 22 de diciembre de 2023.
^ ab "Definición de ALUCINACIÓN". www.merriam-webster.com . 21 de octubre de 2023 . Consultado el 29 de octubre de 2023 .
^ Joshua Maynez; Shashi Narayan; Bernd Bohnet; Ryan McDonald (2020). "Sobre la fidelidad y la facticidad en el resumen abstractivo". Actas de la 58.ª reunión anual de la Asociación de Lingüística Computacional (ACL) (2020) . arXiv : 2005.00661 . Consultado el 26 de septiembre de 2023 .
^ abcdefg Ji, Ziwei; Lee, Nayeon; Frieske, Rita; Yu, Tiezheng; Su, Dan; Xu, Yan; Ishii, Etsuko; Bang, Yejin; Dai, Wenliang; Madotto, Andrea; Fung, Pascale (noviembre de 2022). "Encuesta sobre alucinaciones en la generación de lenguaje natural" (pdf) . Encuestas de computación de la ACM . 55 (12). Asociación para la Maquinaria Computacional : 1–38. arXiv : 2202.03629 . doi :10.1145/3571730. S2CID 246652372 . Consultado el 15 de enero de 2023 .
^ ab Metz, Cade (6 de noviembre de 2023). "Los chatbots pueden 'alucinar' con más frecuencia de lo que muchos creen". The New York Times .
^ ab de Wynter, Adrian; Wang, Xun; Sokolov, Alex; Gu, Qilong; Chen, Si-Qing (13 de julio de 2023). "Una evaluación de los resultados de modelos de lenguaje de gran tamaño: discurso y memorización". Natural Language Processing Journal . 4 . arXiv : 2304.08637 . doi : 10.1016/j.nlp.2023.100024 . ISSN 2949-7191.
^ abc Leswing, Kif (14 de febrero de 2023). "La inteligencia artificial de Bing de Microsoft cometió varios errores factuales en la demostración de lanzamiento de la semana pasada". CNBC . Consultado el 16 de febrero de 2023 .
^ Thaler, Stephen (diciembre de 1995). "Fenómenos de entrada virtual en el marco de la muerte de un asociador de patrones simple". Redes neuronales . 8 (1): 55–6. doi :10.1016/0893-6080(94)00065-T.
^ Thaler, Stephen (enero de 2013). "El paradigma de la máquina de la creatividad". En Carayannis, Elias G. (ed.). Enciclopedia de creatividad, invención, innovación y emprendimiento . Springer Science+Business Media, LLC. págs. 447–456. doi :10.1007/978-1-4614-3858-8_396. ISBN 978-1-4614-3857-1.
^ ab "Alucinaciones de IA: un nombre erróneo que vale la pena aclarar". arxiv.org . Consultado el 2 de abril de 2024 .
^ "Alucinación facial". people.csail.mit.edu . Consultado el 2 de abril de 2024 .
^ "Alucinaciones en la traducción automática neuronal". research.google . Consultado el 2 de abril de 2024 .
^ ab Simonite, Tom (9 de marzo de 2018). "AI Has a Hallucination Problem That's Proving Tough to Fix" (La inteligencia artificial tiene un problema de alucinaciones que está resultando difícil de solucionar). Wired . Condé Nast . Consultado el 29 de diciembre de 2022 .
^ Zhuo, Terry Yue; Huang, Yujin; Chen, Chunyang; Xing, Zhenchang (2023). "Explorando la ética de la IA de ChatGPT: un análisis de diagnóstico". arXiv : 2301.12867 [cs.CL].
^ "Blender Bot 2.0: un chatbot de código abierto que crea memoria a largo plazo y busca en Internet". ai.meta.com . Consultado el 2 de marzo de 2024 .
^ Tung, Liam (8 de agosto de 2022). «Meta advierte que su nuevo chatbot puede olvidar que es un bot». ZDNET . Consultado el 30 de diciembre de 2022 .
^ Seife, Charles (13 de diciembre de 2022). "Los alarmantes engaños en el corazón de un nuevo y asombroso chatbot". Slate . Consultado el 16 de febrero de 2023 .
^ Weise, Karen; Metz, Cade (1 de mayo de 2023). "When AI Chatbots Hallucinate". The New York Times . ISSN 0362-4331 . Consultado el 8 de mayo de 2023 .
^ Creamer, Ella (15 de noviembre de 2023). «'Alucinar' elegida como palabra del año del diccionario de Cambridge». The Guardian . Consultado el 7 de junio de 2024 .
^ Stening, Tanner (10 de noviembre de 2023). "¿Qué hacen realmente los chatbots de IA cuando 'alucinan'? Esta es la razón por la que a los expertos no les gusta el término". Northeastern Global News . Consultado el 14 de junio de 2024 .
^ Tonmoy, SM Towhidul Islam; Zaman, SM Mehedi; Jainista, Vinija; Rani, Anku; Rawte, Vipula; Chadha, Aman; Das, Amitava (8 de enero de 2024). "Un estudio completo de las técnicas de mitigación de alucinaciones en modelos de lenguaje grandes". arXiv : 2401.01313 [cs.CL].
^ OpenAI (2023). "Informe técnico de GPT-4". arXiv : 2303.08774 [cs.CL].
^ Hanneke, Steve; Kalai, Adam Tauman; Kamath, Gautam; Tzamos, Christos (2018). Evitar activamente el sinsentido en los modelos generativos. Vol. 75. Actas de investigación sobre aprendizaje automático (PMLR). págs. 209–227.
^ Amabile, Teresa M.; Pratt, Michael G. (2016). "El modelo componencial dinámico de la creatividad y la innovación en las organizaciones: progresar, crear significado". Investigación en comportamiento organizacional . 36 : 157–183. doi :10.1016/j.riob.2016.10.001. S2CID 44444992.
^ Mukherjee, Anirban; Chang, Hannah H. (2023). "Gestión de la frontera creativa de la IA generativa: el equilibrio entre novedad y utilidad". California Management Review .
^ Metz, Cade (10 de diciembre de 2022). "Los nuevos chatbots podrían cambiar el mundo. ¿Se puede confiar en ellos?". The New York Times . Consultado el 30 de diciembre de 2022 .
^ Taylor, Ross; Kardas, Marcin; Cucurull, Guillem; Scialom, Thomas; Hartshorn, Antonio; Saravia, Elvis; Poulton, Andrés; Kerkez, Viktor; Stojnic, Robert (16 de noviembre de 2022). "Galáctica: un gran modelo de lenguaje para la ciencia". arXiv : 2211.09085 [cs.CL].
^ Edwards, Benj (18 de noviembre de 2022). "La nueva demostración de Meta AI escribe literatura científica racista e inexacta y es retirada". Ars Technica . Consultado el 30 de diciembre de 2022 .
^ Scialom, Thomas (23 de julio de 2024). "Llama 2, 3 y 4: datos sintéticos, RLHF, agentes en el camino hacia la inteligencia artificial general de código abierto". Espacio latente (entrevista). Entrevista realizada por swyx y Alessio. Archivado desde el original el 24 de julio de 2024.
^ Bowman, Emma (19 de diciembre de 2022). "Un nuevo chatbot de IA podría hacer tu tarea por ti, pero aún no es un estudiante con sobresaliente". NPR . Consultado el 29 de diciembre de 2022 .
^ Pitt, Sofia (15 de diciembre de 2022). "Google vs. ChatGPT: esto es lo que pasó cuando cambié de servicio por un día". CNBC . Consultado el 30 de diciembre de 2022 .
^ Huizinga, Raechel (30 de diciembre de 2022). "Le hicimos preguntas a una IA sobre New Brunswick. Algunas de las respuestas pueden sorprenderte". CBC News . Consultado el 30 de diciembre de 2022 .
^ Zastrow, Mark (30 de diciembre de 2022). "Le hicimos preguntas a ChatGPT sobre astronomía. No nos fue muy bien". Discover . Consultado el 31 de diciembre de 2022 .
^ Lin, Connie (5 de diciembre de 2022). "Cómo engañar fácilmente al nuevo y genial ChatGPT de OpenAI". Fast Company . Consultado el 6 de enero de 2023 .
^ Edwards, Benj (1 de diciembre de 2022). «OpenAI invita a todos a probar ChatGPT, un nuevo chatbot impulsado por IA, con resultados divertidos». Ars Technica . Consultado el 29 de diciembre de 2022 .
^ Mollick, Ethan (14 de diciembre de 2022). "ChatGPT es un punto de inflexión para la IA". Harvard Business Review . Consultado el 29 de diciembre de 2022 .
^ Kantrowitz, Alex (2 de diciembre de 2022). "Por fin, un chatbot de IA que pasa de forma fiable 'la prueba nazi'". Slate . Consultado el 29 de diciembre de 2022 .
^ Marcus, Gary (2 de diciembre de 2022). "¿Cómo es posible que GPT parezca tan brillante en un momento y tan increíblemente tonto al siguiente?". El camino hacia una IA en la que podamos confiar . Substack . Consultado el 29 de diciembre de 2022 .
^ "Google advierte contra los chatbots 'alucinatorios', según un informe". Reuters. 11 de febrero de 2023. Consultado el 16 de febrero de 2023 .
^ Maruf, Ramishah (27 de mayo de 2023). "Abogado se disculpa por las citaciones judiciales falsas de ChatGPT". CNN Business.
^ Brodkin, Jon (31 de mayo de 2023). "Juez federal: No habrá IA en mi sala del tribunal a menos que un humano verifique su precisión". Ars Technica .
^ "Juez Brantley Starr". Distrito Norte de Texas | Tribunal de Distrito de los Estados Unidos . Consultado el 26 de junio de 2023 .
^ Brodkin, Jon (23 de junio de 2023). "Los abogados tienen un día realmente malo en la corte después de citar casos falsos inventados por ChatGPT". Ars Technica .
^ Belanger, Ashley (9 de junio de 2023). "OpenAI enfrenta una demanda por difamación luego de que ChatGPT inventara por completo otra demanda". Ars Technica .
^ Athaluri, Sai Anirudh; Manthena, Sandeep Varma; Kesapragada, VSR Krishna Manoj; Yarlagadda, Vineel; Dave, Tirth; Duddumpudi, Rama Tulasi Siri (11 de abril de 2023). "Explorando los límites de la realidad: investigando el fenómeno de las alucinaciones de la inteligencia artificial en la escritura científica a través de referencias de ChatGPT". Cureus . 15 (4): e37432. doi : 10.7759/cureus.37432 . ISSN 2168-8184. PMC 10173677 . PMID 37182055.
^ ab Goddard, Jerome (25 de junio de 2023). "Alucinaciones en ChatGPT: una advertencia para los investigadores biomédicos". The American Journal of Medicine . 136 (11): 1059–1060. doi :10.1016/j.amjmed.2023.06.012. ISSN 0002-9343. PMID 37369274. S2CID 259274217.
^ Ji, Ziwei; Yu, Tiezheng; Xu, Yan; lee, Nayeon (2023). Hacia la mitigación de las alucinaciones en grandes modelos lingüísticos mediante la autorreflexión. Hallazgos del EMNLP.
^ Bhattacharyya, Mehul; Miller, Valerie M.; Bhattacharyya, Debjani; Miller, Larry E.; Bhattacharyya, Mehul; Miller, Valerie; Bhattacharyya, Debjani; Miller, Larry E. (19 de mayo de 2023). "Altas tasas de referencias inventadas e inexactas en el contenido médico generado por ChatGPT". Cureus . 15 (5): e39238. doi : 10.7759/cureus.39238 . ISSN 2168-8184. PMC 10277170 . PMID 37337480.
^ Else, Holly (12 de enero de 2023). "Los resúmenes escritos por ChatGPT engañan a los científicos". Nature . 613 (7944): 423. Bibcode :2023Natur.613..423E. doi :10.1038/d41586-023-00056-7. PMID 36635510. S2CID 255773668.
^ Gao, Catherine A.; Howard, Frederick M.; Markov, Nikolay S.; Dyer, Emma C.; Ramesh, Siddhi; Luo, Yuan; Pearson, Alexander T. (26 de abril de 2023). "Comparación de resúmenes científicos generados por ChatGPT con resúmenes reales con detectores y revisores humanos ciegos". npj Digital Medicine . 6 (1): 75. doi :10.1038/s41746-023-00819-6. ISSN 2398-6352. PMC 10133283 . PMID 37100871.
^ Emsley, Robin (19 de agosto de 2023). "ChatGPT: no son alucinaciones, son invenciones y falsificaciones". Esquizofrenia . 9 (1): 52. doi :10.1038/s41537-023-00379-4. ISSN 2754-6993. PMC 10439949 . PMID 37598184.
^ "Una IA que puede "escribir" alimenta las ilusiones sobre lo inteligente que es realmente la inteligencia artificial". Salon . 2 de enero de 2023 . Consultado el 11 de junio de 2023 .
^ abc Field, Hayden (31 de mayo de 2023). «OpenAI está buscando una nueva forma de combatir las 'alucinaciones' de la IA». CNBC . Consultado el 11 de junio de 2023 .
^ Vincent, James (8 de febrero de 2023). «El chatbot de inteligencia artificial Bard de Google comete un error factual en la primera demostración». The Verge . Consultado el 11 de junio de 2023 .
^ Ferrie, C.; Kaiser, S. (2019). Redes neuronales para bebés . Naperville, Illinois: Sourcebooks Jabberwocky. ISBN 978-1492671206.OCLC 1086346753 .
^ Matsakis, Louise (8 de mayo de 2019). «La inteligencia artificial puede no 'alucinar' después de todo». Wired . Consultado el 29 de diciembre de 2022 .
^ ab Gilmer, Justin; Hendrycks, Dan (6 de agosto de 2019). "Una discusión sobre 'Los ejemplos adversarios no son errores, son características': los investigadores de ejemplos adversarios necesitan ampliar lo que se entiende por 'robustez'". Distill . 4 (8). doi : 10.23915/distill.00019.1 . S2CID 201142364 . Consultado el 24 de enero de 2023 .
^ Zhang, Chenshuang; Zhang, Chaoning; Zheng, Sheng; Zhang, Mengchun; Qamar, Maryam; Bae, Sung-Ho; Kweon, In So (2 de abril de 2023). "Una encuesta sobre modelos de difusión de audio: síntesis y mejora de texto a voz en IA generativa". arXiv : 2303.13336 [cs.SD].
^ Jonathan, Pageau. "Google Gemini es una bonita imagen de uno de los peligros de la IA a medida que le damos más poder. La ideología está tan densamente superpuesta que distorsiona todo y luego se duplica. La primera imagen parece correcta, pero desplácese hacia abajo". Twitter . Consultado el 14 de agosto de 2024 .
^ Robertson, Adi (21 de febrero de 2024). «Google se disculpa por «no haber acertado» después de que Gemini generara nazis racialmente diversos». The Verge . Consultado el 14 de agosto de 2024 .
^ "La generación de imágenes de Gemini se equivocó. Lo haremos mejor". Google . 23 de febrero de 2024 . Consultado el 14 de agosto de 2024 .
^ Ji, Ziwei; Jain, Sanjay; Kankanhalli, Mohan (2024). "La alucinación es inevitable: una limitación innata de los modelos lingüísticos de gran tamaño". arXiv : 2401.11817 [cs.CL].
^ Nie, Feng; Yao, Jin-Ge; Wang, Jinpeng; Pan, Rong; Lin, Chin-Yew (julio de 2019). "Una receta sencilla para reducir la alucinación en la realización de superficies neuronales" (PDF) . Actas de la 57.ª reunión anual de la Asociación de Lingüística Computacional . Asociación de Lingüística Computacional: 2673–2679. doi :10.18653/v1/P19-1256. S2CID 196183567 . Consultado el 15 de enero de 2023 .
^ Dziri, Nouha; Milton, Sivan; Yu, Mo; Zaiane, Osmar; Reddy, Siva (julio de 2022). "Sobre el origen de las alucinaciones en los modelos conversacionales: ¿son los conjuntos de datos o los modelos?" (PDF) . Actas de la Conferencia de 2022 del Capítulo norteamericano de la Asociación de Lingüística Computacional: Tecnologías del lenguaje humano . Asociación de Lingüística Computacional. págs. 5271–5285. doi :10.18653/v1/2022.naacl-main.387. S2CID 250242329 . Consultado el 15 de enero de 2023 .
^ Ji, Ziwei; Lee, Nayeon; Frieske, Rita; Yu, Tiezheng; Su, Dan; Xu, Yan; Ishii, Etsuko; Bang, Yejin; Chen, Delong; Chan, Ho Shu; Dai, Wenliang; Madotto, Andrea; Fung, Pascale (2023). "Encuesta sobre alucinaciones en la generación de lenguaje natural". Encuestas de computación ACM . 55 (12): 1–38. arXiv : 2202.03629 . doi :10.1145/3571730.
^ Vynck, Gerrit De (30 de mayo de 2023). "ChatGPT 'alucina'. Algunos investigadores temen que no tenga solución". Washington Post . Consultado el 31 de mayo de 2023 .
^ Varshney, Neeraj; Yao, Wenling; Zhang, Hongming; Chen, Jianshu; Yu, Dong (2023). "Una puntada a tiempo ahorra nueve: detección y mitigación de alucinaciones de LLM mediante la validación de la generación de baja confianza". arXiv : 2307.03987 [cs.CL].
^ Šekrst, Kristina. "Creencias falsas e injustificadas: alucinaciones de IA y lógicas de justificación". En Grgić, Filip; Świętorzecka, Kordula; Brożek, Anna (eds.). Lógica, conocimiento y tradición: ensayos en honor a Srecko Kovač . Consultado el 4 de junio de 2024 .
^ ab Luo, Junliang; Li, Tianyu; Wu, Di; Jenkin, Michael; Liu, Steve; Dudek, Gregory (2024). "Detección y mitigación de alucinaciones: una investigación". arXiv : 2401.08358 [cs.CL].
^ Dziri, Nouha; Madotto, Andrea; Zaiane, Osmar; Bose, Avishek Joey (2021). "Cazador de caminos neuronales: reducción de la alucinación en sistemas de diálogo mediante la conexión a tierra de caminos". arXiv : 2104.08455 [cs.CL].
^ Rashkin, Hannah; Reitter, David; Tomar, Gaurav Singh; Das, Dipanjan (2021). "Aumento de la fidelidad en el diálogo basado en el conocimiento con características controlables" (PDF) . Actas de la 59.ª Reunión Anual de la Asociación de Lingüística Computacional y la 11.ª Conferencia Conjunta Internacional sobre Procesamiento del Lenguaje Natural .
^ Sol, Weiwei; Shi, Zhengliang; Gao, Shen; Ren, Pengjie; de Rijke, Martín; Ren, Zhaochun (2022). "El aprendizaje contrastivo reduce las alucinaciones en las conversaciones". arXiv : 2212.10400 [cs.CL].
^ Zhao, Zheng; Cohen, Shay B; Webber, Cohen Bonnie (2020). "Reducción de alucinaciones cuantitativas en el resumen abstractivo" (PDF) . Hallazgos de la Asociación de Lingüística Computacional: EMNLP 2020 .
^ Mündler, Niels; He, Jingxuan; Jenko, Slobodan; Vechev, Martin (2023). "Alucinaciones autocontradictorias de grandes modelos lingüísticos: evaluación, detección y mitigación". arXiv : 2305.15852 [cs.CL].
^ Leswing, Kif (25 de abril de 2023). "Nvidia tiene una nueva forma de evitar que los chatbots de IA 'alucinen' datos erróneos". CNBC . Consultado el 15 de junio de 2023 .
^ Potsawee (9 de mayo de 2024). «potsawee/selfcheckgpt». GitHub . Consultado el 9 de mayo de 2024 .
^ "Aimon". aimonlabs. 8 de mayo de 2024. Consultado el 9 de mayo de 2024 .