Alucinación (inteligencia artificial)

Un vídeo generado por Sora del viaducto de Glenfinnan , que muestra incorrectamente una segunda vía donde el viaducto real solo tiene una, y una segunda chimenea en su aparente interpretación del tren The Jacobite .

En el campo de la inteligencia artificial (IA), una alucinación o alucinación artificial (también llamada bullshitting , ^[1] confabulación ^[2] o delirio ^{[3] ) es una respuesta generada por la IA que contiene}información falsa o engañosa presentada como un hecho . ^[4]^[5]^[6] Este término establece una vaga analogía con la psicología humana, donde las alucinaciones generalmente implican percepciones falsas . Sin embargo, hay una diferencia clave: las alucinaciones por IA se asocian con respuestas o creencias injustificadas más que con experiencias perceptivas. ^[6]

Por ejemplo, un chatbot impulsado por grandes modelos de lenguaje (LLM), como ChatGPT , puede incorporar falsedades aleatorias que parezcan plausibles dentro de su contenido generado. Los investigadores han reconocido este problema y, para 2023, los analistas estimaron que los chatbots alucinan hasta el 27% de las veces, con errores fácticos presentes en el 46% de sus respuestas. Detectar y mitigar estas alucinaciones plantea desafíos importantes para la implementación práctica y la confiabilidad de los LLM en escenarios del mundo real. ^[7]^[8]^[9] Algunos investigadores creen que el término específico "alucinación por IA" antropomorfiza irrazonablemente a las computadoras. ^[2]

Término

Origen

En 1995, Stephen Thaler introdujo el concepto de "fenómenos de entrada virtual" en el contexto de las redes neuronales y la inteligencia artificial. ^[10] Esta idea está estrechamente ligada a su trabajo en Creativity Machine. ^[11] Los fenómenos de entrada virtual se refieren a la generación espontánea de nuevas ideas o conceptos dentro de una red neuronal, similar a las alucinaciones, sin entradas externas explícitas. El trabajo clave de Thaler sobre este tema se resume en su patente estadounidense "Dispositivo para la generación autónoma de información útil" (Patente nº US 5.659.666), concedida en 1997. Esta patente describe un sistema de red neuronal que puede generar de forma autónoma nueva información mediante la simulación virtual. entradas. El sistema "imagina" efectivamente nuevos datos, debido a una variedad de perturbaciones transitorias y permanentes de la red, lo que genera resultados innovadores y creativos.

Este concepto es crucial para comprender cómo se pueden diseñar redes neuronales para exhibir comportamientos creativos, produciendo resultados que van más allá de sus datos de entrenamiento iniciales e imitan aspectos de la creatividad humana y los procesos cognitivos.

A principios de la década de 2000, el término "alucinación" se utilizaba en visión por computadora con una connotación positiva para describir el proceso de agregar detalles a una imagen. Por ejemplo, la tarea de generar imágenes faciales de alta resolución a partir de entradas de baja resolución se llama alucinación facial . ^[12]^[13]

A finales de la década de 2010, el término experimentó un cambio semántico para significar la generación de resultados objetivamente incorrectos o engañosos por parte de los sistemas de inteligencia artificial en tareas como la traducción o la detección de objetos. ^[12] Por ejemplo, en 2017, los investigadores de Google usaron el término para describir las respuestas generadas por modelos de traducción automática neuronal (NMT) cuando no están relacionadas con el texto fuente, ^[14] y en 2018, el término se usó en computadoras. Visión para describir casos en los que objetos inexistentes se detectan erróneamente debido a ataques adversarios. ^[15]

El término "alucinaciones" en IA ganó un mayor reconocimiento durante el auge de la IA , junto con el lanzamiento de chatbots ampliamente utilizados basados en grandes modelos de lenguaje (LLM). ^[16] En julio de 2021, Meta advirtió durante el lanzamiento de BlenderBot 2 que el sistema es propenso a "alucinaciones", que Meta definió como "declaraciones seguras que no son ciertas". ^[17]^[18] Tras el lanzamiento de ChatGPT de OpenAI en versión beta en noviembre de 2022, algunos usuarios se quejaron de que dichos chatbots a menudo parecen incorporar inútilmente falsedades aleatorias que suenan plausibles dentro de su contenido generado. ^[19] Muchos medios de comunicación, incluido The New York Times , comenzaron a utilizar el término "alucinaciones" para describir las respuestas ocasionalmente incorrectas o inconsistentes de estos modelos. ^[20]

En 2023, algunos diccionarios actualizaron su definición de alucinación para incluir un nuevo significado específico del campo de la IA. ^[4]^[21]

Crítica

El término "alucinación" ha sido criticado por Usama Fayyad , director ejecutivo del Instituto de Inteligencia Artificial Experimental de la Universidad Northeastern , con el argumento de que personifica engañosamente grandes modelos de lenguaje y que es vago. ^[22]

En el procesamiento del lenguaje natural

Una traducción del inglés al idioma construido Lojban en el banco de pruebas Vicuña LLM , y luego nuevamente al inglés en una nueva ronda, genera un artefacto surrealista de Génesis 1:6 ( RSV ).

En el procesamiento del lenguaje natural , una alucinación a menudo se define como "contenido generado que parece real pero no tiene fundamento". Hay diferentes formas de clasificar las alucinaciones. Dependiendo de si la salida contradice la fuente o no se puede verificar a partir de la fuente, se dividen en intrínsecas y extrínsecas, respectivamente. ^[6] Dependiendo de si el resultado contradice el mensaje o no, se podrían dividir en dominio cerrado y dominio abierto respectivamente. ^[23]

Causas

Hay varias razones por las que los modelos de lenguaje natural alucinan datos. ^[6]

Alucinación a partir de datos

La principal causa de alucinación a partir de datos es la divergencia entre fuente y referencia. Esta divergencia ocurre 1) como un artefacto de la recopilación de datos heurísticos o 2) debido a la naturaleza de algunas tareas de NLG que inevitablemente contienen dicha divergencia. Cuando un modelo se entrena con datos con divergencia fuente-referencia (objetivo), se puede alentar al modelo a generar texto que no necesariamente esté fundamentado y no sea fiel a la fuente proporcionada. ^[6]

Alucinaciones por modelaje

Se demostró que las alucinaciones son un subproducto estadísticamente inevitable de cualquier modelo generativo imperfecto que esté entrenado para maximizar la probabilidad de entrenamiento, como GPT-3 , y que requiera un aprendizaje activo (como el aprendizaje reforzado a partir de la retroalimentación humana ) para evitarse. ^[24] Otras investigaciones adoptan una perspectiva antropomórfica y postulan que las alucinaciones surgen de una tensión entre novedad y utilidad. Por ejemplo, Teresa Amabile y Pratt definen la creatividad humana como la producción de ideas novedosas y útiles. ^[25] Por extensión, centrarse en la novedad en la creatividad de las máquinas puede conducir a la producción de respuestas originales pero inexactas, es decir, falsedades, mientras que centrarse en la utilidad puede dar lugar a respuestas memorizadas ineficaces. ^[26]

Los errores en la codificación y decodificación entre texto y representaciones pueden provocar alucinaciones. Cuando los codificadores aprenden las correlaciones incorrectas entre diferentes partes de los datos de entrenamiento, podría resultar en una generación errónea que diverge de la entrada. El decodificador toma la entrada codificada del codificador y genera la secuencia objetivo final. Dos aspectos de la decodificación contribuyen a las alucinaciones. En primer lugar, los decodificadores pueden atender a la parte equivocada de la fuente de entrada codificada, lo que lleva a una generación errónea. En segundo lugar, el diseño de la propia estrategia de decodificación puede contribuir a las alucinaciones. Una estrategia de decodificación que mejora la diversidad generacional, como el muestreo top-k, se correlaciona positivamente con un aumento de las alucinaciones. ^{[ cita necesaria ]}

Se sabe que el entrenamiento previo de modelos en un corpus grande da como resultado que el modelo memorice conocimientos en sus parámetros, creando alucinaciones si el sistema tiene demasiada confianza en su conocimiento programado. En sistemas como GPT-3, una IA genera cada palabra siguiente basándose en una secuencia de palabras anteriores (incluidas las palabras que ella misma generó previamente durante la misma conversación), lo que provoca una cascada de posibles alucinaciones a medida que la respuesta se hace más larga. ^[6] Para 2022, periódicos como The New York Times expresaron su preocupación de que, a medida que la adopción de bots basados en grandes modelos de lenguaje continuara creciendo, la confianza injustificada de los usuarios en la producción de los bots podría generar problemas. ^[27]

Ejemplos

El 15 de noviembre de 2022, investigadores de Meta AI publicaron Galactica, ^[28] diseñada para "almacenar, combinar y razonar sobre el conocimiento científico". El contenido generado por Galactica venía con la advertencia "¡Los resultados pueden no ser confiables! Los modelos de lenguaje son propensos a alucinar texto". En un caso, cuando se le pidió que redactara un artículo sobre la creación de avatares, Galactica citó un artículo ficticio de un autor real que trabaja en el área relevante. Meta retiró Galactica el 17 de noviembre debido a su ofensiva e inexactitud. ^[29] Antes de la cancelación, los investigadores estaban trabajando en Galactica Instruct, que utilizaría ajustes de instrucciones para permitir que el modelo siguiera instrucciones para manipular documentos LaTeX en Overleaf . ^[30]

ChatGPT de OpenAI , lanzado en versión beta al público el 30 de noviembre de 2022, se basa en el modelo básico GPT-3.5 (una revisión de GPT-3). El profesor Ethan Mollick de Wharton ha llamado a ChatGPT un "pasante omnisciente y deseoso de complacer que a veces te miente". La científica de datos Teresa Kubacka relató que inventó deliberadamente la frase "electromagnón cicloidal invertido" y probó ChatGPT preguntándole sobre el fenómeno (inexistente). ChatGPT inventó una respuesta que sonaba plausible respaldada con citas aparentemente plausibles que la obligaron a verificar si había escrito accidentalmente el nombre de un fenómeno real. Otros estudiosos, como Oren Etzioni, se han unido a Kubacka para evaluar que este tipo de software a menudo puede dar "una respuesta que suena muy impresionante y que es totalmente errónea". ^[31]

Cuando CNBC le pidió a ChatGPT la letra de " Ballad of Dwight Fry ", ChatGPT le proporcionó letras inventadas en lugar de las letras reales. ^[32] Cuando se le hicieron preguntas sobre New Brunswick , ChatGPT obtuvo muchas respuestas correctas pero clasificó incorrectamente a Samantha Bee como una "persona de New Brunswick". ^[33] Cuando se le preguntó acerca de los campos magnéticos astrofísicos, ChatGPT respondió incorrectamente que "los (fuertes) campos magnéticos de los agujeros negros son generados por las fuerzas gravitacionales extremadamente fuertes en sus proximidades". (En realidad, como consecuencia del teorema de la falta de pelo , se cree que un agujero negro sin un disco de acreción no tiene campo magnético). ^[34] Fast Company pidió a ChatGPT que generara un artículo de noticias sobre el último trimestre financiero de Tesla; ChatGPT creó un artículo coherente, pero inventó las cifras financieras que contiene. ^[35]

Otros ejemplos implican hostigar a ChatGPT con una premisa falsa para ver si embellece la premisa. Cuando se le preguntó acerca de la " idea de canonicidad dinámica de Harold Coward ", ChatGPT inventó que Coward escribió un libro titulado Canonicidad dinámica: un modelo para la interpretación bíblica y teológica , argumentando que los principios religiosos en realidad están en un estado de cambio constante. Cuando lo presionaron, ChatGPT continuó insistiendo en que el libro era real. ^[36] Cuando se le pidió pruebas de que los dinosaurios construyeron una civilización, ChatGPT afirmó que había restos fósiles de herramientas de dinosaurios y afirmó que "algunas especies de dinosaurios incluso desarrollaron formas de arte primitivas, como grabados en piedras". ^[37] Cuando se le preguntó que "los científicos han descubierto recientemente los churros , los deliciosos pasteles de masa frita... (son) herramientas ideales para la cirugía casera", ChatGPT afirmó que un "estudio publicado en la revista Science " encontró que la masa es flexible. suficiente para formar instrumentos quirúrgicos que pueden llegar a lugares difíciles de alcanzar y que el sabor tiene un efecto calmante en los pacientes. ^[38]^[39]

Para 2023, los analistas consideraron que las alucinaciones frecuentes eran un problema importante en la tecnología LLM, y un ejecutivo de Google identificó la reducción de las alucinaciones como una tarea "fundamental" para el competidor de ChatGPT, Google Bard . ^[7]^[40] Una demostración de 2023 de Bing AI basada en GPT de Microsoft parecía contener varias alucinaciones que el presentador no detectó. ^[7]

En mayo de 2023, se descubrió que Stephen Schwartz había presentado seis precedentes de casos falsos generados por ChatGPT en su escrito ante el Distrito Sur de Nueva York sobre Mata v. Avianca , un caso de lesiones personales contra la aerolínea Avianca . Schwartz dijo que nunca antes había usado ChatGPT, que no reconocía la posibilidad de que la producción de ChatGPT pudiera haber sido fabricada y que ChatGPT continuó afirmando la autenticidad de los precedentes después de que se descubrió su inexistencia. ^[41] En respuesta, Brantley Starr del Distrito Norte de Texas prohibió la presentación de expedientes de casos generados por IA que no hayan sido revisados por un humano, señalando que: ^[42]^[43]

Las plataformas [de inteligencia artificial generativa] en sus estados actuales son propensas a alucinaciones y prejuicios . Sobre las alucinaciones, inventan cosas, incluso citas y citas. Otro problema es la confiabilidad o el sesgo. Mientras que los abogados hacen un juramento de dejar de lado sus prejuicios, prejuicios y creencias personales para defender fielmente la ley y representar a sus clientes, la inteligencia artificial generativa es producto de una programación ideada por humanos que no tuvieron que hacer tal juramento. Como tales, estos sistemas no mantienen ninguna lealtad hacia ningún cliente, el estado de derecho o las leyes y la Constitución de los Estados Unidos (o, como se mencionó anteriormente, la verdad). Sin estar sujetos a ningún sentido del deber, el honor o la justicia, estos programas actúan según un código informático más que por convicción, basándose en la programación más que en principios.

El 23 de junio, el juez P. Kevin Castel desestimó el caso Mata y emitió una multa de 5.000 dólares a Schwartz y a otro abogado (quienes habían seguido respetando los precedentes ficticios a pesar de las afirmaciones anteriores de Schwartz) por conducta de mala fe . Castel caracterizó numerosos errores e inconsistencias en los resúmenes de opiniones, describiendo una de las opiniones citadas como "galimatías" y "[casi] sin sentido". ^[44]

En junio de 2023, Mark Walters, un activista por los derechos de las armas y personalidad de la radio, demandó a OpenAI en un tribunal estatal de Georgia después de que ChatGPT caracterizara erróneamente una denuncia legal de una manera supuestamente difamatoria contra Walters. La denuncia en cuestión fue presentada en mayo de 2023 por la Fundación de la Segunda Enmienda contra el fiscal general de Washington, Robert W. Ferguson, por supuestamente violar su libertad de expresión, mientras que el resumen generado por ChatGPT no tenía ningún parecido y afirmaba que Walters fue acusado de malversación de fondos y fraude mientras ocupando un puesto en la oficina de la Fundación de la Segunda Enmienda que nunca ocupó en la vida real. Según el experto legal en IA, Eugene Volokh , es probable que OpenAI no esté protegido contra este reclamo por la Sección 230 , porque OpenAI probablemente "contribuyó materialmente" a la creación del contenido difamatorio. ^[45]

Investigación científica

Los modelos de IA pueden causar problemas en el mundo de la investigación académica y científica debido a sus alucinaciones. Específicamente, se han registrado modelos como ChatGPT en múltiples casos para citar fuentes de información que o no son correctas o no existen. Un estudio realizado en el Cureus Journal of Medical Science mostró que de un total de 178 referencias citadas por GPT-3, 69 devolvieron un identificador de objeto digital (DOI) incorrecto o inexistente. Otros 28 no tenían un DOI conocido ni podían localizarse en una búsqueda en Google . ^[46]

Otro ejemplo fue documentado por Jerome Goddard de la Universidad Estatal de Mississippi . En un experimento, ChatGPT proporcionó información cuestionable sobre las garrapatas . Inseguros sobre la validez de la respuesta, preguntaron sobre la fuente de donde se había recopilado la información. Al mirar la fuente, era evidente que el DOI y los nombres de los autores habían sido alucinados. Se contactó a algunos de los autores y se les confirmó que no tenían conocimiento alguno de la existencia del artículo. ^[47] Goddard dice que, "en el estado actual de desarrollo [de ChatGPT], los médicos y los investigadores biomédicos NO deberían pedirle a ChatGPT fuentes, referencias o citas sobre un tema en particular. O, si lo hacen, todas esas referencias deben ser examinadas cuidadosamente. Para precisión." ^[47] El uso de estos modelos de lenguaje no está listo para los campos de la investigación académica y su uso debe manejarse con cuidado. ^[48]

Además de proporcionar material de referencia incorrecto o faltante, ChatGPT también tiene problemas al alucinar el contenido de algún material de referencia. Un estudio que analizó un total de 115 referencias proporcionadas por ChatGPT documentó que el 47% de ellas eran inventadas. Otro 46% citó referencias reales pero extrajo de ellas información incorrecta. Sólo el 7% restante de las referencias fueron citadas correctamente y proporcionaron información precisa. También se ha observado que ChatGPT "duplica" mucha información incorrecta. Cuando le preguntas a ChatGPT sobre un error que puede haber sido una alucinación, a veces intentará corregirse pero otras veces afirmará que la respuesta es correcta y proporcionará información aún más engañosa . ^[49]

Estos artículos alucinados generados por modelos de lenguaje también plantean un problema porque es difícil saber si un artículo fue generado por una IA. Para demostrarlo, un grupo de investigadores de la Universidad Northwestern de Chicago generó 50 resúmenes basados en informes existentes y analizó su originalidad. Los detectores de plagio otorgaron a los artículos generados una puntuación de originalidad del 100%, lo que significa que la información presentada parece ser completamente original. Otro software diseñado para detectar texto generado por IA solo pudo identificar correctamente estos artículos generados con una precisión del 66%. Los científicos investigadores tuvieron una tasa similar de error humano, identificando estos resúmenes a una tasa del 68%. ^[50] A partir de esta información, los autores de este estudio concluyeron que "[l]os límites éticos y aceptables del uso de ChatGPT en la escritura científica siguen sin estar claros, aunque algunos editores están comenzando a establecer políticas". ^[51] Debido a la capacidad de la IA para fabricar investigaciones sin ser detectada, el uso de la IA en el campo de la investigación hará que determinar la originalidad de la investigación sea más difícil y requerirá nuevas políticas que regulen su uso en el futuro.

Dada la capacidad del lenguaje generado por la IA para pasar por una investigación científica real en algunos casos, las alucinaciones de la IA presentan problemas para la aplicación de modelos de lenguaje en los campos de investigación académicos y científicos debido a su capacidad de ser indetectables cuando se presentan a investigadores reales. La alta probabilidad de devolver material de referencia inexistente e información incorrecta puede requerir que se establezcan limitaciones con respecto a estos modelos de lenguaje. Algunos dicen que más que alucinaciones, estos eventos se parecen más a "fabricaciones" y "falsificaciones" y que el uso de estos modelos de lenguaje presenta un riesgo para la integridad del campo en su conjunto. ^[52]

Terminologías

En Salon , el estadístico Gary N. Smith sostiene que los LLM "no entienden lo que significan las palabras" y, en consecuencia, que el término "alucinación" antropomorfiza irrazonablemente la máquina. ^[53] El periodista Benj Edwards, en Ars Technica , escribe que el término "alucinación" es controvertido, pero que sigue siendo necesaria alguna forma de metáfora; Edwards sugiere la " confabulación " como analogía de los procesos que implican "llenar huecos creativos". ^[2]

Una lista de usos del término "alucinación", definiciones o caracterizaciones en el contexto de los LLM incluye:

"una tendencia a inventar hechos en momentos de incertidumbre" (OpenAI, mayo de 2023) ^[54]
"Los errores lógicos de un modelo" (OpenAI, mayo de 2023) ^[54]
inventar información por completo, pero comportarse como si estuviera revelando hechos ( CNBC , mayo de 2023) ^[54]
"inventar información" ( The Verge , febrero de 2023) ^[55]

En otra inteligencia artificial

El concepto de "alucinación" se aplica de manera más amplia que el simple procesamiento del lenguaje natural. Una respuesta confiada de cualquier IA que parezca injustificada por los datos del entrenamiento puede etiquetarse como alucinación. ^[6]

Detección de objetos

Varios investigadores citados por Wired han clasificado las alucinaciones adversarias como un fenómeno estadístico de alta dimensión, o han atribuido las alucinaciones a datos de entrenamiento insuficientes. Algunos investigadores creen que algunas respuestas "incorrectas" de la IA clasificadas por los humanos como "alucinaciones" en el caso de la detección de objetos pueden de hecho estar justificadas por los datos del entrenamiento, o incluso que una IA puede estar dando la respuesta "correcta" que los revisores humanos no logran ver. Por ejemplo, una imagen adversaria que a un humano le parece una imagen ordinaria de un perro, de hecho puede ser vista por la IA como si contuviera pequeños patrones que (en imágenes auténticas) solo aparecerían al ver un gato. La IA está detectando patrones visuales del mundo real a los que los humanos son insensibles. ^[57]

Wired señaló en 2018 que, a pesar de que no se registraron ataques "en la naturaleza" (es decir, fuera de los ataques de prueba de concepto realizados por los investigadores), había "pocas dudas" de que los dispositivos de consumo y los sistemas como la conducción automatizada eran susceptibles. a ataques adversarios que podrían provocar alucinaciones en la IA. Los ejemplos incluyeron una señal de alto que se volvió invisible para la visión por computadora; un clip de audio diseñado para sonar inofensivo para los humanos, pero que el software transcribió como "evil dot com"; y una imagen de dos hombres esquiando, que Google Cloud Vision identificó como 91% de probabilidades de ser "un perro".^[15] Sin embargo, estos hallazgos han sido cuestionados por otros investigadores.^[58] Por ejemplo, se objetó que los modelos pueden estar sesgados hacia estadísticas superficiales, lo que lleva al entrenamiento adversario a no ser sólido en escenarios del mundo real.^[58]

IA generativa de texto a vídeo

Los modelos generativos de texto a video, como Sora , pueden introducir imprecisiones en los videos generados. Un ejemplo es el viaducto de Glenfinnan, un lugar famoso que aparece en la serie de películas de Harry Potter . Sora añadió por error una segunda vía al viaducto, lo que resultó en una representación poco realista.

Métodos de mitigación

El fenómeno de las alucinaciones aún no se comprende del todo. Los investigadores también han propuesto que las alucinaciones son inevitables y son una limitación innata de los modelos de lenguaje grandes. ^[59] Por lo tanto, todavía hay investigaciones en curso para tratar de mitigar su aparición. ^[60] En particular, se demostró que los modelos de lenguaje no sólo alucinan sino que también amplifican las alucinaciones, incluso para aquellos que fueron diseñados para aliviar este problema. ^[61]

Ji et al. ^[62] dividen los métodos de mitigación comunes en dos categorías: métodos relacionados con datos y métodos de modelado e inferencia . Los métodos relacionados con los datos incluyen la creación de un conjunto de datos fiel, la limpieza de datos automáticamente y el aumento de la información mediante el aumento de las entradas con información externa. Los métodos de modelo e inferencia incluyen cambios en la arquitectura (ya sea modificando el codificador, la atención o el decodificador de varias maneras), cambios en el proceso de entrenamiento, como el uso del aprendizaje por refuerzo , junto con métodos de posprocesamiento que pueden corregir las alucinaciones en la salida.

Los investigadores han propuesto una variedad de medidas de mitigación, incluido hacer que diferentes chatbots debatan entre sí hasta llegar a un consenso sobre una respuesta. ^[63] Otro enfoque propone validar activamente la exactitud correspondiente a la generación de baja confianza del modelo utilizando resultados de búsqueda web. Han demostrado que una oración generada sufre alucinaciones con mayor frecuencia cuando el modelo ya ha alucinado en sus oraciones generadas previamente para la entrada, y están instruyendo al modelo para que cree una pregunta de validación que verifique la exactitud de la información sobre el concepto seleccionado usando la búsqueda de Bing. API. ^[64] Se propuso una capa adicional de reglas basadas en lógica para el método de mitigación de búsqueda web, mediante la utilización de diferentes rangos de páginas web como base de conocimiento, que difieren en jerarquía. ^{[sesenta y cinco]}

Según Luo et al., ^[66] los métodos anteriores caen en enfoques basados en el conocimiento y la recuperación que basan las respuestas de LLM en datos fácticos utilizando fuentes de conocimiento externas, como la conexión a tierra de rutas. ^[67] Luo y cols. Mencionar también el entrenamiento o guía de referencia para modelos de lenguaje, que involucra estrategias como el empleo de códigos de control ^[68] o el aprendizaje contrastivo ^[69] para guiar el proceso de generación para diferenciar entre contenido correcto y alucinado. Otra categoría es la evaluación y mitigación centrada en tipos de alucinaciones específicos, ^[66] como el empleo de métodos para evaluar la entidad cuantitativa en el resumen ^[70] y métodos para detectar y mitigar declaraciones autocontradictorias. ^[71]

Nvidia Guardrails, lanzado en 2023, se puede configurar para bloquear las respuestas de LLM que no pasen la verificación de datos de un segundo LLM. ^[72] Además, han surgido numerosas herramientas como SelfCheckGPT ^[73] y Aimon ^[74] para ayudar en la detección de alucinaciones en escenarios de experimentación fuera de línea y de producción en tiempo real.

Ver también

Referencias

^ Dolan, Eric W. (9 de junio de 2024). "Académicos: la IA no es una" alucinación ", es una mentira". PsyPost - Actualidad Psicología . Consultado el 11 de junio de 2024 .
^ abc Edwards, Benj (6 de abril de 2023). "Por qué ChatGPT y Bing Chat son tan buenos inventando cosas". Ars Técnica . Consultado el 11 de junio de 2023 .
^ "Sacudiendo los cimientos: delirios en modelos secuenciales para la interacción y el control". www.deepmind.com . 22 de diciembre de 2023.
^ ab "Definición de ALUCINACIÓN". www.merriam-webster.com . 21 de octubre de 2023 . Consultado el 29 de octubre de 2023 .
^ Josué Maynez; Shashi Narayan; Bernd Bohnet; Ryan McDonald (2020). "Sobre la fidelidad y la factualidad en el resumen abstractivo". Actas de la 58.ª reunión anual de la Asociación de Lingüística Computacional (ACL) (2020) . arXiv : 2005.00661 . Consultado el 26 de septiembre de 2023 .
^ abcdefg Ji, Ziwei; Lee, Nayeon; Frieske, Rita; Yu, Tiezheng; Su, Dan; Xu, Yan; Ishii, Etsuko; Bang, Yejin; Dai, Wenliang; Madotto, Andrea; Fung, Pascale (noviembre de 2022). «Encuesta sobre alucinaciones en la generación del lenguaje natural» (pdf) . Encuestas de Computación ACM . 55 (12). Asociación de Maquinaria de Computación : 1–38. arXiv : 2202.03629 . doi :10.1145/3571730. S2CID 246652372 . Consultado el 15 de enero de 2023 .
^ abc Leswing, Kif (14 de febrero de 2023). "Bing AI de Microsoft cometió varios errores fácticos en la demostración de lanzamiento de la semana pasada". CNBC . Consultado el 16 de febrero de 2023 .
^ Metz, Cade (6 de noviembre de 2023). "Los chatbots pueden 'alucinar' con más frecuencia de lo que muchos creen". Los New York Times .
^ de Wynter, Adrián; Wang, Xun; Sokolov, Alex; Gu, Qilong; Chen, Si-Qing (13 de julio de 2023). "Una evaluación de los resultados de grandes modelos lingüísticos: discurso y memorización". Diario de procesamiento del lenguaje natural . 4 . arXiv : 2304.08637 . doi : 10.1016/j.nlp.2023.100024 . ISSN 2949-7191.
^ Thaler, Stephen (diciembre de 1995). "Fenómenos de entrada virtual dentro de la muerte de un asociador de patrones simple". Redes neuronales . 8 (1): 55–6. doi :10.1016/0893-6080(94)00065-T.
^ Thaler, Stephen (enero de 2013). "El paradigma de la máquina de la creatividad". En Carayannis, Elías G. (ed.). Enciclopedia de Creatividad, Invención, Innovación y Emprendimiento . Springer Ciencia+Business Media, LLC. págs. 447–456. doi :10.1007/978-1-4614-3858-8_396. ISBN 978-1-4614-3857-1.
^ ab "Alucinaciones por IA: un nombre inapropiado que vale la pena aclarar". arxiv.org . Consultado el 2 de abril de 2024 .
^ "Alucinación facial". gente.csail.mit.edu . Consultado el 2 de abril de 2024 .
^ "Alucinaciones en la traducción automática neuronal". investigación.google . Consultado el 2 de abril de 2024 .
^ ab Simonite, Tom (9 de marzo de 2018). "La IA tiene un problema de alucinaciones que está resultando difícil de solucionar". Cableado . Conde Nast . Consultado el 29 de diciembre de 2022 .
^ Zhuo, Terry Yue; Huang, Yujin; Chen, Chunyang; Xing, Zhenchang (2023). "Explorando la ética de la IA de ChatGPT: un análisis de diagnóstico". arXiv : 2301.12867 [cs.CL].
^ "Blender Bot 2.0: un chatbot de código abierto que crea memoria a largo plazo y busca en Internet". ai.meta.com . Consultado el 2 de marzo de 2024 .
^ Tung, Liam (8 de agosto de 2022). "Meta advierte que su nuevo chatbot puede olvidar que es un bot". ZDNET . Consultado el 30 de diciembre de 2022 .
^ Seife, Charles (13 de diciembre de 2022). "Los alarmantes engaños en el corazón de un nuevo y sorprendente chatbot". Pizarra . Consultado el 16 de febrero de 2023 .
^ Weise, Karen; Metz, Cade (1 de mayo de 2023). "Cuando los chatbots de IA alucinan". Los New York Times . ISSN 0362-4331 . Consultado el 8 de mayo de 2023 .
^ Creamer, Ella (15 de noviembre de 2023). "'Alucinar 'elegida como palabra del año del diccionario de Cambridge ". El guardián . Consultado el 7 de junio de 2024 .
^ Stening, Tanner (10 de noviembre de 2023). "¿Qué hacen realmente los chatbots de IA cuando 'alucinan'? He aquí por qué a los expertos no les gusta el término". Noticias globales del noreste . Consultado el 14 de junio de 2024 .
^ AbiertoAI (2023). "Informe técnico GPT-4". arXiv : 2303.08774 [cs.CL].
^ Hanneke, Steve; Kalai, Adam Tauman; Kamath, Gautam; Tzamos, Christos (2018). Evitar activamente tonterías en los modelos generativos. vol. 75. Actas de investigación sobre aprendizaje automático (PMLR). págs. 209–227.
^ Amabile, Teresa M.; Pratt, Michael G. (2016). "El modelo componente dinámico de creatividad e innovación en las organizaciones: progresar, dar sentido". Investigación en Comportamiento Organizacional . 36 : 157–183. doi :10.1016/j.riob.2016.10.001. S2CID 44444992.
^ Mukherjee, Anirban; Chang, Hannah H. (2023). "Gestión de la frontera creativa de la IA generativa: la compensación entre novedad y utilidad". Revisión de la gestión de California .
^ Metz, Cade (10 de diciembre de 2022). "Los nuevos chatbots podrían cambiar el mundo. ¿Puedes confiar en ellos?". Los New York Times . Consultado el 30 de diciembre de 2022 .
^ Taylor, Ross; Kardas, Marcin; Cucurull, Guillem; Scialom, Thomas; Hartshorn, Antonio; Saravia, Elvis; Poulton, Andrés; Kerkez, Viktor; Stojnic, Robert (16 de noviembre de 2022), Galactica: A Large Language Model for Science, doi :10.48550/arXiv.2211.09085 , consultado el 24 de julio de 2024
^ Edwards, Benj (18 de noviembre de 2022). "La nueva demostración de Meta AI escribe literatura científica racista e inexacta y es retirada". Ars Técnica . Consultado el 30 de diciembre de 2022 .
^ Scialom, Thomas (23 de julio de 2024). "Llama 2, 3 y 4: Datos sintéticos, RLHF, agentes en el camino hacia la AGI de código abierto". Espacio Latente (Entrevista). Entrevistado por swyx y Alessio. Archivado desde el original el 24 de julio de 2024.
^ Bowman, Emma (19 de diciembre de 2022). "Un nuevo chatbot con IA podría hacer los deberes por usted. Pero todavía no es un estudiante A+". NPR . Consultado el 29 de diciembre de 2022 .
^ Pitt, Sofía (15 de diciembre de 2022). "Google versus ChatGPT: esto es lo que sucedió cuando cambié de servicio por un día". CNBC . Consultado el 30 de diciembre de 2022 .
^ Huizinga, Raechel (30 de diciembre de 2022). "Le hicimos preguntas a una IA sobre New Brunswick. Algunas de las respuestas pueden sorprenderle". Noticias CBC . Consultado el 30 de diciembre de 2022 .
^ Zastrow, Mark (30 de diciembre de 2022). "Le hicimos a ChatGPT sus preguntas sobre astronomía. No salió tan bien". Descubrir . Consultado el 31 de diciembre de 2022 .
^ Lin, Connie (5 de diciembre de 2022). "Cómo engañar fácilmente al nuevo y genial ChatGPT de OpenAI". Empresa Rápida . Consultado el 6 de enero de 2023 .
^ Edwards, Benj (1 de diciembre de 2022). "OpenAI invita a todos a probar ChatGPT, un nuevo chatbot impulsado por IA, con resultados divertidos". Ars Técnica . Consultado el 29 de diciembre de 2022 .
^ Mollick, Ethan (14 de diciembre de 2022). "ChatGPT es un punto de inflexión para la IA". Revisión de negocios de Harvard . Consultado el 29 de diciembre de 2022 .
^ Kantrowitz, Alex (2 de diciembre de 2022). "Finalmente, un chatbot de IA que pasa de manera confiable la prueba nazi'". Pizarra . Consultado el 29 de diciembre de 2022 .
^ Marcus, Gary (2 de diciembre de 2022). "¿Cómo es que GPT puede parecer tan brillante en un minuto y tan increíblemente tonto al siguiente?". El camino hacia la IA en el que podemos confiar . Subpila . Consultado el 29 de diciembre de 2022 .
^ "Google advierte contra los chatbots 'alucinantes', según un informe". Reuters. 11 de febrero de 2023 . Consultado el 16 de febrero de 2023 .
^ Maruf, Ramishah (27 de mayo de 2023). "El abogado se disculpa por las citaciones judiciales falsas de ChatGPT". Negocios CNN.
^ Brodkin, Jon (31 de mayo de 2023). "Juez federal: No hay IA en mi sala a menos que un humano verifique su precisión". Ars Técnica .
^ "Juez Brantley Starr". Distrito Norte de Texas | Tribunal de Distrito de los Estados Unidos . Consultado el 26 de junio de 2023 .
^ Brodkin, Jon (23 de junio de 2023). "Los abogados tienen un día realmente malo en los tribunales después de citar casos falsos inventados por ChatGPT". Ars Técnica .
^ Belanger, Ashley (9 de junio de 2023). "OpenAI se enfrenta a una demanda por difamación después de que ChatGPT inventara por completo otra demanda". Ars Técnica .
^ Athaluri, Sai Anirudh; Manthena, Sandeep Varma; Kesapragada, VSR Krishna Manoj; Yarlagadda, Vineel; Dave, Tirth; Duddumpudi, Rama Tulasi Siri (11 de abril de 2023). "Explorando los límites de la realidad: investigando el fenómeno de las alucinaciones de la inteligencia artificial en la escritura científica a través de referencias de ChatGPT". Cureus . 15 (4): e37432. doi : 10.7759/cureus.37432 . ISSN 2168-8184. PMC 10173677 . PMID 37182055.
^ ab Goddard, Jerome (25 de junio de 2023). "Alucinaciones en ChatGPT: una advertencia para investigadores biomédicos". La Revista Estadounidense de Medicina . 136 (11): 1059-1060. doi :10.1016/j.amjmed.2023.06.012. ISSN 0002-9343. PMID 37369274. S2CID 259274217.
^ Ji, Ziwei; Yu, Tiezheng; Xu, Yan; Lee, Nayeon (2023). Hacia la mitigación de las alucinaciones en modelos de lenguaje grandes mediante la autorreflexión. Hallazgos del EMNLP.
^ Bhattacharyya, Mehul; Miller, Valerie M.; Bhattacharyya, Debjani; Molinero, Larry E.; Bhattacharyya, Mehul; Molinero, Valeria; Bhattacharyya, Debjani; Miller, Larry E. (19 de mayo de 2023). "Altas tasas de referencias fabricadas e inexactas en contenido médico generado por ChatGPT". Cureus . 15 (5): e39238. doi : 10.7759/cureus.39238 . ISSN 2168-8184. PMC 10277170 . PMID 37337480.
^ De lo contrario, Holly (12 de enero de 2023). "Los resúmenes escritos por ChatGPT engañan a los científicos". Naturaleza . 613 (7944): 423. Bibcode :2023Natur.613..423E. doi :10.1038/d41586-023-00056-7. PMID 36635510. S2CID 255773668.
^ Gao, Catalina A.; Howard, Federico M.; Markov, Nikolay S.; Dyer, Emma C.; Ramesh, Siddhi; Luo, Yuan; Pearson, Alexander T. (26 de abril de 2023). "Comparación de resúmenes científicos generados por ChatGPT con resúmenes reales con detectores y revisores humanos cegados". npj Medicina digital . 6 (1): 75. doi :10.1038/s41746-023-00819-6. ISSN 2398-6352. PMC 10133283 . PMID 37100871.
^ Emsley, Robin (19 de agosto de 2023). "ChatGPT: no son alucinaciones, son invenciones y falsificaciones". Esquizofrenia . 9 (1): 52. doi :10.1038/s41537-023-00379-4. ISSN 2754-6993. PMC 10439949 . PMID 37598184.
^ "Una IA que puede" escribir "está alimentando ilusiones sobre cuán inteligente es realmente la inteligencia artificial". Salón . 2 de enero de 2023 . Consultado el 11 de junio de 2023 .
^ abc Field, Hayden (31 de mayo de 2023). "OpenAI está buscando una nueva forma de combatir las alucinaciones de la IA'". CNBC . Consultado el 11 de junio de 2023 .
^ Vincent, James (8 de febrero de 2023). "Bard, el chatbot de inteligencia artificial de Google, comete un error en la primera demostración". El borde . Consultado el 11 de junio de 2023 .
^ Ferrie, C.; Kaiser, S. (2019). Redes neuronales para bebés . Naperville, Illinois: Libros de consulta Jabberwocky. ISBN 978-1492671206. OCLC 1086346753.
^ Matsakis, Louise (8 de mayo de 2019). "Después de todo, es posible que la inteligencia artificial no 'alucine'". Cableado . Consultado el 29 de diciembre de 2022 .
^ ab Gilmer, Justin; Hendrycks, Dan (6 de agosto de 2019). "Una discusión sobre 'los ejemplos contradictorios no son errores, son características': los investigadores de ejemplos contradictorios necesitan ampliar lo que se entiende por 'robustez'". Destilar . 4 (8). doi : 10.23915/distill.00019.1 . S2CID 201142364 . Consultado el 24 de enero de 2023 .
^ Ji, Ziwei; Jainista, Sanjay; Kankanhalli, Mohan (2024). "La alucinación es inevitable: una limitación innata de los modelos de lenguaje grandes". arXiv : 2401.11817 [cs.CL].
^ Nie, Feng; Yao, Jin-Ge; Wang, Jinpeng; Pan, Rong; Lin, Chin-Yew (julio de 2019). "Una receta sencilla para reducir las alucinaciones en la realización de la superficie neuronal" (PDF) . Actas de la 57.ª reunión anual de la Asociación de Lingüística Computacional . Asociación de Lingüística Computacional: 2673–2679. doi :10.18653/v1/P19-1256. S2CID 196183567 . Consultado el 15 de enero de 2023 .
^ Dziri, Nouha; Milton, Siván; Yu, Mo; Zaiane, Osmar; Reddy, Siva (julio de 2022). "Sobre el origen de las alucinaciones en modelos conversacionales: ¿son los conjuntos de datos o los modelos?" (PDF) . Actas de la Conferencia de 2022 del Capítulo Norteamericano de la Asociación de Lingüística Computacional: Tecnologías del Lenguaje Humano . Asociación de Lingüística Computacional. págs. 5271–5285. doi :10.18653/v1/2022.naacl-main.387. S2CID 250242329 . Consultado el 15 de enero de 2023 .
^ Ji, Ziwei; Lee, Nayeon; Frieske, Rita; Yu, Tiezheng; Su, Dan; Xu, Yan; Ishii, Etsuko; Bang, Yejin; Chen, Delong; Chan, Ho Shu; Dai, Wenliang; Madotto, Andrea; Fung, Pascale (2023). "Encuesta sobre alucinaciones en la generación del lenguaje natural". Encuestas de Computación ACM . 55 (12): 1–38. arXiv : 2202.03629 . doi :10.1145/3571730.
^ Vynck, Gerrit De (30 de mayo de 2023). "ChatGPT 'alucina'. A algunos investigadores les preocupa que no se pueda solucionar". El Correo de Washington . Consultado el 31 de mayo de 2023 .
^ Varshney, Neeraj; Yao, Wenling; Zhang, Hongming; Chen, Jianshu; Yu, Dong (2023). "Un punto en el tiempo salva nueve: detectar y mitigar las alucinaciones de los LLM mediante la validación de la generación de baja confianza". arXiv : 2307.03987 [cs.CL].
^ Šekrst, Kristina. "Creencias" falsas e injustificadas: alucinaciones de IA y lógicas de justificación. En Grgić, Filip; Świętorzecka, Kordula; Brożek, Anna (eds.). Lógica, conocimiento y tradición: ensayos en honor a Srecko Kovač . Consultado el 4 de junio de 2024 .
^ ab Luo, Junliang; Li, Tianyu; Wu, Di; Jenkin, Michael; Liu, Steve; Dudek, Gregorio (2024). "Detección y mitigación de alucinaciones: una investigación". arXiv : 2401.08358 [cs.CL].
^ Dziri, Nouha; Madotto, Andrea; Zaiane, Osmar; Bosé, Avishek Joey (2021). "Cazador de caminos neuronales: reducción de las alucinaciones en los sistemas de diálogo mediante la conexión a tierra del camino". arXiv : 2104.08455 [cs.CL].
^ Rashkin, Hannah; Reitter, David; Tomar, Gaurav Singh; Das, Dipanjan (2021). "Aumento de la fidelidad en el diálogo basado en el conocimiento con funciones controlables" (PDF) . Actas de la 59ª Reunión Anual de la Asociación de Lingüística Computacional y la 11ª Conferencia Conjunta Internacional sobre Procesamiento del Lenguaje Natural .
^ Sol, Weiwei; Shi, Zhengliang; Gao, Shen; Ren, Pengjie; de Rijke, Martín; Ren, Zhaochun (2022). "El aprendizaje contrastivo reduce las alucinaciones en las conversaciones". arXiv : 2212.10400 [cs.CL].
^ Zhao, Zheng; Cohen, Shay B; Webber, Cohen Bonnie (2020). "Reducción de la cantidad de alucinaciones en el resumen abstracto" (PDF) . Hallazgos de la Asociación de Lingüística Computacional: EMNLP 2020 .
^ Mündler, Niels; Él, Jingxuan; Jenko, Slobodan; Vechev, Martín (2023). "Alucinaciones autocontradictorias de modelos de lenguaje grandes: evaluación, detección y mitigación". arXiv : 2305.15852 [cs.CL].
^ Leswing, Kif (25 de abril de 2023). "Nvidia tiene una nueva forma de evitar que los chatbots de IA 'alucinen' hechos erróneos". CNBC . Consultado el 15 de junio de 2023 .
^ Potsawee (9 de mayo de 2024), potsawee/selfcheckgpt , consultado el 9 de mayo de 2024
^ Aimon, aimonlabs, 8 de mayo de 2024 , consultado el 9 de mayo de 2024