stringtranslate.com

Ingeniería rápida

La ingeniería de indicaciones es el proceso de estructurar una instrucción que pueda ser interpretada y entendida por un modelo de inteligencia artificial (IA) generativa . [1] [2] Una indicación es un texto en lenguaje natural que describe la tarea que debe realizar una IA. [3] Una indicación para un modelo de lenguaje de texto a texto puede ser una consulta como "¿cuál es el pequeño teorema de Fermat ?", [4] un comando como "escribe un poema al estilo de Edgar Allan Poe sobre las hojas que caen", [5] o una declaración más larga que incluya contexto, instrucciones, [6] e historial de conversación.

La ingeniería rápida puede implicar formular una consulta, especificar un estilo [5] , proporcionar un contexto relevante [7] o asignar un rol a la IA como "actuar como un hablante nativo de francés". [8]

Al comunicarse con un modelo de texto a imagen o de texto a audio, un mensaje típico es una descripción de un resultado deseado, como "una foto de alta calidad de un astronauta montando a caballo" [9] o "electro chill de baja fidelidad con BPM lento con muestras orgánicas". [10] Dar mensajes a un modelo de texto a imagen puede implicar agregar, quitar, enfatizar y reordenar palabras para lograr un tema, estilo [1] , diseño, iluminación [11] y estética deseados.

Historia

En 2018, los investigadores propusieron por primera vez que todas las tareas que antes se hacían por separado en el procesamiento del lenguaje natural podrían plantearse como un problema de respuesta a preguntas sobre un contexto. Además, entrenaron un primer modelo único, conjunto y multitarea que respondería a cualquier pregunta relacionada con la tarea, como "¿Cuál es el sentimiento?", "Traduce esta oración al alemán" o "¿Quién es el presidente?" [12].

En 2021, los investigadores ajustaron un modelo preentrenado generativamente (T0) para realizar 12 tareas de PNL (utilizando 62 conjuntos de datos, ya que cada tarea puede tener múltiples conjuntos de datos). El modelo mostró un buen desempeño en nuevas tareas, superando a los modelos entrenados directamente para realizar solo una tarea (sin preentrenamiento). Para resolver una tarea, se le da a T0 la tarea en una indicación estructurada, por ejemplo, If {{premise}} is true, is it also true that {{hypothesis}}? ||| {{entailed}}.es la indicación utilizada para hacer que T0 resuelva la implicación . [13]

Un repositorio de sugerencias informó que en febrero de 2022 había disponibles más de 2000 sugerencias públicas para alrededor de 170 conjuntos de datos. [14]

En 2022, los investigadores de Google propusieron la técnica de incitación por cadena de pensamientos . [15] [16]

En 2023, varias bases de datos de indicaciones de texto a texto y de texto a imagen estuvieron disponibles públicamente. [17] [18]

Texto a texto

Cadena de pensamiento

Según Google, se afirma que la incitación en cadena de pensamiento (CoT) es una técnica que permite a los grandes modelos lingüísticos (LLM) resolver un problema como una serie de pasos intermedios [19] antes de dar una respuesta final. En 2022, Google también afirmó que la incitación en cadena de pensamiento mejora la capacidad de razonamiento al inducir al modelo a responder un problema de varios pasos con pasos de razonamiento que imitan una línea de pensamiento . [20] [15] [21] Las técnicas de cadena de pensamiento permiten hipotéticamente que los grandes modelos lingüísticos superen las dificultades con algunas tareas de razonamiento que requieren pensamiento lógico y múltiples pasos para resolver, como preguntas de razonamiento aritmético o de sentido común , según anuncios de Google y Amazon. [22] [23] [24]

Por ejemplo, dada la pregunta "P: La cafetería tenía 23 manzanas. Si usaron 20 para preparar el almuerzo y compraron 6 más, ¿cuántas manzanas tienen?", Google afirma que una pregunta de CoT podría inducir al LLM a responder "A: La cafetería tenía 23 manzanas originalmente. Usaron 20 para preparar el almuerzo. Entonces tenían 23 - 20 = 3. Compraron 6 manzanas más, por lo que tienen 3 + 6 = 9. La respuesta es 9". [15]

Como propuso originalmente Google, [15] cada mensaje de CoT incluía algunos ejemplos de preguntas y respuestas. Esto lo convertía en una técnica de mensajes de respuesta rápida . Sin embargo, según investigadores de Google y la Universidad de Tokio, simplemente añadir las palabras "Pensemos paso a paso" [25] también ha demostrado ser eficaz, lo que convierte a CoT en una técnica de mensajes de respuesta rápida . OpenAI afirma que este mensaje permite una mejor escalabilidad, ya que el usuario ya no necesita formular muchos ejemplos específicos de preguntas y respuestas de CoT. [26]

Cuando se aplicó a PaLM , un modelo de lenguaje de parámetros 540B , Google afirma que la incitación de CoT ayudó significativamente al modelo, lo que le permitió funcionar de manera comparable con modelos afinados específicos de la tarea en varias tareas, logrando resultados de vanguardia en ese momento en el punto de referencia de razonamiento matemático GSM8K . [15] Según Google, es posible afinar los modelos en conjuntos de datos de razonamiento CoT para mejorar aún más esta capacidad y estimular una mejor interpretabilidad . [27] [28]

Ejemplo: [25]

 P: {pregunta} A: Pensemos paso a paso.

Otras técnicas

La inducción por cadena de pensamientos es sólo una de las muchas técnicas de ingeniería de inducción. Se han propuesto otras técnicas y se han publicado al menos 29 técnicas distintas. [29]

Incitación por cadena de símbolos (CoS)

Una colaboración de investigación entre la Universidad de Westlake, la Universidad China de Hong Kong y la Universidad de Edimburgo ha afirmado que la incitación por cadena de símbolos junto con la incitación por CoT ayuda a los estudiantes de maestría en derecho con su dificultad de razonamiento espacial en el texto. En otras palabras, el uso de símbolos arbitrarios como "/" ayuda a los estudiantes de maestría en derecho a interpretar el espaciado en el texto. Se afirma que esto ayuda al razonamiento y aumenta el rendimiento del estudiante de maestría en derecho. [30]

Ejemplo: [30]

Aporte: Hay un conjunto de ladrillos. El ladrillo amarillo C está encima del ladrillo E. El ladrillo amarillo D está encima del ladrillo A. El ladrillo amarillo E está encima del ladrillo D. El ladrillo blanco A está encima del ladrillo B. Para el ladrillo B, el color es blanco. Ahora tenemos que conseguir un ladrillo específico. Ahora hay que agarrar los ladrillos de arriba a abajo, y si hay que agarrar el ladrillo inferior, hay que quitar primero el superior. ¿Cómo conseguir el ladrillo D?B/A/D/E/CC/EA/DDProducción:Así que obtenemos el resultado como C, E, D.

Aprendizaje de pocos intentos

Un mensaje puede incluir algunos ejemplos para que un modelo aprenda, como pedirle al modelo que complete " maison → house, chat → cat, chien →" (la respuesta esperada es dog ), [31] un enfoque llamado aprendizaje de pocos intentos . [32]

Conocimiento generado que incita

El conocimiento generado [33] primero le pide al modelo que genere hechos relevantes para completar la instrucción y luego proceda a completarla. La calidad de la finalización suele ser mayor [ cita requerida ] , ya que el modelo puede condicionarse a hechos relevantes.

Ejemplo: [33]

 Generar algún conocimiento sobre los conceptos en la entrada. Entrada: {pregunta} Conocimiento:

De menor a mayor incitación

La indicación de menor a mayor [34] indica a un modelo que primero enumere los subproblemas de un problema y luego los resuelva en secuencia, de modo que los subproblemas posteriores se puedan resolver con la ayuda de las respuestas a los subproblemas anteriores.

Ejemplo: [34]

 Aporte: P: {pregunta} A: Analicemos este problema: 1.

Descodificación de la autoconsistencia

La decodificación de autoconsistencia [35] realiza varias secuencias de ideas y luego selecciona la conclusión a la que se llega con mayor frecuencia de todas. Si las secuencias difieren en gran medida, se puede consultar a un humano para que indique la secuencia de ideas correcta. [36]

Incitación basada en la complejidad

La estimulación basada en la complejidad [37] realiza varias implementaciones de CoT, luego selecciona las implementaciones con las cadenas de pensamiento más largas y luego selecciona la conclusión a la que se llega con mayor frecuencia entre ellas.

Autorefinarse

El autorefinamiento [38] solicita al LLM que resuelva el problema, luego solicita al LLM que critique su solución y luego solicita al LLM que resuelva el problema nuevamente en vista del problema, la solución y la crítica. Este proceso se repite hasta que se detiene, ya sea porque se agotan los tokens, el tiempo o porque el LLM emite un token de "detención".

Ejemplo de crítica: [38]

 Tengo un código. Haz una sugerencia para mejorar la legibilidad. No arregles el código, solo haz una sugerencia. Código: {código} Sugerencia:

Ejemplo de refinamiento:

 Código: {código} Utilicemos esta sugerencia para mejorar el código. Sugerencia: {sugerencia} Nuevo código:

Árbol del pensamiento

La incitación por árbol de pensamiento [39] generaliza la cadena de pensamiento al incitar al modelo a generar uno o más "posibles pasos siguientes" y luego ejecutar el modelo en cada uno de los posibles pasos siguientes mediante búsqueda en amplitud , haz o algún otro método de búsqueda en árbol. [40]

Incitación mayéutica

La incitación mayéutica es similar al árbol del pensamiento. Se le pide al modelo que responda una pregunta con una explicación. Luego se le pide al modelo que explique partes de la explicación, y así sucesivamente. Los árboles de explicación inconsistentes se podan o descartan. Esto mejora el desempeño en el razonamiento complejo de sentido común. [41]

Ejemplo: [41]

 P: {pregunta} A: Cierto, porque
 P: {pregunta} A: Falso, porque

Incitación por estímulo direccional

La estimulación direccional [42] incluye una pista o señal, como palabras clave deseadas, para guiar un modelo de lenguaje hacia el resultado deseado.

Ejemplo: [42]

 Artículo: {article} Palabras clave:
 Artículo: {article} P: Escriba un breve resumen del artículo en 2 a 4 oraciones que incorpore con precisión las palabras clave proporcionadas. Palabras clave: {keywords} A:

Incitación a revelar la incertidumbre

De manera predeterminada, la salida de los modelos de lenguaje puede no contener estimaciones de incertidumbre. El modelo puede generar texto que parezca confiable, aunque las predicciones de tokens subyacentes tengan puntajes de probabilidad bajos . Los modelos de lenguaje grandes como GPT-4 pueden tener puntajes de probabilidad calibrados con precisión en sus predicciones de tokens, [43] y, por lo tanto, la incertidumbre de la salida del modelo se puede estimar directamente leyendo los puntajes de probabilidad de las predicciones de tokens.

Pero si no se puede acceder a dichas puntuaciones (por ejemplo, cuando se accede al modelo a través de una API restrictiva), la incertidumbre aún se puede estimar e incorporar en la salida del modelo. Un método simple es pedirle al modelo que use palabras para estimar la incertidumbre. [44] Otro es pedirle al modelo que se niegue a responder de manera estandarizada si la entrada no satisface las condiciones. [ cita requerida ]

Generación automática de mensajes

Generación aumentada por recuperación

Proceso de dos fases de recuperación de documentos utilizando incrustaciones densas y un modelo de lenguaje amplio (LLM) para la formulación de respuestas

La generación aumentada por recuperación (RAG) es un proceso de dos fases que implica la recuperación de documentos y la formulación de respuestas mediante un modelo de lenguaje grande (LLM). La fase inicial utiliza incrustaciones densas para recuperar documentos. Esta recuperación puede basarse en una variedad de formatos de base de datos según el caso de uso, como una base de datos vectorial , un índice de resumen, un índice de árbol o un índice de tabla de palabras clave. [45]

En respuesta a una consulta, un recuperador de documentos selecciona los documentos más relevantes. Esta relevancia se determina típicamente codificando primero la consulta y los documentos en vectores, luego identificando los documentos cuyos vectores están más cerca en distancia euclidiana al vector de consulta. Después de la recuperación del documento, el LLM genera una salida que incorpora información tanto de la consulta como de los documentos recuperados. [46] Este método es particularmente beneficioso para manejar información patentada o dinámica que no se incluyó en las fases iniciales de entrenamiento o ajuste del modelo. RAG también es notable por su uso del aprendizaje de "pocos disparos", donde el modelo usa una pequeña cantidad de ejemplos, a menudo recuperados automáticamente de una base de datos, para informar sus salidas.

Recuperación de gráficos: generación aumentada

GraphRAG con un gráfico de conocimiento que combina patrones de acceso para datos no estructurados, estructurados y mixtos.

GraphRAG [47] (acuñado por Microsoft Research) es una técnica que extiende RAG con el uso de un gráfico de conocimiento (generalmente generado por LLM) para permitir que el modelo conecte piezas dispares de información, sintetice conocimientos y comprenda de manera integral conceptos semánticos resumidos en grandes colecciones de datos.

Se demostró que es eficaz en conjuntos de datos como la Información sobre incidentes violentos de artículos de noticias (VIINA). [48] Al combinar gráficos de conocimiento generados por LLM con aprendizaje automático de gráficos, GraphRAG mejora sustancialmente la exhaustividad y diversidad de las respuestas generadas para preguntas de sentido global.

Trabajos anteriores demostraron la eficacia de utilizar un gráfico de conocimiento para responder preguntas mediante la generación de texto a consulta. [49] Estas técnicas se pueden combinar para buscar en datos estructurados y no estructurados, lo que proporciona un contexto ampliado y una clasificación mejorada.

Uso de modelos de lenguaje para generar indicaciones

Los modelos de lenguaje grandes (LLM) se pueden utilizar para componer indicaciones para modelos de lenguaje grandes. [50] [51] [52] [53]

El algoritmo automático de ingeniería de indicaciones utiliza un LLM para realizar búsquedas en indicaciones de otro LLM: [54]

Los ejemplos de CoT pueden ser generados por el propio LLM. En "CoT automático", [55] una biblioteca de preguntas se convierte en vectores mediante un modelo como BERT . Los vectores de preguntas se agrupan . Se seleccionan las preguntas más cercanas a los centroides de cada grupo. Un LLM realiza un CoT de cero disparos en cada pregunta. Los ejemplos de CoT resultantes se agregan al conjunto de datos. Cuando se solicita una nueva pregunta, se pueden recuperar ejemplos de CoT de las preguntas más cercanas y agregarlos al mensaje.

Aprendizaje en contexto

La ingeniería de indicaciones puede posiblemente ser habilitada aún más por el aprendizaje en contexto , definido como la capacidad de un modelo para aprender temporalmente de indicaciones. La capacidad para el aprendizaje en contexto es una capacidad emergente [56] de los modelos de lenguaje grandes . El aprendizaje en contexto en sí mismo es una propiedad emergente de la escala del modelo , lo que significa que ocurren rupturas [57] en las leyes de escalamiento descendente de tal manera que su eficacia aumenta a un ritmo diferente en modelos más grandes que en modelos más pequeños. [58] [15]

A diferencia del entrenamiento y el ajuste fino para cada tarea específica, que no son temporales, lo aprendido durante el aprendizaje en contexto es de naturaleza temporal. No lleva los contextos temporales ni los sesgos, excepto los que ya están presentes en el conjunto de datos de (pre)entrenamiento , de una conversación a la otra. [59] Este resultado de la "optimización de mesa" [60] [61] dentro de las capas de transformadores es una forma de metaaprendizaje o "aprender a aprender". [62]

Texto a imagen

En 2022, se lanzaron al público modelos de texto a imagen como DALL-E 2 , Stable Diffusion y Midjourney . [63] Estos modelos toman indicaciones de texto como entrada y las usan para generar imágenes de arte de IA . Los modelos de texto a imagen generalmente no comprenden la gramática y la estructura de las oraciones de la misma manera que los modelos de lenguaje grandes , [64] y requieren un conjunto diferente de técnicas de indicaciones.

Formatos de indicaciones

Un mensaje de texto a imagen generalmente incluye una descripción del tema de la obra de arte (como amapolas de color naranja brillante ), el medio deseado (como pintura digital o fotografía ), el estilo (como hiperrealista o pop-art ), la iluminación (como iluminación de borde o rayos crepusculares ), el color y la textura. [65]

La documentación de Midjourney fomenta indicaciones breves y descriptivas: en lugar de "Muéstrame una imagen de muchas amapolas de California en flor, hazlas de un naranja brillante y vibrante, y dibújalas en un estilo ilustrado con lápices de colores", una indicación eficaz podría ser "Amapolas de California de color naranja brillante dibujadas con lápices de colores". [64]

El orden de las palabras afecta el resultado de una instrucción de texto a imagen. Las palabras que se encuentran más cerca del comienzo de una instrucción pueden tener un mayor énfasis. [1]

Estilos de artistas

Algunos modelos de conversión de texto a imagen son capaces de imitar el estilo de artistas concretos por su nombre. Por ejemplo, la frase en el estilo de Greg Rutkowski se ha utilizado en los mensajes de Stable Diffusion y Midjourney para generar imágenes en el estilo distintivo del artista digital polaco Greg Rutkowski. [66]

Indicaciones negativas

Demostración del efecto de los estímulos negativos en imágenes generadas con Stable Diffusion
  • Arriba : sin mensaje negativo
  • Centro : "árboles verdes"
  • Abajo : "piedras redondas, rocas redondas"

Los modelos de conversión de texto a imagen no comprenden de forma nativa la negación. Es probable que la indicación "una fiesta sin tarta" produzca una imagen que incluya una tarta. [64] Como alternativa, las indicaciones negativas permiten al usuario indicar, en una indicación aparte, qué términos no deben aparecer en la imagen resultante. [67]

Indicaciones no textuales

Algunos enfoques amplían o reemplazan las indicaciones de texto en lenguaje natural con entradas que no son texto.

Inversión textual e incrustaciones

Para los modelos de texto a imagen, la "inversión textual" [68] realiza un proceso de optimización para crear una nueva palabra incrustada en base a un conjunto de imágenes de ejemplo. Este vector de incrustación actúa como una "pseudopalabra" que puede incluirse en un mensaje para expresar el contenido o el estilo de los ejemplos.

Incitación por imagen

En 2023, la investigación de IA de Meta lanzó Segment Anything, un modelo de visión artificial que puede realizar la segmentación de imágenes mediante indicaciones. Como alternativa a las indicaciones de texto, Segment Anything puede aceptar cuadros delimitadores, máscaras de segmentación y puntos de primer plano y fondo. [69]

Uso del descenso de gradiente para buscar indicaciones

En el "ajuste de prefijo", [70] "ajuste de aviso" o "aviso suave", [71] los vectores con valores de punto flotante se buscan directamente por descenso de gradiente , para maximizar la verosimilitud logarítmica en las salidas.

Formalmente, sea un conjunto de tokens de indicaciones suaves (incrustaciones ajustables), mientras que y sean las incrustaciones de tokens de la entrada y la salida respectivamente. Durante el entrenamiento, las incrustaciones ajustables, los tokens de entrada y salida se concatenan en una sola secuencia y se alimentan a los modelos de lenguaje grandes (LLM). Las pérdidas se calculan sobre los tokens; los gradientes se retropropagan a parámetros específicos de las indicaciones: en el ajuste de prefijos, son parámetros asociados con los tokens de indicaciones en cada capa; en el ajuste de indicaciones, son simplemente los tokens suaves agregados al vocabulario. [72]

Más formalmente, esto es un ajuste rápido. Sea un LLM escrito como , donde es una secuencia de tokens lingüísticos, es la función token-a-vector y es el resto del modelo. En el ajuste de prefijo, se proporciona un conjunto de pares de entrada-salida , y luego se usa el descenso de gradiente para buscar . En palabras, es la probabilidad logarítmica de generar , si el modelo primero codifica la entrada en el vector , luego antepone el vector con el "vector de prefijo" , luego aplica .

Para el ajuste de prefijo, es similar, pero el "vector de prefijo" se agrega previamente a los estados ocultos en cada capa del modelo.

Un resultado anterior [73] utiliza la misma idea de búsqueda por descenso de gradiente, pero está diseñado para modelos de lenguaje enmascarado como BERT, y busca solo en secuencias de tokens, en lugar de vectores numéricos. Formalmente, busca dónde se encuentran los rangos en secuencias de tokens de una longitud especificada.

Inyección rápida

La inyección de instrucciones es una familia de exploits de seguridad informática relacionados que se llevan a cabo haciendo que un modelo de aprendizaje automático (como un LLM) que fue entrenado para seguir instrucciones dadas por humanos siga instrucciones proporcionadas por un usuario malintencionado. Esto contrasta con el funcionamiento previsto de los sistemas de seguimiento de instrucciones, en los que el modelo de ML está destinado únicamente a seguir instrucciones confiables (instrucciones) proporcionadas por el operador del modelo de ML. [74] [75] [76]

Véase también

Referencias

  1. ^ abc Diab, Mohamad; Herrera, Julian; Chernow, Bob (28 de octubre de 2022). "Libro de indicaciones de difusión estable" (PDF) . Consultado el 7 de agosto de 2023. La ingeniería de indicaciones es el proceso de estructurar palabras que un modelo de texto a imagen pueda interpretar y comprender . Piense en ello como el lenguaje que necesita hablar para decirle a un modelo de IA qué dibujar.
  2. ^ Ziegler, Albert; Berryman, John (17 de julio de 2023). "Una guía para desarrolladores sobre ingeniería rápida y maestrías en derecho". El blog de GitHub . La ingeniería rápida es el arte de comunicarse con un modelo de IA generativo.
  3. ^ Radford, Alec; Wu, Jeffrey; Child, Rewon; Luan, David; Amodei, Dario; Sutskever, Ilya (2019). "Los modelos de lenguaje son aprendices multitarea no supervisados" (PDF) . OpenAI. Demostramos que los modelos de lenguaje pueden realizar tareas posteriores en un entorno de cero disparos, sin ninguna modificación de parámetros o arquitectura.
  4. ^ "Presentación de ChatGPT". Blog de OpenAI . 2022-11-30 . Consultado el 2023-08-16 . ¿Qué es el pequeño teorema de Fermat?
  5. ^ ab Robinson, Reid (3 de agosto de 2023). "Cómo escribir un mensaje de GPT-3 o GPT-4 eficaz". Zapier . Consultado el 14 de agosto de 2023 ."Indicación básica: 'Escribe un poema sobre la caída de las hojas'. Indicación mejor: 'Escribe un poema al estilo de Edgar Allan Poe sobre la caída de las hojas'.
  6. ^ Gouws-Stewart, Natasha (16 de junio de 2023). "La guía definitiva para diseñar rápidamente su modelo GPT-3.5-Turbo". masterofcode.com .
  7. ^ Greenberg, J., Laura (31 de mayo de 2023). "Cómo preparar y promover ChatGPT para una asistencia más confiable en la redacción de contratos". contractnerds.com . Consultado el 24 de julio de 2023 .
  8. ^ "Mejores prácticas de GPT". OpenAI . Consultado el 16 de agosto de 2023 .
  9. ^ Heaven, Will Douglas (6 de abril de 2022). «Este astronauta a caballo es un hito en el largo camino de la IA hacia la comprensión». MIT Technology Review . Consultado el 14 de agosto de 2023 .
  10. ^ Wiggers, Kyle (12 de junio de 2023). "Meta publica un generador de música con tecnología de inteligencia artificial". TechCrunch . Consultado el 15 de agosto de 2023 . A continuación, di un mensaje más complicado para intentar confundir a MusicGen: "Lo-fi slow BPM electro chill con samples orgánicos".
  11. ^ "Cómo escribir indicaciones para sesiones de fotos con IA: una guía para obtener mejores fotografías de productos". claid.ai . 12 de junio de 2023 . Consultado el 12 de junio de 2023 .
  12. ^ McCann, Bryan; Shirish, Nitish; Xiong, Caiming; Socher, Richard (2018). "El decatlón del lenguaje natural: aprendizaje multitarea como respuesta a preguntas". arXiv : 1806.08730 [cs.CL].
  13. ^ Sanh, Victor; et al. (2021). "El entrenamiento basado en múltiples tareas permite la generalización de tareas sin interrupciones". arXiv : 2110.08207 [cs.LG].
  14. ^ Bach, Stephen H.; Sanh, Victor; Yong, Zheng-Xin; Webson, Albert; Raffel, Colin; Nayak, Nihal V.; Sharma, Abheesht; Kim, Taewoon; M Saiful Bari; Fevry, Thibault; Alyafeai, Zaid; Dey, Manan; Santilli, Andrea; Sun, Zhiqing; Ben-David, Srulik; Xu, Canwen; Chhablani, Gunjan; Wang, Han; Jason Alan Fries; Al-shaibani, Maged S.; Sharma, Shanya; Thakker, Urmish; Almubarak, Khalid; Tang, Xiangru; Radev, Dragomir; Mike Tian-Jian Jiang; Rush, Alexander M. (2022). "PromptSource: Un entorno de desarrollo integrado y un repositorio para indicaciones de lenguaje natural". arXiv : 2202.01279 [cs.LG].
  15. ^ abcdef Wei, Jason; Wang, Xuezhi; Schuurmans, Dale; Bosma, Maarten; Ichter, Brian; Xia, Fei; Chi, Ed H.; Le, Quoc V.; Zhou, Denny (31 de octubre de 2022). La estimulación en cadena de pensamiento genera razonamiento en modelos de lenguaje grandes. Avances en sistemas de procesamiento de información neuronal (NeurIPS 2022). Vol. 35. arXiv : 2201.11903 .
  16. ^ Wei, Jason; Zhou (11 de mayo de 2022). "Los modelos de lenguaje realizan razonamientos a través de la cadena de pensamiento". ai.googleblog.com . Consultado el 10 de marzo de 2023 .
  17. ^ Chen, Brian X. (23 de junio de 2023). "Cómo convertir a tu chatbot en un coach de vida". The New York Times .
  18. ^ Chen, Brian X. (25 de mayo de 2023). "Obtenga lo mejor de ChatGPT con estos mensajes de oro". The New York Times . ISSN  0362-4331 . Consultado el 16 de agosto de 2023 .
  19. ^ McAuliffe, Zachary. "El último modelo de inteligencia artificial de Google puede aprender a resolver problemas". CNET . Consultado el 10 de marzo de 2023 .'La estimulación en cadena de pensamientos nos permite describir problemas de varios pasos como una serie de pasos intermedios', afirma Sundar Pichai, director ejecutivo de Google
  20. ^ McAuliffe, Zachary. "El último modelo de inteligencia artificial de Google puede aprender a resolver problemas". CNET . Consultado el 10 de marzo de 2023 .
  21. ^ Sharan Narang y Aakanksha Chowdhery (4 de abril de 2022). "Pathways Language Model (PaLM): escalabilidad a 540 mil millones de parámetros para un rendimiento innovador".
  22. ^ Dang, Ekta (8 de febrero de 2023). "Aprovechando el poder de GPT-3 en la investigación científica". VentureBeat . Consultado el 10 de marzo de 2023 .
  23. ^ Montti, Roger (13 de mayo de 2022). «La incitación a la cadena de pensamiento de Google puede impulsar los mejores algoritmos actuales». Search Engine Journal . Consultado el 10 de marzo de 2023 .
  24. ^ Ray, Tiernan. "Los científicos de Alexa de Amazon demuestran que una IA más grande no siempre es mejor". ZDNET . Consultado el 10 de marzo de 2023 .
  25. ^ ab Kojima, Takeshi; Shixiang Shane Gu; Reid, Machel; Matsuo, Yutaka; Iwasawa, Yusuke (2022). "Los modelos de lenguaje grandes son razonadores de tiro cero". arXiv : 2205.11916 [cs.CL].
  26. ^ Dickson, Ben (30 de agosto de 2022). "Los LLM no han aprendido nuestro idioma: estamos tratando de aprender el suyo". VentureBeat . Consultado el 10 de marzo de 2023 .
  27. ^ Chung, Hyung ganó; Hou, Le; Longpre, Shayne; Zoph, Barret; Tay, Yi; Fedus, William; Li, Yunxuan; Wang, Xuezhi; Dehghani, Mostafa; Brahma, Siddhartha; Webson, Alberto; Gu, Shixiang Shane; Dai, Zhuyun; Suzgun, Mirac; Chen, Xinyun; Chowdhery, Aakanksha; Castro-Ros, Alex; Pellat, María; Robinson, Kevin; Valter, Dasha; Narang, Sharan; Mishra, Gaurav; Yu, Adams; Zhao, Vicente; Huang, Yanping; Dai, Andrés; Yu, Hongkun; Petrov, eslavo; Chi, Ed H.; Decano, Jeff; Devlin, Jacob; Roberts, Adán; Zhou, Denny; Le, Quoc V.; Wei, Jason (2022). "Ampliación de modelos de lenguaje perfeccionados de instrucción". arXiv : 2210.11416 [cs.LG].
  28. ^ Wei, Jason; Tay, Yi (29 de noviembre de 2022). "Mejores modelos de lenguaje sin computación masiva". ai.googleblog.com . Consultado el 10 de marzo de 2023 .
  29. ^ Sahoo, Pranab; Singh, Ayush Kumar; Saha, Sriparna; Jain, Vinija; Mondal, Samrat; Chadha, Aman (5 de febrero de 2024), Un estudio sistemático de la ingeniería rápida en modelos de lenguajes grandes: técnicas y aplicaciones , arXiv : 2402.07927
  30. ^ ab Hu, Hanxu; Lu, Hongyuan; Zhang, Huajian; Canción, Yun-Ze; Lam, Wai; Zhang, Yue (3 de octubre de 2023), La cadena de símbolos provoca la planificación en modelos de lenguaje grandes , arXiv : 2305.10276
  31. ^ Garg, Shivam; Tsipras, Dimitris; Liang, Percy; Valiant, Gregory (2022). "¿Qué pueden aprender los transformadores en contexto? Un estudio de caso de clases de funciones simples". arXiv : 2208.01066 [cs.CL].
  32. ^ Brown, Tom; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared D.; Dhariwal, Prafulla; Neelakantan, Arvind (2020). "Los modelos de lenguaje son aprendices de pocas oportunidades". Avances en sistemas de procesamiento de información neuronal . 33 : 1877–1901. arXiv : 2005.14165 .
  33. ^ ab Liu, Jiacheng; Liu, Alisa; Lu, Ximing; Welleck, Sean; West, Peter; Le Bras, Ronan; Choi, Yejin; Hajishirzi, Hannaneh (mayo de 2022). "Conocimiento generado que impulsa el razonamiento de sentido común". Actas de la 60.ª reunión anual de la Asociación de Lingüística Computacional (volumen 1: artículos extensos) . Dublín, Irlanda: Asociación de Lingüística Computacional: 3154–3169. arXiv : 2110.08387 . doi : 10.18653/v1/2022.acl-long.225 . S2CID  : 239016123.
  34. ^ ab Zhou, Denny; Schärli, Nathanael; Hou, Le; Wei, Jason; Scales, Nathan; Wang, Xuezhi; Schuurmans, Dale; Cui, Claire; Bousquet, Olivier; Le, Quoc; Chi, Ed (1 de mayo de 2022). "La indicación de menor a mayor permite un razonamiento complejo en modelos de lenguaje grandes". arXiv : 2205.10625 [cs.AI]. ...indicación de menor a mayor. La idea clave de esta estrategia es dividir un problema complejo en una serie de subproblemas más simples y luego resolverlos en secuencia.
  35. ^ Wang, Xuezhi; Wei, Jason; Schuurmans, Dale; Le, Quoc; Chi, Ed; Narang, Sharan; Chowdhery, Aakanksha; Zhou, Denny (1 de marzo de 2022). "La autoconsistencia mejora el razonamiento en cadena de pensamiento en modelos lingüísticos". arXiv : 2203.11171 [cs.CL].
  36. ^ Diao, Shizhe; Wang, Pengcheng; Lin, Yong; Zhang, Tong (1 de febrero de 2023). "Incitación activa con cadena de pensamiento para modelos de lenguaje grandes". arXiv : 2302.12246 [cs.CL].
  37. ^ Fu, Yao; Peng, Hao; Sabharwal, Ashish; Clark, Peter; Khot, Tushar (1 de octubre de 2022). "Incitación basada en la complejidad para el razonamiento de varios pasos". arXiv : 2210.00720 [cs.CL].
  38. ^ ab Madaan, Aman; Tandón, Niket; Gupta, Prakhar; Hallinan, Skyler; Gao, Luyu; Wiegreffe, Sarah; Alón, Uri; Dziri, Nouha; Prabhumoye, Srimai; Yang, Yiming; Gupta, Shashank; Prasad Majumder, Bodhisattwa; Hermann, Katherine; Welleck, Sean; Yazdanbakhsh, Amir (1 de marzo de 2023). "Autorrefinamiento: refinamiento iterativo con autorretroalimentación". arXiv : 2303.17651 [cs.CL].
  39. ^ Long, Jieyi (15 de mayo de 2023). "Árbol de pensamiento guiado por un modelo de lenguaje grande". arXiv : 2305.08291 [cs.AI].
  40. ^ Yao, Shunyu; Yu, Dian; Zhao, Jeffrey; Shafran, Izhak; Griffiths, Thomas L.; Cao, Yuan; Narasimhan, Karthik (17 de mayo de 2023). "Árbol de pensamientos: resolución deliberada de problemas con modelos de lenguaje grandes". arXiv : 2305.10601 [cs.CL].
  41. ^ ab Jung, Jaehun; Qin, Lianhui; Welleck, Sean; Brahman, Faeze; Bhagavatula, Chandra; Le Bras, Ronan; Choi, Yejin (2022). "Incitación mayéutica: razonamiento lógicamente consistente con explicaciones recursivas". arXiv : 2205.11822 [cs.CL].
  42. ^ ab Li, Zekun; Peng, Baolin; He, Pengcheng; Galley, Michel; Gao, Jianfeng; Yan, Xifeng (2023). "Guiding Large Language Models via Directional Stimulus Prompting". arXiv : 2302.11520 [cs.CL]. El estímulo direccional sirve como pistas o señales para cada consulta de entrada para guiar a los LLM hacia el resultado deseado, como palabras clave que el resumen deseado debe incluir para resumir.
  43. ^ OpenAI (27 de marzo de 2023). "Informe técnico de GPT-4". arXiv : 2303.08774 [cs.CL]. [Véase la figura 8.]
  44. ^ Eliot, Lance (18 de agosto de 2023). "La última técnica de ingeniería de indicaciones tiene como objetivo obtener certeza e incertidumbre de la IA generativa directamente sobre la mesa y al descubierto". Forbes . Consultado el 31 de agosto de 2024 . Si indica explícitamente en su indicación que desea que la IA generativa emita una calificación de certeza o incertidumbre, es casi seguro que obtendrá dicha indicación.
  45. ^ "Cómo funciona cada índice - LlamaIndex 🦙 v0.10.17". docs.llamaindex.ai . Consultado el 8 de abril de 2024 .
  46. ^ Lewis, Patrick; Perez, Ethan; Piktus, Aleksandra; Petroni, Fabio; Karpukhin, Vladimir; Goyal, Naman; Küttler, Heinrich; Lewis, Mike; Yih, Wen-tau; Rocktäschel, Tim; Riedel, Sebastian; Kiela, Douwe (2020). "Generación aumentada por recuperación para tareas de PNL intensivas en conocimiento". Avances en sistemas de procesamiento de información neuronal . 33 . Curran Associates, Inc.: 9459–9474. arXiv : 2005.11401 .
  47. ^ GraphRAG: Desbloqueo del descubrimiento de LLM en datos privados narrativos, 2024
  48. ^ Edge, Darren; Trinh, Ha; Cheng, Newman; Bradley, Joshua; Chao, Alex; Mody, Apurva; Truitt, Steven; Larson, Jonathan (2024), De lo local a lo global: un enfoque de gráficos RAG para el resumen centrado en consultas , arXiv : 2404.16130
  49. ^ Sequeda, Juan; Allemang, Dean; Jacob, Bryon (2023), Un punto de referencia para comprender el papel de los gráficos de conocimiento en la precisión de los modelos de lenguaje grandes para responder preguntas en bases de datos SQL empresariales , arXiv : 2311.07509
  50. ^ Singh, Chandan; Morris, John; Aneja, Jyoti; Rush, Alexander; Gao, Jianfeng (4 de octubre de 2022). "Explicación de patrones en datos con modelos de lenguaje mediante autoprompting interpretable". arXiv : 2210.01848 [cs.LG].
  51. ^ Fernando, Chrisantha; Banarse, Dylan; Michalewski, Henryk; Osindero, Simon; Rocktäschel, Tim (2023). "Promptbreeder: automejora autorreferencial a través de la evolución rápida". arXiv : 2309.16797 . {{cite journal}}: Requiere citar revista |journal=( ayuda )
  52. ^ Pryzant, Reid; Iter, Dan; Li, Jerry; Lee, Yin Tat; Zhu, Chenguang; Zeng, Michael (2023). "Optimización automática de indicaciones con "descenso de gradiente" y búsqueda de haz". arXiv : 2305.03495 . {{cite journal}}: Requiere citar revista |journal=( ayuda )
  53. ^ Guo, Qingyan; Wang, Rui; Guo, Junliang; Li, Bei; Canción, Kaitao; Bronceado, Xu; Liu, Guoqing; Bian, Jiang; Yang, Yujiu (2023). "La conexión de modelos de lenguaje grandes con algoritmos evolutivos produce potentes optimizadores rápidos". arXiv : 2309.08532 . {{cite journal}}: Requiere citar revista |journal=( ayuda )
  54. ^ Zhou, Yongchao; Ioan Muresanu, Andrei; Han, Ziwen; Paster, Keiran; Pitis, Silviu; Chan, Harris; Ba, Jimmy (1 de noviembre de 2022). "Los modelos de lenguaje de gran tamaño son ingenieros de indicaciones a nivel humano". arXiv : 2211.01910 [cs.LG].
  55. ^ Zhang, Zhuosheng; Zhang, Aston; Li, Mu; Smola, Alex (1 de octubre de 2022). "Incitación automática de cadenas de pensamiento en modelos de lenguaje grandes". arXiv : 2210.03493 [cs.CL].
  56. ^ Wei, Jason; Tay, Yi; Bommasani, Rishi; Raffel, Colin; Zoph, Barret; Borgeaud, Sebastian; Yogatama, Dani; Bosma, Maarten; Zhou, Denny; Metzler, Donald; Chi, Ed H.; Hashimoto, Tatsunori; Vinyals, Oriol; Liang, Percy; Dean, Jeff; Fedus, William (31 de agosto de 2022). "Habilidades emergentes de modelos de lenguaje grandes". arXiv : 2206.07682 [cs.CL]. En la indicación, un modelo de lenguaje entrenado previamente recibe una indicación (por ejemplo, una instrucción en lenguaje natural) de una tarea y completa la respuesta sin ningún entrenamiento adicional o actualizaciones de gradiente de sus parámetros... La capacidad de realizar una tarea a través de una indicación de pocos intentos es emergente cuando un modelo tiene un rendimiento aleatorio hasta una cierta escala, después de la cual el rendimiento aumenta muy por encima del aleatorio.
  57. ^ Caballero, Ethan; Gupta, Kshitij; Rish, Irina; Krueger, David (2022). "Leyes de escalamiento neuronal rotas". Conferencia internacional sobre representaciones del aprendizaje (ICLR), 2023.
  58. ^ Wei, Jason; Tay, Yi; Bommasani, Rishi; Raffel, Colin; Zoph, Barret; Borgeaud, Sebastián; Yogatama, Dani; Bosma, Martín; Zhou, Denny; Metzler, Donald; Chi, Ed H.; Hashimoto, Tatsunori; Vinyals, Oriol; Liang, Percy; Decano, Jeff; Fedus, William (31 de agosto de 2022). "Habilidades emergentes de grandes modelos lingüísticos". arXiv : 2206.07682 [cs.CL].
  59. ^ Musser, George. "Cómo la IA sabe cosas que nadie le dijo". Scientific American . Consultado el 17 de mayo de 2023. Para cuando escriba una consulta en ChatGPT, la red debería estar arreglada; a diferencia de los humanos, no debería seguir aprendiendo. Por eso, fue una sorpresa que los LLM, de hecho, aprendan de las indicaciones de sus usuarios, una capacidad conocida como aprendizaje en contexto.
  60. ^ Johannes von Oswald; Niklasson, Eyvind; Randazzo, Ettore; Sacramento, João; Mordvintsev, Alexander; Zhmoginov, Andrey; Vladymyrov, Max (2022). "Los transformadores aprenden en contexto mediante descenso de gradiente". arXiv : 2212.07677 [cs.LG]. De esta manera, mostramos cómo los transformadores entrenados se convierten en optimizadores de mesa, es decir, aprenden modelos mediante descenso de gradiente en su paso hacia adelante.
  61. ^ "Mesa-Optimization". 31 de mayo de 2019. Consultado el 17 de mayo de 2023. Mesa-Optimization es la situación que ocurre cuando un modelo aprendido (como una red neuronal) es en sí mismo un optimizador.
  62. ^ Garg, Shivam; Tsipras, Dimitris; Liang, Percy; Valiant, Gregory (2022). "¿Qué pueden aprender los transformadores en contexto? Un estudio de caso de clases de funciones simples". arXiv : 2208.01066 [cs.CL]. El entrenamiento de un modelo para realizar aprendizaje en contexto puede considerarse como una instancia del paradigma más general de aprendizaje a aprender o metaaprendizaje.
  63. ^ Monge, Jim Clyde (25 de agosto de 2022). "Dall-E2 frente a difusión estable: mismo mensaje, resultados diferentes". MLearning.ai . Consultado el 31 de agosto de 2022 .
  64. ^ abc "Prompts" . Consultado el 14 de agosto de 2023 .
  65. ^ "Indicación de difusión estable: una guía definitiva". 2023-05-14 . Consultado el 2023-08-14 .
  66. ^ Heikkilä, Melissa (16 de septiembre de 2022). "Este artista está dominando el arte generado por IA y no está contento con ello". MIT Technology Review . Consultado el 14 de agosto de 2023 .
  67. ^ Max Woolf (28 de noviembre de 2022). «Difusión estable 2.0 y la importancia de los estímulos negativos para obtener buenos resultados» . Consultado el 14 de agosto de 2023 .
  68. ^ Gal, Rinon; Alaluf, Yuval; Atzmon, Yuval; Patashnik, Or; Bermano, Amit H.; Chechik, Gal; Cohen-Or, Daniel (2022). "Una imagen vale una palabra: personalización de la generación de texto a imagen mediante inversión textual". arXiv : 2208.01618 [cs.CV]. Usando solo 3-5 imágenes de un concepto proporcionado por el usuario, como un objeto o un estilo, aprendemos a representarlo a través de nuevas "palabras" en el espacio de incrustación de un modelo de texto a imagen congelado.
  69. ^ Kirillov, Alejandro; Mintun, Eric; Ravi, Nikhila; Mao, Hanzi; Rolland, Cloe; Gustafson, Laura; Xiao, Tete; Whitehead, Spencer; Berg, Alejandro C.; Lo, Wan-Yen; Dollár, Piotr; Girshick, Ross (1 de abril de 2023). "Segmentar cualquier cosa". arXiv : 2304.02643 [cs.CV].
  70. ^ Li, Xiang Lisa; Liang, Percy (2021). "Prefix-Tuning: Optimizing Continuous Prompts for Generation". Actas de la 59.ª Reunión Anual de la Asociación de Lingüística Computacional y la 11.ª Conferencia Conjunta Internacional sobre Procesamiento del Lenguaje Natural (Volumen 1: Documentos Largos) . págs. 4582–4597. doi :10.18653/V1/2021.ACL-LONG.353. S2CID  230433941. En este artículo, proponemos el prefijo-tuning, una alternativa ligera al ajuste fino... El prefijo-tuning se inspira en el prefijo-tuning.
  71. ^ Lester, Brian; Al-Rfou, Rami; Constant, Noah (2021). "El poder de la escala para el ajuste de indicaciones con eficiencia de parámetros". Actas de la Conferencia de 2021 sobre métodos empíricos en el procesamiento del lenguaje natural . págs. 3045–3059. arXiv : 2104.08691 . doi :10.18653/V1/2021.EMNLP-MAIN.243. S2CID  233296808. En este trabajo, exploramos el "ajuste de indicaciones", un mecanismo simple pero efectivo para aprender "indicaciones suaves"... A diferencia de las indicaciones de texto discretas utilizadas por GPT-3, las indicaciones suaves se aprenden mediante retropropagación.
  72. ^ Sun, Simeng; Liu, Yang; Iter, Dan; Zhu, Chenguang; Iyyer, Mohit (2023). "¿Cómo ayuda el aprendizaje en contexto a acelerar el ajuste?". arXiv : 2302.11521 [cs.CL].
  73. ^ Shin, Taylor; Razeghi, Yasaman; Logan IV, Robert L.; Wallace, Eric; Singh, Sameer (noviembre de 2020). "AutoPrompt: obtención de conocimiento a partir de modelos lingüísticos con indicaciones generadas automáticamente". Actas de la Conferencia de 2020 sobre métodos empíricos en el procesamiento del lenguaje natural (EMNLP) . En línea: Association for Computational Linguistics. págs. 4222–4235. doi : 10.18653/v1/2020.emnlp-main.346 . S2CID  : 226222232.
  74. ^ Willison, Simon (12 de septiembre de 2022). "Ataques de inyección rápida contra GPT-3". simonwillison.net . Consultado el 9 de febrero de 2023 .
  75. ^ Papp, Donald (17 de septiembre de 2022). "Lo viejo se vuelve nuevo: el ataque de inyección de mensajes de GPT-3 afecta a la IA". Hackaday . Consultado el 9 de febrero de 2023 .
  76. ^ Vigliarolo, Brandon (19 de septiembre de 2022). "El ataque de 'inyección rápida' de GPT-3 provoca malos modales en los bots". www.theregister.com . Consultado el 9 de febrero de 2023 .