Ingeniería de instrucciones

[5]​ También podría ser una orden específica, como “Escribe un poema sobre las hojas que caen”, [6]​ o en ocasiones, se requiere proporcionar una declaración más larga que incluya contexto, instrucciones detalladas e historial de conversaciones para guiar al modelo.[7]​ Además, la ingeniería de instrucción puede implicar formular una consulta específica, especificar un estilo deseado, proporcionar contexto relevante o asignar una función específica a la IA, como “Actuar como un hablante nativo de francés”.[12]​ Impulsar un modelo de texto a imagen puede implicar agregar, eliminar, enfatizar y reordenar palabras para lograr el tema, estilo, diseño, iluminación y estética deseados.[18]​ Cuando un modelo de IA puede cambiar sus parámetros internos según la situación y aprender de ella, sin que nadie lo entrene o ajuste, se dice que hace mesa-optimización.Para que el modelo T0 hiciera una cosa, los investigadores le daban una pregunta y una respuesta con este formato: si {{premisa}} es verdad, ¿{{hipótesis}} también es verdad?Así, el modelo T0 podía resolver la vinculación, que es ver si una oración se sigue de otra.[27]​ [28]​ [29]​ Por ejemplo, supongamos que le hacemos esta pregunta a un LLM: “P: La cafetería tenía 23 manzanas.Si usaron 20 para preparar el almuerzo y compraron 6 más, ¿cuántas manzanas tienen?”.Si usamos una indicación de CoT, el LLM podría responder así: “A: Para resolver este problema, hay que hacer dos operaciones.Se le pide al modelo que responda una pregunta con una explicación.Luego se le solicita al modelo que explique partes de la explicación, y así sucesivamente.Esto mejora el rendimiento en razonamientos complejos de sentido común.El modelo puede generar un texto que parezca seguro, aunque las predicciones simbólicas subyacentes tienen puntuaciones de probabilidad bajas.Aunque no se puedan ver las puntuaciones de confianza (por ejemplo, al usar una API limitada del modelo), todavía se puede calcular e incluir la incertidumbre en la salida del modelo.Una forma fácil es hacer que el modelo use palabras para expresar la incertidumbre.Otra es hacer que el modelo se abstenga de responder con un formato estándar si la entrada no cumple los requisitos.[cita requerida] Los prompts a menudo incluyen algunos ejemplos (es decir, “pocas posibilidades”).Se usa un recuperador de documentos para encontrar los más pertinentes a una consulta (normalmente se hace codificando la consulta y los documentos en vectores y luego comparando los vectores más próximos según la distancia euclidiana).Después, el LLM produce un resultado que usa tanto la consulta como los documentos encontrados.Por ejemplo, la frase al estilo de Van Gogh se ha utilizado en los mensajes Stable Diffusion y Midjourney para generar imágenes en el estilo distintivo del pintor Vincent van Gogh.[49]​ Un enfoque común es incluir términos genéricos no deseados como feo, aburrido o mala anatomía en el mensaje negativo de una imagen.Durante el entrenamiento, las incorporaciones ajustables, los tokens de entrada y salida se concatenan en una única secuencia;y luego use el descenso de gradiente para buscarConsiste en hacer que el modelo siga instrucciones maliciosas proporcionadas por un usuario malintencionado.Esto va en contra de la operación prevista de los sistemas que siguen instrucciones, donde el modelo solo debería seguir instrucciones confiables (prompts) proporcionadas por el operador del modelo.[58]​[59]​[60]​ Un modelo de lenguaje puede realizar la traducción automática con el siguiente mensaje: [61]​ seguido del texto a traducir.[62]​ Este ataque funciona porque las entradas del modelo de lenguaje contienen instrucciones y datos juntos en el mismo contexto, por lo que el motor subyacente no puede distinguir entre ellos.[69]​ Uno de estos mensajes fue conocido por sus practicantes como "Haz cualquier cosa ahora" (DAN).Un atacante puede primero solicitar al LLM indicaciones de programación de uso común, recopilar todos los paquetes importados por los programas generados y luego encontrar los que no existen en el registro oficial.[75]​ [76]​ En 2023, el proyecto de código abierto Rebuff.ai adoptó esta técnica para proteger los ataques de inyección rápida, y Arthur.ai anunció un producto comercial, aunque tales enfoques no mitigan el problema por completo.
Proceso de dos fases de recuperación de documentos utilizando incrustaciones (Word embedding) densas y modelo de lenguaje grande (LLM) para la formulación de respuestas.