Transformador generativo preentrenado

[8]​ OpenAI ha lanzado modelos básicos GPT muy influyentes que han sido numerados secuencialmente para conformar su serie "GPT-n".

[1]​ El término "GPT" también se utiliza en los nombres y descripciones de los modelos desarrollados por otros.

[19]​ También por esas fechas, en 2018, OpenAI publicó su artículo titulado "Mejorando la comprensión del lenguaje mediante preentrenamiento generativo" (en inglés: Improving Language Understanding by Generative Pre-Training"), en el que presentaba el primer sistema de transformadores preentrenados generativos (GPT) ("GPT-1").

La dependencia del aprendizaje supervisado limitaba su uso en conjuntos de datos que no estuvieran bien anotados, y también hacía que entrenar los modelos de lenguaje extremadamente grandes resultase excesivamente caro y llevase mucho tiempo.

[35]​ Meta AI (antes Facebook) también tiene un gran modelo de lenguaje fundacional basado en transformadores generativos, conocido como LLaMA.

[36]​ Los GPT fundacionales también pueden emplear modalidades distintas del texto, como entrada y/o salida.

[40]​ Un modelo GPT fundacional puede adaptarse para producir sistemas más específicos dirigidos a tareas concretas y/o ámbitos temáticos.

Los métodos para esta adaptación pueden incluir un ajuste fino adicional (más allá del realizado para el modelo básico), así como ciertas formas de ingeniería rápida.

Posteriormente, OpenAI comenzó a utilizarlo como base para sus ofertas de servicios API.

[45]​[46]​ Otro tipo (relacionado) de modelos para tareas específicas son los chatbots, que entablan conversaciones similares a las humanas.

[50]​ Es lo que se conoce como agente de IA, y más concretamente como agente recursivo, ya que utiliza los resultados de sus autoinstrucciones anteriores como ayuda para formular sus instrucciones posteriores.

[51]​ Los sistemas basados en transformadores generativos también pueden orientarse a tareas que impliquen modalidades distintas del texto.

[72]​ En esta sección se enumeran las principales publicaciones oficiales de OpenAI y Microsoft sobre sus modelos GPT.

Modelo GPT original