El Transformador Generativo Pre-entrenado 1 ( GPT-1 ) fue el primero de los grandes modelos de lenguaje de OpenAI luego de la invención de la arquitectura de transformadores por parte de Google en 2017. [2] En junio de 2018, OpenAI publicó un artículo titulado "Mejora de la comprensión del lenguaje mediante el preentrenamiento generativo", [3] en el que presentaron ese modelo inicial junto con el concepto general de un transformador generativo pre-entrenado . [4]
Hasta ese momento, los modelos de procesamiento neuronal neuronal con mejor rendimiento empleaban principalmente el aprendizaje supervisado a partir de grandes cantidades de datos etiquetados manualmente. Esta dependencia del aprendizaje supervisado limitaba el uso de conjuntos de datos que no estaban bien anotados, además de hacer que el entrenamiento de modelos extremadamente grandes fuera prohibitivamente costoso y llevara mucho tiempo; [3] [5] muchos idiomas (como el suajili o el criollo haitiano ) son difíciles de traducir e interpretar utilizando dichos modelos debido a la falta de texto disponible para la construcción de corpus. [5] En cambio, el enfoque "semisupervisado" de un GPT implicaba dos etapas: una etapa de "preentrenamiento" generativo no supervisado en la que se utilizaba un objetivo de modelado del lenguaje para establecer parámetros iniciales, y una etapa de "ajuste fino" discriminativo supervisado en la que estos parámetros se adaptaban a una tarea objetivo. [3]
El uso de una arquitectura de transformador , a diferencia de las técnicas anteriores que implicaban RNN con atención aumentada, proporcionó a los modelos GPT una memoria más estructurada que la que se podía lograr a través de mecanismos recurrentes; esto dio como resultado un "rendimiento de transferencia robusto en diversas tareas". [3]
BookCorpus fue elegido como conjunto de datos de entrenamiento en parte porque los largos pasajes de texto continuo ayudaron al modelo a aprender a manejar información de largo alcance. [6] Contenía más de 7000 libros de ficción inéditos de varios géneros. El resto de los conjuntos de datos disponibles en ese momento, si bien eran más grandes, carecían de esta estructura de largo alcance (estaban "reorganizados" a nivel de oración). [3]
La biblioteca ftfy limpió el texto de BookCorpus para estandarizar la puntuación y los espacios en blanco y luego lo tokenizó spaCy . [3]
La arquitectura GPT-1 era un transformador de solo decodificador de doce capas , que utilizaba doce cabezas de autoatención enmascaradas, con 64 estados dimensionales cada una (para un total de 768). En lugar de un simple descenso de gradiente estocástico , se utilizó el algoritmo de optimización Adam ; la tasa de aprendizaje se incrementó linealmente desde cero durante las primeras 2000 actualizaciones hasta un máximo de 2,5×10 −4 , y se recoció a 0 utilizando un programa de coseno. [3] GPT-1 tiene 117 millones de parámetros. [4]
Si bien el ajuste fino se adaptó a tareas específicas, no así su entrenamiento previo; para realizar las distintas tareas, se realizaron cambios mínimos en su arquitectura de modelo agnóstica de tareas subyacente. [3] A pesar de esto, GPT-1 aún mejoró los puntos de referencia anteriores en varias tareas de procesamiento del lenguaje, superando a los modelos entrenados de manera discriminativa con arquitecturas orientadas a tareas en varias tareas diversas. [3]
GPT-1 logró una mejora del 5,8% y del 1,5% sobre los mejores resultados anteriores [3] en tareas de inferencia de lenguaje natural (también conocida como implicación textual ), evaluando la capacidad de interpretar pares de oraciones de varios conjuntos de datos y clasificar la relación entre ellas como "implicación", "contradicción" o "neutral". [3] Los ejemplos de dichos conjuntos de datos incluyen QNLI ( artículos de Wikipedia ) y MultiNLI (discurso transcrito, ficción popular e informes gubernamentales, entre otras fuentes); [7] De manera similar, superó a los modelos anteriores en dos tareas relacionadas con la respuesta a preguntas y el razonamiento de sentido común : en un 5,7% en RACE, [8] un conjunto de datos de pares de preguntas y respuestas escritas de exámenes de secundaria y preparatoria, y en un 8,9% en el Story Cloze Test . [9]
GPT-1 mejoró los modelos de mejor rendimiento anteriores en un 4,2 % en similitud semántica (o detección de paráfrasis ), al evaluar la capacidad de predecir si dos oraciones son paráfrasis una de otra, utilizando el conjunto de datos Quora Question Pairs (QQP). [3]
GPT-1 obtuvo una puntuación de 45,4, frente a un récord anterior de 35,0 [3] en una tarea de clasificación de textos utilizando el Corpus de Aceptabilidad Lingüística (CoLA). Por último, GPT-1 obtuvo una puntuación general de 72,8 (en comparación con un récord anterior de 68,9) en GLUE, una prueba multitarea. [10]
Número de libros: 11.038 / Número de oraciones: 74.004.228 / Número de palabras: 984.846.357 / Número medio de palabras por oración: 13 / Número mediano de palabras por oración: 11
Con 433 000 ejemplos, este recurso es uno de los corpus más grandes disponibles para la inferencia del lenguaje natural (también conocido como reconocimiento de implicación textual), [...] ofreciendo datos de diez géneros distintos de inglés escrito y hablado [...] al mismo tiempo que proporciona un entorno explícito para evaluar la adaptación de dominios entre géneros.
La tarea compartida LSDSem'17 es el Story Cloze Test, una nueva evaluación para la comprensión de historias y el aprendizaje de guiones. Esta prueba proporciona a un sistema una historia de cuatro oraciones y dos finales posibles, y el sistema debe elegir el final correcto. La comprensión narrativa exitosa (acercándose al desempeño humano del 100 %) requiere que los sistemas vinculen varios niveles de semántica con el conocimiento del sentido común.