stringtranslate.com

GPT-1

Arquitectura GPT original

El Transformador Generativo Pre-entrenado 1 ( GPT-1 ) fue el primero de los grandes modelos de lenguaje de OpenAI luego de la invención de la arquitectura de transformadores por parte de Google en 2017. [2] En junio de 2018, OpenAI publicó un artículo titulado "Mejora de la comprensión del lenguaje mediante el preentrenamiento generativo", [3] en el que presentaron ese modelo inicial junto con el concepto general de un transformador generativo pre-entrenado . [4]

Hasta ese momento, los modelos de procesamiento neuronal neuronal con mejor rendimiento empleaban principalmente el aprendizaje supervisado a partir de grandes cantidades de datos etiquetados manualmente. Esta dependencia del aprendizaje supervisado limitaba el uso de conjuntos de datos que no estaban bien anotados, además de hacer que el entrenamiento de modelos extremadamente grandes fuera prohibitivamente costoso y llevara mucho tiempo; [3] [5] muchos idiomas (como el suajili o el criollo haitiano ) son difíciles de traducir e interpretar utilizando dichos modelos debido a la falta de texto disponible para la construcción de corpus. [5] En cambio, el enfoque "semisupervisado" de un GPT implicaba dos etapas: una etapa de "preentrenamiento" generativo no supervisado en la que se utilizaba un objetivo de modelado del lenguaje para establecer parámetros iniciales, y una etapa de "ajuste fino" discriminativo supervisado en la que estos parámetros se adaptaban a una tarea objetivo. [3]

El uso de una arquitectura de transformador , a diferencia de las técnicas anteriores que implicaban RNN con atención aumentada, proporcionó a los modelos GPT una memoria más estructurada que la que se podía lograr a través de mecanismos recurrentes; esto dio como resultado un "rendimiento de transferencia robusto en diversas tareas". [3]

Razón para elegir BookCorpus

BookCorpus fue elegido como conjunto de datos de entrenamiento en parte porque los largos pasajes de texto continuo ayudaron al modelo a aprender a manejar información de largo alcance. [6] Contenía más de 7000 libros de ficción inéditos de varios géneros. El resto de los conjuntos de datos disponibles en ese momento, si bien eran más grandes, carecían de esta estructura de largo alcance (estaban "reorganizados" a nivel de oración). [3]

La biblioteca ftfy limpió el texto de BookCorpus para estandarizar la puntuación y los espacios en blanco y luego lo tokenizó spaCy . [3]

Arquitectura

La arquitectura GPT-1 era un transformador de solo decodificador de doce capas , que utilizaba doce cabezas de autoatención enmascaradas, con 64 estados dimensionales cada una (para un total de 768). En lugar de un simple descenso de gradiente estocástico , se utilizó el algoritmo de optimización Adam ; la tasa de aprendizaje se incrementó linealmente desde cero durante las primeras 2000 actualizaciones hasta un máximo de 2,5×10 −4 , y se recoció a 0 utilizando un programa de coseno. [3] GPT-1 tiene 117 millones de parámetros. [4]

Si bien el ajuste fino se adaptó a tareas específicas, no así su entrenamiento previo; para realizar las distintas tareas, se realizaron cambios mínimos en su arquitectura de modelo agnóstica de tareas subyacente. [3] A pesar de esto, GPT-1 aún mejoró los puntos de referencia anteriores en varias tareas de procesamiento del lenguaje, superando a los modelos entrenados de manera discriminativa con arquitecturas orientadas a tareas en varias tareas diversas. [3]

Desempeño y evaluación

GPT-1 logró una mejora del 5,8% y del 1,5% sobre los mejores resultados anteriores [3] en tareas de inferencia de lenguaje natural (también conocida como implicación textual ), evaluando la capacidad de interpretar pares de oraciones de varios conjuntos de datos y clasificar la relación entre ellas como "implicación", "contradicción" o "neutral". [3] Los ejemplos de dichos conjuntos de datos incluyen QNLI ( artículos de Wikipedia ) y MultiNLI (discurso transcrito, ficción popular e informes gubernamentales, entre otras fuentes); [7] De manera similar, superó a los modelos anteriores en dos tareas relacionadas con la respuesta a preguntas y el razonamiento de sentido común : en un 5,7% en RACE, [8] un conjunto de datos de pares de preguntas y respuestas escritas de exámenes de secundaria y preparatoria, y en un 8,9% en el Story Cloze Test . [9]

GPT-1 mejoró los modelos de mejor rendimiento anteriores en un 4,2 % en similitud semántica (o detección de paráfrasis ), al evaluar la capacidad de predecir si dos oraciones son paráfrasis una de otra, utilizando el conjunto de datos Quora Question Pairs (QQP). [3]

GPT-1 obtuvo una puntuación de 45,4, frente a un récord anterior de 35,0 [3] en una tarea de clasificación de textos utilizando el Corpus de Aceptabilidad Lingüística (CoLA). Por último, GPT-1 obtuvo una puntuación general de 72,8 (en comparación con un récord anterior de 68,9) en GLUE, una prueba multitarea. [10]

Referencias

  1. ^ "gpt-2". GitHub . Archivado desde el original el 11 de marzo de 2023 . Consultado el 13 de marzo de 2023 .
  2. ^ Vaswani, Ashish ; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, León; Gómez, Aidan N ; Káiser, Łukasz; Polosukhin, Illia (2017). "La atención es todo lo que necesita" (PDF) . Avances en los sistemas de procesamiento de información neuronal . 30 . Curran asociados, Inc.
  3. ^ abcdefghijklm Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya (11 de junio de 2018). "Mejorar la comprensión del lenguaje mediante el preentrenamiento generativo" (PDF) . OpenAI . pág. 12. Archivado (PDF) del original el 26 de enero de 2021 . Consultado el 23 de enero de 2021 .
  4. ^ ab "GPT-1 a GPT-4: cada uno de los modelos GPT de OpenAI explicados y comparados". 11 de abril de 2023. Archivado desde el original el 15 de abril de 2023. Consultado el 29 de abril de 2023 .
  5. ^ ab Tsvetkov, Yulia (22 de junio de 2017). "Oportunidades y desafíos en el trabajo con lenguajes de bajos recursos" (PDF) . Universidad Carnegie Mellon. Archivado (PDF) del original el 31 de marzo de 2020. Consultado el 23 de enero de 2021 .
  6. ^ Zhu, Yukun; Kiros, Ryan; Zemel, Richard; Salakhutdinov, Ruslan; Urtasun, Raquel; Torralba, Antonio; Fidler, Sanja (22 de junio de 2015). "Alineación de libros y películas: hacia explicaciones visuales similares a las de una historia mediante la observación de películas y la lectura de libros". arXiv : 1506.06724 [cs.CV]. Número de libros: 11.038 / Número de oraciones: 74.004.228 / Número de palabras: 984.846.357 / Número medio de palabras por oración: 13 / Número mediano de palabras por oración: 11
  7. ^ Williams, Adina; Nangia, Nikita; Bowman, Samuel (1 de junio de 2018). "Un corpus de desafío de amplia cobertura para la comprensión de oraciones mediante inferencia" (PDF) . Asociación de Lingüística Computacional. Archivado (PDF) del original el 11 de febrero de 2020 . Consultado el 23 de enero de 2021 . Con 433 000 ejemplos, este recurso es uno de los corpus más grandes disponibles para la inferencia del lenguaje natural (también conocido como reconocimiento de implicación textual), [...] ofreciendo datos de diez géneros distintos de inglés escrito y hablado [...] al mismo tiempo que proporciona un entorno explícito para evaluar la adaptación de dominios entre géneros.
  8. ^ Lai, Guokun; Xie, Qizhe; Hanxiao, Liu; Yang, Yiming; Hovy, Eduard (15 de abril de 2017). "RACE: conjunto de datos de comprensión de lectura a gran escala a partir de exámenes". arXiv : 1704.04683 [cs.CL].
  9. ^ Mostafazadeh, Nasrin; Roth, Michael; Louis, Annie; Chambers, Nathanael; Allen, James F. (3 de abril de 2017). "LSDSem 2017 Shared Task: The Story Cloze Test" (PDF) . Asociación de Lingüística Computacional. Archivado (PDF) del original el 22 de noviembre de 2020 . Consultado el 23 de enero de 2021 . La tarea compartida LSDSem'17 es el Story Cloze Test, una nueva evaluación para la comprensión de historias y el aprendizaje de guiones. Esta prueba proporciona a un sistema una historia de cuatro oraciones y dos finales posibles, y el sistema debe elegir el final correcto. La comprensión narrativa exitosa (acercándose al desempeño humano del 100 %) requiere que los sistemas vinculen varios niveles de semántica con el conocimiento del sentido común.
  10. ^ Wang, Alex; Singh, Amanpreet; Michael, Julian; Hill, Felix; Levy, Omar; Bowman, Samuel R. (20 de abril de 2018). "GLUE: una plataforma de análisis y evaluación comparativa multitarea para la comprensión del lenguaje natural". arXiv : 1804.07461 [cs.CL].