Generative Pre-trained Transformer 2 ( GPT-2 ) es un gran modelo de lenguaje de OpenAI y el segundo de su serie fundacional de modelos GPT . GPT-2 fue entrenado previamente en un conjunto de datos de 8 millones de páginas web. [2] Se lanzó parcialmente en febrero de 2019, seguido por el lanzamiento completo del modelo de 1500 millones de parámetros el 5 de noviembre de 2019. [3] [4] [5]
GPT-2 fue creado como una "ampliación directa" de GPT-1 [6] con un aumento de diez veces tanto en su recuento de parámetros como en el tamaño de su conjunto de datos de entrenamiento. [5] Es un aprendiz de propósito general y su capacidad para realizar las diversas tareas fue una consecuencia de su capacidad general para predecir con precisión el siguiente elemento en una secuencia, [2] [7] lo que le permitió traducir textos, responder preguntas sobre un tema de un texto, resumir pasajes de un texto más grande, [7] y generar salida de texto en un nivel a veces indistinguible del de los humanos , sin embargo podría volverse repetitivo o sin sentido al generar pasajes largos. [8] Fue reemplazado por los modelos GPT-3 y GPT-4, que ya no son de código abierto.
GPT-2 tiene, al igual que su predecesor GPT-1 y sus sucesores GPT-3 y GPT-4, una arquitectura de transformador generativo preentrenado , que implementa una red neuronal profunda , específicamente un modelo de transformador , [6] que utiliza la atención en lugar de arquitecturas más antiguas basadas en recurrencia y convolución. [9] [10] Los mecanismos de atención permiten que el modelo se centre selectivamente en segmentos del texto de entrada que predice que serán los más relevantes. [11] [12] Este modelo permite una paralelización mucho mayor y supera los puntos de referencia anteriores para modelos basados en RNN/CNN/LSTM. [6]
Dado que la arquitectura del transformador permitió la paralelización masiva , los modelos GPT se podían entrenar en corpus más grandes que los modelos NLP (procesamiento del lenguaje natural) anteriores. Si bien el modelo GPT-1 demostró que el enfoque era viable, GPT-2 exploraría más a fondo las propiedades emergentes de las redes entrenadas en corpus extremadamente grandes. CommonCrawl , un gran corpus producido por rastreo web y utilizado anteriormente en el entrenamiento de sistemas NLP, [13] se consideró debido a su gran tamaño, pero se rechazó después de que una revisión más detallada revelara grandes cantidades de contenido ininteligible. [2] [13] En cambio, OpenAI desarrolló un nuevo corpus, conocido como WebText ; en lugar de raspar contenido indiscriminadamente de la World Wide Web , WebText se generó raspando solo páginas vinculadas a publicaciones de Reddit que habían recibido al menos tres votos positivos antes de diciembre de 2017. Posteriormente, el corpus se limpió; los documentos HTML se analizaron en texto sin formato, se eliminaron las páginas duplicadas y se eliminaron las páginas de Wikipedia (ya que su presencia en muchos otros conjuntos de datos podría haber inducido un sobreajuste ). [2]
Si bien se sabe que el costo de entrenamiento de GPT-2 fue de $256 por hora, [14] [15] se desconoce la cantidad de horas que tomó completar el entrenamiento; por lo tanto, no se puede estimar con precisión el costo total del entrenamiento. [16] Sin embargo, se han documentado con más detalle los costos de modelos de lenguaje grandes comparables que utilizan arquitecturas de transformadores; los procesos de entrenamiento para BERT y XLNet consumieron, respectivamente, $6,912 y $245,000 de recursos. [15]
GPT-2 se anunció por primera vez el 14 de febrero de 2019. Un artículo de febrero de 2019 en The Verge escrito por James Vincent decía que, si bien "la escritura que produce suele ser fácilmente identificable como no humana", seguía siendo "uno de los ejemplos más emocionantes hasta ahora" de programas de generación de lenguaje: [17]
Dale un título falso y escribirá el resto del artículo, con citas y estadísticas falsas. Dale la primera línea de un cuento y te dirá qué le sucederá a tu personaje a continuación. Incluso puede escribir fan fiction, si se le da el mensaje adecuado. [17]
The Guardian describió este resultado como "prosa periodística plausible"; [8] Kelsey Piper de Vox dijo que "uno de los sistemas de IA más geniales que he visto también puede ser el que me eche de mi trabajo". [18] The Verge describió la flexibilidad de GPT-2 como "impresionante"; específicamente, se destacó su capacidad para traducir texto entre idiomas, resumir artículos largos y responder preguntas de trivia. [17]
Un estudio de la Universidad de Ámsterdam que empleó una prueba de Turing modificada descubrió que, al menos en algunos escenarios, los participantes no podían distinguir los poemas generados por GPT-2 de aquellos escritos por humanos. [19]
Aunque los modelos anteriores de OpenAI se habían puesto inmediatamente a disposición del público, OpenAI inicialmente se negó a hacer una publicación del código fuente de GPT-2 cuando lo anunció en febrero, citando el riesgo de uso malintencionado; [8] se permitió un acceso limitado al modelo (es decir, una interfaz que permitía la entrada y proporcionaba salida, no el código fuente en sí) para medios de prensa seleccionados en el momento del anuncio. [8] Una justificación citada comúnmente fue que, dado que el texto generado era generalmente completamente novedoso, los spammers podían usarlo para evadir los filtros automáticos ; OpenAI demostró una versión de GPT-2 ajustada para "generar infinitas revisiones positivas -o negativas- de los productos". [8]
Otra justificación fue que GPT-2 podría utilizarse para generar texto obsceno o racista . Investigadores como Jeremy Howard advirtieron sobre "la tecnología para llenar totalmente Twitter, el correo electrónico y la web con prosa que suene razonable y apropiada al contexto, que ahogaría todo el resto del discurso y sería imposible de filtrar". [17] El Instituto Allen para la Inteligencia Artificial , en respuesta a GPT-2, anunció una herramienta para detectar "noticias falsas neuronales". [20]
Sin embargo, la opinión estaba dividida. Un artículo de febrero de 2019 en The Verge argumentó que la amenaza planteada por GPT-2 había sido exagerada; [21] Anima Anandkumar , profesora de Caltech y directora de investigación de aprendizaje automático en Nvidia , dijo que no había evidencia de que GPT-2 tuviera las capacidades para plantear las amenazas descritas por OpenAI, y que lo que hicieron fue lo "opuesto de abierto", caracterizando su negativa a publicar el modelo completo como " tonterías maliciosas ". [21] The Gradient publicó una carta abierta a OpenAI solicitando que publicaran el modelo públicamente, comparando la amenaza planteada por la IA de generación de texto con la amenaza planteada por la imprenta , y dando a Photoshop como un ejemplo de "una tecnología que (afortunadamente) no ha destruido la sociedad moderna a pesar de su potencial para el caos": [22]
Treinta años después, la sociedad ha salido relativamente indemne a pesar de que Photoshop es lo suficientemente simple como para que lo utilicen estudiantes de secundaria y lo suficientemente omnipresente como para apropiarse de su propio verbo. ¿Por qué? Precisamente porque todo el mundo conoce Photoshop. [22]
Si bien OpenAI no publicó el modelo completamente entrenado ni los corpus en los que se entrenó, la descripción de sus métodos en publicaciones anteriores (y la libre disponibilidad de la tecnología subyacente) hicieron posible que otros replicaran GPT-2 como software libre ; una de esas réplicas, OpenGPT-2, se lanzó en agosto de 2019, junto con una versión con licencia libre de WebText llamada OpenWebText. Los costos de computación en la nube para OpenGPT-2 se estimaron en aproximadamente $50,000. [23]
El 20 de agosto de 2019, OpenAI lanzó una versión parcial de GPT-2, con 774 millones de parámetros (aproximadamente la mitad del tamaño del modelo completo de 1.500 millones de parámetros). [24]
Las preocupaciones iniciales de que GPT-2 se prestaría a un mal uso generalizado no se hicieron realidad; The Verge dijo que "hay razones para ser escéptico sobre las afirmaciones de que la tecnología de IA marcará el comienzo de una especie de 'infopocalipsis'. Para empezar, ya tenemos programas que pueden generar texto plausible en gran volumen por poco costo: humanos". [25] En noviembre de 2019, OpenAI dijo que "hasta ahora no habían visto evidencia sólida de mal uso", y la versión completa, con 1.500 millones de parámetros entrenados con cuarenta gigabytes de datos, "aproximadamente ocho mil veces más grande que las obras completas de Shakespeare", [26] se lanzó el 5 de noviembre de 2019. [3] [4]
Existen otras dos versiones más pequeñas de GPT-2, incluida la versión pequeña de 117 millones de parámetros y la versión mediana de 355 millones de parámetros. Ambas están disponibles para descargar desde Huggingface. [27] [28]
Aunque la capacidad de GPT-2 para generar pasajes plausibles de texto en lenguaje natural fue generalmente comentada de forma positiva, también se notaron sus deficiencias, especialmente al generar textos más largos que un par de párrafos; Vox dijo que "la prosa es bastante tosca, hay non-sequitur ocasional, y los artículos se vuelven menos coherentes cuanto más largos son". [18] The Verge señaló de manera similar que muestras más largas de escritura GPT-2 tendían a "desviarse del tema" y carecían de coherencia general; [17] The Register opinó que "un humano que lo lea debería, después de un corto tiempo, darse cuenta de que algo está pasando", y señaló que "GPT-2 no responde preguntas tan bien como otros sistemas que dependen de algoritmos para extraer y recuperar información". [14]
La implementación de GPT-2 consume muchos recursos; la versión completa del modelo tiene más de cinco gigabytes, lo que dificulta su integración local en aplicaciones y consume grandes cantidades de RAM. Además, realizar una sola predicción "puede ocupar una CPU al 100 % de utilización durante varios minutos", e incluso con el procesamiento de GPU , "una sola predicción puede tardar segundos". Para aliviar estos problemas, la empresa Hugging Face creó DistilGPT2 , que utiliza la destilación de conocimientos para producir un modelo más pequeño que "obtiene algunos puntos menos en algunos puntos de referencia de calidad", pero es "un 33 % más pequeño y el doble de rápido". [ cita requerida ]
Incluso antes del lanzamiento de la versión completa, GPT-2 se utilizaba para una variedad de aplicaciones y servicios, así como para entretenimiento. En junio de 2019, se creó un subreddit llamado r/SubSimulatorGPT2 en el que una variedad de instancias de GPT-2 entrenadas en diferentes subreddits hicieron publicaciones y respondieron a los comentarios de los demás, creando una situación en la que se podía observar "una personificación de IA de r/Bitcoin discutiendo con el espíritu derivado del aprendizaje automático de r/ShittyFoodPorn"; [25] en julio de ese año, un programa de software basado en GPT-2 lanzado para autocompletar líneas de código en una variedad de lenguajes de programación fue descrito por los usuarios como un "cambio de juego". [29]
En 2019, se lanzó AI Dungeon , que utilizaba GPT-2 para generar aventuras de texto dinámicas basadas en la entrada del usuario. [30] AI Dungeon ahora ofrece acceso a la versión más grande de la API GPT-3 como una actualización paga opcional, la versión gratuita del sitio utiliza la segunda versión más grande de GPT-3. [31] Latitude, la empresa formada en torno a AI Dungeon, recaudó $ 3,3 millones en financiación inicial en 2021. [32] Varios sitios web albergan demostraciones interactivas de diferentes instancias de GPT-2 y otros modelos de transformadores. [33] [34] [35]
En febrero de 2021, un centro de crisis para adolescentes con problemas anunció que comenzaría a utilizar un chatbot derivado de GPT-2 para ayudar a capacitar a los consejeros permitiéndoles tener conversaciones con adolescentes simulados (este uso fue puramente para fines internos y no implicó que GPT-2 se comunicara con los propios adolescentes). [36]
El 9 de mayo de 2023, OpenAI lanzó una versión mapeada de GPT-2. OpenAI utilizó el modelo sucesor, GPT-4 , para mapear cada neurona de GPT-2 y determinar sus funciones. [37]
GPT-2 se volvió capaz de realizar una variedad de tareas más allá de la simple producción de texto debido a la amplitud de su conjunto de datos y técnica: responder preguntas, resumir e incluso traducir entre idiomas en una variedad de dominios específicos , sin recibir instrucciones sobre nada más allá de cómo predecir la siguiente palabra en una secuencia. [17] [18]
Un ejemplo de aprendizaje generalizado es la capacidad de GPT-2 para realizar traducciones automáticas entre francés e inglés, tarea para la que se evaluó el desempeño de GPT-2 utilizando tareas de traducción WMT-14. El corpus de entrenamiento de GPT-2 prácticamente no incluía texto en francés; el texto que no estaba en inglés se eliminó deliberadamente al limpiar el conjunto de datos antes del entrenamiento y, como consecuencia, solo 10 MB de francés de los 40 000 MB restantes estaban disponibles para que el modelo aprendiera (principalmente de citas en idiomas extranjeros en publicaciones y artículos en inglés). [2]
A pesar de esto, GPT-2 logró 5 BLEU en el conjunto de pruebas de inglés a francés de WMT-14 (ligeramente por debajo de la puntuación de una traducción mediante sustitución palabra por palabra). También pudo superar varias líneas de base de traducción automática no supervisada contemporáneas (2017) en el conjunto de pruebas de francés a inglés, donde GPT-2 logró 11,5 BLEU. Esto se mantuvo por debajo del enfoque no supervisado contemporáneo de mayor rendimiento (2019), que había logrado 33,5 BLEU. [2] Sin embargo, otros modelos utilizaron grandes cantidades de texto en francés para lograr estos resultados; se estimó que GPT-2 había utilizado un corpus francés monolingüe de aproximadamente 1/500 del tamaño de los enfoques comparables. [2]
A GPT-2 le siguió GPT-3 , de 175 mil millones de parámetros , [40] revelado al público en 2020 [41] (cuyo código fuente nunca se ha hecho disponible). El acceso a GPT-3 se proporciona exclusivamente a través de las API ofrecidas por OpenAI y Microsoft . [42] A esta le siguió posteriormente GPT-4 .
{{cite web}}
: CS1 maint: numeric names: authors list (link)Las empresas dicen que OpenAI seguirá ofreciendo su API pública, que permite a los usuarios elegidos enviar texto a GPT-3 u otros modelos de OpenAI y recibir su salida. Sin embargo, solo Microsoft tendrá acceso al código subyacente de GPT-3, lo que le permitirá incrustar, reutilizar y modificar el modelo a su gusto.