GPT-2

Generative Pre-trained Transformer 2 ( GPT-2 ) es un gran modelo de lenguaje de OpenAI y el segundo de su serie fundacional de modelos GPT . GPT-2 fue entrenado previamente en un conjunto de datos de 8 millones de páginas web. ^[2] Se lanzó parcialmente en febrero de 2019, seguido por el lanzamiento completo del modelo de 1500 millones de parámetros el 5 de noviembre de 2019. ^[3]^[4]^[5]

GPT-2 fue creado como una "ampliación directa" de GPT-1 ^[6] con un aumento de diez veces tanto en su recuento de parámetros como en el tamaño de su conjunto de datos de entrenamiento. ^[5] Es un aprendiz de propósito general y su capacidad para realizar las diversas tareas fue una consecuencia de su capacidad general para predecir con precisión el siguiente elemento en una secuencia, ^[2]^[7] lo que le permitió traducir textos, responder preguntas sobre un tema de un texto, resumir pasajes de un texto más grande, ^[7] y generar salida de texto en un nivel a veces indistinguible del de los humanos , sin embargo podría volverse repetitivo o sin sentido al generar pasajes largos. ^[8] Fue reemplazado por los modelos GPT-3 y GPT-4, que ya no son de código abierto.

GPT-2 tiene, al igual que su predecesor GPT-1 y sus sucesores GPT-3 y GPT-4, una arquitectura de transformador generativo preentrenado , que implementa una red neuronal profunda , específicamente un modelo de transformador , ^[6] que utiliza la atención en lugar de arquitecturas más antiguas basadas en recurrencia y convolución. ^[9]^[10] Los mecanismos de atención permiten que el modelo se centre selectivamente en segmentos del texto de entrada que predice que serán los más relevantes. ^[11]^[12] Este modelo permite una paralelización mucho mayor y supera los puntos de referencia anteriores para modelos basados en RNN/CNN/LSTM. ^[6]

Capacitación

Dado que la arquitectura del transformador permitió la paralelización masiva , los modelos GPT se podían entrenar en corpus más grandes que los modelos NLP (procesamiento del lenguaje natural) anteriores. Si bien el modelo GPT-1 demostró que el enfoque era viable, GPT-2 exploraría más a fondo las propiedades emergentes de las redes entrenadas en corpus extremadamente grandes. CommonCrawl , un gran corpus producido por rastreo web y utilizado anteriormente en el entrenamiento de sistemas NLP, ^[13] se consideró debido a su gran tamaño, pero se rechazó después de que una revisión más detallada revelara grandes cantidades de contenido ininteligible. ^[2]^[13] En cambio, OpenAI desarrolló un nuevo corpus, conocido como WebText ; en lugar de raspar contenido indiscriminadamente de la World Wide Web , WebText se generó raspando solo páginas vinculadas a publicaciones de Reddit que habían recibido al menos tres votos positivos antes de diciembre de 2017. Posteriormente, el corpus se limpió; los documentos HTML se analizaron en texto sin formato, se eliminaron las páginas duplicadas y se eliminaron las páginas de Wikipedia (ya que su presencia en muchos otros conjuntos de datos podría haber inducido un sobreajuste ). ^[2]

Si bien se sabe que el costo de entrenamiento de GPT-2 fue de $256 por hora, ^[14]^[15] se desconoce la cantidad de horas que tomó completar el entrenamiento; por lo tanto, no se puede estimar con precisión el costo total del entrenamiento. ^[16] Sin embargo, se han documentado con más detalle los costos de modelos de lenguaje grandes comparables que utilizan arquitecturas de transformadores; los procesos de entrenamiento para BERT y XLNet consumieron, respectivamente, $6,912 y $245,000 de recursos. ^[15]

Liberar

GPT-2 se anunció por primera vez el 14 de febrero de 2019. Un artículo de febrero de 2019 en The Verge escrito por James Vincent decía que, si bien "la escritura que produce suele ser fácilmente identificable como no humana", seguía siendo "uno de los ejemplos más emocionantes hasta ahora" de programas de generación de lenguaje: ^[17]

Dale un título falso y escribirá el resto del artículo, con citas y estadísticas falsas. Dale la primera línea de un cuento y te dirá qué le sucederá a tu personaje a continuación. Incluso puede escribir fan fiction, si se le da el mensaje adecuado. ^[17]

The Guardian describió este resultado como "prosa periodística plausible";^[8] Kelsey Piper de Vox dijo que "uno de los sistemas de IA más geniales que he visto también puede ser el que me eche de mi trabajo".^[18]The Verge describió la flexibilidad de GPT-2 como "impresionante"; específicamente, se destacó su capacidad para traducir texto entre idiomas, resumir artículos largos y responder preguntas de trivia.^[17]

Un estudio de la Universidad de Ámsterdam que empleó una prueba de Turing modificada descubrió que, al menos en algunos escenarios, los participantes no podían distinguir los poemas generados por GPT-2 de aquellos escritos por humanos. ^[19]

Restricciones y liberación parcial

Si bien "Skub" no es un producto real, incluso el modelo de tamaño reducido utilizado en DistilGPT2 es capaz de crear argumentos plausibles tanto a favor como en contra.

Aunque los modelos anteriores de OpenAI se habían puesto inmediatamente a disposición del público, OpenAI inicialmente se negó a hacer una publicación del código fuente de GPT-2 cuando lo anunció en febrero, citando el riesgo de uso malintencionado; ^[8] se permitió un acceso limitado al modelo (es decir, una interfaz que permitía la entrada y proporcionaba salida, no el código fuente en sí) para medios de prensa seleccionados en el momento del anuncio. ^{[8] Una justificación citada comúnmente fue que, dado que el texto generado era generalmente completamente novedoso,}los spammers podían usarlo para evadir los filtros automáticos ; OpenAI demostró una versión de GPT-2 ajustada para "generar infinitas revisiones positivas -o negativas- de los productos". ^[8]

Otra justificación fue que GPT-2 podría utilizarse para generar texto obsceno o racista . Investigadores como Jeremy Howard advirtieron sobre "la tecnología para llenar totalmente Twitter, el correo electrónico y la web con prosa que suene razonable y apropiada al contexto, que ahogaría todo el resto del discurso y sería imposible de filtrar". ^[17] El Instituto Allen para la Inteligencia Artificial , en respuesta a GPT-2, anunció una herramienta para detectar "noticias falsas neuronales". ^[20]

Sin embargo, la opinión estaba dividida. Un artículo de febrero de 2019 en The Verge argumentó que la amenaza planteada por GPT-2 había sido exagerada; ^[21] Anima Anandkumar , profesora de Caltech y directora de investigación de aprendizaje automático en Nvidia , dijo que no había evidencia de que GPT-2 tuviera las capacidades para plantear las amenazas descritas por OpenAI, y que lo que hicieron fue lo "opuesto de abierto", caracterizando su negativa a publicar el modelo completo como " tonterías maliciosas ". ^[21] The Gradient publicó una carta abierta a OpenAI solicitando que publicaran el modelo públicamente, comparando la amenaza planteada por la IA de generación de texto con la amenaza planteada por la imprenta , y dando a Photoshop como un ejemplo de "una tecnología que (afortunadamente) no ha destruido la sociedad moderna a pesar de su potencial para el caos": ^[22]

Treinta años después, la sociedad ha salido relativamente indemne a pesar de que Photoshop es lo suficientemente simple como para que lo utilicen estudiantes de secundaria y lo suficientemente omnipresente como para apropiarse de su propio verbo. ¿Por qué? Precisamente porque todo el mundo conoce Photoshop. ^[22]

Lanzamiento del modelo 774M

Si bien OpenAI no publicó el modelo completamente entrenado ni los corpus en los que se entrenó, la descripción de sus métodos en publicaciones anteriores (y la libre disponibilidad de la tecnología subyacente) hicieron posible que otros replicaran GPT-2 como software libre ; una de esas réplicas, OpenGPT-2, se lanzó en agosto de 2019, junto con una versión con licencia libre de WebText llamada OpenWebText. Los costos de computación en la nube para OpenGPT-2 se estimaron en aproximadamente $50,000. ^[23]

El 20 de agosto de 2019, OpenAI lanzó una versión parcial de GPT-2, con 774 millones de parámetros (aproximadamente la mitad del tamaño del modelo completo de 1.500 millones de parámetros). ^[24]

Versión completa de 1.500 millones

Las preocupaciones iniciales de que GPT-2 se prestaría a un mal uso generalizado no se hicieron realidad; The Verge dijo que "hay razones para ser escéptico sobre las afirmaciones de que la tecnología de IA marcará el comienzo de una especie de 'infopocalipsis'. Para empezar, ya tenemos programas que pueden generar texto plausible en gran volumen por poco costo: humanos". ^[25] En noviembre de 2019, OpenAI dijo que "hasta ahora no habían visto evidencia sólida de mal uso", y la versión completa, con 1.500 millones de parámetros entrenados con cuarenta gigabytes de datos, "aproximadamente ocho mil veces más grande que las obras completas de Shakespeare", ^[26] se lanzó el 5 de noviembre de 2019. ^[3]^[4]

Lanzamientos pequeños y medianos

Existen otras dos versiones más pequeñas de GPT-2, incluida la versión pequeña de 117 millones de parámetros y la versión mediana de 355 millones de parámetros. Ambas están disponibles para descargar desde Huggingface. ^[27]^[28]

Limitaciones

Aunque la capacidad de GPT-2 para generar pasajes plausibles de texto en lenguaje natural fue generalmente comentada de forma positiva, también se notaron sus deficiencias, especialmente al generar textos más largos que un par de párrafos; Vox dijo que "la prosa es bastante tosca, hay non-sequitur ocasional, y los artículos se vuelven menos coherentes cuanto más largos son". ^[18] The Verge señaló de manera similar que muestras más largas de escritura GPT-2 tendían a "desviarse del tema" y carecían de coherencia general; ^[17] The Register opinó que "un humano que lo lea debería, después de un corto tiempo, darse cuenta de que algo está pasando", y señaló que "GPT-2 no responde preguntas tan bien como otros sistemas que dependen de algoritmos para extraer y recuperar información". ^[14]

La implementación de GPT-2 consume muchos recursos; la versión completa del modelo tiene más de cinco gigabytes, lo que dificulta su integración local en aplicaciones y consume grandes cantidades de RAM. Además, realizar una sola predicción "puede ocupar una CPU al 100 % de utilización durante varios minutos", e incluso con el procesamiento de GPU , "una sola predicción puede tardar segundos". Para aliviar estos problemas, la empresa Hugging Face creó DistilGPT2 , que utiliza la destilación de conocimientos para producir un modelo más pequeño que "obtiene algunos puntos menos en algunos puntos de referencia de calidad", pero es "un 33 % más pequeño y el doble de rápido". ^{[ cita requerida ]}

Aplicación e investigación posterior

Incluso antes del lanzamiento de la versión completa, GPT-2 se utilizaba para una variedad de aplicaciones y servicios, así como para entretenimiento. En junio de 2019, se creó un subreddit llamado r/SubSimulatorGPT2 en el que una variedad de instancias de GPT-2 entrenadas en diferentes subreddits hicieron publicaciones y respondieron a los comentarios de los demás, creando una situación en la que se podía observar "una personificación de IA de r/Bitcoin discutiendo con el espíritu derivado del aprendizaje automático de r/ShittyFoodPorn"; ^[25] en julio de ese año, un programa de software basado en GPT-2 lanzado para autocompletar líneas de código en una variedad de lenguajes de programación fue descrito por los usuarios como un "cambio de juego". ^[29]

En 2019, se lanzó AI Dungeon , que utilizaba GPT-2 para generar aventuras de texto dinámicas basadas en la entrada del usuario. ^[30] AI Dungeon ahora ofrece acceso a la versión más grande de la API GPT-3 como una actualización paga opcional, la versión gratuita del sitio utiliza la segunda versión más grande de GPT-3. ^[31] Latitude, la empresa formada en torno a AI Dungeon, recaudó $ 3,3 millones en financiación inicial en 2021. ^[32] Varios sitios web albergan demostraciones interactivas de diferentes instancias de GPT-2 y otros modelos de transformadores. ^[33]^[34]^[35]

En febrero de 2021, un centro de crisis para adolescentes con problemas anunció que comenzaría a utilizar un chatbot derivado de GPT-2 para ayudar a capacitar a los consejeros permitiéndoles tener conversaciones con adolescentes simulados (este uso fue puramente para fines internos y no implicó que GPT-2 se comunicara con los propios adolescentes). ^[36]

El 9 de mayo de 2023, OpenAI lanzó una versión mapeada de GPT-2. OpenAI utilizó el modelo sucesor, GPT-4 , para mapear cada neurona de GPT-2 y determinar sus funciones. ^[37]

Desempeño y evaluación

GPT-2 escribe un artículo de ficción sobre las acciones de Edward Snowden después de ganar las elecciones presidenciales de Estados Unidos de 2020 (todo el texto resaltado es generado por máquina). Si bien Snowden (en el momento de la generación) nunca había sido elegido para un cargo público, la muestra generada es gramatical y estilísticamente válida.

GPT-2 se volvió capaz de realizar una variedad de tareas más allá de la simple producción de texto debido a la amplitud de su conjunto de datos y técnica: responder preguntas, resumir e incluso traducir entre idiomas en una variedad de dominios específicos , sin recibir instrucciones sobre nada más allá de cómo predecir la siguiente palabra en una secuencia. ^[17]^[18]

Un ejemplo de aprendizaje generalizado es la capacidad de GPT-2 para realizar traducciones automáticas entre francés e inglés, tarea para la que se evaluó el desempeño de GPT-2 utilizando tareas de traducción WMT-14. El corpus de entrenamiento de GPT-2 prácticamente no incluía texto en francés; el texto que no estaba en inglés se eliminó deliberadamente al limpiar el conjunto de datos antes del entrenamiento y, como consecuencia, solo 10 MB de francés de los 40 000 MB restantes estaban disponibles para que el modelo aprendiera (principalmente de citas en idiomas extranjeros en publicaciones y artículos en inglés). ^[2]

A pesar de esto, GPT-2 logró 5 BLEU en el conjunto de pruebas de inglés a francés de WMT-14 (ligeramente por debajo de la puntuación de una traducción mediante sustitución palabra por palabra). También pudo superar varias líneas de base de traducción automática no supervisada contemporáneas (2017) en el conjunto de pruebas de francés a inglés, donde GPT-2 logró 11,5 BLEU. Esto se mantuvo por debajo del enfoque no supervisado contemporáneo de mayor rendimiento (2019), que había logrado 33,5 BLEU. ^[2] Sin embargo, otros modelos utilizaron grandes cantidades de texto en francés para lograr estos resultados; se estimó que GPT-2 había utilizado un corpus francés monolingüe de aproximadamente 1/500 del tamaño de los enfoques comparables. ^[2]

A GPT-2 le siguió GPT-3 , de 175 mil millones de parámetros , ^[40] revelado al público en 2020 ^[41] (cuyo código fuente nunca se ha hecho disponible). El acceso a GPT-3 se proporciona exclusivamente a través de las API ofrecidas por OpenAI y Microsoft . ^[42] A esta le siguió posteriormente GPT-4 .

Referencias

^ "gpt-2". GitHub . Archivado desde el original el 11 de marzo de 2023 . Consultado el 13 de marzo de 2023 .
^ abcdefg Radford, Alec; Wu, Jeffrey; Child, Rewon; Luan, David; Amodei, Dario; Sutskever, Ilua (14 de febrero de 2019). «Los modelos de lenguaje son aprendices multitarea no supervisados» (PDF) . OpenAI . 1 (8). Archivado (PDF) del original el 6 de febrero de 2021. Consultado el 19 de diciembre de 2020 .
^ ab Vincent, James (7 de noviembre de 2019). «OpenAI ha publicado la IA generadora de texto que, según dijo, era demasiado peligrosa para compartir». The Verge . Archivado desde el original el 11 de junio de 2020. Consultado el 19 de diciembre de 2020 .
^ ab "GPT-2: versión 1.5B". OpenAI . 5 de noviembre de 2019. Archivado desde el original el 14 de noviembre de 2019. Consultado el 14 de noviembre de 2019 .
^ ab "Mejores modelos de lenguaje y sus implicaciones". OpenAI . 14 de febrero de 2019. Archivado desde el original el 19 de diciembre de 2020 . Consultado el 19 de diciembre de 2020 .
^ abc Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya (11 de junio de 2018). "Mejora de la comprensión del lenguaje mediante preentrenamiento generativo" (PDF) . OpenAI . pág. 12. Archivado (PDF) del original el 26 de enero de 2021 . Consultado el 23 de enero de 2021 .
^ ab Hegde, Chaitra; Patil, Shrikumar (9 de junio de 2020). "Generación de paráfrasis no supervisada utilizando modelos de lenguaje preentrenados". arXiv : 2006.05477 [cs.CL].
^ abcde Hern, Alex (14 de febrero de 2019). «El nuevo generador de texto falso creado con inteligencia artificial puede ser demasiado peligroso para publicarse, dicen los creadores». The Guardian . Archivado desde el original el 14 de febrero de 2019. Consultado el 19 de diciembre de 2020 .
^ Vaswani, Ashish ; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N ; Kaiser, Łukasz; Polosukhin, Illia (2017). "La atención es todo lo que necesitas" (PDF) . Avances en sistemas de procesamiento de información neuronal . 30 . Curran Associates, Inc.
^ Olah, Chris; Carter, Shan (8 de septiembre de 2016). "Atención y redes neuronales recurrentes aumentadas". Distill . 1 (9). doi : 10.23915/distill.00001 . Archivado desde el original el 22 de diciembre de 2020 . Consultado el 22 de enero de 2021 .
^ Bahdanau, Dzmitry; Cho, Kyunghyun; Bengio, Yoshua (1 de septiembre de 2014). "Traducción automática neuronal mediante aprendizaje conjunto de alineación y traducción". arXiv : 1409.0473 [cs.CL].
^ Luong, Minh-Thang; Pham, Hieu; Manning, Christopher D. (17 de agosto de 2015). "Enfoques efectivos para la traducción automática neuronal basada en la atención". arXiv : 1508.04025 [cs.CL].
^ ab Trinh, Trieu H.; Le, Quoc V. (7 de junio de 2018). "Un método simple para el razonamiento de sentido común". arXiv : 1806.02847 [cs.CL].
^ ab Quach, Katyanna (14 de febrero de 2019). "Las rosas son rojas, esto es sublime: Le dimos al último chatbot de OpenAI un titular clásico de Reg". The Register . Archivado desde el original el 9 de marzo de 2021. Consultado el 27 de febrero de 2021 .
^ ab "El asombroso costo de entrenar modelos de IA SOTA". Sincronizado . 27 de junio de 2019. Archivado desde el original el 24 de noviembre de 2020 . Consultado el 27 de febrero de 2021 .
^ Wiggers, Kyle (23 de marzo de 2020). «Google crea un marco de código abierto que reduce los costes de formación de la IA hasta en un 80 %». VentureBeat . Archivado desde el original el 26 de noviembre de 2020 . Consultado el 27 de febrero de 2021 .
^ abcdef Vincent, James (14 de febrero de 2019). «La nueva IA polifacética de OpenAI escribe, traduce y calumnia». The Verge . Archivado desde el original el 18 de diciembre de 2020. Consultado el 19 de diciembre de 2020 .
^ abc Piper, Kelsey (14 de febrero de 2019). «Una IA nos ayudó a escribir este artículo». Vox . Archivado desde el original el 8 de noviembre de 2020. Consultado el 19 de diciembre de 2020 .
^ Köbis, Nils; Mossink, Luca D. (1 de enero de 2021). "Inteligencia artificial versus Maya Angelou: evidencia experimental de que las personas no pueden diferenciar la poesía generada por IA de la poesía escrita por humanos". Computers in Human Behavior . 114 : 106553. doi : 10.1016/j.chb.2020.106553 . hdl : 21.11116/0000-0007-13E5-1 .
^ Schwartz, Oscar (4 de julio de 2019). «¿Podrían los mensajes de texto falsos ser la próxima amenaza política global?». The Guardian . Archivado desde el original el 16 de julio de 2019. Consultado el 16 de julio de 2019 .
^ ab Vincent, James (21 de febrero de 2019). «Investigadores de IA debaten la ética de compartir programas potencialmente dañinos». The Verge. Archivado desde el original el 9 de febrero de 2021. Consultado el 27 de febrero de 2021 .
^ ab Zhang, Hugh (19 de febrero de 2019). «OpenAI: Por favor, publiquen en código abierto su modelo de lenguaje». The Gradient. Archivado desde el original el 28 de enero de 2021. Consultado el 28 de febrero de 2021 .
^ Gokaslan, Aaron; Cohen, Vanya; Pavlick, Ellie; Tellex, Stefanie (22 de agosto de 2019). «OpenGPT-2: replicamos GPT-2 porque tú también puedes». Notably. Archivado desde el original el 29 de abril de 2023. Consultado el 27 de febrero de 2021 .
^ Johnson, Khari (20 de agosto de 2019). «OpenAI lanza una versión reducida del modelo de lenguaje GPT-2». VentureBeat . Archivado desde el original el 18 de diciembre de 2020 . Consultado el 19 de diciembre de 2020 .
^ ab Vincent, James (6 de junio de 2019). "Hay un subreddit poblado enteramente por personificaciones de IA de otros subreddits". The Verge . Archivado desde el original el 21 de febrero de 2021 . Consultado el 27 de febrero de 2021 .
^ Murati, Ermira (13 de abril de 2022). "Creatividad en lenguaje y codificación | Academia Estadounidense de Artes y Ciencias". www.amacad.org . Consultado el 18 de marzo de 2024 .
^ "GPT-2 Pequeño".
^ GPT-2 Medium. "Openai-community/Gpt2-medium · Cara abrazada".{{cite web}}: CS1 maint: numeric names: authors list (link)
^ Vincent, James (24 de julio de 2019). «Este software de autocompletado con tecnología de IA es el Smart Compose de Gmail para programadores». The Verge . Archivado desde el original el 9 de marzo de 2021. Consultado el 27 de febrero de 2021 .
^ Olson, Mathew (17 de diciembre de 2019). «AI Dungeon 2, la aventura de texto en la que puedes hacer casi cualquier cosa, ya está disponible para dispositivos móviles». Archivado desde el original el 20 de septiembre de 2020. Consultado el 27 de febrero de 2021 .
^ Nelius, Joanna (3 de agosto de 2020). «Este juego de texto de elige tu propia aventura impulsado por IA es muy divertido y no tiene sentido». Gizmodo . Archivado desde el original el 28 de febrero de 2021. Consultado el 27 de febrero de 2021 .
^ Ha, Anthony (4 de febrero de 2021). «Latitude, creador de mazmorras con inteligencia artificial, recauda 3,3 millones de dólares para crear juegos con posibilidades narrativas 'infinitas'». TechCrunch. Archivado desde el original el 21 de febrero de 2021. Consultado el 27 de febrero de 2021 .
^ "Escribe con Transformer". Archivado desde el original el 4 de diciembre de 2019 . Consultado el 4 de diciembre de 2019 .
^ "Habla con Transformer". Archivado desde el original el 4 de diciembre de 2019 . Consultado el 4 de diciembre de 2019 .
^ "CreativeEngines". Archivado desde el original el 3 de febrero de 2023. Consultado el 25 de junio de 2021 .
^ Ohlheiser, Abby; Hao, Karen (26 de febrero de 2021). «Una IA está entrenando a los consejeros para tratar con adolescentes en crisis». MIT Technology Review. Archivado desde el original el 27 de febrero de 2021. Consultado el 27 de febrero de 2021 .
^ "Los modelos de lenguaje pueden explicar las neuronas en los modelos de lenguaje". OpenAI . Consultado el 13 de mayo de 2023 .
^ Zhu, Yukun; Kiros, Ryan; Zemel, Rich; Salakhutdinov, Ruslan; Urtasun, Raquel; Torralba, Antonio; Fidler, Sanja (2015). "Alineando libros y películas: hacia explicaciones visuales similares a historias al ver películas y leer libros". Conferencia internacional sobre visión artificial 2015 : 19–27. arXiv : 1506.06724 . Archivado desde el original el 2023-02-05 . Consultado el 2023-02-05 .
^ Murati, Ermira (13 de abril de 2022). "Creatividad en lenguaje y codificación | Academia Estadounidense de Artes y Ciencias". www.amacad.org . Consultado el 18 de marzo de 2024 .
^ Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Winter, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Chess, Benjamin; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Dario (22 de julio de 2020). "Los modelos de lenguaje son aprendices de pocas oportunidades". arXiv : 2005.14165 [cs.CL].
^ Arram (9 de julio de 2020). «GPT-3: una IA que es inquietantemente buena para escribir casi cualquier cosa». Arram Sabeti . Archivado desde el original el 20 de julio de 2020. Consultado el 31 de julio de 2020 .
^ Hao, Karen (23 de septiembre de 2020). "OpenAI le está dando a Microsoft acceso exclusivo a su modelo de lenguaje GPT-3". MIT Technology Review . Archivado desde el original el 5 de febrero de 2021. Consultado el 25 de septiembre de 2020. Las empresas dicen que OpenAI seguirá ofreciendo su API pública, que permite a los usuarios elegidos enviar texto a GPT-3 u otros modelos de OpenAI y recibir su salida. Sin embargo, solo Microsoft tendrá acceso al código subyacente de GPT-3, lo que le permitirá incrustar, reutilizar y modificar el modelo a su gusto.