stringtranslate.com

Transformador generativo preentrenado

Modelo GPT original

Un transformador preentrenado generativo ( GPT ) es un tipo de modelo de lenguaje grande (LLM) [1] [2] [3] y un marco destacado para la inteligencia artificial generativa . [4] [5] Es una red neuronal artificial que se utiliza en el procesamiento del lenguaje natural por parte de las máquinas. [6] Se basa en la arquitectura de aprendizaje profundo del transformador , preentrenado en grandes conjuntos de datos de texto sin etiquetar y capaz de generar contenido novedoso similar al humano. [2] [3] A partir de 2023, la mayoría de los LLM tenían estas características [7] y, a veces, se los denomina de forma amplia GPT. [8]

El primer GPT fue presentado en 2018 por OpenAI . [9] OpenAI ha publicado importantes modelos básicos de GPT que se han numerado secuencialmente para formar su serie "GPT- n ". [10] Cada uno de ellos era significativamente más capaz que el anterior, debido al mayor tamaño (número de parámetros entrenables) y al entrenamiento. El más reciente de ellos, GPT-4 , se publicó en marzo de 2023. [11] Dichos modelos han sido la base de sus sistemas GPT más específicos para tareas, incluidos modelos ajustados para seguir instrucciones , que a su vez impulsan el servicio de chatbot ChatGPT . [1]

El término "GPT" también se utiliza en los nombres y descripciones de dichos modelos desarrollados por otros. Por ejemplo, otros modelos básicos de GPT incluyen una serie de modelos creados por EleutherAI , [12] y siete modelos creados por Cerebras en 2023. [13] Además, empresas de diferentes industrias han desarrollado GPT específicos para tareas en sus respectivos campos, como "EinsteinGPT" de Salesforce (para CRM ) [14] y "BloombergGPT" de Bloomberg (para finanzas). [15]

Historia

Desarrollos iniciales

El preentrenamiento generativo (GP) fue un concepto establecido desde hace mucho tiempo en aplicaciones de aprendizaje automático. [16] [17] Originalmente se utilizó como una forma de aprendizaje semisupervisado , ya que el modelo se entrena primero en un conjunto de datos no etiquetados ( paso de preentrenamiento ) aprendiendo a generar puntos de datos en el conjunto de datos, y luego se entrena para clasificar un conjunto de datos etiquetados. [18]

Hubo principalmente tres tipos de GP tempranos. Los modelos Markov ocultos aprenden un modelo generativo de secuencias para aplicaciones posteriores. Por ejemplo, en el reconocimiento de voz , un HMM entrenado infiere la secuencia oculta más probable para una señal de voz, y la secuencia oculta se toma como los fonemas de la señal de voz. Estos se desarrollaron en la década de 1970 y se aplicaron ampliamente en el reconocimiento de voz en la década de 1980. [19] [20]

Los compresores aprenden a comprimir datos como imágenes y secuencias textuales, y los datos comprimidos sirven como una buena representación para aplicaciones posteriores como el reconocimiento facial . [21] [22] [23] Los autocodificadores aprenden de manera similar una representación latente de datos para aplicaciones posteriores como el reconocimiento de voz . [24] [25] La conexión entre los autocodificadores y los compresores algorítmicos se observó en 1993. [26]

Durante la década de 2010, el problema de la traducción automática se resolvió mediante redes neuronales recurrentes , con el mecanismo de atención añadido. Esto se optimizó en la arquitectura de transformadores , publicada por investigadores de Google en Attention Is All You Need (2017). [27] Ese desarrollo condujo a la aparición de grandes modelos de lenguaje como BERT (2018) [28] que era un transformador preentrenado (PT) pero no diseñado para ser generativo (BERT era un modelo " solo codificador "). También en 2018, OpenAI publicó Improving Language Understanding by Generative Pre-Training , que presentó GPT-1 , el primero de su serie GPT. [29]

Anteriormente, en 2017, algunos de los autores que luego trabajarían en GPT-1 trabajaron en el preentrenamiento generativo del lenguaje con LSTM , lo que dio como resultado un modelo que podía representar texto con vectores que podían ajustarse fácilmente para aplicaciones posteriores. [30]

Antes de las arquitecturas basadas en transformadores, los modelos de procesamiento del lenguaje natural (NLP ) neuronal de mejor rendimiento empleaban comúnmente el aprendizaje supervisado a partir de grandes cantidades de datos etiquetados manualmente. La dependencia del aprendizaje supervisado limitaba su uso en conjuntos de datos que no estaban bien anotados y también hacía que entrenar modelos de lenguaje extremadamente grandes fuera prohibitivamente costoso y demandara mucho tiempo. [29]

El enfoque semisupervisado que empleó OpenAI para crear un sistema generativo a gran escala (y fue el primero en hacerlo con un modelo de transformador) implicó dos etapas: una etapa de "preentrenamiento" generativo no supervisado para establecer parámetros iniciales utilizando un objetivo de modelado del lenguaje, y una etapa de " ajuste fino " discriminativo supervisado para adaptar estos parámetros a una tarea objetivo. [29]

Desarrollos posteriores

En cuanto a los modelos de base GPT más recientes, OpenAI publicó sus primeras versiones de GPT-3 en julio de 2020. Había tres modelos, con parámetros 1B, 6.7B y 175B, denominados respectivamente Babbage, Curie y Davinci (con las iniciales B, C y D). [ cita requerida ]

En julio de 2021, OpenAI publicó Codex , un modelo GPT específico para tareas destinado a aplicaciones de programación. Este se desarrolló mediante el ajuste fino de una versión de 12B de parámetros de GPT-3 (diferente de los modelos GPT-3 anteriores) utilizando código de GitHub . [31]

En marzo de 2022, OpenAI publicó dos versiones de GPT-3 que se ajustaron para seguir instrucciones (instruction-tuned), llamadas davinci-instruct-beta (175B) y text-davinci-001 , [32] y luego comenzó la prueba beta de code-davinci-002 . [33] text-davinci-002 se ajustó a las instrucciones a partir de code-davinci-002 . Tanto text-davinci-003 como ChatGPT se lanzaron en noviembre de 2022, y ambos se basaron en text-davinci-002 a través del aprendizaje de refuerzo a partir de la retroalimentación humana (RLHF). text-davinci-003 está entrenado para seguir instrucciones (como sus predecesores), mientras que ChatGPT está entrenado además para la interacción conversacional con un usuario humano. [34] [35]

El modelo base GPT más reciente de OpenAI, GPT-4 , se lanzó el 14 de marzo de 2023. Los usuarios pueden acceder a él directamente a través de una versión premium de ChatGPT, y está disponible para que los desarrolladores lo incorporen a otros productos y servicios a través de la API de OpenAI . Otros productores de modelos base GPT incluyen EleutherAI (con una serie de modelos a partir de marzo de 2021) [12] y Cerebras (con siete modelos lanzados en marzo de 2023). [13]

Modelos fundacionales

Un modelo fundamental es un modelo de IA entrenado con datos amplios a escala, de modo que pueda adaptarse a una amplia gama de tareas posteriores. [36] [37]

Hasta ahora, los modelos básicos de GPT más notables han sido los de la serie GPT-n de OpenAI . El más reciente de ellos es GPT-4 , para el cual OpenAI se negó a publicar el tamaño o los detalles de entrenamiento (citando "el panorama competitivo y las implicaciones de seguridad de los modelos a gran escala"). [38]

Otros modelos similares incluyen PaLM de Google , un modelo de base amplia que se ha comparado con GPT-3 y que recientemente se ha puesto a disposición de los desarrolladores a través de una API , [45] [46] y GPT-JT de Together , que se ha informado como la alternativa de código abierto de rendimiento más cercano a GPT-3 (y se deriva de GPT de código abierto anteriores ). [47] Meta AI (anteriormente Facebook ) también tiene un modelo de lenguaje grande fundacional basado en transformadores generativos, conocido como LLaMA . [48]

Los GPT básicos también pueden emplear modalidades distintas del texto para la entrada y/o salida. GPT-4 es un LLM multimodal que es capaz de procesar texto e imágenes como entrada (aunque su salida está limitada a texto). [49] Con respecto a la salida multimodal , algunos modelos basados ​​en transformadores generativos se utilizan para tecnologías de texto a imagen como la difusión [50] y la decodificación paralela. [51] Este tipo de modelos pueden servir como modelos de base visual (VFM) para desarrollar sistemas posteriores que puedan trabajar con imágenes. [52]

Modelos específicos de tareas

Un modelo GPT básico puede adaptarse aún más para producir sistemas más específicos dirigidos a tareas específicas y/o dominios temáticos. Los métodos para dicha adaptación pueden incluir un ajuste fino adicional (más allá del realizado para el modelo básico), así como ciertas formas de ingeniería rápida . [53]

Un ejemplo importante de esto es el ajuste fino de los modelos para que sigan instrucciones , que es, por supuesto, una tarea bastante amplia pero más específica que un modelo básico. En enero de 2022, OpenAI presentó "InstructGPT", una serie de modelos que se ajustaron para seguir instrucciones utilizando una combinación de entrenamiento supervisado y aprendizaje de refuerzo a partir de la retroalimentación humana (RLHF) en modelos de lenguaje GPT-3 básicos. [54] [55] Las ventajas que esto tenía sobre los modelos básicos básicos incluían una mayor precisión, menos sentimientos negativos/tóxicos y, en general, una mejor alineación con las necesidades del usuario. Por lo tanto, OpenAI comenzó a utilizar esto como base para sus ofertas de servicios API . [56] Otros modelos ajustados a las instrucciones han sido lanzados por otros, incluida una versión completamente abierta. [57] [58]

Otro tipo (relacionado) de modelos específicos de tareas son los chatbots , que participan en conversaciones similares a las humanas. En noviembre de 2022, OpenAI lanzó ChatGPT , una interfaz de chat en línea impulsada por un modelo de lenguaje ajustado a instrucciones entrenado de manera similar a InstructGPT. [59] Entrenaron este modelo utilizando RLHF, con entrenadores de IA humanos que proporcionaban conversaciones en las que interpretaban tanto al usuario como a la IA, y mezclaron este nuevo conjunto de datos de diálogo con el conjunto de datos InstructGPT para obtener un formato conversacional adecuado para un chatbot. Otros chatbots importantes actualmente incluyen Bing Chat de Microsoft , que utiliza GPT-4 de OpenAI (como parte de una colaboración estrecha más amplia entre OpenAI y Microsoft), [60] y el chatbot competidor de Google Bard (inicialmente basado en su familia LaMDA de modelos de lenguaje entrenados por conversación, con planes de cambiar a PaLM ). [61]

Otro tipo de tarea para la que se puede utilizar un GPT es la metatarea de generar sus propias instrucciones, como desarrollar una serie de indicaciones para "sí mismo" para poder llevar a cabo un objetivo más general dado por un usuario humano. [62] Esto se conoce como un agente de IA , y más específicamente como un agente recursivo porque utiliza los resultados de sus autoinstrucciones anteriores para ayudarlo a formar sus indicaciones posteriores; el primer ejemplo importante de esto fue Auto-GPT (que utiliza los modelos GPT de OpenAI), y desde entonces también se han desarrollado otros. [63]

Multimodalidad

Los sistemas basados ​​en transformadores generativos también pueden utilizarse para tareas que impliquen modalidades más allá del texto. Por ejemplo, "Visual ChatGPT" de Microsoft combina ChatGPT con modelos de base visual (VFM) para permitir la entrada o salida que incluya imágenes y texto. [64] Además, los avances en la tecnología de conversión de texto a voz ofrecen herramientas para la creación de contenido de audio cuando se utilizan junto con los modelos de lenguaje GPT básicos. [65]

Especificidad de dominio

Los sistemas GPT pueden estar orientados a campos o dominios específicos. Algunos ejemplos de estos modelos y aplicaciones son los siguientes:

A veces, la especificidad de dominio se logra a través de complementos o extensiones de software . Por ejemplo, varias empresas diferentes han desarrollado complementos particulares que interactúan directamente con la interfaz ChatGPT de OpenAI , [73] [74] y Google Workspace tiene complementos disponibles como "GPT para hojas de cálculo y documentos", que se informa que facilita el uso de la funcionalidad de hoja de cálculo en Google Sheets . [75] [76]

En noviembre de 2023, OpenAI anunció que permitiría a los suscriptores de ChatGPT Plus crear versiones personalizadas de ChatGPT (llamadas GPT ). [77] Estas se pueden adaptar a dominios específicos a través de ingeniería rápida, conjuntos de datos seleccionados y/o interacción dirigida con herramientas externas. Los usuarios que se registran como desarrolladores verificados pueden publicar sus GPT personalizados para otros usuarios, con potencial de monetización. (Esto es notablemente distinto del servicio API de OpenAI, ya que este se basa internamente en la plataforma de OpenAI).

Problemas de marca

OpenAI , que creó el primer transformador preentrenado generativo (GPT) en 2018, ha afirmado recientemente que "GPT" debe considerarse una marca de OpenAI. [78] En abril de 2023, OpenAI revisó las pautas de marca en sus términos de servicio para indicar que otras empresas que usen su API para ejecutar sus servicios de inteligencia artificial (IA) ya no podrían incluir "GPT" en dichos nombres o marcas. [79] En mayo de 2023, OpenAI contrató un servicio de gestión de marca para notificar a sus clientes de API sobre esta política, aunque estas notificaciones no llegaron a hacer reclamos legales abiertos (como acusaciones de infracción de marca registrada o demandas de cese y desistimiento ). [78] A partir de noviembre de 2023, OpenAI todavía prohíbe a sus licenciatarios de API nombrar sus propios productos con "GPT", [80] pero ha comenzado a permitir que sus suscriptores de ChatGPT Plus hagan "versiones personalizadas de ChatGPT" que se denominan GPT en el sitio de OpenAI. [81] Los términos de servicio de OpenAI establecen que sus suscriptores pueden usar "GPT" en los nombres de estos, aunque "no se recomienda". [80]

En relación con esto, OpenAI ha solicitado a la Oficina de Patentes y Marcas de los Estados Unidos (USPTO) el registro de marca nacional para el término "GPT" en el campo de la IA. [78] OpenAI intentó acelerar la tramitación de su solicitud, pero la USPTO rechazó esa solicitud en abril de 2023. [82] En mayo de 2023, la USPTO respondió a la solicitud con una determinación de que "GPT" era tanto descriptivo como genérico. [83] A fecha de noviembre de 2023, OpenAI sigue con su argumento a través de los procesos disponibles. Independientemente de ello, el hecho de no obtener una marca registrada en los Estados Unidos no impide cierto nivel de derechos de marca en el derecho consuetudinario en los Estados Unidos, [84] y/o derechos de marca en otros países. [85]

Para cualquier tipo o alcance de protección de marca registrada en los EE. UU., OpenAI tendría que demostrar que el término es realmente " distintivo " de sus ofertas específicas, además de ser un término técnico más amplio para el tipo de tecnología. Algunos informes de los medios sugirieron que OpenAI podría obtener el registro de marca registrada basándose indirectamente en la fama de su producto de chatbot basado en GPT, ChatGPT , [82] [86] para el cual OpenAI ha buscado protección por separado (y que ha buscado hacer cumplir con más fuerza). [87] Otros informes han indicado que parece poco probable que se conceda el registro para el término simple "GPT", [78] [88] ya que se usa con frecuencia como un término común para referirse simplemente a sistemas de IA que involucran transformadores generativos preentrenados. [3] [89] [90] [91] En cualquier caso, en la medida en que puedan existir derechos exclusivos sobre el término en los EE. UU., otros tendrían que evitar usarlo para productos o servicios similares de formas que puedan causar confusión. [88] [92] Si dichos derechos llegaran a ser lo suficientemente amplios como para implicar otros usos bien establecidos en el campo, la doctrina de marca registrada del uso justo descriptivo aún podría continuar con el uso no relacionado con la marca. [93]

Bibliografía seleccionada

En esta sección se enumeran las principales publicaciones oficiales de OpenAI y Microsoft sobre sus modelos GPT.

Véase también

Referencias

  1. ^ ab Haddad, Mohammed. "¿Cómo funciona GPT-4 y cómo puedes empezar a usarlo en ChatGPT?". www.aljazeera.com .
  2. ^ ab "IA generativa: una sociedad que cambia las reglas del juego y para la que debe estar preparada". Foro Económico Mundial . 9 de enero de 2023.
  3. ^ abc "La A a la Z de la inteligencia artificial". Time . 13 de abril de 2023.
  4. ^ Hu, Luhui (15 de noviembre de 2022). "IA generativa y futuro". Medium .
  5. ^ "CSDL | Sociedad Informática IEEE". www.computer.org .
  6. ^ "LibGuides: Uso de modelos de lenguaje de IA: ChatGPT".
  7. ^ Toews, Rob. "La próxima generación de modelos de lenguaje de gran tamaño". Forbes .
  8. ^ Mckendrick, Joe (13 de marzo de 2023). "La mayoría de los trabajos pronto estarán 'influenciados' por la inteligencia artificial, según sugiere una investigación de OpenAI y la Universidad de Pensilvania". Forbes .
  9. ^ abcd "Mejorar la comprensión del lenguaje con aprendizaje no supervisado". openai.com . 11 de junio de 2018. Archivado desde el original el 2023-03-18 . Consultado el 2023-03-18 .
  10. ^ "GPT-1 a GPT-4: cada uno de los modelos GPT de OpenAI explicados y comparados". MUO . 11 de abril de 2023.
  11. ^ "GPT-4". openai.com . Consultado el 8 de diciembre de 2023 .
  12. ^ ab Alford, Anthony (13 de julio de 2021). "EleutherAI publica en código abierto un clon GPT-J de seis mil millones de parámetros de GPT-3". InfoQ .
  13. ^ ab "Noticias" (Comunicado de prensa).
  14. ^ Morrison, Ryan (7 de marzo de 2023). "Salesforce lanza EinsteinGPT desarrollado con tecnología OpenAI". Tech Monitor .
  15. ^ "El ChatGPT de las finanzas ya está aquí: Bloomberg combina inteligencia artificial y tecnología financiera". Forbes .
  16. ^ Hinton (et-al), Geoffrey (15 de octubre de 2012). "Redes neuronales profundas para modelado acústico en reconocimiento de voz" (PDF) . Revista IEEE Signal Processing . Identificador de objetos digitales 10.1109/MSP.2012.2205597. doi :10.1109/MSP.2012.2205597. S2CID  206485943.
  17. ^ Deng, Li (22 de enero de 2014). "Un estudio tutorial de arquitecturas, algoritmos y aplicaciones para el aprendizaje profundo | Transacciones APSIPA sobre procesamiento de señales e información | Cambridge Core". Transacciones Apsipa sobre procesamiento de señales e información . 3 . Cambridge.org: e2. doi : 10.1017/atsip.2013.9 . S2CID  9928823.
  18. ^ Erhan, Dumitru; Courville, Aaron; Bengio, Yoshua; Vincent, Pascal (31 de marzo de 2010). "¿Por qué el preentrenamiento no supervisado ayuda al aprendizaje profundo?". Actas de la decimotercera conferencia internacional sobre inteligencia artificial y estadística . Actas de talleres y conferencias del JMLR: 201–208.
  19. ^ "De primera mano: el modelo oculto de Markov – Wiki de historia de la ingeniería y la tecnología". ethw.org . 12 de enero de 2015. Archivado desde el original el 3 de abril de 2018 . Consultado el 1 de mayo de 2018 .
  20. ^ Juang, BH; Rabiner, LR (1991). "Modelos ocultos de Markov para el reconocimiento de voz". Technometrics . 33 (3): 251–272. doi :10.2307/1268779. ISSN  0040-1706. JSTOR  1268779.
  21. ^ Cottrell, Garrison W.; Munro, Paul; Zipser, David (1987). "Aprendizaje de la representación interna a partir de imágenes en escala de grises: un ejemplo de programación extensional". Actas de la Reunión Anual de la Sociedad de Ciencias Cognitivas . 9 .
  22. ^ Cottrell, Garrison W. (1 de enero de 1991), Touretzky, David S.; Elman, Jeffrey L.; Sejnowski, Terrence J.; Hinton, Geoffrey E. (eds.), "Extracción de características de rostros mediante redes de compresión: reconocimiento de rostros, identidad, emoción y género mediante holones", Connectionist Models , Morgan Kaufmann, págs. 328-337, ISBN 978-1-4832-1448-1, consultado el 4 de octubre de 2024
  23. ^ Schmidhuber, Jürgen (1992). "Aprendizaje de secuencias complejas y extendidas utilizando el principio de compresión histórica" ​​(PDF) . Neural Computation . 4 (2): 234–242. doi :10.1162/neco.1992.4.2.234. S2CID  18271205.
  24. ^ Elman, Jeffrey L.; Zipser, David (1 de abril de 1988). "Aprendiendo la estructura oculta del habla". Revista de la Sociedad Acústica de América . 83 (4): 1615–1626. Bibcode :1988ASAJ...83.1615E. doi :10.1121/1.395916. ISSN  0001-4966. PMID  3372872.
  25. ^ Bourlard, H.; Kamp, Y. (1988). "Autoasociación por perceptrones multicapa y descomposición en valores singulares". Cibernética biológica . 59 (4–5): 291–294. doi :10.1007/BF00332918. PMID  3196773. S2CID  206775335.
  26. ^ Hinton, Geoffrey E; Zemel, Richard (1993). "Autocodificadores, longitud mínima de descripción y energía libre de Helmholtz". Avances en sistemas de procesamiento de información neuronal . 6 . Morgan-Kaufmann.
  27. ^ Vaswani, Ashish ; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, León; Gómez, Aidan N ; Káiser, Łukasz; Polosukhin, Illia (2017). "La atención es todo lo que necesita" (PDF) . Avances en los sistemas de procesamiento de información neuronal . 30 . Curran asociados, Inc.
  28. ^ Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina (24 de mayo de 2019). "BERT: preentrenamiento de transformadores bidireccionales profundos para la comprensión del lenguaje". Asociación de Lingüística Computacional . arXiv : 1810.04805v2 .
  29. ^ abc Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya (11 de junio de 2018). "Mejora de la comprensión del lenguaje mediante preentrenamiento generativo" (PDF) . OpenAI . pág. 12. Archivado (PDF) del original el 26 de enero de 2021 . Consultado el 23 de enero de 2021 .
  30. ^ Radford, Alec; Jozefowicz, Rafal; Sutskever, Ilya (6 de abril de 2017), Aprendiendo a generar reseñas y descubriendo sentimientos, doi :10.48550/arXiv.1704.01444 , consultado el 15 de octubre de 2024
  31. ^ Chen, Mark; Tworek, Jerry; Jun, Heewoo; Yuan, Qiming; Ponde de Oliveira Pinto, Henrique; Kaplan, Jared; Edwards, Harri; Burda, Yuri; Joseph, Nicholas; Brockman, Greg; Ray, Alex; Puri, Raul; Krueger, Gretchen; Petrov, Michael; Khlaaf, Heidy (1 de julio de 2021). "Evaluación de modelos de lenguaje grandes entrenados en código". Asociación de Lingüística Computacional . arXiv : 2107.03374 .
  32. ^ Ouyang, Long; Wu, Jeffrey; Jiang, Xu; Almeida, Diogo; Wainwright, Carroll; Mishkin, Pamela; Zhang, Chong; Agarwal, Sandhini; Slama, Katarina; Ray, Alex; Schulman, John; Hilton, Jacob; Kelton, Fraser; Miller, Luke; Simens, Maddie (6 de diciembre de 2022). "Entrenamiento de modelos de lenguaje para seguir instrucciones con retroalimentación humana". Avances en sistemas de procesamiento de información neuronal . 35 : 27730–27744. arXiv : 2203.02155 .
  33. ^ "Nuevas capacidades de GPT-3: edición e inserción". openai.com . Consultado el 24 de junio de 2023 .
  34. ^ Fu, Yao; Peng, Hao; Khot, Tushar (2022). "¿Cómo obtiene GPT su capacidad? Rastreando las capacidades emergentes de los modelos de lenguaje hasta sus fuentes". La noción de Yao Fu .
  35. ^ "Índice de modelos para investigadores". API de OpenAI . Archivado desde el original el 23 de junio de 2023. Consultado el 23 de junio de 2023 .
  36. ^ "Presentación del Centro de Investigación sobre Modelos de Cimentación (CRFM)". Stanford HAI . 18 de agosto de 2021.
  37. ^ "Reflexiones sobre los modelos de cimentación". hai.stanford.edu . 2021-10-18 . Consultado el 2024-08-15 .
  38. ^ de OpenAI (2023). «Informe técnico GPT-4» (PDF) . Archivado (PDF) del original el 14 de marzo de 2023. Consultado el 16 de marzo de 2023 .
  39. ^ Zhu, Yukun; Kiros, Ryan; Zemel, Rich; Salakhutdinov, Ruslan; Urtasun, Raquel; Torralba, Antonio; Fidler, Sanja (2015). Alineación de libros y películas: hacia explicaciones visuales similares a historias al ver películas y leer libros. IEEE International Conference on Computer Vision (ICCV) 2015. págs. 19–27. arXiv : 1506.06724 . Archivado desde el original el 2023-02-05 . Consultado el 2023-02-07 .
  40. ^ Vincent, James (7 de noviembre de 2019). "OpenAI ha publicado la inteligencia artificial generadora de texto que, según afirmó, era demasiado peligrosa para compartir". The Verge .
  41. ^ abcd Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Winter, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Chess, Benjamin; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Dario (28 de mayo de 2020). "Los modelos de lenguaje son aprendices de pocas oportunidades". NeurIPS . archivo arXiv : 2005.14165v4 .
  42. ^ abc "Visualización de tendencias de entrada de ML". Epoch . Consultado el 2 de mayo de 2023 .
  43. ^ ab Ver Meer, Dave (1 de junio de 2023). "Estadísticas de ChatGPT". NamePepper . Consultado el 9 de junio de 2023 .
  44. ^ "GPT-4 tiene más de un billón de parámetros - Informe". 25 de marzo de 2023.
  45. ^ Vincent, James (14 de marzo de 2023). "Google abre su modelo de lenguaje de IA PaLM para desafiar a OpenAI y GPT-3". The Verge .
  46. ^ "Google abre el acceso al modelo de lenguaje PaLM".
  47. ^ Iyer, Aparna (30 de noviembre de 2022). "Conozca GPT-JT, la alternativa de código abierto más cercana a GPT-3". Revista Analytics India .
  48. ^ "Meta presenta un modelo de lenguaje de inteligencia artificial, pero es solo para investigadores". PCMAG .
  49. ^ Islam, Arham (27 de marzo de 2023). «Modelos de lenguaje multimodal: el futuro de la inteligencia artificial (IA)». Archivado desde el original el 15 de mayo de 2023. Consultado el 15 de mayo de 2023 .
  50. ^ Islam, Arham (14 de noviembre de 2022). "¿Cómo funcionan DALL·E 2, la difusión estable y el viaje a mitad de camino?".
  51. ^ Saha, Shritama (4 de enero de 2023). "Google lanza Muse, un nuevo modelo de transformación de texto a imagen". Revista Analytics India .
  52. ^ Wu (et-al), Chenfei (8 de marzo de 2023). "Chat visualGPT". arXiv : 2303.04671 [cs.CV].
  53. ^ Bommasani (et-al), Rishi (12 de julio de 2022). "Sobre las oportunidades y riesgos de los modelos de fundación". arXiv : 2108.07258 [cs.LG].
  54. ^ ab "Alineación de modelos de lenguaje para seguir instrucciones". openai.com . Archivado desde el original el 23 de marzo de 2023 . Consultado el 23 de marzo de 2023 .
  55. ^ ab Ouyang, Long; Wu, Jeff; Jiang, Xu; et al. (4 de noviembre de 2022). "Entrenamiento de modelos de lenguaje para seguir instrucciones con retroalimentación humana". NeurIPS . arXiv : 2203.02155 .
  56. ^ Ramnani, Meeta (28 de enero de 2022). "OpenAI reemplaza su propio GPT-3 por algo llamado InstructGPT, y por una buena razón". Revista Analytics India .
  57. ^ "CRFM de Stanford". crfm.stanford.edu .
  58. ^ "Free Dolly: Presentamos el primer LLM verdaderamente abierto y optimizado para la instrucción del mundo". Databricks . 12 de abril de 2023.
  59. ^ ab "Presentación de ChatGPT". openai.com . Archivado desde el original el 2023-03-16 . Consultado el 2023-03-16 .
  60. ^ Wiggers, Kyle (4 de mayo de 2023). "Microsoft redobla su apuesta por la inteligencia artificial con las nuevas funciones de Bing".
  61. ^ "ChatGPT vs. Bing vs. Google Bard: ¿Qué IA es la más útil?". CNET .
  62. ^ "Auto-GPT, BabyAGI y AgentGPT: Cómo usar agentes de IA". Mashable . 19 de abril de 2023.
  63. ^ Marr, Bernard. "Auto-GPT puede ser la herramienta de inteligencia artificial más potente que supere a ChatGPT". Forbes .
  64. ^ "Microsoft crea código abierto para el chatbot multimodal Visual ChatGPT". InfoQ .
  65. ^ Edwards, Benj (9 de enero de 2023). "La nueva IA de Microsoft puede simular la voz de cualquier persona con 3 segundos de audio". Ars Technica .
  66. ^ Morrison, Ryan (7 de marzo de 2023). "Salesforce lanza EinsteinGPT desarrollado con tecnología OpenAI".
  67. ^ Sharma, Animesh K.; Sharma, Rahul (2023). "El papel de los transformadores generativos preentrenados (GPT) en la revolución del marketing digital: un modelo conceptual". Revista de estrategia de marketing cultural . 8 (1): 80–90. doi :10.69554/TLVQ2275.
  68. ^ Leswing, Kif (13 de abril de 2023). "Bloomberg planea integrar IA de estilo GPT en su terminal". CNBC .
  69. ^ "La organización sin fines de lucro Khan Academy está probando una versión de GPT llamada Khanmigo". Fast Company . 4 de mayo de 2023 . Consultado el 22 de mayo de 2023 .
  70. ^ "Khan Academy prueba la herramienta Khanmigo con GPT-4 para profesores". THE Journal .
  71. ^ Hachman, Mark (4 de mayo de 2023). "Slack GPT incorporará chatbots de IA a tus conversaciones". PCWorld .
  72. ^ Luo (et-al), Renqian (3 de abril de 2023). "BioGPT: Transformador generativo preentrenado para la generación y minería de textos biomédicos". Briefings in Bioinformatics . 23 (6). arXiv : 2210.10341 . doi :10.1093/bib/bbac409. PMID  36156661.
  73. ^ "Conozca los 13 mejores complementos de ChatGPT, diseñados para mejorar su experiencia de usuario general". Últimas tendencias de transformación digital | Noticias de la nube | Wire19 . 5 de mayo de 2023.
  74. ^ "Complementos ChatGPT". openai.com .
  75. ^ "Cómo usar ChatGPT en Google Sheets con GPT para Sheets y Docs". MUO . 12 de marzo de 2023.
  76. ^ Asay, Matt (27 de febrero de 2023). "Adopte y amplíe Excel para la preparación de datos con inteligencia artificial". InfoWorld .
  77. ^ https://www.techopedia.com/definition/openai-gpts
  78. ^ abcd Hicks, William (10 de mayo de 2023). «OpenAI, el creador de ChatGPT, pide a las empresas emergentes que eliminen la palabra «GPT» de sus nombres». The Business Journal . Consultado el 21 de mayo de 2023 .
  79. ^ OpenAI (24 de abril de 2023). «Brand Guidelines» (Directrices de marca) . Consultado el 21 de mayo de 2023 .
  80. ^ ab "Directrices de la marca".
  81. ^ "Introducción a GPTS".
  82. ^ ab Heah, Alexa (26 de abril de 2023). "OpenAI no logró acelerar su intento de registrar 'GPT' como marca registrada". DesignTAXI . Consultado el 21 de mayo de 2023 .
  83. ^ "ACCIÓN DE OFICINA NO FINAL". USPTO . 25 de mayo de 2023.
  84. ^ "Ley de marcas de Estados Unidos". Diciembre de 2015.
  85. ^ "Derechos de marca internacionales".
  86. ^ "OpenAI quiere registrar 'GPT' en medio del auge de los chatbots de inteligencia artificial". Tech Times. 25 de abril de 2023. Consultado el 21 de mayo de 2023 .
  87. ^ Louise, Nickie (3 de abril de 2023). «OpenAI presenta un caso UDRP contra el actual propietario de ChatGPT.com» . Consultado el 21 de mayo de 2023 .
  88. ^ ab Demcak, Tramatm-Igor (26 de abril de 2023). "La batalla de OpenAI por la protección de la marca: ¿se puede registrar GPT?". Lexology . Archivado desde el original el 5 de mayo de 2023 . Consultado el 22 de mayo de 2023 .
  89. ^ Lawton, George (20 de abril de 2023). "ChatGPT vs. GPT: ¿En qué se diferencian? | TechTarget". Inteligencia artificial empresarial . Archivado desde el original el 9 de mayo de 2023. Consultado el 21 de mayo de 2023 .
  90. ^ Robb, Drew (12 de abril de 2023). "GPT-4 vs. ChatGPT: comparación de chatbots con inteligencia artificial". eWEEK . Consultado el 21 de mayo de 2023 .
  91. ^ Russo, Philip (22 de agosto de 2023). "La génesis de la IA generativa para todo, en todas partes y a la vez en el sector inmobiliario comercial". Commercial Observer . Archivado desde el original el 24 de agosto de 2023.
  92. ^ "Violación de marca registrada".
  93. ^ Rheintgen, Husch Blackwell LLP-Kathleen A. (16 de agosto de 2013). "Branding 101: uso legítimo descriptivo de la marca". Lexología . Consultado el 21 de mayo de 2023 .
  94. ^ finetune-transformer-lm, OpenAI, 11 de junio de 2018 , consultado el 1 de mayo de 2023
  95. ^ "GPT-2: versión 1.5B". openai.com . Consultado el 1 de mayo de 2023 .
  96. ^ Solaiman, Irene ; Brundage, Miles; Clark, Jack; Askell, Amanda; Herbert-Voss, Ariel; Wu, Jeff; Radford, Alec; Krueger, Gretchen; Kim, Jong Wook; Kreps, Sarah; McCain, Miles; Newhouse, Alex; Blazakis, Jason; McGuffie, Kris; Wang, Jasmine (12 de noviembre de 2019). "Estrategias de publicación e impactos sociales de los modelos de lenguaje". arXiv : 1908.09203 [cs.CL].
  97. ^ gpt-2, OpenAI, 1 de mayo de 2023 , consultado el 1 de mayo de 2023
  98. ^ "WebGPT: Mejorar la precisión factual de los modelos de lenguaje mediante la navegación web". openai.com . Archivado desde el original el 21 de junio de 2023 . Consultado el 2 de julio de 2023 .
  99. ^ Nakano, Reiichiro; Hilton, Jacob; Balaji, Suchir; Wu, Jeff; Ouyang, Long; Kim, Christina; Hesse, Christopher; Jain, Shantanu; Kosaraju, Vineet; Saunders, William; Jiang, Xu; Cobbe, Karl; Eloundou, Tyna; Krueger, Gretchen; Button, Kevin (1 de diciembre de 2021). "WebGPT: Respuesta a preguntas asistida por navegador con retroalimentación humana". CoRR . arXiv : 2112.09332 .
  100. ^ "GPT-4". openai.com . Consultado el 1 de mayo de 2023 .
  101. ^ OpenAI (27 de marzo de 2023). «Informe técnico de GPT-4». arXiv : 2303.08774 [cs.CL].
  102. ^ Bubeck, Sébastien; Chandrasekaran, Varun; Eldan, Ronen; Gehrke, Johannes; Horvitz, Eric; Kamar, Ece; Lee, Pedro; Lee, Yin Tat; Li, Yuanzhi; Lundberg, Scott; Nori, Harsha; Palangi, Hamid; Ribeiro, Marco Tulio; Zhang, Yi (13 de abril de 2023). "Chispas de inteligencia general artificial: primeros experimentos con GPT-4". arXiv : 2303.12712 [cs.CL].
  103. ^ Tarjeta del sistema GPT-4, OpenAI, 23 de marzo de 2023 (consultado el 22 de mayo de 2023).
  104. ^ "Hola GPT-4o". AbiertoAI . 13 de mayo de 2024.