stringtranslate.com

Modelo de fundación

Un modelo de base , también conocido como modelo de IA a gran escala , es un modelo de aprendizaje automático o de aprendizaje profundo que se entrena con datos amplios de modo que se pueda aplicar en una amplia gama de casos de uso. [1] Los modelos de base han transformado la inteligencia artificial (IA), impulsando importantes aplicaciones de IA generativa como ChatGPT . [1] El Centro de Investigación sobre Modelos de Base (CRFM) del Instituto Stanford para la Inteligencia Artificial Centrada en el Ser Humano (HAI) creó y popularizó el término. [2]

Los modelos de base son tecnologías de uso general que pueden dar soporte a una amplia gama de casos de uso. La creación de modelos de base suele requerir muchos recursos, y los modelos más caros cuestan cientos de millones de dólares para pagar los datos subyacentes y los cálculos necesarios. [3] Por el contrario, adaptar un modelo de base existente para un caso de uso específico o usarlo directamente es mucho menos costoso.

Los primeros ejemplos de modelos de base son los modelos de lenguaje (LM), como la serie " GPT-n " de OpenAI y BERT de Google [4] . Más allá del texto, se han desarrollado modelos de base en una variedad de modalidades, incluidos DALL-E y Flamingo [5] para imágenes, MusicGen [6] para música y RT-2 [7] para control robótico. Los modelos de base constituyen un cambio amplio en el desarrollo de la IA: se están construyendo modelos de base para astronomía, [8] radiología, [9] genómica, [10] música, [11] codificación, [12] pronóstico de series temporales , [13] matemáticas, [14] y química. [15]

Definiciones

El Centro de Investigación de Modelos Fundacionales (CRFM) del Instituto Stanford para la Inteligencia Artificial Centrada en el Ser Humano (HAI) acuñó el término "modelo fundacional" en agosto de 2021 para significar "cualquier modelo que se entrena con datos amplios (generalmente utilizando autosupervisión a escala) que se puede adaptar (por ejemplo, afinar) a una amplia gama de tareas posteriores". [16] Esto se basó en su observación de que los términos preexistentes, aunque se superponían, no eran adecuados, afirmando que "' modelo de lenguaje (grande) ' era demasiado estrecho dado que [el] enfoque no es solo el lenguaje; 'modelo autosupervisado' era demasiado específico para el objetivo de entrenamiento; y 'modelo preentrenado' sugería que la acción notable sucedió después del 'preentrenamiento". [17] Se eligió el término "modelo fundacional" en lugar de "modelo fundacional" [18] porque "fundacional" implica que estos modelos proporcionan principios fundamentales de una manera que "fundamental" no lo hace. [19] Después de considerar muchos términos, se decidieron por "modelo de base" para enfatizar la función prevista (es decir, la capacidad para un desarrollo posterior) en lugar de la modalidad , la arquitectura o la implementación.

A medida que los gobiernos regulan los modelos de fundación, han surgido nuevas definiciones legales.

En general, aunque muchas de estas definiciones se apegan a la definición original de Stanford, introducen algunas distinciones sutiles. Por ejemplo, las definiciones de EE. UU. son las únicas que hacen referencia al tamaño de un modelo de base, aunque difieren en una magnitud exacta. La definición de Beyer y Eshoo también especifica que los modelos de base deben alcanzar un nivel de desempeño que los convierta en un peligro potencial. En cambio, la definición de la UE incluye una mención de si el modelo está diseñado para una generalidad de resultados. No obstante, todas las definiciones comparten que los modelos de base deben entrenarse en una amplia gama de datos con aplicaciones potenciales en muchos dominios.

Historia

En términos tecnológicos, los modelos básicos se construyen utilizando técnicas de aprendizaje automático establecidas, como redes neuronales profundas , aprendizaje por transferencia y aprendizaje autosupervisado . Los modelos básicos son dignos de mención debido a la inversión de recursos sin precedentes, el tamaño del modelo y de los datos y, en última instancia, su alcance de aplicación en comparación con las formas anteriores de IA. El auge de los modelos básicos constituye un nuevo paradigma en IA, donde los modelos de propósito general funcionan como una infraestructura reutilizable, en lugar de modelos personalizados y específicos para tareas únicas.

Los modelos básicos se basan en una serie de avances en la historia de la IA. Estos modelos pueden situarse en el contexto del auge más amplio del aprendizaje automático desde la década de 1990. Los modelos de IA anteriores dependían de instrucciones específicas para resolver una tarea determinada, pero los modelos basados ​​en aprendizaje automático podían descifrar qué tarea resolver si se contaban con datos suficientes. Este cambio de los denominados sistemas expertos al aprendizaje automático basado en datos fue el primer paso hacia el modelo básico moderno.

El siguiente gran paso fue la llegada del aprendizaje profundo alrededor de 2010. [22] Con conjuntos de datos más grandes y redes neuronales más avanzadas, los modelos de IA pudieron alcanzar niveles más altos de rendimiento. El primer ejemplo importante de aprendizaje profundo lo exhibió la arquitectura de modelos AlexNet , que ganó el Desafío de reconocimiento visual a gran escala ImageNet de 2012. AlexNet exhibió un sólido desempeño en un conjunto de datos generales a gran escala y demostró por primera vez que el aprendizaje profundo era posible. Junto con el cambio metodológico hacia la optimización de extremo a extremo de las redes neuronales profundas, la década de 2010 también estuvo marcada por un cambio de software. A mediados de la década de 2010, el surgimiento de marcos de aprendizaje profundo como Pytorch y Tensorflow proporcionaron una infraestructura crucial para simplificar y escalar los procesos de aprendizaje profundo.

Los modelos de base comenzaron a materializarse como la última ola de modelos de aprendizaje profundo a fines de la década de 2010 con modelos como ELMo , GPT , BERT y GPT-2 . [22] En relación con la mayoría de los trabajos anteriores sobre aprendizaje profundo, estos modelos de lenguaje demostraron el potencial del entrenamiento en conjuntos de datos de fuentes web mucho más grandes utilizando objetivos autosupervisados ​​(por ejemplo, predecir la siguiente palabra en un gran corpus de texto). Estos enfoques, que se basan en trabajos anteriores como word2vec y GloVe , se desviaron de los enfoques supervisados ​​​​anteriores que requerían datos anotados (por ejemplo, etiquetas de fuentes colectivas).

En general, los avances computacionales en hardware especializado y paralelismo (por ejemplo, grandes grupos de GPU NVIDIA ), nuevos desarrollos en arquitectura de redes neuronales (por ejemplo, Transformer ) y el mayor uso de datos de entrenamiento con una supervisión mínima contribuyeron al surgimiento de los modelos básicos. Algunos modelos básicos notables incluyen: GPT , BERT , GPT-2 , T5 , GPT-3 , CLIP, DALL-E , Stable Diffusion , GPT-4 , LLaMA , LLaMA 2 y Mistral . Cada uno de estos modelos venía con sus propias habilidades únicas, particularmente en sus fuertes capacidades generativas.

En particular, el año 2022 fue particularmente influyente en la historia de los modelos de base. Los lanzamientos de Stable Diffusion y ChatGPT (inicialmente impulsados ​​por el modelo GPT-3.5) llevaron a que los modelos de base y la IA generativa ingresaran al discurso público generalizado. Además, los lanzamientos de LLaMA , Llama 2 y Mistral en 2023 contribuyeron a que se pusiera mayor énfasis en cómo se lanzan los modelos de base, y los modelos de base abiertos obtuvieron mucho apoyo [23] y escrutinio. [24]

Conceptos relacionados

Modelos fronterizos

Algunos modelos de base muy avanzados se denominan "modelos de frontera", que tienen el potencial de "poseer capacidades peligrosas suficientes para plantear graves riesgos para la seguridad pública". [25] Estas "capacidades peligrosas" surgen del mal uso accidental o intencional de dichos modelos, que en conjunción con su naturaleza poderosa pueden conducir a daños graves. A medida que los modelos de base continúan mejorando, algunos investigadores de IA especulan que casi todos los modelos de base de próxima generación se considerarán modelos de frontera.

Dado que el concepto de capacidades peligrosas es inherentemente subjetivo, no existe una designación estricta de qué modelos básicos se califican como modelos de frontera. Sin embargo, algunas ideas generalizadas sobre capacidades suficientemente peligrosas incluyen:

Debido a las capacidades únicas de los modelos de frontera, es difícil regular eficazmente su desarrollo y despliegue. Debido a su naturaleza emergente, pueden aparecer nuevas capacidades peligrosas por sí solas en los modelos de frontera, tanto en la etapa de desarrollo como después de su despliegue. [25] Además, dado que los modelos de frontera continúan adaptándose después de su despliegue, sigue siendo difícil mitigar todos los daños que surgen de los modelos ya implementados. Si un modelo de frontera resulta ser de código abierto o se publica en línea, el modelo también puede difundirse rápidamente, lo que obstaculiza aún más a los reguladores al crear una falta de rendición de cuentas.

IA de propósito general

Debido a su adaptabilidad a una amplia gama de casos de uso, los modelos básicos a veces se consideran ejemplos de IA de propósito general. Al diseñar la Ley de IA de la UE, el Parlamento Europeo ha declarado que una nueva ola de tecnologías de IA de propósito general da forma al ecosistema general de IA. [30] La estructura más completa del ecosistema, además de las propiedades de los sistemas de IA de propósito general específicos, influye en el diseño de la política y la investigación de IA. [31] Los sistemas de IA de propósito general también aparecen a menudo en la vida cotidiana de las personas a través de aplicaciones y herramientas como ChatGPT o DALL-E .

Las agencias gubernamentales como el Parlamento Europeo han identificado la regulación de la IA de propósito general, como los modelos básicos, como una alta prioridad. Los sistemas de IA de propósito general se caracterizan a menudo por su gran tamaño, opacidad y potencial de emergencia, todo lo cual puede crear daños no deseados. Dichos sistemas también influyen en gran medida en las aplicaciones posteriores, lo que exacerba aún más la necesidad de regulación. Con respecto a la legislación destacada, varias partes interesadas han presionado para que la Ley de IA de la UE incluya restricciones a los sistemas de IA de propósito general, todas las cuales también se aplicarían a los modelos básicos.

Detalles técnicos

Modelado

Para que un modelo de base se generalice de manera efectiva, debe adquirir representaciones enriquecidas de los datos de entrenamiento. Como resultado, las arquitecturas de modelos expresivas que procesan eficientemente datos a gran escala suelen ser las preferidas para construir modelos de base. [16] Actualmente, la arquitectura Transformer es la opción de facto para construir modelos de base en una variedad de modalidades. [32]

Capacitación

Los modelos básicos se construyen optimizando uno o más objetivos de entrenamiento, que son una función matemática que determina cómo se actualizan los parámetros del modelo en función de las predicciones del modelo sobre los datos de entrenamiento. [33] Los modelos de lenguaje a menudo se entrenan con un objetivo de predicción de tokens siguientes, que se refiere al grado en el que el modelo puede predecir el token siguiente en una secuencia. Los modelos de imagen se entrenan comúnmente con objetivos de entrenamiento de aprendizaje contrastivo o de difusión. Para el aprendizaje contrastivo, las imágenes se aumentan aleatoriamente antes de evaluarse en función de la similitud resultante de las representaciones del modelo. Para los modelos de difusión, las imágenes se ruidosan y el modelo aprende a eliminar el ruido gradualmente a través del objetivo. También existen objetivos de entrenamiento multimodales, algunos separan imágenes y texto durante el entrenamiento, mientras que otros los examinan simultáneamente. [34] En general, los objetivos de entrenamiento para los modelos básicos promueven el aprendizaje de representaciones de datos ampliamente útiles.

Con el auge de los modelos básicos y los conjuntos de datos más grandes que los sustentan, un objetivo de entrenamiento debe ser capaz de analizar datos a escala de Internet para obtener puntos de datos significativos. Además, dado que los modelos básicos están diseñados para resolver una gama general de tareas, los objetivos de entrenamiento deben ser de dominio completo o capaces de resolver un amplio conjunto de capacidades posteriores dentro del dominio dado. Por último, los objetivos de entrenamiento del modelo básico deben buscar escalar bien y ser computacionalmente eficientes. Dado que el tamaño del modelo y la potencia de cómputo son limitaciones relevantes, un objetivo de entrenamiento debe poder superar dichos cuellos de botella.

Datos

Los modelos básicos se entrenan con una gran cantidad de datos y funcionan según la máxima "cuantos más datos, mejor". [35] La evaluación del rendimiento muestra que, en general, cuanto más datos haya, mejor es el rendimiento, pero surgen otros problemas a medida que aumenta la cantidad de datos. Tareas como la gestión del conjunto de datos, la integración de datos en nuevas aplicaciones, la garantía de la adhesión a las licencias de datos y el mantenimiento de la calidad de los datos se vuelven más difíciles a medida que aumenta el tamaño de los datos. Las demandas específicas de los modelos básicos no han hecho más que exacerbar estos problemas, ya que sigue siendo habitual que los modelos básicos de gran tamaño utilicen datos públicos extraídos de la web. Los modelos básicos también incluyen datos de motores de búsqueda y datos de metaetiquetas SEO. Los datos web públicos siguen siendo un recurso abundante, pero también exigen una moderación y un procesamiento de datos estrictos por parte de los desarrolladores de modelos básicos antes de que puedan integrarse con éxito en el proceso de entrenamiento. [36]

El entrenamiento de modelos básicos suele conllevar el riesgo de violar la privacidad del usuario, ya que los datos privados pueden divulgarse, recopilarse o utilizarse de formas que van más allá del alcance establecido. Incluso si no se filtran datos privados, los modelos pueden comprometer inadvertidamente la seguridad a través del comportamiento aprendido en el modelo básico resultante. [37] La ​​calidad de los datos es otro punto clave, ya que los datos extraídos de la web con frecuencia contienen material sesgado, duplicado y tóxico. Una vez que se implementan los modelos básicos, garantizar datos de alta calidad sigue siendo un problema, ya que aún pueden surgir comportamientos indeseables de pequeños subconjuntos de datos.

Sistemas

El tamaño de los modelos de base también genera problemas con los sistemas informáticos en los que se ejecutan. El modelo de base promedio es demasiado grande para ejecutarse dentro de la memoria de un solo acelerador y el proceso de entrenamiento inicial requiere una cantidad costosa de recursos. [38] Se prevé que estos problemas se agraven aún más en el futuro a medida que los modelos de base alcancen nuevas cotas. Debido a esta limitación, los investigadores han comenzado a estudiar la posibilidad de comprimir el tamaño del modelo mediante una inferencia de modelo estricta.

Las GPU son la opción más común de hardware computacional para el aprendizaje automático, debido a la gran capacidad de almacenamiento de memoria y la gran potencia. El entrenamiento típico de modelos básicos requiere muchas GPU, todas conectadas en paralelo con interconexiones rápidas. Adquirir una cantidad suficiente de GPU con la eficiencia computacional requerida es un desafío para muchos desarrolladores de modelos básicos, lo que ha llevado a un dilema cada vez mayor en el campo. Los modelos más grandes requieren mayor potencia computacional, pero a menudo a costa de una mayor eficiencia computacional. Dado que el entrenamiento sigue siendo lento y costoso, la compensación entre potencia computacional y eficiencia computacional ha llevado a que solo unas pocas empresas selectas puedan afrontar los costos de producción de modelos básicos grandes y de última generación. Algunas técnicas como la compresión y la destilación pueden hacer que la inferencia sea más asequible, pero no logran apuntalar por completo esta debilidad.

Escalada

La precisión y las capacidades de los modelos básicos suelen escalar de manera predecible con el tamaño del modelo y la cantidad de datos de entrenamiento. En concreto, se han descubierto leyes de escala, que son tendencias empíricas basadas en datos que relacionan los recursos (datos, tamaño del modelo, uso de cómputo) con las capacidades del modelo. En particular, la escala de un modelo se define por el cómputo, el tamaño del conjunto de datos y la cantidad de parámetros, todos los cuales presentan una relación de ley de potencia con el rendimiento final.

Sin embargo, se han descubierto leyes de escala rotas [39] en las que esta relación pasa suavemente (en puntos denominados ruptura(es) ) de una ley de potencia con un exponente a una ley de potencia con otro exponente (diferente). Cuando no se recogen puntos cerca (o después) de la(s) ruptura(es), puede resultar difícil obtener una extrapolación precisa.

Adaptación

Los modelos básicos son inherentemente multipropósito: para utilizar estos modelos en un caso de uso específico se requiere algún tipo de adaptación. Como mínimo, los modelos deben adaptarse para realizar la tarea de interés (especificación de la tarea), pero a menudo se puede lograr un mejor rendimiento mediante una adaptación más amplia al dominio de interés (especialización del dominio).

Una variedad de métodos (por ejemplo , la incitación , el aprendizaje en contexto , el ajuste fino , LoRA ) proporcionan diferentes compensaciones entre los costos de adaptación y el grado en que los modelos están especializados. Algunas facetas principales a considerar al adaptar un modelo base son el presupuesto de cómputo y la disponibilidad de datos. Los modelos base pueden ser muy grandes, hasta billones de parámetros de tamaño, por lo que adaptar la totalidad de un modelo base puede ser computacionalmente costoso. Por lo tanto, los desarrolladores a veces adaptan solo la última capa neuronal o solo los vectores de sesgo para ahorrar tiempo y espacio. [40] Para aplicaciones particularmente de nicho, es posible que tampoco haya datos específicos disponibles para adaptar el modelo base lo suficiente. En tales circunstancias, los datos deben etiquetarse manualmente, lo que es costoso y puede exigir conocimientos expertos.

Evaluación

La evaluación es una parte clave del desarrollo de modelos de base. La evaluación no solo permite realizar un seguimiento del progreso de los modelos de alto rendimiento, sino que también crea puntos de referencia para el desarrollo futuro de modelos. Las partes interesadas confían en las evaluaciones para comprender los comportamientos de los modelos y obtener información sobre sus diversos atributos. Tradicionalmente, los modelos de base se evalúan entre sí a través de puntos de referencia de tareas estandarizadas como MMLU , [41] MMMU, [42] HumanEval, [43] y GSM8K. [44] Dado que los modelos de base son multipropósito, cada vez se desarrollan más metapuntos de referencia que agregan diferentes puntos de referencia subyacentes. Algunos ejemplos incluyen LM-Harness, [45] BIG-Bench, [46] HELM, [47] OpenLLM Leaderboard, [48] DecodingTrust, [49] y HEIM. [50]

Dado que la utilidad de los modelos básicos depende de sus propias capacidades generales y del rendimiento de las aplicaciones optimizadas, la evaluación debe abarcar ambas métricas. Una evaluación adecuada examina tanto las aplicaciones posteriores de un modelo básico en conjunto como las propiedades directas que posee el modelo básico. Para garantizar una mayor equidad en la evaluación, ciertos marcos de evaluación existentes tienen en cuenta todos los recursos de adaptación, lo que conduce a análisis más informados en beneficio de todas las partes interesadas. [51]

Cadena de suministro

Las capacidades generales de los modelos de base les permiten cumplir un papel único en el ecosistema de IA, [52] impulsado por muchas tecnologías ascendentes y descendentes. [1] El entrenamiento de un modelo de base requiere varios recursos (por ejemplo, datos, computación, mano de obra, hardware, código), y los modelos de base a menudo implican inmensas cantidades de datos y computación (también conocidas como potencia computacional). Debido a los grandes costos de desarrollo de los modelos de base y los requisitos de adaptación económicos, el panorama de la IA se ha desplazado a un pequeño subconjunto de empresas de IA que fabrican modelos de base para la adaptación descendente. [53] Por lo tanto, la mayoría de las empresas de modelos de base subcontratan este paso a proveedores de datos especializados (por ejemplo, Scale AI, [54] Surge [55] ) y proveedores de computación (por ejemplo , Amazon Web Services , Google Cloud , Microsoft Azure ).

La inversión en capacidades informáticas para entrenar modelos de IA más grandes ha aumentado rápidamente. [56]

El propio desarrollador del modelo base tomará entonces los datos y utilizará el cómputo proporcionado para entrenar realmente el modelo base. Una vez que el modelo base está completamente construido, gran parte de los requisitos de datos y mano de obra disminuyen. En este proceso de desarrollo, el hardware y el cómputo son los recursos más necesarios, y también los más exclusivos. Para entrenar una IA más grande y compleja, una cantidad suficiente de cómputo es clave. Sin embargo, el cómputo se consolida en manos de unas pocas entidades seleccionadas, de las que dependen la mayoría de los desarrolladores de modelos base. Como tal, la línea de trabajo del modelo base se concentra en gran medida en torno a estos proveedores. El cómputo también es costoso; en 2023, las empresas de IA gastaron más del 80% del capital total en recursos de cómputo. [57]

Los modelos básicos requieren una gran cantidad de datos generales para potenciar sus capacidades. Los primeros modelos básicos extraían información de subconjuntos de Internet para proporcionarla. A medida que el tamaño y el alcance de los modelos básicos aumentan, se hace necesario extraer mayores cantidades de Internet, lo que genera mayores probabilidades de obtener datos sesgados o tóxicos. Estos datos tóxicos o sesgados pueden dañar desproporcionadamente a los grupos marginados y exacerbar los prejuicios existentes. [58]

Para abordar este problema de baja calidad de los datos que surgió con el entrenamiento no supervisado, algunos desarrolladores de modelos básicos han recurrido al filtrado manual. Esta práctica, conocida como “trabajo de datos”, conlleva su propia serie de problemas. [59] Esta desintoxicación manual de datos suele subcontratarse para reducir los costos laborales, y algunos trabajadores ganan menos de 2 dólares por hora. [60]

El modelo de base se alojará en línea, ya sea a través del desarrollador o de una organización externa. Una vez publicado, otras partes pueden crear aplicaciones basadas en el modelo de base, ya sea mediante ajustes o con fines totalmente nuevos. Las personas pueden acceder a estas aplicaciones para satisfacer sus diversos fines, lo que permite que un modelo de base impulse y llegue a una amplia audiencia.

Estrategias de lanzamiento

Una vez que se crea un modelo de base, se puede publicar de varias maneras. Un lanzamiento tiene muchas facetas: el activo en sí, quién tiene acceso, cómo cambia el acceso con el tiempo y las condiciones de uso. [61] Todos estos factores contribuyen a la forma en que un modelo de base afectará a las aplicaciones posteriores. [62] En particular, las dos formas más comunes de publicación de un modelo de base son a través de API y descargas directas del modelo.

Cuando se publica un modelo a través de una API , los usuarios pueden consultar el modelo y recibir respuestas, pero no pueden acceder directamente al modelo en sí. En comparación, el modelo podría descargarse directamente para que los usuarios accedan a él y lo modifiquen. Ambas estrategias de publicación suelen clasificarse como una publicación abierta. La definición exacta de una publicación abierta es objeto de controversia, pero la Iniciativa de Código Abierto proporciona requisitos ampliamente aceptados .

Algunos modelos de base abierta son: PaLM 2 , Llama 2 , Granite y Mistral . Si bien los modelos de base abierta pueden facilitar la investigación y el desarrollo, también son más susceptibles de ser utilizados de forma indebida. Cualquiera puede descargar los modelos de base abierta y los modelos particularmente potentes pueden ajustarse para causar daños intencional o involuntariamente.

Durante una publicación cerrada, el modelo de base no está disponible para el público, pero una organización lo utiliza internamente. Estas publicaciones se consideran más seguras, pero no ofrecen ningún valor adicional a la comunidad de investigación ni al público en general.

Algunos modelos básicos, como Flamingo [63] de Google DeepMind , son completamente cerrados, lo que significa que solo están disponibles para el desarrollador del modelo; otros, como GPT-4 de OpenAI , son de acceso limitado, están disponibles para el público pero solo como una caja negra ; y otros, como Llama 2 de Meta , son abiertos, con pesos de modelo ampliamente disponibles que permiten modificaciones y escrutinio posteriores.

Referencias

  1. ^ abcd Autoridad de Competencia y Mercados (2023). Modelos de AI Foundation: Informe inicial . Disponible en: https://assets.publishing.service.gov.uk/media/65081d3aa41cc300145612c0/Full_report_.pdf
  2. ^ "Presentación del Centro de Investigación sobre Modelos de Cimentación (CRFM)". Stanford HAI . 18 de agosto de 2021 . Consultado el 11 de junio de 2022 .
  3. ^ Nestor Maslej, Loredana Fattorini, Erik Brynjolfsson, John Etchemendy, Katrina Ligett, Terah Lyons, James Manyika, Helen Ngo, Juan Carlos Niebles, Vanessa Parli, Yoav Shoham, Russell Wald, Jack Clark y Raymond Perrault, "Informe anual del Índice de IA 2023", Comité Directivo del Índice de IA, Instituto de IA Centrada en el Ser Humano, Universidad de Stanford, Stanford, CA, abril de 2023.
  4. ^ Rogers, Anna; Kovaleva, Olga; Rumshisky, Anna (2020). "Una introducción a la BERTología: lo que sabemos sobre cómo funciona BERT". arXiv : 2002.12327 [cs.CL].
  5. ^ Abordar múltiples tareas con un único modelo de lenguaje visual, 28 de abril de 2022 , consultado el 13 de junio de 2022
  6. ^ Copet, Jade; Kreuk, Felix; Gat, Itai; Remez, Tal; Kant, David; Synnaeve, Gabriel; Adi, Yossi; Défossez, Alexandre (7 de noviembre de 2023). "Generación musical simple y controlable". arXiv : 2306.05284 [cs.SD].
  7. ^ "Robot parlante: nuestro nuevo modelo de IA traduce la visión y el lenguaje en acciones robóticas". Google . 28 de julio de 2023 . Consultado el 11 de diciembre de 2023 .
  8. ^ Nguyen, Tuan Dung; Ting, Yuan-Sen; Ciucă, Ioana; O'Neill, Charlie; Sun, Ze-Chang; Jabłońska, Maja; Kruk, Sandor; Perkowski, Ernest; Miller, Jack (12 de septiembre de 2023). "AstroLLaMA: Hacia modelos de base especializados en astronomía". arXiv : 2309.06126 [astro-ph.IM].
  9. ^ Tu, Tao; Azizi, Shekoofeh; Driess, Danny; Schaekermann, Mike; Amin, Mohamed; Chang, Pi-Chuan; Carroll, Andrew; Lau, Chuck; Tanno, Ryutaro (26 de julio de 2023). "Hacia una IA biomédica generalista". arXiv : 2307.14334 [cs.CL].
  10. ^ Zvyagin, Maxim; Brace, Alexander; Hippe, Kyle; Deng, Yuntian; Zhang, Bin; Bohorquez, Cindy Orozco; Clyde, Austin; Kale, Bharat; Perez-Rivera, Danilo (11 de octubre de 2022). "GenSLMs: Los modelos de lenguaje a escala del genoma revelan la dinámica evolutiva del SARS-CoV-2". bioRxiv 10.1101/2022.10.10.511571 . 
  11. ^ Ingeniería, Spotify (13 de octubre de 2023). «LLark: un modelo de base multimodal para la música». Spotify Research . Consultado el 11 de diciembre de 2023 .
  12. ^ Li, Raymond; Allal, Loubna Ben; Zi, Yangtian; Muennighoff, Niklas; Kocetkov, Denis; Mou, Chenghao; Marone, Marc; Akiki, Christopher; Li, Jia (9 de mayo de 2023). "StarCoder: ¡que la fuente te acompañe!". arXiv : 2305.06161 [cs.CL].
  13. ^ Se, Ksenia; Spektor, Ian (5 de abril de 2024). "Revolucionando la predicción de series temporales: entrevista con los creadores de TimeGPT". Turing Post . Consultado el 11 de abril de 2024 .
  14. ^ Azerbayev, Zhangir; Schoelkopf, Hailey; Paster, Keiran; Santos, Marco Dos; McAleer, Stephen; Jiang, Albert Q.; Deng, Jia; Biderman, Stella; Welleck, Sean (30 de noviembre de 2023). "Llema: un modelo de lenguaje abierto para las matemáticas". arXiv : 2310.10631 [cs.CL].
  15. ^ https://www.orbitalmaterials.com/post/technical-blog-introduciendo-the-orb-ai-based-interatomic-potential
  16. ^ ab Bommasani, Rishi; et al. (18 de agosto de 2021). Sobre las oportunidades y los riesgos de los modelos de cimentación (informe). arXiv : 2108.07258 .
  17. ^ "Reflexiones sobre los modelos de cimentación". Stanford HAI . 18 de octubre de 2021 . Consultado el 22 de mayo de 2023 .
  18. ^ Bommasani, Rishi; Liang, Percy (18 de octubre de 2021). "Reflexiones sobre los modelos de cimentación". Stanford CRFM . Consultado el 11 de diciembre de 2023 .
  19. ^ Marcus, Gary (11 de septiembre de 2021). "¿Ha encontrado la IA una nueva base?". The Gradient . Consultado el 11 de diciembre de 2023 .
  20. ^ House, The White (30 de octubre de 2023). «Orden ejecutiva sobre el desarrollo y uso seguro, protegido y confiable de la inteligencia artificial». The White House . Consultado el 12 de febrero de 2024 .
  21. ^ "Ley de Transparencia Modelo de la Fundación AI" (PDF) .
  22. ^ ab Liang, Percy; Bommasani, Rishi; Lee, Tony; Tsipras, Dimitris; Soylu, Dilara; Yasunaga, Michihiro; Zhang, Yian; Narayanan, Deepak; Wu, Yuhuai (1 de octubre de 2023), "Evaluación holística de modelos lingüísticos", Anales de la Academia de Ciencias de Nueva York , 1525 (1): 140–146, arXiv : 2211.09110 , Bibcode :2023NYASA1525..140B, doi :10.1111/nyas.15007, PMID  37230490
  23. ^ "Declaración conjunta sobre seguridad y apertura de la IA". Mozilla . 31 de octubre de 2023 . Consultado el 12 de febrero de 2024 .
  24. ^ "Hawley y Blumenthal exigen respuestas de Meta y advierten de un mal uso tras la 'filtración' del modelo de inteligencia artificial de Meta". Senador Josh Hawley . 6 de junio de 2023 . Consultado el 12 de febrero de 2024 .
  25. ^ de Anderljung, Markus; Barnhart, Joslyn; Korinek, Anton; Leung, Jade ; O'Keefe, Cullen; Whittlestone, Jess; Avin, Shahar; Brundage, Miles; Bullock, Justin (7 de noviembre de 2023), Regulación de la IA de frontera: gestión de riesgos emergentes para la seguridad pública , arXiv : 2307.03718
  26. ^ Singhal, Karan; Azizi, Shekoofeh; Tu, Tao; Mahdavi, S. Sara; Wei, Jason; Chung, Hyung Won; Scales, Nathan; Tanwani, Ajay; Cole-Lewis, Heather; Pfohl, Stephen; Payne, Perry; Seneviratne, Martin; Gamble, Paul; Kelly, Chris; Babiker, Abubakr (agosto de 2023). "Los grandes modelos de lenguaje codifican el conocimiento clínico". Nature . 620 (7972): 172–180. arXiv : 2212.13138 . Código Bibliográfico :2023Natur.620..172S. doi :10.1038/s41586-023-06291-2. ISSN  1476-4687. PMC 10396962 . Número de modelo:  PMID37438534. 
  27. ^ Nori, Harsha; King, Nicholas; McKinney, Scott Mayer; Carignan, Dean; Horvitz, Eric (12 de abril de 2023), Capacidades de GPT-4 en problemas de desafío médico , arXiv : 2303.13375
  28. ^ Simshaw, Drew (22 de abril de 2022). "Acceso a la justicia basada en inteligencia artificial: cómo evitar un sistema de servicios jurídicos inequitativo de dos niveles". Revista electrónica SSRN .
  29. ^ Arbel, Yonathan A.; Becher, Shmuel I. (2020). "Contratos en la era de los lectores inteligentes". Geo. Wash. L. Rev. 90 : 83. doi :10.2139/ssrn.3740356. S2CID  229386991.
  30. ^ «Inteligencia artificial de propósito general | Think Tank | Parlamento Europeo». www.europarl.europa.eu . Consultado el 12 de febrero de 2024 .
  31. ^ Bommasani, Rishi; Soylu, Dilara; Liao, Thomas I.; Creel, Kathleen A.; Liang, Percy (28 de marzo de 2023), Gráficos de ecosistemas: la huella social de los modelos de base , arXiv : 2303.15772
  32. ^ Bommasani, Rishi; Klyman, Kevin; Longpre, Shayne; Kapoor, Sayash; Maslej, Nestor; Xiong, Betty; Zhang, Daniel; Liang, Percy (19 de octubre de 2023), Índice de transparencia del modelo de la Fundación , arXiv : 2310.12941
  33. ^ Claude Elwood, Shannon (julio de 1948). "Una teoría matemática de la comunicación" (PDF) . Bell System Technical Journal .
  34. ^ Radford, Alec; Kim, Jong Wook; Hallacy, Chris; Ramesh, Aditya; Goh, Gabriel; Agarwal, Sandhini; Sastry, Girish; Askell, Amanda; Mishkin, Pamela (26 de febrero de 2021), Aprendizaje de modelos visuales transferibles a partir de la supervisión del lenguaje natural , arXiv : 2103.00020
  35. ^ Kaplan, Jared; McCandlish, Sam; Henighan, Tom; Brown, Tom B.; Chess, Benjamin; Child, Rewon; Gray, Scott; Radford, Alec; Wu, Jeffrey (22 de enero de 2020), Leyes de escala para modelos de lenguaje neuronal , arXiv : 2001.08361
  36. ^ Jo, Eun Seo; Gebru, Timnit (27 de enero de 2020). "Lecciones de los archivos: estrategias para recopilar datos socioculturales en el aprendizaje automático". Actas de la Conferencia de 2020 sobre equidad, rendición de cuentas y transparencia . págs. 306–316. arXiv : 1912.10389 . doi :10.1145/3351095.3372829. ISBN 978-1-4503-6936-7.
  37. ^ Bender, Emily M.; Gebru, Timnit; McMillan-Major, Angelina; Shmitchell, Shmargaret (1 de marzo de 2021). "Sobre los peligros de los loros estocásticos: ¿pueden los modelos de lenguaje ser demasiado grandes? 🦜". Actas de la Conferencia ACM de 2021 sobre equidad, responsabilidad y transparencia . FAccT '21. Nueva York, NY, EE. UU.: Association for Computing Machinery. págs. 610–623. doi :10.1145/3442188.3445922. ISBN . 978-1-4503-8309-7.
  38. ^ Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish (22 de julio de 2020), Los modelos de lenguaje son aprendices de pocas oportunidades , arXiv : 2005.14165
  39. ^ Caballero, Ethan; Gupta, Kshitij; Rish, Irina; Krueger, David (2022). "Leyes de escalamiento neuronal rotas". Conferencia internacional sobre representaciones del aprendizaje (ICLR), 2023.
  40. ^ Zaken, Elad Ben; Ravfogel, Shauli; Goldberg, Yoav (5 de septiembre de 2022), BitFit: Ajuste fino simple y eficiente en parámetros para modelos de lenguaje enmascarado basados ​​en transformadores , arXiv : 2106.10199
  41. ^ "Documentos con código - MMLU Benchmark (Comprensión del lenguaje multitarea)". paperswithcode.com . Consultado el 21 de abril de 2024 .
  42. ^ Yue, Xiang; Ni, Yuansheng; Zhang, Kai; Zheng, Tianyu; Liu, Ruoqi; Zhang, Ge; Stevens, Samuel; Jiang, Dongfu; Ren, Weiming (20 de diciembre de 2023), MMMU: un punto de referencia masivo multidisciplinario de comprensión y razonamiento multimodal para AGI experto , arXiv : 2311.16502
  43. ^ "Documentos con código - Punto de referencia HumanEval (generación de código)". paperswithcode.com . Consultado el 21 de abril de 2024 .
  44. ^ "Documentos con código: prueba comparativa GSM8K (razonamiento aritmético)". paperswithcode.com . Consultado el 21 de abril de 2024 .
  45. ^ EleutherAI/lm-evaluation-harness, EleutherAI, 21 de abril de 2024 , consultado el 21 de abril de 2024
  46. ^ Srivastava, Aarohi; Rastogi, Abhinav; Rao, Abhishek; Shoeb, Abu Awal Md; Abid, Abubakar; Fisch, Adam; Brown, Adam R.; Santoro, Adam; Gupta, Aditya (12 de junio de 2023), Más allá del juego de la imitación: cuantificación y extrapolación de las capacidades de los modelos lingüísticos , arXiv : 2206.04615
  47. ^ "Evaluación holística de modelos lingüísticos (HELM)". crfm.stanford.edu . Consultado el 21 de abril de 2024 .
  48. ^ "open-llm-leaderboard (Tabla de clasificación de Open LLM)". huggingface.co . 9 de noviembre de 2023 . Consultado el 21 de abril de 2024 .
  49. ^ "Punto de referencia de DecodingTrust". decodingtrust.github.io . Consultado el 21 de abril de 2024 .
  50. ^ "Evaluación holística de modelos de imágenes (HEIM)". crfm.stanford.edu . Consultado el 21 de abril de 2024 .
  51. ^ Linzen, Tal (julio de 2020). Jurafsky, Dan; Chai, Joyce; Schluter, Natalie; Tetreault, Joel (eds.). "¿Cómo podemos acelerar el progreso hacia una generalización lingüística similar a la humana?". Actas de la 58.ª reunión anual de la Asociación de Lingüística Computacional . En línea: Asociación de Lingüística Computacional: 5210–5217. arXiv : 2005.00955 . doi :10.18653/v1/2020.acl-main.465.
  52. ^ "Gráficos de ecosistemas para modelos de base". crfm.stanford.edu . Consultado el 13 de febrero de 2024 .
  53. ^ Vipra, Jai; Korinek, Anton (2 de noviembre de 2023), Implicaciones de los modelos de base en la concentración del mercado , arXiv : 2311.01550
  54. ^ "Acelerar el desarrollo de aplicaciones de IA | Scale AI". scale.com . Consultado el 21 de abril de 2024 .
  55. ^ "Surge AI | La plataforma de etiquetado de datos más potente del mundo". www.surgehq.ai . Consultado el 21 de abril de 2024 .
  56. ^ "Índice IA 2024 - capítulo 1" (PDF) . 15 de abril de 2024. págs. 37–39.
  57. ^ pnp (27 de septiembre de 2023). «Poder computacional e inteligencia artificial». AI Now Institute . Consultado el 13 de febrero de 2024 .
  58. ^ Tiku, Nitasha; Schaul, Kevin; Chen, Szu Yu. "Estas imágenes falsas revelan cómo la IA amplifica nuestros peores estereotipos". Washington Post . Consultado el 13 de febrero de 2024 .
  59. ^ "Cómo la industria de la IA se beneficia de las catástrofes". MIT Technology Review . Consultado el 13 de febrero de 2024 .
  60. ^ "Exclusivo: Los trabajadores que ganan 2 dólares por hora y que hicieron que ChatGPT fuera más seguro". TIME . 18 de enero de 2023 . Consultado el 13 de febrero de 2024 .
  61. ^ Liang, Percy; Bommasani, Rishi; Creel, Kathleen (17 de mayo de 2022). "Ha llegado el momento de desarrollar normas comunitarias para la publicación de modelos de base". Stanford CRFM .
  62. ^ Solaiman, Irene (5 de febrero de 2023), El gradiente de la liberación de IA generativa: métodos y consideraciones , arXiv : 2302.04844
  63. ^ Alayrac, Jean-Baptiste; Donahue, Jeff; Luc, Pauline; Miech, Antoine; Barr, Iain; Hasson, Yana; Lenc, Karel; Mensch, Arthur; Millican, Katie (15 de noviembre de 2022), Flamingo: un modelo de lenguaje visual para el aprendizaje de pocos intentos , arXiv : 2204.14198