Un modelo de base , también conocido como modelo de IA de gran tamaño , es un modelo de aprendizaje automático o de aprendizaje profundo que se entrena en grandes conjuntos de datos para que pueda aplicarse en una amplia gama de casos de uso. [1] Las aplicaciones de IA generativa , como los modelos de lenguaje de gran tamaño, suelen ser ejemplos de modelos de base. [1]
La creación de modelos de base suele requerir muchos recursos; los modelos más caros cuestan cientos de millones de dólares para pagar los datos subyacentes y los cálculos necesarios. [2] Por el contrario, adaptar un modelo de base existente para una tarea específica o usarlo directamente es mucho menos costoso.
Los primeros ejemplos de modelos de base son los modelos de lenguaje (LM) como la serie GPT de OpenAI y BERT de Google . [3] [4] Más allá del texto, se han desarrollado modelos de base en una variedad de modalidades, incluidas DALL-E y Flamingo [5] para imágenes, MusicGen [6] para música y RT-2 [7] para control robótico. También se están desarrollando modelos de base para campos como la astronomía, [8] la radiología, [9] la genómica, [10] la música, [11] la codificación, [12] la predicción de series temporales , [13] las matemáticas, [14] y la química. [15]
El Centro de Investigación de Modelos Fundamentados (CRFM) del Instituto Stanford para la Inteligencia Artificial Centrada en el Ser Humano (HAI) acuñó el término "modelo fundacional" en agosto de 2021 [16] para significar "cualquier modelo que se entrena con datos amplios (generalmente utilizando autosupervisión a escala) que se puede adaptar (por ejemplo, afinar) a una amplia gama de tareas posteriores". [17] Esto se basó en su observación de que los términos preexistentes, aunque se superponían, no eran adecuados, afirmando que "' modelo de lenguaje (grande) ' era demasiado estrecho dado que [el] enfoque no es solo el lenguaje; 'modelo autosupervisado' era demasiado específico para el objetivo de entrenamiento; y 'modelo preentrenado' sugería que la acción notable sucedió después del 'preentrenamiento". [18] Se eligió el término "modelo fundacional" en lugar de "modelo fundacional" [19] porque "fundacional" implica que estos modelos proporcionan principios fundamentales de una manera que "fundamental" no lo hace. [20] Después de considerar muchos términos, se decidieron por "modelo de base" para enfatizar la función prevista (es decir, la capacidad para un desarrollo posterior) en lugar de la modalidad , la arquitectura o la implementación.
A medida que los gobiernos regulan los modelos de fundación, han surgido nuevas definiciones legales.
En general, aunque muchas de estas definiciones se apegan a la definición original de Stanford, introducen algunas distinciones sutiles. Por ejemplo, las definiciones de EE. UU. son las únicas que hacen referencia al tamaño de un modelo de base, aunque difieren en una magnitud exacta. La definición de Beyer y Eshoo también especifica que los modelos de base deben alcanzar un nivel de desempeño que los convierta en un peligro potencial. En cambio, la definición de la UE incluye una mención de si el modelo está diseñado para una generalidad de resultados. No obstante, todas las definiciones comparten que los modelos de base deben entrenarse con una amplia gama de datos con aplicaciones potenciales en muchos dominios.
En términos tecnológicos, los modelos básicos se construyen utilizando técnicas de aprendizaje automático establecidas, como redes neuronales profundas , aprendizaje por transferencia y aprendizaje autosupervisado . Los modelos básicos son dignos de mención debido a la inversión de recursos sin precedentes, el tamaño del modelo y de los datos y, en última instancia, su alcance de aplicación en comparación con las formas anteriores de IA. El auge de los modelos básicos constituye un nuevo paradigma en IA, donde los modelos de propósito general funcionan como una infraestructura reutilizable, en lugar de modelos personalizados y específicos para tareas únicas.
Los modelos básicos se basan en una serie de avances en la historia de la IA. Estos modelos pueden situarse en el contexto del auge más amplio del aprendizaje automático desde la década de 1990. Los modelos de IA anteriores dependían de instrucciones específicas para resolver una tarea determinada, pero los modelos basados en aprendizaje automático podían descifrar qué tarea resolver si se contaban con datos suficientes. Este cambio de los denominados sistemas expertos al aprendizaje automático basado en datos fue el primer paso hacia el modelo básico moderno.
El siguiente gran paso fue la llegada del aprendizaje profundo alrededor de 2010. [23] Con conjuntos de datos más grandes y redes neuronales más avanzadas, los modelos de IA pudieron alcanzar niveles más altos de rendimiento. El primer ejemplo importante de aprendizaje profundo lo exhibió la arquitectura de modelos AlexNet , que ganó el Desafío de reconocimiento visual a gran escala ImageNet de 2012. AlexNet exhibió un sólido desempeño en un conjunto de datos generales a gran escala y demostró por primera vez que el aprendizaje profundo era posible. Junto con el cambio metodológico hacia la optimización de extremo a extremo de las redes neuronales profundas, la década de 2010 también estuvo marcada por un cambio de software. A mediados de la década de 2010, el surgimiento de marcos de aprendizaje profundo como Pytorch y Tensorflow proporcionó una infraestructura crucial para simplificar y escalar los procesos de aprendizaje profundo.
Los modelos de base comenzaron a materializarse como la última ola de modelos de aprendizaje profundo a fines de la década de 2010 con modelos como ELMo , GPT , BERT y GPT-2 . [23] En relación con la mayoría de los trabajos anteriores sobre aprendizaje profundo, estos modelos de lenguaje demostraron el potencial del entrenamiento en conjuntos de datos de fuentes web mucho más grandes utilizando objetivos autosupervisados (por ejemplo, predecir la siguiente palabra en un gran corpus de texto). Estos enfoques, que se basan en trabajos anteriores como word2vec y GloVe , se desviaron de los enfoques supervisados anteriores que requerían datos anotados (por ejemplo, etiquetas de fuentes colectivas).
En general, los avances computacionales en hardware especializado y paralelismo (por ejemplo, grandes grupos de GPU NVIDIA ), nuevos desarrollos en arquitectura de redes neuronales (por ejemplo, Transformer ) y el mayor uso de datos de entrenamiento con una supervisión mínima contribuyeron al surgimiento de los modelos de base. Algunos modelos de base notables incluyen: GPT , BERT , GPT-2 , T5 , GPT-3 , CLIP, DALL-E , Stable Diffusion , GPT-4 , LLaMA , LLaMA 2 y Mistral . Cada uno de estos modelos venía con sus propias habilidades únicas, particularmente en sus fuertes capacidades generativas.
En particular, el año 2022 fue particularmente influyente en la historia de los modelos de base. Los lanzamientos de Stable Diffusion y ChatGPT (inicialmente impulsados por el modelo GPT-3.5) llevaron a que los modelos de base y la IA generativa ingresaran al discurso público generalizado. Además, los lanzamientos de LLaMA , Llama 2 y Mistral en 2023 contribuyeron a que se pusiera mayor énfasis en cómo se lanzan los modelos de base, y los modelos de base abiertos obtuvieron mucho apoyo [24] y escrutinio. [25]
Algunos modelos de base muy avanzados se denominan "modelos de frontera", que tienen el potencial de "poseer capacidades peligrosas suficientes para plantear graves riesgos para la seguridad pública". [26] Estas "capacidades peligrosas" surgen del mal uso accidental o intencional de dichos modelos, que en conjunción con su naturaleza poderosa pueden conducir a daños graves. A medida que los modelos de base continúan mejorando, algunos investigadores de IA especulan que casi todos los modelos de base de próxima generación se considerarán modelos de frontera.
Dado que el concepto de capacidades peligrosas es inherentemente subjetivo, no existe una designación estricta de qué modelos básicos se califican como modelos de frontera. Sin embargo, algunas ideas generalizadas sobre capacidades suficientemente peligrosas incluyen:
Debido a las capacidades únicas de los modelos de frontera, es difícil regular eficazmente su desarrollo y despliegue. Debido a su naturaleza emergente, pueden aparecer nuevas capacidades peligrosas por sí solas en los modelos de frontera, tanto en la etapa de desarrollo como después de su implementación. [26] Además, dado que los modelos de frontera continúan adaptándose después de su implementación, sigue siendo difícil mitigar todos los daños que surgen de los modelos ya implementados. Si un modelo de frontera resulta ser de código abierto o se publica en línea, el modelo también puede difundirse rápidamente, lo que obstaculiza aún más a los reguladores al crear una falta de rendición de cuentas.
Debido a su adaptabilidad a una amplia gama de casos de uso, los modelos básicos a veces se consideran ejemplos de IA de propósito general. Al diseñar la Ley de IA de la UE, el Parlamento Europeo ha declarado que una nueva ola de tecnologías de IA de propósito general da forma al ecosistema general de IA. [31] La estructura más completa del ecosistema, además de las propiedades de los sistemas de IA de propósito general específicos, influye en el diseño de la política y la investigación de IA. [32] Los sistemas de IA de propósito general también aparecen a menudo en la vida cotidiana de las personas a través de aplicaciones y herramientas como ChatGPT o DALL-E .
Las agencias gubernamentales como el Parlamento Europeo han identificado la regulación de la IA de propósito general, como los modelos básicos, como una alta prioridad. Los sistemas de IA de propósito general se caracterizan a menudo por su gran tamaño, opacidad y potencial de emergencia, todo lo cual puede crear daños no deseados. Dichos sistemas también influyen en gran medida en las aplicaciones posteriores, lo que exacerba aún más la necesidad de regulación. Con respecto a la legislación destacada, varias partes interesadas han presionado para que la Ley de IA de la UE incluya restricciones a los sistemas de IA de propósito general, todas las cuales también se aplicarían a los modelos básicos.
Para que un modelo de base se generalice de manera efectiva, debe adquirir representaciones enriquecidas de los datos de entrenamiento. Como resultado, las arquitecturas de modelos expresivas que procesan eficientemente datos a gran escala suelen ser las preferidas para construir modelos de base. [17] Actualmente, la arquitectura Transformer es la opción de facto para construir modelos de base en una variedad de modalidades. [33]
Los modelos básicos se construyen optimizando uno o más objetivos de entrenamiento, que son una función matemática que determina cómo se actualizan los parámetros del modelo en función de las predicciones del modelo sobre los datos de entrenamiento. [34] Los modelos de lenguaje a menudo se entrenan con un objetivo de predicción de tokens siguientes, que se refiere al grado en el que el modelo puede predecir el token siguiente en una secuencia. Los modelos de imagen se entrenan comúnmente con objetivos de entrenamiento de aprendizaje contrastivo o de difusión. Para el aprendizaje contrastivo, las imágenes se aumentan aleatoriamente antes de evaluarse en función de la similitud resultante de las representaciones del modelo. Para los modelos de difusión, las imágenes se ruidosan y el modelo aprende a eliminar el ruido gradualmente a través del objetivo. También existen objetivos de entrenamiento multimodales, algunos separan imágenes y texto durante el entrenamiento, mientras que otros los examinan simultáneamente. [35] En general, los objetivos de entrenamiento para los modelos básicos promueven el aprendizaje de representaciones de datos ampliamente útiles.
Con el auge de los modelos básicos y los conjuntos de datos más grandes que los sustentan, un objetivo de entrenamiento debe ser capaz de analizar datos a escala de Internet para obtener puntos de datos significativos. Además, dado que los modelos básicos están diseñados para resolver una gama general de tareas, los objetivos de entrenamiento deben ser de dominio completo o capaces de resolver un amplio conjunto de capacidades posteriores dentro del dominio dado. Por último, los objetivos de entrenamiento del modelo básico deben buscar escalar bien y ser computacionalmente eficientes. Dado que el tamaño del modelo y la potencia de cómputo son limitaciones relevantes, un objetivo de entrenamiento debe poder superar dichos cuellos de botella.
Los modelos básicos se entrenan con una gran cantidad de datos y funcionan bajo la máxima "cuantos más datos, mejor". [36] La evaluación del rendimiento muestra que, en general, cuanto más datos haya, mejor es el rendimiento, pero surgen otros problemas a medida que aumenta la cantidad de datos. Tareas como la gestión del conjunto de datos, la integración de datos en nuevas aplicaciones, la garantía de cumplimiento de las licencias de datos y el mantenimiento de la calidad de los datos se vuelven más difíciles a medida que aumenta el tamaño de los datos. Las demandas específicas de los modelos básicos no han hecho más que exacerbar estos problemas, ya que sigue siendo la norma que los modelos básicos de gran tamaño utilicen datos públicos extraídos de la web. Los modelos básicos también incluyen datos de motores de búsqueda y datos de metaetiquetas SEO. Los datos web públicos siguen siendo un recurso abundante, pero también exigen una moderación y un procesamiento de datos estrictos por parte de los desarrolladores de modelos básicos antes de que puedan integrarse con éxito en el proceso de entrenamiento. [37]
El entrenamiento de modelos básicos suele conllevar el riesgo de violar la privacidad del usuario, ya que los datos privados pueden divulgarse, recopilarse o utilizarse de formas que van más allá del alcance establecido. Incluso si no se filtran datos privados, los modelos pueden comprometer inadvertidamente la seguridad a través del comportamiento aprendido en el modelo básico resultante. [38] La calidad de los datos es otro punto clave, ya que los datos extraídos de la web con frecuencia contienen material sesgado, duplicado y tóxico. Una vez que se implementan los modelos básicos, garantizar datos de alta calidad sigue siendo un problema, ya que aún pueden surgir comportamientos indeseables de pequeños subconjuntos de datos.
El tamaño de los modelos de base también genera problemas con los sistemas informáticos en los que se ejecutan. El modelo de base promedio es demasiado grande para ejecutarse dentro de la memoria de un solo acelerador y el proceso de entrenamiento inicial requiere una cantidad costosa de recursos. [39] Se prevé que estos problemas se agraven aún más en el futuro a medida que los modelos de base alcancen nuevas cotas. Debido a esta limitación, los investigadores han comenzado a estudiar la posibilidad de comprimir el tamaño del modelo mediante una inferencia de modelo estricta.
Las GPU son la opción más común de hardware computacional para el aprendizaje automático, debido a la gran capacidad de almacenamiento de memoria y la gran potencia. El entrenamiento típico de modelos básicos requiere muchas GPU, todas conectadas en paralelo con interconexiones rápidas. Adquirir una cantidad suficiente de GPU con la eficiencia computacional requerida es un desafío para muchos desarrolladores de modelos básicos, lo que ha llevado a un dilema cada vez mayor en el campo. Los modelos más grandes requieren mayor potencia computacional, pero a menudo a costa de una mayor eficiencia computacional. Dado que el entrenamiento sigue siendo lento y costoso, la compensación entre potencia computacional y eficiencia computacional ha llevado a que solo unas pocas empresas selectas puedan afrontar los costos de producción de modelos básicos grandes y de última generación. Algunas técnicas como la compresión y la destilación pueden hacer que la inferencia sea más asequible, pero no logran apuntalar por completo esta debilidad.
La precisión y las capacidades de los modelos básicos suelen escalar de manera predecible con el tamaño del modelo y la cantidad de datos de entrenamiento. En concreto, se han descubierto leyes de escala, que son tendencias empíricas basadas en datos que relacionan los recursos (datos, tamaño del modelo, uso de cómputo) con las capacidades del modelo. En particular, la escala de un modelo se define por el cómputo, el tamaño del conjunto de datos y la cantidad de parámetros, todos los cuales presentan una relación de ley de potencia con el rendimiento final.
Sin embargo, se han descubierto leyes de escala rotas [40] en las que esta relación pasa suavemente (en puntos denominados ruptura(es) ) de una ley de potencia con un exponente a una ley de potencia con otro exponente (diferente). Cuando no se recogen puntos cerca (o después) de la(s) ruptura(es), puede resultar difícil obtener una extrapolación precisa.
Los modelos básicos son inherentemente multipropósito: para utilizarlos en un caso de uso específico se requiere algún tipo de adaptación. Como mínimo, los modelos deben adaptarse para realizar la tarea de interés (especificación de la tarea), pero a menudo se puede lograr un mejor rendimiento mediante una adaptación más amplia al dominio de interés (especialización del dominio).
Una variedad de métodos (por ejemplo , la incitación , el aprendizaje en contexto , el ajuste fino , LoRA ) proporcionan diferentes compensaciones entre los costos de adaptación y el grado en que los modelos están especializados. Algunas facetas principales a considerar al adaptar un modelo base son el presupuesto de cómputo y la disponibilidad de datos. Los modelos base pueden ser muy grandes, hasta billones de parámetros de tamaño, por lo que adaptar la totalidad de un modelo base puede ser computacionalmente costoso. Por lo tanto, los desarrolladores a veces adaptan solo la última capa neuronal o solo los vectores de sesgo para ahorrar tiempo y espacio. [41] Para aplicaciones particularmente de nicho, es posible que tampoco haya datos específicos disponibles para adaptar el modelo base lo suficiente. En tales circunstancias, los datos deben etiquetarse manualmente, lo que es costoso y puede exigir conocimientos expertos.
La evaluación es una parte clave del desarrollo de modelos de base. La evaluación no solo permite realizar un seguimiento del progreso de los modelos de alto rendimiento, sino que también crea puntos de referencia para el desarrollo futuro de modelos. Las partes interesadas confían en las evaluaciones para comprender los comportamientos de los modelos y obtener información sobre sus diversos atributos. Tradicionalmente, los modelos de base se evalúan entre sí a través de puntos de referencia de tareas estandarizadas como MMLU , [42] MMMU, [43] HumanEval, [44] y GSM8K. [45] Dado que los modelos de base son multipropósito, cada vez se desarrollan más metapuntos de referencia que agregan diferentes puntos de referencia subyacentes. Algunos ejemplos incluyen LM-Harness, [46] BIG-Bench, [47] HELM, [48] OpenLLM Leaderboard, [49] DecodingTrust, [50] y HEIM. [51]
Dado que la utilidad de los modelos básicos depende de sus propias capacidades generales y del rendimiento de las aplicaciones optimizadas, la evaluación debe abarcar ambas métricas. Una evaluación adecuada examina tanto las aplicaciones posteriores de un modelo básico en conjunto como las propiedades directas que posee el modelo básico. Para garantizar una mayor equidad en la evaluación, ciertos marcos de evaluación existentes tienen en cuenta todos los recursos de adaptación, lo que conduce a análisis más informados para el beneficio de todas las partes interesadas. [52]
Las capacidades generales de los modelos de base les permiten cumplir un papel único en el ecosistema de IA, [53] impulsado por muchas tecnologías ascendentes y descendentes. [1] El entrenamiento de un modelo de base requiere varios recursos (por ejemplo, datos, computación, mano de obra, hardware, código), y los modelos de base a menudo implican inmensas cantidades de datos y computación (también conocidas como potencia computacional). Debido a los grandes costos de desarrollo de los modelos de base y los requisitos de adaptación económicos, el panorama de la IA se ha desplazado a un pequeño subconjunto de empresas de IA que fabrican modelos de base para la adaptación descendente. [54] Por lo tanto, la mayoría de las empresas de modelos de base subcontratan este paso a proveedores de datos especializados (por ejemplo, Scale AI, [55] Surge [56] ) y proveedores de computación (por ejemplo , Amazon Web Services , Google Cloud , Microsoft Azure ).
El propio desarrollador del modelo base tomará entonces los datos y utilizará el cómputo proporcionado para entrenar realmente el modelo base. Una vez que el modelo base está completamente construido, gran parte de los requisitos de datos y mano de obra disminuyen. En este proceso de desarrollo, el hardware y el cómputo son los recursos más necesarios, y también los más exclusivos. Para entrenar una IA más grande y compleja, una cantidad suficiente de cómputo es clave. Sin embargo, el cómputo se consolida en manos de unas pocas entidades seleccionadas, de las que dependen la mayoría de los desarrolladores de modelos base. Como tal, la línea de trabajo del modelo base se concentra en gran medida en torno a estos proveedores. El cómputo también es costoso; en 2023, las empresas de IA gastaron más del 80% del capital total en recursos de cómputo. [58]
Los modelos básicos requieren una gran cantidad de datos generales para potenciar sus capacidades. Los primeros modelos básicos extraían información de subconjuntos de Internet para proporcionar esta información. A medida que el tamaño y el alcance de los modelos básicos aumentan, se hace necesario extraer mayores cantidades de Internet, lo que genera mayores probabilidades de obtener datos sesgados o tóxicos. Estos datos tóxicos o sesgados pueden dañar desproporcionadamente a los grupos marginados y exacerbar los prejuicios existentes. [59]
Para abordar este problema de baja calidad de los datos que surgió con el entrenamiento no supervisado, algunos desarrolladores de modelos básicos han recurrido al filtrado manual. Esta práctica, conocida como “trabajo de datos”, conlleva su propia serie de problemas. [60] Esta desintoxicación manual de datos suele subcontratarse para reducir los costos laborales, y algunos trabajadores ganan menos de 2 dólares por hora. [61]
El modelo de base se alojará en línea, ya sea a través del desarrollador o de una organización externa. Una vez publicado, otras partes pueden crear aplicaciones basadas en el modelo de base, ya sea mediante ajustes o con fines totalmente nuevos. Las personas pueden acceder a estas aplicaciones para satisfacer sus diversos fines, lo que permite que un modelo de base impulse y llegue a una amplia audiencia.
Una vez que se crea un modelo de base, se puede publicar de varias maneras. Hay muchas facetas en un lanzamiento: el activo en sí, quién tiene acceso, cómo cambia el acceso con el tiempo y las condiciones de uso. [62] Todos estos factores contribuyen a la forma en que un modelo de base afectará a las aplicaciones posteriores. [63] En particular, las dos formas más comunes de publicación de un modelo de base son a través de API y descargas directas del modelo.
Cuando se publica un modelo a través de una API , los usuarios pueden consultar el modelo y recibir respuestas, pero no pueden acceder directamente al modelo en sí. En comparación, el modelo podría descargarse directamente para que los usuarios accedan a él y lo modifiquen. Ambas estrategias de publicación suelen clasificarse como una publicación abierta. La definición exacta de una publicación abierta es objeto de controversia, pero la Iniciativa de Código Abierto proporciona requisitos ampliamente aceptados .
Algunos modelos de base abierta son: PaLM 2 , Llama 2 , Granite y Mistral . Si bien los modelos de base abierta pueden facilitar la investigación y el desarrollo, también son más susceptibles de ser utilizados de forma indebida. Cualquiera puede descargar los modelos de base abierta y los modelos particularmente potentes pueden ajustarse para causar daños intencional o involuntariamente.
Durante una publicación cerrada, el modelo de base no está disponible para el público, pero una organización lo utiliza internamente. Estas publicaciones se consideran más seguras, pero no ofrecen ningún valor adicional a la comunidad de investigación ni al público en general.
Algunos modelos básicos, como Flamingo [64] de Google DeepMind , son completamente cerrados, lo que significa que solo están disponibles para el desarrollador del modelo; otros, como GPT-4 de OpenAI , son de acceso limitado, están disponibles para el público pero solo como una caja negra ; y otros, como Llama 2 de Meta , son abiertos, con pesos de modelo ampliamente disponibles que permiten modificaciones y escrutinio posteriores.