Ajuste fino (aprendizaje profundo)

En el aprendizaje profundo , el ajuste fino es un enfoque para transferir el aprendizaje en el que los parámetros de un modelo previamente entrenado se entrenan con nuevos datos. ^[1] El ajuste fino se puede realizar en toda la red neuronal , o solo en un subconjunto de sus capas, en cuyo caso las capas que no se están ajustando se "congelan" (no se actualizan durante el paso de retropropagación ). ^[2] Un modelo también se puede aumentar con "adaptadores" que constan de muchos menos parámetros que el modelo original, y ajustarse de manera eficiente en parámetros ajustando los pesos de los adaptadores y dejando el resto de los pesos del modelo congelados. . ^[3]

Para algunas arquitecturas, como las redes neuronales convolucionales , es común mantener congeladas las capas anteriores (las más cercanas a la capa de entrada) porque capturan características de nivel inferior, mientras que las capas posteriores a menudo disciernen características de alto nivel que pueden estar más relacionadas con la tarea en la que está entrenado el modelo. ^[2]^[4]

Los modelos que están previamente entrenados en corpus grandes y generales generalmente se ajustan reutilizando los parámetros del modelo como punto de partida y agregando una capa específica de la tarea entrenada desde cero. ^[5] El ajuste fino del modelo completo también es común y a menudo produce mejores resultados, pero es más costoso desde el punto de vista computacional. ^[6]

El ajuste fino generalmente se logra con aprendizaje supervisado , pero también existen técnicas para ajustar un modelo mediante una supervisión débil . ^[7] El ajuste fino se puede combinar con un aprendizaje reforzado a partir de un objetivo basado en retroalimentación humana para producir modelos de lenguaje como ChatGPT (una versión mejorada de GPT-3 ) y Sparrow . ^[8]^[9]

Robustez

El ajuste fino puede degradar la solidez de un modelo ante los cambios de distribución . ^[10]^[11] Una mitigación es interpolar linealmente las ponderaciones de un modelo ajustado con las ponderaciones del modelo original, lo que puede aumentar en gran medida el rendimiento fuera de distribución y al mismo tiempo conservar en gran medida el rendimiento dentro de la distribución del modelo ajustado. . ^[12]

Variantes

Adaptación de bajo rango

La adaptación de rango bajo (LoRA) es una técnica basada en adaptadores para ajustar modelos de manera eficiente. La idea básica es diseñar una matriz de bajo rango que luego se agrega a la matriz original. ^[13] Un adaptador, en este contexto, es una colección de matrices de bajo rango que, cuando se agrega a un modelo base, produce un modelo ajustado. Permite un rendimiento que se acerca al ajuste fino del modelo completo con menos necesidad de espacio. Un modelo de lenguaje con miles de millones de parámetros puede ajustarse LoRA con solo varios millones de parámetros.

El ajuste fino basado en LoRA se ha vuelto popular en la comunidad de Stable Diffusion . ^[14] El soporte para LoRA se integró en la biblioteca de Difusores de Hugging Face . ^[15] La compatibilidad con LoRA y técnicas similares también está disponible para una amplia gama de otros modelos a través del paquete de ajuste fino de parámetros eficientes (PEFT) de Hugging Face. ^[dieciséis]

Ajuste de representación

El ajuste de representación (ReFT) es una técnica novedosa desarrollada por investigadores de la Universidad de Stanford destinada a ajustar modelos de lenguajes grandes (LLM) modificando menos del 1% de sus representaciones. A diferencia de los métodos tradicionales de ajuste eficiente de parámetros (PEFT), que se centran principalmente en actualizar ponderaciones, ReFT se dirige a partes específicas del modelo relevantes para la tarea que se está ajustando. Este enfoque se basa en la comprensión de que los modelos de aprendizaje profundo codifican información semántica rica en sus representaciones, lo que sugiere que modificar las representaciones podría ser una estrategia más eficaz que actualizar las ponderaciones. ^[17]

Los métodos ReFT operan en un modelo base congelado y aprenden intervenciones específicas de tareas en representaciones ocultas y entrenan intervenciones que manipulan una pequeña fracción de las representaciones del modelo para orientar los comportamientos del modelo hacia la resolución de tareas posteriores en el momento de la inferencia. Un método específico dentro de la familia ReFT es el ReFT de subespacio lineal de rango bajo (LoReFT), que interviene en representaciones ocultas en el subespacio lineal abarcado por una matriz de proyección de rango bajo. ^[17] LoReFT puede verse como el equivalente basado en representación de la Adaptación de rango bajo (LoRA).

Aplicaciones

Procesamiento natural del lenguaje

El ajuste fino es común en el procesamiento del lenguaje natural (PNL), especialmente en el dominio del modelado del lenguaje . Los modelos de lenguaje grandes, como la serie de modelos básicos GPT de OpenAI , se pueden ajustar con datos para tareas de PNL posteriores específicas (tareas que utilizan un modelo previamente entrenado) para mejorar el rendimiento con respecto al modelo previamente entrenado no modificado. ^[6]

Modelos comerciales

Los modelos de lenguajes grandes que se ofrecen comercialmente a veces se pueden ajustar si el proveedor ofrece una API de ajuste. A partir del 19 de junio de 2023, OpenAI y el servicio Azure OpenAI de Microsoft Azure ofrecen API de ajuste fino de modelos de lenguaje para un subconjunto de sus modelos, así como Google Cloud Platform para algunos de sus modelos PaLM y otros. ^[18]^[19]^[20] No todos los modelos comerciales actualmente admiten ajustes finos.

Modelos de código abierto

Empresas como Meta ( familia Llama LLM ), Alibaba (familia Qwen LLM) y Mistral AI (Mixtral) han publicado grandes modelos de lenguaje de código abierto con diferentes tamaños en GitHub, que se pueden ajustar. Los modelos de código abierto pueden resultar ventajosos para las empresas en términos de seguridad de los datos, porque pueden controlar dónde se aloja el modelo.

Ver también

Referencias

^ Quinn, Joanne (2020). Sumérjase en el aprendizaje profundo: herramientas para la participación. Mil robles, California. pag. 551.ISBN 978-1-5443-6137-6. Archivado desde el original el 10 de enero de 2023 . Consultado el 10 de enero de 2023 .{{cite book}}: Mantenimiento CS1: falta el editor de la ubicación ( enlace )
^ ab "Redes neuronales convolucionales CS231n para reconocimiento visual". cs231n.github.io . Consultado el 9 de marzo de 2023 .
^ Liu, Haokun; Tam, Derek; Muqeeth, Mahoma; Mohta, Jay; Huang, Tenghao; Bansal, Mohit; Raffel, Colin A (2022). Koyejo, S.; Mohamed, S.; Agarwal, A.; Belgrave, D.; Cho, K.; Oh, A. (eds.). El ajuste fino eficiente de parámetros en pocas tomas es mejor y más económico que el aprendizaje en contexto (PDF) . Avances en los sistemas de procesamiento de información neuronal. vol. 35. Curran Associates, Inc. págs. 1950-1965.
^ Zeiler, Mateo D; Fergus, Rob (2013). "Visualización y comprensión de redes convolucionales". ECCV . arXiv : 1311.2901 .
^ Esquivar, Jesse; Ilharco, Gabriel; Schwartz, Roy; Farhadi, Ali; Hajishirzi, Hannaneh; Smith, Noé (2020). "Ajuste de modelos de lenguaje previamente entrenados: inicializaciones de peso, pedidos de datos y detención anticipada". arXiv : 2002.06305 . {{cite journal}}: Citar diario requiere |journal=( ayuda )
^ ab Dingliwal, Saket; Shenoy, Ashish; Bodapati, Sravan; Gandhe, Ankur; Gadde, Ravi Teja; Kirchhoff, Katrin (2021). "Modelo de lenguaje Prompt Tuning GPT-2 para la adaptación de dominio eficiente en parámetros de sistemas ASR". InterDiscurso . arXiv : 2112.08718 .
^ Yu, Yue; Zuo, Simiao; Jiang, Haoming; Ren, Wendi; Zhao, Tuo; Zhang, Chao (2020). "Ajuste del modelo de lenguaje preentrenado con supervisión débil: un enfoque de autoformación contrastivo-regularizado". Asociación de Lingüística Computacional . arXiv : 2010.07835 .
^ "Presentamos ChatGPT". openai.com . Consultado el 9 de marzo de 2023 .
^ Glaese, Amelia; McAleese, Nat; Trębacz, Maja; Aslanides, Juan; Firoiu, Vlad; Ewalds, Timo; Rauh, Maribeth; Weidinger, Laura; Chadwick, Martín; Thacker, Phoebe; Campbell-Gillingham, Lucy; Uesato, Jonathan; Huang, Po-Sen; Comanascu, Ramona; Yang, ventilador; Mira, Abigail; Dathathri, Sumanth; Greig, Rory; Chen, Charlie; Fritz, Doug; Elías, Jaume Sánchez; Verde, Ricardo; Mokrá, Soňa; Fernando, Nicolás; Wu, Boxi; Foley, Raquel; Joven, Susana; Gabriel, Iason; Isaac, Guillermo; Mellor, Juan; Hassabis, Demis; Kavukcuoglu, Koray; Hendricks, Lisa Anne; Irving, Geoffrey (2022). "Mejorar la alineación de los agentes de diálogo mediante juicios humanos específicos". arXiv : 2209.14375 . {{cite journal}}: Citar diario requiere |journal=( ayuda )
^ Radford, Alec; Kim, Jong Wook; Hallacy, Chris; Ramesh, Aditya; Vaya, Gabriel; Agarwal, Sandhini; Satry, Girish; Askell, Amanda; Mishkin, Pamela; Clark, Jack; Krueger, Gretchen; Sutskever, Ilya (2021). "Aprendizaje de modelos visuales transferibles a partir de la supervisión del lenguaje natural". arXiv : 2103.00020 [cs.CV].
^ Kumar, Ananya; Raghunathan, Aditi; Jones, Robbie; Mamá, Tengyu; Liang, Percy (2022). "El ajuste fino puede distorsionar las funciones previamente entrenadas y tener un rendimiento inferior fuera de distribución". ICLR . arXiv : 2202.10054 .
^ Wortsman, Mitchell; Ilharco, Gabriel; Kim, Jong Wook; Li, Mike; Kornblith, Simón; Roelofs, Rebecca; Gontijo-Lopes, Rafael; Hajishirzi, Hannaneh; Farhadi, Ali; Namkoong, Hongseok; Schmidt, Ludwig (2022). "Sólido ajuste de modelos de disparo cero". arXiv : 2109.01903 [cs.CV].
^ Hu, Edward J.; Shen, Yelong; Wallis, Phillip; Allen-Zhu, Zeyuan; Li, Yuanzhi; Wang, Shean; Wang, Lu; Chen, Weizhu (28 de enero de 2022). "LoRA: adaptación de bajo rango de modelos de lenguaje grandes". ICLR . arXiv : 2106.09685 .
^ Ryu, Simo (13 de febrero de 2023). "Uso de la adaptación de rango bajo para ajustar rápidamente los modelos de difusión". GitHub . Consultado el 19 de junio de 2023 .
^ Cuenca, Pedro; Paul, Sayak (26 de enero de 2023). "Uso de LoRA para un ajuste eficiente de la difusión estable". Abrazando la cara . Consultado el 19 de junio de 2023 .
^ "Ajuste fino de parámetros eficiente utilizando 🤗 PEFT". abrazandoface.co . Consultado el 20 de junio de 2023 .
^ ab Wu, Zhengxuan; Arora, Aryaman; Wang, Zheng; Geiger, Atticus; Jurafsky, Dan; Manning, Christopher D.; Potts, Christopher (7 de abril de 2024), ReFT: ajuste fino de representación para modelos de lenguaje, arXiv : 2404.03592 , consultado el 7 de mayo de 2024
^ "Ajuste". AbiertoAI . Consultado el 19 de junio de 2023 .
^ "Aprenda a personalizar un modelo para su aplicación". Microsoft . Consultado el 19 de junio de 2023 .
^ "Ajustar modelos básicos de texto" . Consultado el 19 de junio de 2023 .