stringtranslate.com

Mamba (arquitectura de aprendizaje profundo)

Mamba es una arquitectura de aprendizaje profundo enfocada en el modelado de secuencias. Fue desarrollada por investigadores de la Universidad Carnegie Mellon y la Universidad de Princeton para abordar algunas limitaciones de los modelos de transformadores , especialmente en el procesamiento de secuencias largas. Se basa en el modelo de secuencia Structured State Space (S4). [1] [2] [3]

Arquitectura

Para permitir el manejo de secuencias de datos largas, Mamba incorpora el modelo de secuencia de espacio de estados estructurado (S4). [1] S4 puede modelar de manera eficaz y eficiente dependencias largas mediante la combinación de modelos de tiempo continuo, recurrentes y convolucionales . Esto le permite manejar datos muestreados de manera irregular, contexto ilimitado y seguir siendo computacionalmente eficiente durante el entrenamiento y la inferencia. [4]

Mamba introduce mejoras significativas en S4, particularmente en su tratamiento de operaciones que varían con el tiempo. Adopta un mecanismo de selección único que adapta los parámetros del modelo de espacio de estados estructurado (SSM) en función de la entrada. [5] [1] Esto permite a Mamba centrarse selectivamente en la información relevante dentro de las secuencias, filtrando de manera efectiva los datos menos pertinentes. El modelo pasa de un marco invariante en el tiempo a uno variable en el tiempo, lo que afecta tanto al cálculo como a la eficiencia. [1] [6]

Mamba emplea un algoritmo que tiene en cuenta el hardware y que explota las GPU mediante la fusión de núcleos, el escaneo paralelo y el recálculo. [1] La implementación evita la materialización de estados expandidos en capas que hacen un uso intensivo de la memoria, lo que mejora el rendimiento y el uso de la memoria. El resultado es significativamente más eficiente en el procesamiento de secuencias largas en comparación con los transformadores . [1] [6]

Además, Mamba simplifica su arquitectura al integrar el diseño SSM con bloques MLP , lo que da como resultado una estructura homogénea y optimizada, lo que aumenta la capacidad del modelo para el modelado de secuencias generales en todos los tipos de datos que incluyen lenguaje, audio y genómica, al tiempo que mantiene la eficiencia tanto en el entrenamiento como en la inferencia. [1]

Componentes clave

Variantes

Modelos de lenguaje sin tokens: MambaByte

Al operar con tokens de tamaño de byte, los transformadores escalan pobremente ya que cada token debe "atender" a todos los demás tokens, lo que genera leyes de escala; como resultado, los transformadores optan por usar la tokenización de subpalabras para reducir la cantidad de tokens en el texto; sin embargo, esto genera tablas de vocabulario e incrustaciones de palabras muy grandes .O(n2)

Esta investigación analiza un nuevo enfoque para el modelado de lenguaje, MambaByte, que se aparta de los métodos estándar basados ​​en tokens. A diferencia de los modelos tradicionales que se basan en dividir el texto en unidades discretas, MambaByte procesa directamente secuencias de bytes sin procesar. Esto elimina la necesidad de tokenización, lo que potencialmente ofrece varias ventajas: [7]

La tokenización de subpalabras introduce una serie de peculiaridades en los LLM, como modos de falla donde los LLM no pueden deletrear palabras, invertir ciertas palabras, manejar tokens raros, que no están presentes en la tokenización a nivel de byte. [8]

Mezcla de expertos Mamba (MOE)

MoE Mamba representa una integración pionera de la técnica Mixture of Experts (MoE) con la arquitectura Mamba, mejorando la eficiencia y la escalabilidad de los modelos de espacio de estados (SSM) en el modelado de lenguaje. Este modelo aprovecha las fortalezas tanto de MoE como de SSM, logrando ganancias significativas en la eficiencia de entrenamiento, requiriendo 2,2 veces menos pasos de entrenamiento que su predecesor, Mamba, mientras mantiene un rendimiento competitivo. MoE Mamba muestra una eficiencia y efectividad mejoradas al combinar el modelado selectivo del espacio de estados con el procesamiento basado en expertos, ofreciendo una vía prometedora para futuras investigaciones en el escalamiento de SSM para manejar decenas de miles de millones de parámetros. El diseño del modelo implica capas alternas de Mamba y MoE, lo que le permite integrar de manera eficiente todo el contexto de secuencia y aplicar el experto más relevante para cada token. [9] [10]

Visión Mamba

Vision Mamba (Vim) integra los SSM con el procesamiento de datos visuales, empleando bloques Mamba bidireccionales para la codificación de secuencias visuales. Este método reduce las demandas computacionales que suelen estar asociadas con la autoatención en tareas visuales. Probado en la clasificación ImageNet , la detección de objetos COCO y la segmentación semántica ADE20k, Vim muestra un rendimiento y una eficiencia mejorados y es capaz de manejar imágenes de alta resolución con menores recursos computacionales. Esto posiciona a Vim como un modelo escalable para futuros avances en el aprendizaje de la representación visual. [11]

Jamba

Jamba es una arquitectura novedosa construida sobre una arquitectura híbrida de transformador y Mamba SSM desarrollada por AI21 Labs con 52 mil millones de parámetros, lo que la convierte en la variante de Mamba más grande creada hasta ahora. Tiene una ventana de contexto de 256k tokens. [12]

Impacto y direcciones futuras

Mamba LLM representa un cambio potencial significativo en la arquitectura de modelos de lenguaje de gran tamaño , ofreciendo modelos más rápidos, más eficientes y escalables [ cita requerida ] .

Las aplicaciones incluyen traducción de idiomas, generación de contenido, análisis de textos largos, procesamiento de audio y voz [ cita requerida ] .

Véase también

Referencias

  1. ^ abcdefghij Gu, Albert; Dao, Tri (2023). "Mamba: Modelado de secuencias de tiempo lineal con espacios de estados selectivos". arXiv : 2312.00752 [cs.LG].
  2. ^ Chowdhury, Hasan. "La tecnología que impulsa ChatGPT no hará que la IA sea tan inteligente como los humanos. Otras sí". Business Insider . Consultado el 13 de enero de 2024 .
  3. ^ Pandey, Mohit (6 de diciembre de 2023). "Mamba está aquí para marcar el final de Transformers". Revista Analytics India . Consultado el 13 de enero de 2024 .
  4. ^ Gu, Albert; Goel, Karan; Re, Christopher (6 de octubre de 2021). "Modelado eficiente de secuencias largas con espacios de estados estructurados". ICLR . arXiv : 2111.00396 . Consultado el 13 de enero de 2024 .
  5. ^ Gu, Albert; Johnson, Isys; Goel, Karan; Saab, Khaled Kamal; Dao, Tri; Rudra, A.; R'e, Christopher (26 de octubre de 2021). "Combinación de modelos recurrentes, convolucionales y de tiempo continuo con capas lineales de espacio de estados". NeurIPS . S2CID  239998472.
  6. ^ ab Tickoo, Aneesh (10 de diciembre de 2023). "Investigadores de CMU y Princeton presentan Mamba: una arquitectura SSM innovadora que supera la eficiencia del transformador para aplicaciones de aprendizaje profundo multimodal". MarkTechPost . Consultado el 13 de enero de 2024 .
  7. ^ Wang, Junxiong; Gangavarapu, Tushaar; Yan, Jing Nathan; Rush, Alexander M. (24 de enero de 2024), MambaByte: modelo de espacio de estados selectivo sin token , arXiv : 2401.13660
  8. ^ Construyamos el tokenizador GPT, 20 de febrero de 2024 , consultado el 23 de febrero de 2024
  9. ^ Pióro, Maciej; Ciebiera, Kamil; Król, Krystian; Ludziejewski, enero; Jaszczur, Sebastian (8 de enero de 2024), MoE-Mamba: modelos de espacio de estados selectivos eficientes con una combinación de expertos , arXiv : 2401.04081
  10. ^ Nikhil (13 de enero de 2024). "Este artículo sobre IA propone MoE-Mamba: revolucionando el aprendizaje automático con modelos de espacio de estados avanzados y una combinación de MoE expertos que superan a Mamba y Transformer-MoE individualmente". MarkTechPost . Consultado el 23 de febrero de 2024 .
  11. ^ Zhu, Lianghui; Liao, Bencheng; Zhang, Qian; Wang, Xinlong; Liu, Wenyu; Wang, Xinggang (10 de febrero de 2024), Vision Mamba: aprendizaje eficiente de representación visual con modelo de espacio de estados bidireccional , arXiv : 2401.09417
  12. ^ "Presentación de Jamba: el innovador modelo de transformador SSM de AI21". www.ai21.com . Consultado el 29 de marzo de 2024 .

Enlaces externos