Mamba (arquitectura de aprendizaje profundo)

Mamba es una arquitectura de aprendizaje profundo enfocada en el modelado de secuencias. Fue desarrollada por investigadores de la Universidad Carnegie Mellon y la Universidad de Princeton para abordar algunas limitaciones de los modelos de transformadores , especialmente en el procesamiento de secuencias largas. Se basa en el modelo de secuencia Structured State Space (S4). ^[1]^[2]^[3]

Arquitectura

Para permitir el manejo de secuencias de datos largas, Mamba incorpora el modelo de secuencia de espacio de estados estructurado (S4). ^[1] S4 puede modelar de manera eficaz y eficiente dependencias largas mediante la combinación de modelos de tiempo continuo, recurrentes y convolucionales . Esto le permite manejar datos muestreados de manera irregular, contexto ilimitado y seguir siendo computacionalmente eficiente durante el entrenamiento y la inferencia. ^[4]

Mamba introduce mejoras significativas en S4, particularmente en su tratamiento de operaciones que varían con el tiempo. Adopta un mecanismo de selección único que adapta los parámetros del modelo de espacio de estados estructurado (SSM) en función de la entrada. ^[5]^[1] Esto permite a Mamba centrarse selectivamente en la información relevante dentro de las secuencias, filtrando de manera efectiva los datos menos pertinentes. El modelo pasa de un marco invariante en el tiempo a uno variable en el tiempo, lo que afecta tanto al cálculo como a la eficiencia. ^[1]^[6]

Mamba emplea un algoritmo que tiene en cuenta el hardware y que explota las GPU mediante la fusión de núcleos, el escaneo paralelo y el recálculo. ^[1] La implementación evita la materialización de estados expandidos en capas que hacen un uso intensivo de la memoria, lo que mejora el rendimiento y el uso de la memoria. El resultado es significativamente más eficiente en el procesamiento de secuencias largas en comparación con los transformadores . ^[1]^[6]

Además, Mamba simplifica su arquitectura al integrar el diseño SSM con bloques MLP , lo que da como resultado una estructura homogénea y optimizada, lo que aumenta la capacidad del modelo para el modelado de secuencias generales en todos los tipos de datos que incluyen lenguaje, audio y genómica, al tiempo que mantiene la eficiencia tanto en el entrenamiento como en la inferencia. ^[1]

Componentes clave

Espacios de estados selectivos (SSM): el núcleo de Mamba, los SSM son modelos recurrentes que procesan información de forma selectiva en función de la entrada actual. Esto les permite centrarse en la información relevante y descartar los datos irrelevantes. ^[1]
Arquitectura simplificada: Mamba reemplaza los complejos bloques de atención y MLP de Transformers con un único bloque SSM unificado. Esto tiene como objetivo reducir la complejidad computacional y mejorar la velocidad de inferencia. ^[1]
Paralelismo consciente del hardware: Mamba utiliza un modo recurrente con un algoritmo paralelo diseñado específicamente para la eficiencia del hardware, lo que potencialmente mejora aún más su rendimiento. ^[1]

Variantes

Modelos de lenguaje sin tokens: MambaByte

Al operar con tokens de tamaño de byte, los transformadores escalan pobremente ya que cada token debe "atender" a todos los demás tokens, lo que genera leyes de escala; como resultado, los transformadores optan por usar la tokenización de subpalabras para reducir la cantidad de tokens en el texto; sin embargo, esto genera tablas de vocabulario e incrustaciones de palabras muy grandes .O(n²)

Esta investigación analiza un nuevo enfoque para el modelado de lenguaje, MambaByte, que se aparta de los métodos estándar basados en tokens. A diferencia de los modelos tradicionales que se basan en dividir el texto en unidades discretas, MambaByte procesa directamente secuencias de bytes sin procesar. Esto elimina la necesidad de tokenización, lo que potencialmente ofrece varias ventajas: ^[7]

Independencia del lenguaje: la tokenización a menudo depende de reglas y vocabulario específicos del lenguaje, lo que limita la aplicabilidad en distintos idiomas. La representación a nivel de bytes de MambaByte le permite manejar diferentes idiomas sin adaptaciones específicas del lenguaje.
Elimina el sesgo de tokenización de subpalabras: donde las subpalabras comunes están sobrerrepresentadas y las palabras raras o nuevas están subrepresentadas o divididas en unidades menos significativas. Esto puede afectar la comprensión y las capacidades de generación del modelo, en particular para idiomas con una morfología rica o tokens no bien representados en los datos de entrenamiento.
Simplicidad en el preprocesamiento : simplifica el proceso de preprocesamiento al eliminar la necesidad de tokenización compleja y gestión de vocabulario, lo que reduce los pasos de preprocesamiento y los posibles errores.

La tokenización de subpalabras introduce una serie de peculiaridades en los LLM, como modos de falla donde los LLM no pueden deletrear palabras, invertir ciertas palabras, manejar tokens raros, que no están presentes en la tokenización a nivel de byte. ^[8]

Mezcla de expertos Mamba (MOE)

MoE Mamba representa una integración pionera de la técnica Mixture of Experts (MoE) con la arquitectura Mamba, mejorando la eficiencia y la escalabilidad de los modelos de espacio de estados (SSM) en el modelado de lenguaje. Este modelo aprovecha las fortalezas tanto de MoE como de SSM, logrando ganancias significativas en la eficiencia de entrenamiento, requiriendo 2,2 veces menos pasos de entrenamiento que su predecesor, Mamba, mientras mantiene un rendimiento competitivo. MoE Mamba muestra una eficiencia y efectividad mejoradas al combinar el modelado selectivo del espacio de estados con el procesamiento basado en expertos, ofreciendo una vía prometedora para futuras investigaciones en el escalamiento de SSM para manejar decenas de miles de millones de parámetros. El diseño del modelo implica capas alternas de Mamba y MoE, lo que le permite integrar de manera eficiente todo el contexto de secuencia y aplicar el experto más relevante para cada token. ^[9]^[10]

Visión Mamba

Vision Mamba (Vim) integra los SSM con el procesamiento de datos visuales, empleando bloques Mamba bidireccionales para la codificación de secuencias visuales. Este método reduce las demandas computacionales que suelen estar asociadas con la autoatención en tareas visuales. Probado en la clasificación ImageNet , la detección de objetos COCO y la segmentación semántica ADE20k, Vim muestra un rendimiento y una eficiencia mejorados y es capaz de manejar imágenes de alta resolución con menores recursos computacionales. Esto posiciona a Vim como un modelo escalable para futuros avances en el aprendizaje de la representación visual. ^[11]

Jamba

Jamba es una arquitectura novedosa construida sobre una arquitectura híbrida de transformador y Mamba SSM desarrollada por AI21 Labs con 52 mil millones de parámetros, lo que la convierte en la variante de Mamba más grande creada hasta ahora. Tiene una ventana de contexto de 256k tokens. ^[12]

Impacto y direcciones futuras

Mamba LLM representa un cambio potencial significativo en la arquitectura de modelos de lenguaje de gran tamaño , ofreciendo modelos más rápidos, más eficientes y escalables ^{[ cita requerida ]} .

Las aplicaciones incluyen traducción de idiomas, generación de contenido, análisis de textos largos, procesamiento de audio y voz ^{[ cita requerida ]} .

Véase también

Referencias

^ abcdefghij Gu, Albert; Dao, Tri (2023). "Mamba: Modelado de secuencias de tiempo lineal con espacios de estados selectivos". arXiv : 2312.00752 [cs.LG].
^ Chowdhury, Hasan. "La tecnología que impulsa ChatGPT no hará que la IA sea tan inteligente como los humanos. Otras sí". Business Insider . Consultado el 13 de enero de 2024 .
^ Pandey, Mohit (6 de diciembre de 2023). "Mamba está aquí para marcar el final de Transformers". Revista Analytics India . Consultado el 13 de enero de 2024 .
^ Gu, Albert; Goel, Karan; Re, Christopher (6 de octubre de 2021). "Modelado eficiente de secuencias largas con espacios de estados estructurados". ICLR . arXiv : 2111.00396 . Consultado el 13 de enero de 2024 .
^ Gu, Albert; Johnson, Isys; Goel, Karan; Saab, Khaled Kamal; Dao, Tri; Rudra, A.; R'e, Christopher (26 de octubre de 2021). "Combinación de modelos recurrentes, convolucionales y de tiempo continuo con capas lineales de espacio de estados". NeurIPS . S2CID 239998472.
^ ab Tickoo, Aneesh (10 de diciembre de 2023). "Investigadores de CMU y Princeton presentan Mamba: una arquitectura SSM innovadora que supera la eficiencia del transformador para aplicaciones de aprendizaje profundo multimodal". MarkTechPost . Consultado el 13 de enero de 2024 .
^ Wang, Junxiong; Gangavarapu, Tushaar; Yan, Jing Nathan; Rush, Alexander M. (24 de enero de 2024), MambaByte: modelo de espacio de estados selectivo sin token , arXiv : 2401.13660
^ Construyamos el tokenizador GPT, 20 de febrero de 2024 , consultado el 23 de febrero de 2024
^ Pióro, Maciej; Ciebiera, Kamil; Król, Krystian; Ludziejewski, enero; Jaszczur, Sebastian (8 de enero de 2024), MoE-Mamba: modelos de espacio de estados selectivos eficientes con una combinación de expertos , arXiv : 2401.04081
^ Nikhil (13 de enero de 2024). "Este artículo sobre IA propone MoE-Mamba: revolucionando el aprendizaje automático con modelos de espacio de estados avanzados y una combinación de MoE expertos que superan a Mamba y Transformer-MoE individualmente". MarkTechPost . Consultado el 23 de febrero de 2024 .
^ Zhu, Lianghui; Liao, Bencheng; Zhang, Qian; Wang, Xinlong; Liu, Wenyu; Wang, Xinggang (10 de febrero de 2024), Vision Mamba: aprendizaje eficiente de representación visual con modelo de espacio de estados bidireccional , arXiv : 2401.09417
^ "Presentación de Jamba: el innovador modelo de transformador SSM de AI21". www.ai21.com . Consultado el 29 de marzo de 2024 .

Enlaces externos

Rodríguez, Jesús (27 de agosto de 2024). «Edge 425: Inside Mamba, el modelo SSM más famoso». TheSequence . Consultado el 28 de agosto de 2024 .