La red meta-pi, documentada por Hampshire y Waibel,[2] utiliza
[4] [5] Cada experto simplemente predice una distribución gaussiana, e ignora totalmente la entrada.
-ésimo experto se cambia para acercar su predicción a
A los expertos que, en retrospectiva, no lo eran, se les deja solos.
El efecto combinado es que los expertos se especializan: Supongamos que dos expertos son buenos prediciendo un determinado tipo de información, pero uno de ellos es ligeramente mejor.
A la inversa, el menos experto puede mejorar en la predicción de otros tipos de entrada y alejarse cada vez más hacia otra región.
Específicamente, durante el paso de expectativa, la "carga" para explicar cada punto de datos se asigna a los expertos, y durante el paso de maximización, los expertos se entrenan para mejorar las explicaciones para las que obtuvieron una alta carga, mientras que la puerta se entrena para mejorar su asignación de carga.
Esto puede converger más rápido que el ascenso gradiente en la log-verosimilitud.
[8] En lugar de realizar una suma ponderada de todos los expertos, en el MoE duro solo se elige al experto mejor clasificado.
[12][13] Para la clasificación binaria, también propuso expertos de regresión logística, con
Posteriormente, esto se generaliza para la clasificación de clases múltiples, con expertos en regresión logística multinomial.
[14] La sección anterior describía MoE tal y como se utilizaba antes de la era del aprendizaje profundo.
Después del aprendizaje profundo, MoE encontró aplicaciones en la ejecución de los modelos más grandes, como una forma sencilla de realizar cálculos condicionales: solo se utilizan partes del modelo, las partes elegidas en función de cuál sea la entrada.
[15] El primer artículo que aplica MoE al aprendizaje profundo es el que propone utilizar una red de compuertas diferente en cada capa de una red neuronal profunda.
El desiderátum de diseño clave para MoE en el aprendizaje profundo es reducir el coste computacional.
En consecuencia, la elección de diseño clave en MoE se convierte en enrutamiento: dado un lote de consultas, cómo dirigir las consultas a los mejores expertos.
La capa MoE escasamente cerrada,[17] publicada por investigadores de Google Brain, utiliza redes de avance como expertos y puerta lineal-softmax.
s o f t m a x
[18] Como demostración, entrenaron una serie de modelos para traducción automática con capas alternas de MoE y LSTM, y los compararon con modelos LSTM profundos.
Esto se mejora con una única función de pérdida auxiliar.
En MoE suave, supongamos que en cada conjunto, cada experto puede procesar
[22] Sin embargo, esto no funciona con el modelado autorregresivo, ya que los pesos
[23] Otros enfoques incluyen resolverlo como un problema de programación lineal con restricciones,[24] haciendo que cada experto elija las primeras k consultas que desea (en lugar de que cada consulta elija a los primeros k expertos para ella),[25] utilizando el aprendizaje por refuerzo para entrenar el algoritmo de enrutamiento (ya que elegir a un experto es una acción discreta, como en la RL).
, cada consulta se dirige a uno o más expertos.
Como las entradas no pueden moverse por la capa hasta que todos los expertos de la capa hayan terminado las consultas que tienen asignadas, el equilibrio de la carga es importante.
Las capas MoE se utilizan en modelos de transformadores muy grandes, para los que aprender e inferir sobre el modelo completo resulta demasiado costoso.
Esto se debe a que las capas prealimentadas ocupan una parte cada vez mayor del coste computacional a medida que los modelos se hacen más grandes.
Por ejemplo, en el modelo Palm-540B, el 90% de los parámetros se encuentran en sus capas prealimentadas.
[29] En concreto, siempre se selecciona el primer experto y el segundo con una probabilidad proporcional a su peso según la función de compuerta.
[33] En diciembre de 2023, Mistral AI publicó Mixtral 8x7B bajo licencia Apache 2.0.