PanGu-Σ
[N 5] RRE utiliza dos niveles de enrutamiento a diferencia del MoE[4] tradicional.Los expertos[N 6] se organizan por tareas o dominios en el primer nivel, y los tokens se asignan de manera uniforme y aleatoria a cada grupo en el segundo nivel sin usar ninguna función de acceso aprendible como en MoE.Usando la arquitectura RRE, se pueden extraer submodelos de Pangu-Σ para varias aplicaciones posteriores, que incluyen conversación, traducción, producción de código e interpretación del lenguaje natural en general.[7] Zidong Taichu es además el primer modelo a gran escala trimodal del mundo para mapas, texto y audio.[8][9] Huawei ha anunciado la presentación de PanGu Chat, un nuevo modelo multimodal a gran escala que compite directamente con ChatGPT de OpenAI.