PanGu-Σ

[N 5]​ RRE utiliza dos niveles de enrutamiento a diferencia del MoE[4]​ tradicional.Los expertos[N 6]​ se organizan por tareas o dominios en el primer nivel, y los tokens se asignan de manera uniforme y aleatoria a cada grupo en el segundo nivel sin usar ninguna función de acceso aprendible como en MoE.Usando la arquitectura RRE, se pueden extraer submodelos de Pangu-Σ para varias aplicaciones posteriores, que incluyen conversación, traducción, producción de código e interpretación del lenguaje natural en general.[7]​ Zidong Taichu es además el primer modelo a gran escala trimodal del mundo para mapas, texto y audio.[8]​[9]​ Huawei ha anunciado la presentación de PanGu Chat, un nuevo modelo multimodal a gran escala que compite directamente con ChatGPT de OpenAI.