5月30日消息,華為宣布推出參數(shù)規(guī)模高達(dá)7180億的全新模型盤古Ultra MoE,這是一個(gè)全流程在昇騰AI計(jì)算平臺(tái)上訓(xùn)練的準(zhǔn)萬億MoE模型。據(jù)悉,盤古團(tuán)隊(duì)提出Depth-Scaled Sandwich-Norm(DSSN)穩(wěn)定架構(gòu)和TinyInit小初始化的方法,在昇騰平臺(tái)上實(shí)現(xiàn)了超過18TB數(shù)據(jù)的長期穩(wěn)定訓(xùn)練。在訓(xùn)練方法上,華為團(tuán)隊(duì)首次披露在昇騰CloudMatrix 384超節(jié)點(diǎn)上打通大稀疏比MoE強(qiáng)化學(xué)習(xí)(RL)后訓(xùn)練框架的關(guān)鍵技術(shù),使RL后訓(xùn)練進(jìn)入超節(jié)點(diǎn)集群時(shí)代。