【米蘭·(milan)中國官方網(wǎng)站】CNMO注意到,在最新一期的SuperCLUE中文大模型通用基準(zhǔn)測評中,華為盤古718B模型獲得開源第二的好成績。

華為盤古大模型
CNMO獲悉,此次測評通過數(shù)學(xué)推理、科學(xué)推理、代碼生成、智能體Agent、幻覺控制、精確指令遵循六個維度進(jìn)行核心能力評估,共計1260道題目,全面檢驗大模型的綜合實力。綜合開源、國產(chǎn)兩個維度來看,前三名依次為:DeepSeek-V3.1-Terminus-Thinking、openPangu-Ultra-MoE-718B和Qwen3-235B-A22B-Thinking-2507。其中,擁有7180億參數(shù)體量的華為盤古718B模型,并未依靠簡單的數(shù)據(jù)堆砌,而是憑借獨特的“思考”能力脫穎而出。

據(jù)報道,openPangu團(tuán)隊在后訓(xùn)練數(shù)據(jù)構(gòu)建中,嚴(yán)格遵循質(zhì)量優(yōu)先、多樣性覆蓋、復(fù)雜度適配三個核心原則,并建立了一套覆蓋“數(shù)據(jù)生成-科學(xué)篩選-精準(zhǔn)增強”的全流程方案。
在質(zhì)量優(yōu)先方面,團(tuán)隊構(gòu)建指令數(shù)據(jù)質(zhì)量評估體系,結(jié)合規(guī)則、模型和人工三重審核機制,有效清理低質(zhì)量樣本;多樣性覆蓋上,從領(lǐng)域和任務(wù)類型兩個維度進(jìn)行設(shè)計,運用去重和壓縮選樣算法,保證數(shù)據(jù)覆蓋廣度且避免冗余;復(fù)雜度適配環(huán)節(jié),通過推理步驟、概念抽象度、計算復(fù)雜度等指標(biāo)量化任務(wù)難度,并利用自迭代拒絕采樣策略,重點訓(xùn)練中高難度任務(wù)。這種對數(shù)據(jù)質(zhì)量的嚴(yán)格把控,成為了提升模型在復(fù)雜場景下推理能力的關(guān)鍵因素之一。
版權(quán)所有,未經(jīng)許可不得轉(zhuǎn)載
-米蘭·(milan)中國官方網(wǎng)站