7月24日,國內(nèi)權(quán)威第三方評測機(jī)構(gòu)SuperCLUE發(fā)布中文原生工業(yè)大模型測評基準(zhǔn) SC-Industry(SuperCLUE-Industry)最新榜單。據(jù)悉,SuperCLUE 是行業(yè)權(quán)威的通用大模型綜合性測評基準(zhǔn),專注于中文大模型測評;SC-Industry立足中文語義環(huán)境與工業(yè)場景,充分貼合國內(nèi)制造業(yè)的術(shù)語體系與應(yīng)用需求,不僅深入工業(yè)行業(yè)細(xì)節(jié),全面地衡量工業(yè)大模型除知識庫之外解決行業(yè)具體問題的應(yīng)用能力,還兼具了工業(yè)領(lǐng)域的模型的通用性與可拓展性。
SC-Industry從基礎(chǔ)能力和應(yīng)用能力兩大維度出發(fā),聚焦工業(yè)常規(guī)問答、工業(yè)數(shù)據(jù)分析、工業(yè)文檔問答、工業(yè)智能體Agent、工業(yè)理解計算、工業(yè)代碼生成六大能力,對大模型進(jìn)行效果評估。通過構(gòu)建專用測評集,SC-Industry結(jié)合評估流程、評估標(biāo)準(zhǔn)、評分規(guī)則,將文本輸入送入超級模型,并對每一維度的評估結(jié)果與人類一致性進(jìn)行分析。
圖注:SuperCLUE 發(fā)布工業(yè)大模型能力象限
北電數(shù)智驕陽·工業(yè)大模型以83.44 的總分綜合排名第一,其在應(yīng)用能力維度表現(xiàn)優(yōu)異,尤其擅長數(shù)學(xué)分析類任務(wù)。在工業(yè)領(lǐng)域的綜合能力與應(yīng)用任務(wù)表現(xiàn)上,北電數(shù)智的驕陽·工業(yè)大模型、騰訊Hunyuan-T1 與月之暗面的 Kimi K2位居前列,展現(xiàn)出國產(chǎn)模型在工業(yè)場景下的強(qiáng)勁競爭力;同時,國際頭部模型OpenAI o4-mini-high 與 Google Gemini 2.5 Pro保持穩(wěn)定優(yōu)勢,但在多項工業(yè)專項任務(wù)測試中,已被多款國產(chǎn)模型超越。
值得一提的是,驕陽·工業(yè)大模型在整體總分第一之外,“應(yīng)用能力”綜合測評結(jié)果高達(dá)90.07分,同樣位居榜首。在“工業(yè)數(shù)據(jù)分析” 細(xì)分維度上,驕陽·工業(yè)大模型獲得90.38的最高分,能夠?qū)Ρ砀耦悢?shù)據(jù)進(jìn)行出色分析并提供深刻洞察。并且在“工業(yè)智能體Agent”上,驕陽·工業(yè)大模型以89.87分領(lǐng)跑,其在一定的工業(yè)環(huán)境中展現(xiàn)出強(qiáng)大的自主或半自主執(zhí)行任務(wù)能力,能有效做出決策,并與其他系統(tǒng)進(jìn)行交互以優(yōu)化或輔助工業(yè)流程,特別是在多輪任務(wù)規(guī)劃與工具調(diào)用中表現(xiàn)卓越,這對于復(fù)雜工業(yè)流程的落地至關(guān)重要。
目前,驕陽·工業(yè)大模型已成功構(gòu)建“精準(zhǔn)的垂類認(rèn)知、高質(zhì)量數(shù)據(jù)治理體系、嚴(yán)格的合規(guī)可信管控機(jī)制”三大優(yōu)勢:展現(xiàn)了北電數(shù)智在垂類大模型領(lǐng)域的階段性研發(fā)成果,也體現(xiàn)了依托北京電控深厚工業(yè)基因的差異化競爭能力。
從測評奪冠到產(chǎn)業(yè)賦能,北電數(shù)智驕陽·工業(yè)大模型證明了國產(chǎn)工業(yè)大模型的硬實力,也為“AI新國企”在科技自立自強(qiáng)中寫下生動一筆。在即將到來的2025 WAIC世界人工智能大會上,北電數(shù)智將正式發(fā)布驕陽·工業(yè)大模型,屆時將進(jìn)一步分享“AI+生產(chǎn)、AI+產(chǎn)品、AI+運營、AI+基礎(chǔ)設(shè)施”等核心場景的創(chuàng)新能力和標(biāo)桿實踐。這場發(fā)布,或許能為國產(chǎn)工業(yè)大模型的發(fā)展路徑帶來更多啟發(fā)。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )