螞蟻集團(tuán)推出新型大模型,國產(chǎn)芯片助力訓(xùn)練成本大幅降低,引領(lǐng)人工智能新潮流
隨著科技的飛速發(fā)展,人工智能(AI)已成為推動(dòng)社會(huì)進(jìn)步的重要力量。尤其在自然語言處理(NLP)領(lǐng)域,大模型已經(jīng)成為推動(dòng)技術(shù)進(jìn)步的關(guān)鍵。近日,螞蟻集團(tuán)Ling團(tuán)隊(duì)在預(yù)印版Arxiv平臺(tái)發(fā)表技術(shù)成果論文《每一個(gè)FLOP都至關(guān)重要:無需高級(jí)GPU即可擴(kuò)展3000億參數(shù)混合專家LING大模型》,宣布推出兩款不同規(guī)模的MoE(混合專家)大語言模型——百靈輕量版和百靈增強(qiáng)版,并提出一系列創(chuàng)新方法,實(shí)現(xiàn)在低性能硬件上高效訓(xùn)練大模型,顯著降低成本。這一突破性成果,無疑將引領(lǐng)人工智能新潮流。
首先,我們要理解螞蟻集團(tuán)Ling團(tuán)隊(duì)推出的這兩款新型大模型的特點(diǎn)和優(yōu)勢(shì)。百靈輕量版參數(shù)規(guī)模為168億(激活參數(shù)27.5億),性能達(dá)到行業(yè)領(lǐng)先水平。而百靈增強(qiáng)版基座模型參數(shù)規(guī)模高達(dá)2900億(激活參數(shù)288億),性能同樣卓越。這兩款模型在實(shí)驗(yàn)中表現(xiàn)出色,能夠在使用國產(chǎn)GPU的低性能設(shè)備上完成高效訓(xùn)練,性能與完全使用英偉達(dá)芯片、同規(guī)模的稠密模型及MoE模型相當(dāng)。
更重要的是,螞蟻集團(tuán)Ling團(tuán)隊(duì)提出的目標(biāo)——“不使用高級(jí)GPU”擴(kuò)展模型,通過創(chuàng)新訓(xùn)練策略,突破資源與預(yù)算限制。這一目標(biāo)對(duì)于許多資源受限的環(huán)境來說,具有重大的現(xiàn)實(shí)意義。團(tuán)隊(duì)采用的策略包括:架構(gòu)與訓(xùn)練策略革新,采用動(dòng)態(tài)參數(shù)分配與混合精度調(diào)度技術(shù);升級(jí)訓(xùn)練異常處理機(jī)制,自適應(yīng)容錯(cuò)恢復(fù)系統(tǒng)縮短中斷響應(yīng)時(shí)間;優(yōu)化模型評(píng)估流程,自動(dòng)化評(píng)測(cè)框架壓縮驗(yàn)證周期超50%;突破工具調(diào)用能力,基于知識(shí)圖譜的指令微調(diào)提升復(fù)雜任務(wù)執(zhí)行精度。這些策略的實(shí)施,使得在低性能硬件上也能高效訓(xùn)練大模型,顯著降低了成本。
再者,螞蟻集團(tuán)的技術(shù)成果若得到驗(yàn)證推廣,將助力國產(chǎn)大模型尋找成本更低、效率更高的國產(chǎn)芯片或其他替代方案,進(jìn)一步降低對(duì)英偉達(dá)芯片的依賴。這不僅意味著成本的降低,更意味著技術(shù)自主可控的推進(jìn),對(duì)于國家安全和產(chǎn)業(yè)發(fā)展都具有重大意義。
值得注意的是,螞蟻集團(tuán)的技術(shù)突破并非孤例。近年來,隨著AI技術(shù)的飛速發(fā)展,越來越多的科研機(jī)構(gòu)和企業(yè)開始關(guān)注并投入到大模型的研究和應(yīng)用中。在此背景下,國產(chǎn)芯片在訓(xùn)練大模型中的應(yīng)用也得到了顯著提升。以英偉達(dá)為代表的國外芯片廠商一直占據(jù)著AI市場(chǎng)的領(lǐng)先地位,而隨著國內(nèi)芯片技術(shù)的進(jìn)步,越來越多的企業(yè)開始探索使用國產(chǎn)芯片進(jìn)行大模型的訓(xùn)練。這無疑為降低訓(xùn)練成本、提高訓(xùn)練效率開辟了新道路。
此外,螞蟻集團(tuán)Ling團(tuán)隊(duì)在論文中還展示了在五種不同硬件配置下,對(duì)9萬億個(gè)token進(jìn)行預(yù)訓(xùn)練的結(jié)果。結(jié)果顯示,使用高性能硬件配置訓(xùn)練1萬億token的預(yù)訓(xùn)練成本約635萬元人民幣,而采用螞蟻優(yōu)化方法后,低規(guī)格硬件訓(xùn)練成本降至508萬元左右,節(jié)省近20%,且性能與阿里通義Qwen2.5-72B-Instruct和DeepSeek-V2.5-1210-Chat相當(dāng)。這一結(jié)果進(jìn)一步驗(yàn)證了螞蟻集團(tuán)Ling團(tuán)隊(duì)的創(chuàng)新訓(xùn)練策略的有效性。
總的來說,螞蟻集團(tuán)推出新型大模型,以及國產(chǎn)芯片在訓(xùn)練大模型中的應(yīng)用,都顯示出人工智能領(lǐng)域的巨大潛力和發(fā)展前景。我們期待看到更多的科研機(jī)構(gòu)和企業(yè)投入到這一領(lǐng)域的研究和應(yīng)用中來,共同推動(dòng)人工智能技術(shù)的發(fā)展,為人類社會(huì)的進(jìn)步做出更大的貢獻(xiàn)。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )