英偉達(dá)開源模型Llama-Nemotron打破DeepSeek-R1壟斷,引領(lǐng)模型優(yōu)化新潮流

超越DeepSeek-R1,英偉達(dá)開源新王登頂!

隨著人工智能技術(shù)的飛速發(fā)展,英偉達(dá)的Llama-Nemotron系列模型在推理吞吐量和內(nèi)存效率上顯著超越了DeepSeek-R1,成為引領(lǐng)模型優(yōu)化新潮流的佼佼者。這一系列模型不僅開源,還針對高吞吐量推理進(jìn)行了優(yōu)化,同時保持強(qiáng)大的推理能力和最多128K的上下文長度。

首先,我們來看看Llama-Nemotron模型的構(gòu)建過程。英偉達(dá)的研究團(tuán)隊通過神經(jīng)架構(gòu)搜索(NAS)在Llama 3系列模型基礎(chǔ)上優(yōu)化推理效率,并引入前饋網(wǎng)絡(luò)融合(FFN Fusion)。然后,通過知識蒸餾和繼續(xù)預(yù)訓(xùn)練來恢復(fù)模型性能。接下來,進(jìn)行有監(jiān)督微調(diào)(SFT),結(jié)合標(biāo)準(zhǔn)指令數(shù)據(jù)和來自DeepSeek-R1等強(qiáng)大教師模型的推理過程,從而讓模型具備多步驟推理能力。最后,在復(fù)雜的數(shù)學(xué)和STEM數(shù)據(jù)集上進(jìn)行大規(guī)模強(qiáng)化學(xué)習(xí),這是學(xué)生模型能夠超越教師模型能力的關(guān)鍵一步。

值得注意的是,為了支持如此大規(guī)模的強(qiáng)化學(xué)習(xí)訓(xùn)練,團(tuán)隊專門開發(fā)了新的訓(xùn)練框架,包含多項優(yōu)化措施,其中最重要的是支持FP8精度的生成能力。這個過程需要大量的計算資源和時間,但結(jié)果令人滿意。LN-Ultra在各類推理任務(wù)中展現(xiàn)出領(lǐng)先的開源模型性能,證明了英偉達(dá)研究者大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練方法的有效性。

在模型設(shè)計方面,英偉達(dá)也進(jìn)行了許多創(chuàng)新。借助神經(jīng)架構(gòu)搜索Puzzle框架,LN-Super和LN-Ultra優(yōu)化了模型推理效率。通過“逐塊局部蒸餾”的方式,開發(fā)者利用Llama 3 Instruct構(gòu)建了替代Transformer模塊的庫。每個模塊都會被獨立且并行地訓(xùn)練,逼近原始模塊的功能,同時優(yōu)化計算性能。這樣,每個替代模塊都具有特定的“精度-效率”權(quán)衡特性:有些模塊雖然更高效,但可能會帶來一定的質(zhì)量下降,從而形成一種在計算成本與模型準(zhǔn)確性之間的明確取舍。

為了應(yīng)對不同場景下的推理需求,英偉達(dá)還推出了推理開關(guān)功能。用戶只需通過系統(tǒng)提示詞“detailed thinking on/off”就可以動態(tài)切換標(biāo)準(zhǔn)聊天模式和推理模式。這種設(shè)計讓模型既能滿足日常通用需求,也能勝任復(fù)雜的多步驟推理,無需使用不同的模型或架構(gòu)。

此外,為了提升模型的泛化能力,英偉達(dá)還進(jìn)行了許多嘗試。他們使用強(qiáng)化學(xué)習(xí)技術(shù)對模型進(jìn)行訓(xùn)練,使其能夠適應(yīng)各種新的任務(wù)和環(huán)境。這種技術(shù)允許模型持續(xù)探索新的可能性并進(jìn)行自我學(xué)習(xí),從而在分布外任務(wù)上表現(xiàn)出色。在JudgeBench數(shù)據(jù)集上進(jìn)行的測試也進(jìn)一步證實了LN-Ultra的強(qiáng)大泛化能力。

總的來說,英偉達(dá)的Llama-Nemotron系列模型以其卓越的性能、強(qiáng)大的推理能力和廣泛的適用性,打破了DeepSeek-R1的壟斷,引領(lǐng)了模型優(yōu)化新潮流。這些模型的開源開放也使得更多的研究者能夠參與到這個過程中來,共同推動人工智能技術(shù)的發(fā)展。我們期待看到更多基于Llama-Nemotron模型的優(yōu)秀研究成果,為人類生活帶來更多便利和驚喜。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )

贊助商
2025-05-06
英偉達(dá)開源模型Llama-Nemotron打破DeepSeek-R1壟斷,引領(lǐng)模型優(yōu)化新潮流
超越DeepSeek-R1,英偉達(dá)開源新王登頂! 隨著人工智能技術(shù)的飛速發(fā)展,英偉達(dá)的Llama-Nemotron系列模型在推理吞吐量和內(nèi)存效率上顯著超越...

長按掃碼 閱讀全文