重塑AI模型外部工具能力:英偉達(dá)引領(lǐng)新RL范式的探索
隨著科技的發(fā)展,人工智能(AI)模型在各個(gè)領(lǐng)域的應(yīng)用越來越廣泛。尤其在語言模型領(lǐng)域,大型語言模型(LLMs)的表現(xiàn)日益出色,成為搜索引擎、計(jì)算器、視覺工具和Python解釋器等領(lǐng)域的佼佼者。然而,隨著技術(shù)的進(jìn)步,我們也面臨新的挑戰(zhàn)。為了進(jìn)一步提升LLMs的性能,英偉達(dá)聯(lián)合賓夕法尼亞州立大學(xué)、華盛頓大學(xué),組建專業(yè)團(tuán)隊(duì),探索新的強(qiáng)化學(xué)習(xí)(RL)范式,以重塑AI模型外部工具的能力。
英偉達(dá)的這一創(chuàng)新舉措,無疑將引領(lǐng)業(yè)界期待的新方向。他們借鑒了DeepSeek-R1的成功,開發(fā)了輕量級監(jiān)督機(jī)制,專注于工具調(diào)用的結(jié)構(gòu)有效性和功能正確性。這一機(jī)制并非依賴顯式標(biāo)注的推理軌跡,而是采用二元獎(jiǎng)勵(lì)機(jī)制,讓模型自主發(fā)展推理策略。
為了實(shí)現(xiàn)這一目標(biāo),研究者統(tǒng)一處理了xLAM和ToolACE等數(shù)據(jù)集的子集,并設(shè)計(jì)了輕量級提示模板,指導(dǎo)工具生成過程。這個(gè)模板使用“think...”標(biāo)簽明確指示中間推理,并用“tool_call”標(biāo)簽封裝工具調(diào)用,這樣有效地避免了過度擬合特定提示模式。
主干模型采用了Qwen2.5-7B/14B,并測試了LLaMA系列變體,以評估其泛化能力。在BFCL基準(zhǔn)測試中,Nemotron-Research-Tool-N1-7B/14B模型表現(xiàn)出色,超越了封閉源模型GPT-4o以及專用微調(diào)模型xLAM-2-70B和ToolACE-8B。與相同數(shù)據(jù)源的SFT基準(zhǔn)相比,該模型的優(yōu)勢明顯,證明了RL方法的有效性。
更值得一提的是,在API-Bank基準(zhǔn)上,Tool-N1-7B/14B的準(zhǔn)確率分別比GPT-4o高出4.12%和5.03%。這一顯著提升進(jìn)一步驗(yàn)證了新方法的潛力,表明了從傳統(tǒng)SFT向RL范式的轉(zhuǎn)變。
這些成果不僅體現(xiàn)了英偉達(dá)在AI領(lǐng)域的領(lǐng)先地位,也展示了他們對于AI未來發(fā)展的獨(dú)特見解。他們認(rèn)識到現(xiàn)有的研究方法依賴合成數(shù)據(jù)集,無法捕捉明確的推理步驟,導(dǎo)致模型僅模仿表面模式,而非真正理解決策過程。因此,他們選擇了強(qiáng)化學(xué)習(xí)這一更具靈活性和適應(yīng)性的方法。
強(qiáng)化學(xué)習(xí)是一種機(jī)器學(xué)習(xí)方法,通過環(huán)境對模型的反饋(獎(jiǎng)勵(lì)或懲罰),調(diào)整模型的行為以最大化預(yù)期的獎(jiǎng)勵(lì)。在這種方法中,模型需要自主地探索和優(yōu)化其行為,以獲得更好的性能。DeepSeek-R1的成功正是源于其采用了新型強(qiáng)化學(xué)習(xí)范式,強(qiáng)化了模型推理能力。
此外,英偉達(dá)還積極探索其他策略以提升LLMs的工具使用能力。他們不僅通過數(shù)據(jù)集整理和模型優(yōu)化來整合LLMs與外部工具,還致力于改進(jìn)推理過程。從傳統(tǒng)的訓(xùn)練時(shí)擴(kuò)展到測試時(shí)復(fù)雜策略的指導(dǎo),為LLMs提供了更廣闊的發(fā)展空間。
總的來說,英偉達(dá)通過聯(lián)合研究團(tuán)隊(duì),積極探索新的強(qiáng)化學(xué)習(xí)范式,已經(jīng)取得了顯著的成果。他們的努力不僅提升了LLMs的性能,也為AI領(lǐng)域的發(fā)展開辟了新的可能性。我們期待看到更多這樣的創(chuàng)新舉措,推動(dòng)AI技術(shù)的進(jìn)一步發(fā)展。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )