英偉達(dá)推出Eagle 2.5視覺語(yǔ)言AI模型:參數(shù)飆升至8B,媲美GPT-4!
隨著人工智能技術(shù)的飛速發(fā)展,英偉達(dá)最近推出的Eagle 2.5視覺-語(yǔ)言模型引起了廣泛關(guān)注。這款模型以其卓越的性能和創(chuàng)新的訓(xùn)練策略,成功地將參數(shù)規(guī)模提升至8B,令人矚目。
一、模型介紹
Eagle 2.5是一款專注于長(zhǎng)上下文多模態(tài)學(xué)習(xí)的視覺-語(yǔ)言模型。其強(qiáng)大的理解能力使它能夠處理大規(guī)模的視頻和圖像,尤其擅長(zhǎng)處理高分辨率圖像和長(zhǎng)視頻序列。在Video-MME基準(zhǔn)測(cè)試(512幀輸入)中,Eagle 2.5的得分高達(dá)72.4%,這一表現(xiàn)甚至媲美更大規(guī)模的模型,如Qwen2.5-VL-72B和InternVL2.5-78B。
二、關(guān)鍵訓(xùn)練策略
Eagle 2.5的成功離不開兩項(xiàng)關(guān)鍵的訓(xùn)練策略:信息優(yōu)先采樣(Information-First Sampling)和漸進(jìn)式后訓(xùn)練(Progressive Post-Training)。信息優(yōu)先采樣通過圖像區(qū)域保留(IAP)技術(shù),保留超過60%的原始圖像區(qū)域,同時(shí)減少寬高比失真;自動(dòng)降級(jí)采樣(ADS)則根據(jù)上下文長(zhǎng)度動(dòng)態(tài)平衡視覺和文本輸入,確保文本完整性和視覺細(xì)節(jié)的優(yōu)化。
信息優(yōu)先采樣和漸進(jìn)式后訓(xùn)練的結(jié)合,不僅通過逐步擴(kuò)展模型上下文窗口,保證了在不同輸入長(zhǎng)度下的穩(wěn)定性能,而且通過SigLIP視覺編碼和MLP投影層,確保了模型在多樣化任務(wù)中的靈活性。
三、定制數(shù)據(jù)集
Eagle 2.5的訓(xùn)練數(shù)據(jù)管道整合了開源資源和定制數(shù)據(jù)集Eagle-Video-110K。該數(shù)據(jù)集專為理解長(zhǎng)視頻設(shè)計(jì),采用雙重標(biāo)注方式。自上而下的方法采用故事級(jí)分割,結(jié)合人類標(biāo)注的章節(jié)元數(shù)據(jù)和GPT-4生成的密集描述;自下而上的方法則利用GPT-4o為短片段生成問答對(duì),以抓取時(shí)空細(xì)節(jié)。通過余弦相似度篩選,數(shù)據(jù)集強(qiáng)調(diào)多樣性而非冗余,確保了敘事連貫性和細(xì)粒度標(biāo)注,這顯著提升了模型在高幀數(shù)(≥128幀)任務(wù)中的表現(xiàn)。
四、性能表現(xiàn)
經(jīng)過訓(xùn)練和測(cè)試,Eagle 2.5在多項(xiàng)視頻和圖像理解任務(wù)中表現(xiàn)出色。在視頻基準(zhǔn)測(cè)試中,MVBench得分高達(dá)74.8,MLVU得分77.6,LongVideoBench得分66.4;在圖像基準(zhǔn)測(cè)試中,DocVQA得分高達(dá)94.1,ChartQA得分87.5,InfoVQA得分80.4。這些成績(jī)充分證明了Eagle 2.5的強(qiáng)大性能。
消融研究結(jié)果表明,信息優(yōu)先采樣、ADS的移除以及漸進(jìn)式訓(xùn)練的加入都會(huì)導(dǎo)致性能下降;而Eagle-Video-110K數(shù)據(jù)集的加入則帶來(lái)了更穩(wěn)定的提升。這些研究結(jié)果為進(jìn)一步優(yōu)化模型提供了重要參考。
總的來(lái)說(shuō),英偉達(dá)推出的Eagle 2.5視覺語(yǔ)言AI模型憑借其創(chuàng)新訓(xùn)練策略、定制數(shù)據(jù)集以及卓越性能,已經(jīng)引起了廣泛關(guān)注。隨著模型的進(jìn)一步優(yōu)化和廣泛應(yīng)用,我們期待它在未來(lái)的發(fā)展中發(fā)揮更大的作用。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )