Llama 4大模型跌落神壇:作弊刷榜、代碼能力極差、和DeepSeek比就是偽開源

4月8日消息,被寄予厚望的美國Meta公司的最新開源大模型Llama 4發(fā)布不到2天時間,口碑急轉(zhuǎn)直下,被質(zhì)疑為刷榜作弊實際效果差、開源條件多部署門檻高是偽開源等。

今天,大模型評測平臺LM Arena親自下場發(fā)文,打臉Meta提供給平臺的Llama 4是“特供版”。

據(jù)知情人士爆料稱,Meta因面臨DeepSeek、Gemini等競品的快速迭代壓力,選擇“倉促發(fā)布未完成優(yōu)化的模型”,犧牲技術(shù)嚴謹性以追趕進度。

Llama 4亮相,LMSYS榜單排名第二

在周日,大模型開源屆的旗幟Meta發(fā)布了最新的大模型Llama 4,包含Scout、Maverick和Behemoth三個版本。

Llama 4以全系列首次采用混合專家(MoE)架構(gòu)、高效推理和長上下文處理為亮點。

根據(jù)Meta公開的信息和數(shù)據(jù),在基準測試中,Llama 4三大版本均有優(yōu)異表現(xiàn):

Llama-4-Maverick在LMSYS排行榜(也被稱為Chatbot Arena或LM Arena)中排名第二,僅次于Gemini 2.5 Pro。

在圖像推理任務(wù)(MMMU、MathVista)中得分超越GPT-4o和Gemini 2.0,但編程和科學推理能力落后于DeepSeek V3和Claude 3.7。

Llama-4-Scout通用任務(wù)得分較低(如Intelligence Index僅36),與GPT-4o mini相當,但在長文本處理和小規(guī)模部署中具備實用性,支持1000萬token上下文窗口(相當于15000頁文本),適用于長文檔分析、代碼庫推理等場景,為行業(yè)領(lǐng)先水平。

Llama-4-Behemoth目前仍在訓練中,但已公布的STEM測試成績(如MATH-500 95.0)超越GPT-4.5和Gemini 2.0 Pro。

另外,Maverick的推理成本為每百萬token輸入0.19-0.49美元,遠低于GPT-4o(約4.38美元),且支持多模態(tài)輸入,性價比突出。

看到Llama 4性能強大,業(yè)內(nèi)一時之間熱情澎湃,盛贊大模型開源屆再迎來強力軍。

但是,試用后,開發(fā)者們發(fā)現(xiàn)事情沒那么簡單。

實測水準拉垮

Meta CEO 扎克伯格在Llama 4發(fā)布時曾宣稱其“AI編程水平將達中級工程師”,但用戶在對Llama 4進行實測時卻發(fā)現(xiàn)巨大反差。

在多項基準測試中,Llama 4的表現(xiàn)遠低于預期。Maverick在aider polyglot多語言編碼測試中僅得16%,遠低于Qwen-32B等競品,甚至被用戶稱為“糟糕透頂?shù)木幊棠P汀薄?/p>

Maverick在基礎(chǔ)編程任務(wù)(HumanEval)得分僅接近GPT-4o mini,遠低于DeepSeek V3。

盡管Llama-4-Scout支持1000萬token上下文窗口,但實際測試顯示其召回率在16K token時僅22%。有用戶將《哈利?波特》全書輸入后Scout回答問題的正確率,遠低于Gemini 2.5 Pro等對手。

此外,還有用戶測試發(fā)現(xiàn),Llama 4生成的物理動畫違背基本規(guī)律,如小球彈跳軌跡錯誤,并且需多次嘗試才能完成復雜邏輯鏈任務(wù),而DeepSeek和Gemini等都可一次成功。

獨立評測機構(gòu)Artificial Analysis指出,Llama 4在綜合推理、科學任務(wù)和編碼中與頂級模型存在系統(tǒng)性差距。Maverick的Intelligence Index得分僅49,遠低于Gemini 2.5 Pro(68)和DeepSeek R1(66)。

Llama 4的實際表現(xiàn)如此一般,引發(fā)用戶對其夸大宣傳的強烈質(zhì)疑。

被曝作弊刷榜

與此同時,Meta前員工在論壇“一畝三分地”匿名發(fā)帖等多個消息源指出,Llama 4在訓練后期階段將基準測試的測試集數(shù)據(jù)混入訓練數(shù)據(jù),以此提升模型在評測榜單上的表現(xiàn)。

這種做法使模型在特定測試中過擬合,短期可以提升排名,但實際應(yīng)用表現(xiàn)遠低于預期,因此也被業(yè)內(nèi)認為是作弊來刷榜單排名。

不過,很快,Meta研究科學家主管Licheng Yu實名辟謠,團隊根本沒有針對測試集過擬合訓練。Meta首席AI科學家的Yann LeCun也發(fā)帖力挺。

但是,開源社區(qū)的用戶還發(fā)現(xiàn)Meta提供的Llama 4榜單版本與開源版本不同。

也就是,Meta提交給評測平臺LM Arena的Llama-4-Maverick是一個實驗性聊天優(yōu)化版本,其行為與公開發(fā)布的基礎(chǔ)版存在顯著差異,如回答風格更冗長、使用表情符號等。

這被質(zhì)疑為“針對榜單優(yōu)化的特供版”,誤導開發(fā)者對模型真實能力的判斷。

進一步加劇了大模型開源社區(qū)用戶對Llama 4能力的質(zhì)疑。

在經(jīng)過2天發(fā)酵后,今天,Chatbot Arena官方發(fā)文確認了用戶的上述質(zhì)疑,公開表示Meta提供給他們的是“特供版”,并考慮更新排行榜。

Chatbot Arena官方發(fā)文:

“我們已經(jīng)看到社區(qū)對Llama-4在Arena上的最新發(fā)布提出了問題。為了確保完全透明,我們正在發(fā)布2000多個一對一模型對戰(zhàn)結(jié)果供公眾審查。這包括用戶提示、模型響應(yīng)和用戶偏好。

初步分析顯示,模型回復風格和語氣是重要影響因素,我們正在進行更深入的分析以了解更多!

此外,我們還將 Llama-4-Maverick的 HF(HuggingFace) 版本添加到 Arena中,排行榜結(jié)果將很快公布。

Meta 對我們政策的解釋與我們對模型提供者的期望不符。Meta應(yīng)該更清楚地說明“Llama-4-Maverick-03-26-Experimental”是一個經(jīng)過人類偏好優(yōu)化的定制模型。

因此我們正在更新我們的排行榜政策,以加強我們對公平、可重復評估的承諾,從而避免未來出現(xiàn)這種混淆?!?/p>

“偽開源”,比DeepSeek差遠了

一直以來,Meta都以大模型開源路線領(lǐng)路人自居,有了DeepSeek珠玉在前,這次Llama 4的開源方式,反而動搖了Meta作為開源標桿的地位。

Llama 4執(zhí)行的非標準開源許可,而是采用Meta自定義的許可條款,對商業(yè)使用和分發(fā)設(shè)置了多重限制。例如,月活躍用戶超過7億的公司需向Meta單獨申請授權(quán),且Meta可自行決定是否批準。競爭對手員工被禁止接觸模型,要求所有衍生模型名稱必須以“Llama”開頭,并在界面、文檔中突出顯示“Made with Llama”水印等。

而DeepSeek R1遵循標準的開源協(xié)議MIT許可協(xié)議,允許自由使用、修改、分發(fā)及商業(yè)化,僅需保留原始版權(quán)聲明和許可聲明。無商業(yè)限制,企業(yè)對模型的使用無需額外授權(quán),且可基于MIT許可開發(fā)閉源商業(yè)產(chǎn)品。

開放源代碼促進會(OSI)定義的“開源”需允許自由修改和分發(fā),而Meta的條款明顯違背這一原則。僅從開源許可方面來看,和DeepSeek R1相比,Llama 4的開放性差遠了。

Llama 4開源僅提供模型參數(shù),缺乏對訓練流程、數(shù)據(jù)清洗策略的披露,未公開完整的訓練數(shù)據(jù)集和超參數(shù)優(yōu)化細節(jié),如MetaP方法的核心邏輯,開發(fā)者無法復現(xiàn)或改進模型。此舉被社區(qū)用戶質(zhì)疑為“黑箱式共享”。

另外,Llama 4還設(shè)置了諸多限制,比如,繁瑣的申請流程,用戶需登錄Hugging Face賬號并填寫包含個人身份、公司信息、稅務(wù)標識等詳細資料的申請表,稍有錯漏可能被永久拉黑且無申訴渠道。

相比之下,國內(nèi)開源模型如DeepSeek、通義千問等都無需復雜流程即可直接使用。

此外,Llama-4-Scout和Maverick雖宣稱支持單卡運行,但需要NVIDIA H100等高端GPU(單卡成本超3萬美元),普通開發(fā)者難以負擔。用戶認為,真正的開源應(yīng)兼顧不同硬件環(huán)境。

總之,Meta針對Llama 4開源的一系列騷操作,被開發(fā)者批評“背離開源精神”,是“既要開源流量,又防社區(qū)威脅”的雙標策略,進一步加劇Llama 4的信任危機。

Meta的Llama 4本被寄予厚望,卻在短短兩天內(nèi)因作弊刷榜、代碼能力拉垮、偽開源爭議跌落神壇。Meta若繼續(xù)在商業(yè)控制與技術(shù)開放之間搖擺,恐將在AI競賽中進一步失去開發(fā)者支持。

免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2025-04-08
Llama 4大模型跌落神壇:作弊刷榜、代碼能力極差、和DeepSeek比就是偽開源
被寄予厚望的美國Meta公司的最新開源大模型Llama 4發(fā)布不到2天時間,口碑急轉(zhuǎn)直下,被質(zhì)疑為刷榜作弊實際效果差、開源條件多部署門檻高是偽開源等。 今天,大模型評測平臺LM Arena親自下場發(fā)文,打臉Meta提供給平臺的Llama 4是“特供版”。據(jù)知情人士爆料稱,Meta因面臨DeepSeek、Gemini等競品的快速迭代壓力,選擇“倉促發(fā)布未完成優(yōu)化的模型”,犧牲技術(shù)嚴謹性以追趕進度。

長按掃碼 閱讀全文