国产女尤视频91,91丝袜高潮流白浆喷潮在线播放 ,日韩一级欧美一级

4月8日消息，被寄予厚望的美國(guó)Meta公司的最新開(kāi)源大模型Llama 4發(fā)布不到2天時(shí)間，口碑急轉(zhuǎn)直下，被質(zhì)疑為刷榜作弊實(shí)際效果差、開(kāi)源條件多部署門(mén)檻高是偽開(kāi)源等。

今天，大模型評(píng)測(cè)平臺(tái)LM Arena親自下場(chǎng)發(fā)文，打臉Meta提供給平臺(tái)的Llama 4是“特供版”。

據(jù)知情人士爆料稱，Meta因面臨DeepSeek、Gemini等競(jìng)品的快速迭代壓力，選擇“倉(cāng)促發(fā)布未完成優(yōu)化的模型”，犧牲技術(shù)嚴(yán)謹(jǐn)性以追趕進(jìn)度。

Llama 4亮相，LMSYS榜單排名第二

在周日，大模型開(kāi)源屆的旗幟Meta發(fā)布了最新的大模型Llama 4，包含Scout、Maverick和Behemoth三個(gè)版本。

Llama 4以全系列首次采用混合專家（MoE）架構(gòu)、高效推理和長(zhǎng)上下文處理為亮點(diǎn)。

根據(jù)Meta公開(kāi)的信息和數(shù)據(jù)，在基準(zhǔn)測(cè)試中，Llama 4三大版本均有優(yōu)異表現(xiàn)：

Llama-4-Maverick在LMSYS排行榜（也被稱為Chatbot Arena或LM Arena）中排名第二，僅次于Gemini 2.5 Pro。

在圖像推理任務(wù)（MMMU、MathVista）中得分超越GPT-4o和Gemini 2.0，但編程和科學(xué)推理能力落后于DeepSeek V3和Claude 3.7。

Llama-4-Scout通用任務(wù)得分較低（如Intelligence Index僅36），與GPT-4o mini相當(dāng)，但在長(zhǎng)文本處理和小規(guī)模部署中具備實(shí)用性，支持1000萬(wàn)token上下文窗口（相當(dāng)于15000頁(yè)文本），適用于長(zhǎng)文檔分析、代碼庫(kù)推理等場(chǎng)景，為行業(yè)領(lǐng)先水平。

Llama-4-Behemoth目前仍在訓(xùn)練中，但已公布的STEM測(cè)試成績(jī)（如MATH-500 95.0）超越GPT-4.5和Gemini 2.0 Pro。

另外，Maverick的推理成本為每百萬(wàn)token輸入0.19-0.49美元，遠(yuǎn)低于GPT-4o（約4.38美元），且支持多模態(tài)輸入，性價(jià)比突出。

看到Llama 4性能強(qiáng)大，業(yè)內(nèi)一時(shí)之間熱情澎湃，盛贊大模型開(kāi)源屆再迎來(lái)強(qiáng)力軍。

但是，試用后，開(kāi)發(fā)者們發(fā)現(xiàn)事情沒(méi)那么簡(jiǎn)單。

實(shí)測(cè)水準(zhǔn)拉垮

Meta CEO 扎克伯格在Llama 4發(fā)布時(shí)曾宣稱其“AI編程水平將達(dá)中級(jí)工程師”，但用戶在對(duì)Llama 4進(jìn)行實(shí)測(cè)時(shí)卻發(fā)現(xiàn)巨大反差。

在多項(xiàng)基準(zhǔn)測(cè)試中，Llama 4的表現(xiàn)遠(yuǎn)低于預(yù)期。Maverick在aider polyglot多語(yǔ)言編碼測(cè)試中僅得16%，遠(yuǎn)低于Qwen-32B等競(jìng)品，甚至被用戶稱為“糟糕透頂?shù)木幊棠Ｐ汀薄?/p>

Maverick在基礎(chǔ)編程任務(wù)（HumanEval）得分僅接近GPT-4o mini，遠(yuǎn)低于DeepSeek V3。

盡管Llama-4-Scout支持1000萬(wàn)token上下文窗口，但實(shí)際測(cè)試顯示其召回率在16K token時(shí)僅22%。有用戶將《哈利?波特》全書(shū)輸入后Scout回答問(wèn)題的正確率，遠(yuǎn)低于Gemini 2.5 Pro等對(duì)手。

此外，還有用戶測(cè)試發(fā)現(xiàn)，Llama 4生成的物理動(dòng)畫(huà)違背基本規(guī)律，如小球彈跳軌跡錯(cuò)誤，并且需多次嘗試才能完成復(fù)雜邏輯鏈任務(wù)，而DeepSeek和Gemini等都可一次成功。

獨(dú)立評(píng)測(cè)機(jī)構(gòu)Artificial Analysis指出，Llama 4在綜合推理、科學(xué)任務(wù)和編碼中與頂級(jí)模型存在系統(tǒng)性差距。Maverick的Intelligence Index得分僅49，遠(yuǎn)低于Gemini 2.5 Pro（68）和DeepSeek R1（66）。

Llama 4的實(shí)際表現(xiàn)如此一般，引發(fā)用戶對(duì)其夸大宣傳的強(qiáng)烈質(zhì)疑。

被曝作弊刷榜

與此同時(shí)，Meta前員工在論壇“一畝三分地”匿名發(fā)帖等多個(gè)消息源指出，Llama 4在訓(xùn)練后期階段將基準(zhǔn)測(cè)試的測(cè)試集數(shù)據(jù)混入訓(xùn)練數(shù)據(jù)，以此提升模型在評(píng)測(cè)榜單上的表現(xiàn)。

這種做法使模型在特定測(cè)試中過(guò)擬合，短期可以提升排名，但實(shí)際應(yīng)用表現(xiàn)遠(yuǎn)低于預(yù)期，因此也被業(yè)內(nèi)認(rèn)為是作弊來(lái)刷榜單排名。

不過(guò)，很快，Meta研究科學(xué)家主管Licheng Yu實(shí)名辟謠，團(tuán)隊(duì)根本沒(méi)有針對(duì)測(cè)試集過(guò)擬合訓(xùn)練。Meta首席AI科學(xué)家的Yann LeCun也發(fā)帖力挺。

但是，開(kāi)源社區(qū)的用戶還發(fā)現(xiàn)Meta提供的Llama 4榜單版本與開(kāi)源版本不同。

也就是，Meta提交給評(píng)測(cè)平臺(tái)LM Arena的Llama-4-Maverick是一個(gè)實(shí)驗(yàn)性聊天優(yōu)化版本，其行為與公開(kāi)發(fā)布的基礎(chǔ)版存在顯著差異，如回答風(fēng)格更冗長(zhǎng)、使用表情符號(hào)等。

這被質(zhì)疑為“針對(duì)榜單優(yōu)化的特供版”，誤導(dǎo)開(kāi)發(fā)者對(duì)模型真實(shí)能力的判斷。

進(jìn)一步加劇了大模型開(kāi)源社區(qū)用戶對(duì)Llama 4能力的質(zhì)疑。

在經(jīng)過(guò)2天發(fā)酵后，今天，Chatbot Arena官方發(fā)文確認(rèn)了用戶的上述質(zhì)疑，公開(kāi)表示Meta提供給他們的是“特供版”，并考慮更新排行榜。

Chatbot Arena官方發(fā)文：

“我們已經(jīng)看到社區(qū)對(duì)Llama-4在Arena上的最新發(fā)布提出了問(wèn)題。為了確保完全透明，我們正在發(fā)布2000多個(gè)一對(duì)一模型對(duì)戰(zhàn)結(jié)果供公眾審查。這包括用戶提示、模型響應(yīng)和用戶偏好。

初步分析顯示，模型回復(fù)風(fēng)格和語(yǔ)氣是重要影響因素，我們正在進(jìn)行更深入的分析以了解更多!

此外，我們還將 Llama-4-Maverick的 HF（HuggingFace）版本添加到 Arena中，排行榜結(jié)果將很快公布。

Meta 對(duì)我們政策的解釋與我們對(duì)模型提供者的期望不符。Meta應(yīng)該更清楚地說(shuō)明“Llama-4-Maverick-03-26-Experimental”是一個(gè)經(jīng)過(guò)人類偏好優(yōu)化的定制模型。

因此我們正在更新我們的排行榜政策，以加強(qiáng)我們對(duì)公平、可重復(fù)評(píng)估的承諾，從而避免未來(lái)出現(xiàn)這種混淆?！?/p>

“偽開(kāi)源”，比DeepSeek差遠(yuǎn)了

一直以來(lái)，Meta都以大模型開(kāi)源路線領(lǐng)路人自居，有了DeepSeek珠玉在前，這次Llama 4的開(kāi)源方式，反而動(dòng)搖了Meta作為開(kāi)源標(biāo)桿的地位。

Llama 4執(zhí)行的非標(biāo)準(zhǔn)開(kāi)源許可，而是采用Meta自定義的許可條款，對(duì)商業(yè)使用和分發(fā)設(shè)置了多重限制。例如，月活躍用戶超過(guò)7億的公司需向Meta單獨(dú)申請(qǐng)授權(quán)，且Meta可自行決定是否批準(zhǔn)。競(jìng)爭(zhēng)對(duì)手員工被禁止接觸模型，要求所有衍生模型名稱必須以“Llama”開(kāi)頭，并在界面、文檔中突出顯示“Made with Llama”水印等。

而DeepSeek R1遵循標(biāo)準(zhǔn)的開(kāi)源協(xié)議MIT許可協(xié)議，允許自由使用、修改、分發(fā)及商業(yè)化，僅需保留原始版權(quán)聲明和許可聲明。無(wú)商業(yè)限制，企業(yè)對(duì)模型的使用無(wú)需額外授權(quán)，且可基于MIT許可開(kāi)發(fā)閉源商業(yè)產(chǎn)品。

開(kāi)放源代碼促進(jìn)會(huì)（OSI）定義的“開(kāi)源”需允許自由修改和分發(fā)，而Meta的條款明顯違背這一原則。僅從開(kāi)源許可方面來(lái)看，和DeepSeek R1相比，Llama 4的開(kāi)放性差遠(yuǎn)了。

Llama 4開(kāi)源僅提供模型參數(shù)，缺乏對(duì)訓(xùn)練流程、數(shù)據(jù)清洗策略的披露，未公開(kāi)完整的訓(xùn)練數(shù)據(jù)集和超參數(shù)優(yōu)化細(xì)節(jié)，如MetaP方法的核心邏輯，開(kāi)發(fā)者無(wú)法復(fù)現(xiàn)或改進(jìn)模型。此舉被社區(qū)用戶質(zhì)疑為“黑箱式共享”。

另外，Llama 4還設(shè)置了諸多限制，比如，繁瑣的申請(qǐng)流程，用戶需登錄Hugging Face賬號(hào)并填寫(xiě)包含個(gè)人身份、公司信息、稅務(wù)標(biāo)識(shí)等詳細(xì)資料的申請(qǐng)表，稍有錯(cuò)漏可能被永久拉黑且無(wú)申訴渠道。

相比之下，國(guó)內(nèi)開(kāi)源模型如DeepSeek、通義千問(wèn)等都無(wú)需復(fù)雜流程即可直接使用。

此外，Llama-4-Scout和Maverick雖宣稱支持單卡運(yùn)行，但需要NVIDIA H100等高端GPU（單卡成本超3萬(wàn)美元），普通開(kāi)發(fā)者難以負(fù)擔(dān)。用戶認(rèn)為，真正的開(kāi)源應(yīng)兼顧不同硬件環(huán)境。

總之，Meta針對(duì)Llama 4開(kāi)源的一系列騷操作，被開(kāi)發(fā)者批評(píng)“背離開(kāi)源精神”，是“既要開(kāi)源流量，又防社區(qū)威脅”的雙標(biāo)策略，進(jìn)一步加劇Llama 4的信任危機(jī)。

Meta的Llama 4本被寄予厚望，卻在短短兩天內(nèi)因作弊刷榜、代碼能力拉垮、偽開(kāi)源爭(zhēng)議跌落神壇。Meta若繼續(xù)在商業(yè)控制與技術(shù)開(kāi)放之間搖擺，恐將在AI競(jìng)賽中進(jìn)一步失去開(kāi)發(fā)者支持。

免責(zé)聲明：本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請(qǐng)進(jìn)一步核實(shí)，并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

Llama 4大模型跌落神壇：作弊刷榜、代碼能力極差、和DeepSeek比就是偽開(kāi)源

下一篇

Llama 4大模型跌落神壇：作弊刷榜、代碼能力極差、和DeepSeek比就是偽開(kāi)源

下一篇

Llama 4大模型跌落神壇：作弊刷榜、代碼能力極差、和DeepSeek比就是偽開(kāi)源