DeepSeek V3來了 老外評測結果:很不錯

極客網(wǎng)·極客觀察3月28日 近期,DeepSeek-V3-0324正式發(fā)布,迅速在全球AI領域引發(fā)熱議。相較于前作,V3版本雖未實現(xiàn)顛覆性創(chuàng)新,卻在推理和編程兩大關鍵領域取得進步,為用戶帶來新的驚喜。

DeepSeek V3來了 老外評測結果:很不錯.jpg

DeepSeek向來秉持低調策略,在推出新版本時,既不發(fā)布白皮書進行詳細闡述,也沒有召開盛大發(fā)布會,僅將模型上傳至Hugging Face平臺。盡管如此,憑借卓越的性能,DeepSeek的每一次更新,都能成功吸引AI社區(qū)的高度關注。

這一次,V3-0324展現(xiàn)出更強大的復雜任務處理能力,在面對復雜問題時,能對任務有更深入理解,并提供更有效的解決方案。對于Web設計師而言,V3能夠生成更為簡潔高效的代碼,顯著提升Web頁面和游戲界面的質量,極大提高工作效率。

和R1版本一樣,效率依舊是V3-0324的一大突出優(yōu)勢。當前,許多AI模型的運行和訓練依賴超級計算機,這類設備雖然擁有強大的運算能力,能夠處理海量數(shù)據(jù),但使用成本極高。與之相比,V3-0324在維持高性能的同時,有效控制了成本,這使得更多開發(fā)者和企業(yè)能夠輕松使用該模型,進一步推動AI技術的普及與應用。

專家:開源模型最終會成為贏家

有趣的是,該版本在多個關鍵領域的進步,與谷歌Gemini 2.5 Pro極為相似,不僅在編程能力上大幅提升,推理水平更加出色,在token的使用效率上同樣有了進步。

從參數(shù)規(guī)模來看,DeepSeek之前推出的R1擁有6710億參數(shù),而V3則達到6850億,參數(shù)數(shù)量略高于前代。這一變化讓業(yè)界普遍認為,V3將成為R2版本的重要基礎。AIcpb.com創(chuàng)始人Li Bang zhu指出,V3在編程方面顯著提升,為R2奠定了良好基礎。R2原計劃于5月初推出,一些專家認為,R2可能會提前和大家見面。

在推理能力上,DeepSeek-V3-0324展現(xiàn)出卓越的實力。在MMLU-Pro基準測試中,其準確率從75.9%提升至81.2%;在GPQA測試中,準確率從59.1%提升至68.4%;在AIME測試中,準確率從39.6%大幅躍升至59.4%;在LiveCodeBench測試中也從39.2%提升至49.2%。

加州大學博士、奧林匹克數(shù)學金牌得主Jasper Zhang用AIME 2025難題對DeepSeek-V3-0324進行嚴格測試,結果顯示,V3各項表現(xiàn)出色。基于此,Jasper Zhang對開源模型充滿信心,堅信其在未來的AI競賽中能夠獲勝。目前,他創(chuàng)建的Hyperbolic公司已全面支持V3模型。

眾多外媒在性能測試后普遍得出結論:V3-0324相較R1版本,性能有了飛躍。蘋果設備研究人員Awni Hannun確認,在搭載M3 Ultra芯片的Mac設備上,V3的運行效率可達每秒20 tokens,他認為,以前人們都認為AI模型需要企業(yè)級基礎設施,現(xiàn)在證明并非如此。這一數(shù)據(jù)不僅彰顯了V3-0324的高效,更表明DeepSeek在面對OpenAI等行業(yè)巨頭時沒有落后,還證明了AI模型運行對企業(yè)級基礎設施的依賴并非不可撼動。

一直以來,AI模型的運行高度依賴英偉達GPU,高昂的價格讓許多開發(fā)者望而卻步。與之形成鮮明對比的是,Mac Studio在進行推理時功耗不到200瓦,極大降低了使用成本。

開發(fā)者兼AI專家Simon Willison敏銳地指出,V3-0324支持本地部署,這一特性或將推動AI產(chǎn)業(yè)發(fā)生深刻變革。以往,AI模型多部署于中心化數(shù)據(jù)中心,而未來,部署方式將朝著去中心化、高效化方向發(fā)展,消費級設備在AI應用中將發(fā)揮更大作用。

普通開發(fā)者:很強,但編程還要優(yōu)化

一位名叫Hamed的國外開發(fā)者發(fā)表評論稱,讓Gemini 2.5 pro和DeepSeek-V3-0324編寫代碼,制作國際象棋小程序,前者生成570行代碼,后者生成2372行。

開發(fā)者vewin說:“V3-0324相當強大,它用R1約十分之一的token成本獲得了相似的性能。”

Julian Goldie SEO則表示,在內容生成方面,V3-0324超越了谷歌Gemini 2.5。評測之后他得出幾個結論:DeepSeek撰寫的內容更有說服力,Gemini的推理能力十分出色,二者都能免費使用,但它們的API功能都有一些Bug。

開發(fā)者Hassan認為:“根據(jù)我的測試,V3更聰明了,這種聰明是全方位的,編程相當優(yōu)秀,執(zhí)行前端任務更是如此?!?/p>

開發(fā)者bilLkarkariy要求V3-0324和Gemini Pro 2.5為應用程序設計一個登錄頁面,對比之后他感到震驚,DeepSeek給出了完整、立刻就能用的解決方案。

當然,有人肯定也有人否定。

一位名叫Bindu Reddy的女性開發(fā)者提出反對意見,她認為:“V3非???,是一個巨大的進步,但在真實編程中,V3仍然離Sonnet3.7有不小差距?!睂iT評測大模型的Markus Zimmermann認為:“用DevQualityEval  1.0測試,發(fā)現(xiàn)V3-0324的表現(xiàn)不如之前的DeepSeek V3?!?/p>

總體而言,開發(fā)者對V3-0324相當肯定,負面聲音比較小。

開發(fā)者Petri Kuittinen讓V3給AI企業(yè)制作漂亮的響應式前端網(wǎng)頁,只需要一條提示語,就能將各種元素融合進去。他認為,DeepSeek V3-0324是DeepSeek最好的非推理模型,通常更適合創(chuàng)意性寫作任務,比R1更適合制作HTML5+CSS+前端。在上面的任務中,它生成958行代碼,里面包括圖片、交互式網(wǎng)站。

Petri Kuittinen認為:“Anthropic和OpenAI已經(jīng)陷入麻煩。V3-0324真的可以編程,可以制作漂亮的HTML5、CSS,前端部署相當容易,而且免費使用?!保ㄐ〉叮?/p>

免責聲明:本網(wǎng)站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內容可能涉嫌侵犯其知識產(chǎn)權或存在不實內容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。

2025-03-28
DeepSeek V3來了 老外評測結果:很不錯
近期,DeepSeek-V3-0324正式發(fā)布,迅速在全球AI領域引發(fā)熱議。相較于前作,V3版本雖未實現(xiàn)顛覆性創(chuàng)新,卻在推理和編程兩大關鍵領域取得進步,為用戶帶來新的驚喜。

長按掃碼 閱讀全文