深度求索揭秘DeepSeek-R1升級(jí)細(xì)節(jié):思考更深推理更強(qiáng),幻覺(jué)最高降50%

極客網(wǎng)·人工智能5月30日 深度求索(DeepSeek)公司5月28日宣布DeepSeek-R1進(jìn)行了小升級(jí),引發(fā)廣泛關(guān)注;29日官方詳細(xì)介紹了此次更新的變化,稱當(dāng)前版本為DeepSeek-R1-0528,升級(jí)后的新模型在深度思考、推理能力、幻覺(jué)改善、創(chuàng)意寫(xiě)作等方面有了較大的提升。

特別地,新版DeepSeek R1針對(duì)“幻覺(jué)”問(wèn)題進(jìn)行了優(yōu)化。與舊版相比,更新后的模型在改寫(xiě)潤(rùn)色、總結(jié)摘要、閱讀理解等場(chǎng)景中,幻覺(jué)率降低了45~50% 左右,能夠有效地提供更為準(zhǔn)確、可靠的結(jié)果。

深度思考能力強(qiáng)化

DeepSeek-R1-0528仍然使用2024年12月所發(fā)布的 DeepSeek V3 Base 模型作為基座,但在后訓(xùn)練過(guò)程中投入了更多算力,顯著提升了模型的思維深度與推理能力。

更新后的R1模型在數(shù)學(xué)、編程與通用邏輯等多個(gè)基準(zhǔn)測(cè)評(píng)中取得了當(dāng)前國(guó)內(nèi)所有模型中首屈一指的優(yōu)異成績(jī),并且在整體表現(xiàn)上已接近其他國(guó)際頂尖模型,如o3與Gemini-2.5-Pro。

DeepSeek-R1-0528 在各項(xiàng)評(píng)測(cè)集上均取得了優(yōu)異表現(xiàn)(基準(zhǔn)測(cè)試使用 64K 輸出長(zhǎng)度;在 Humanity's Last Exam 中,只使用其中的文本題目進(jìn)行測(cè)試)

DeepSeek-R1-0528 在各項(xiàng)評(píng)測(cè)集上均取得了優(yōu)異表現(xiàn)(基準(zhǔn)測(cè)試使用 64K 輸出長(zhǎng)度;在 Humanity's Last Exam 中,只使用其中的文本題目進(jìn)行測(cè)試)

相較于舊版 R1,新版模型在復(fù)雜推理任務(wù)中的表現(xiàn)有了顯著提升。例如在 AIME 2025 測(cè)試中,新版模型準(zhǔn)確率由舊版的 70% 提升至 87.5%。這一進(jìn)步得益于模型在推理過(guò)程中的思維深度增強(qiáng):在 AIME 2025 測(cè)試集上,舊版模型平均每題使用 12K tokens,而新版模型平均每題使用 23K tokens,表明其在解題過(guò)程中進(jìn)行了更為詳盡和深入的思考。

同時(shí),蒸餾DeepSeek-R1-0528的思維鏈后訓(xùn)練Qwen3-8B Base,得到了 DeepSeek-R1-0528-Qwen3-8B。該8B模型在數(shù)學(xué)測(cè)試AIME 2024中僅次于DeepSeek-R1-0528,超越 Qwen3-8B (+10.0%),與 Qwen3-235B 相當(dāng)。DeepSeek-R1-0528的思維鏈對(duì)于學(xué)術(shù)界推理模型的研究和工業(yè)界針對(duì)小模型的開(kāi)發(fā)都將具有重要意義。

微信截圖_20250530091340.jpgDeepSeek-R1-0528-Qwen3-8B 等開(kāi)源模型的 AIME 2024 對(duì)比結(jié)果

其他能力更新

幻覺(jué)改善:新版DeepSeek R1針對(duì)“幻覺(jué)”問(wèn)題進(jìn)行了優(yōu)化。與舊版相比,更新后的模型在改寫(xiě)潤(rùn)色、總結(jié)摘要、閱讀理解等場(chǎng)景中,幻覺(jué)率降低了45~50% 左右,能夠有效地提供更為準(zhǔn)確、可靠的結(jié)果。

創(chuàng)意寫(xiě)作:在舊版 R1 的基礎(chǔ)上,更新后的 R1 模型針對(duì)議論文、小說(shuō)、散文等文體進(jìn)行了進(jìn)一步優(yōu)化,能夠輸出篇幅更長(zhǎng)、結(jié)構(gòu)內(nèi)容更完整的長(zhǎng)篇作品,同時(shí)呈現(xiàn)出更加貼近人類(lèi)偏好的寫(xiě)作風(fēng)格。

工具調(diào)用:DeepSeek-R1-0528 支持工具調(diào)用(不支持在 thinking 中進(jìn)行工具調(diào)用)。當(dāng)前模型 Tau-Bench 測(cè)評(píng)成績(jī)?yōu)?airline 53.5% / retail 63.9%,與 OpenAI o1-high 相當(dāng),但與 o3-High 以及 Claude 4 Sonnet 仍有差距。

示例為通過(guò) LobeChat 使用 DeepSeek-R1-0528 的工具調(diào)用能力得到的網(wǎng)頁(yè)文章總結(jié)

示例為通過(guò) LobeChat 使用 DeepSeek-R1-0528 的工具調(diào)用能力得到的網(wǎng)頁(yè)文章總結(jié)

此外,DeepSeek-R1-0528 在前端代碼生成、角色扮演等領(lǐng)域的能力均有更新和提升。

示例為在網(wǎng)頁(yè)端調(diào)用 DeepSeek-R1-0528 使用 HTML/CSS/JavaScript 開(kāi)發(fā)的一個(gè)現(xiàn)代簡(jiǎn)約風(fēng)格的單詞卡片應(yīng)用

示例為在網(wǎng)頁(yè)端調(diào)用 DeepSeek-R1-0528 使用 HTML/CSS/JavaScript 開(kāi)發(fā)的一個(gè)現(xiàn)代簡(jiǎn)約風(fēng)格的單詞卡片應(yīng)用

API 更新

API 已同步更新,接口與調(diào)用方式保持不變。新版R1 API仍支持查看模型思考過(guò)程,同時(shí)還增加了Function Calling和JsonOutput的支持。

我們對(duì)新版 R1 API 中 max_tokens 參數(shù)的含義做了調(diào)整:現(xiàn)在 max_tokens用于限制模型單次輸出的總長(zhǎng)度(包括思考過(guò)程),默認(rèn)為 32K,最大為 64K。請(qǐng) API 用戶及時(shí)調(diào)整 max_tokens 參數(shù)以防輸出被提前截?cái)唷?/p>

本次R1更新后,官方網(wǎng)站、小程序、App端和API中的模型上下文長(zhǎng)度仍為64K。如果用戶對(duì)更長(zhǎng)的上下文長(zhǎng)度有需求,可以通過(guò)其他第三方平臺(tái)調(diào)用上下文長(zhǎng)度為128K的開(kāi)源版本R1-0528模型。

模型開(kāi)源

DeepSeek-R1-0528與之前的DeepSeek-R1使用同樣的base模型,僅改進(jìn)了后訓(xùn)練方法。私有化部署時(shí)只需要更新 checkpoint 和 tokenizer_config.json(tool calls 相關(guān)變動(dòng))。模型參數(shù)為 685B(其中 14B 為 MTP 層),開(kāi)源版本上下文長(zhǎng)度為 128K(網(wǎng)頁(yè)端、App 和 API 提供 64K 上下文)。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )

贊助商
2025-05-30
深度求索揭秘DeepSeek-R1升級(jí)細(xì)節(jié):思考更深推理更強(qiáng),幻覺(jué)最高降50%
新版DeepSeek R1針對(duì)“幻覺(jué)”問(wèn)題進(jìn)行了優(yōu)化。

長(zhǎng)按掃碼 閱讀全文