8月2日凌晨,國(guó)際權(quán)威大模型評(píng)測(cè) Chatbot Arena更新了最新一期的大模型榜單,上周新鮮開(kāi)源的阿里千問(wèn)3新模型斬獲1433分,超越頂尖閉源模型Grok4、Claude4,位列所有閉源及開(kāi)源模型的全球總榜第三,是全球最強(qiáng)非推理(non-thinking)模型,并創(chuàng)下全球開(kāi)源模型和國(guó)產(chǎn)模型的史上最高分。同時(shí),千問(wèn)3還奪得數(shù)學(xué)、代碼、復(fù)雜提示、長(zhǎng)文本檢索、指令遵循等5項(xiàng)全球第一。
全球知名ChatBot Arena大模型排行榜,千問(wèn)3位列全球頂級(jí)模型第三、開(kāi)源第一
Chatbot Arena是由獨(dú)立研究機(jī)構(gòu)LMSYS Org推出的大模型評(píng)測(cè)平臺(tái),其評(píng)測(cè)分?jǐn)?shù)被認(rèn)為是全球最具公信力的大模型榜單。不到一年前,Qwen2.5-72B是第一個(gè)入選該榜前十的中國(guó)大模型;上周開(kāi)源的千問(wèn)3非思考基礎(chǔ)模型 Qwen3-235B-A22B-Instruct-2507 再次實(shí)現(xiàn)重大突破,攬獲5項(xiàng)關(guān)鍵能力全球第一,并以1433分的總分創(chuàng)下開(kāi)源大模型的史上最高分,力壓Grok4、Claude4、Gemini 2.5-Flash、GPT4.1等一眾頂級(jí)閉源模型,千問(wèn)3與GPT4.5并列全球第三。
千問(wèn)3在數(shù)學(xué)、代碼、復(fù)雜提示、長(zhǎng)文本、指令遵循等方面位列全球第一
7月22日起,阿里通義團(tuán)隊(duì)接連開(kāi)源千問(wèn)3基礎(chǔ)模型、AI編程模型和推理模型,性能均實(shí)現(xiàn)同類開(kāi)源模型的新突破。除千問(wèn)3 指令(Instruct)模型外,推理模型 Qwen3-235B-A22B-Thinking-2507 也闖進(jìn)榜單前十,數(shù)學(xué)能力并列全球第一;在Chatbot Arena專門評(píng)估編程能力的WebDev Arena子榜單中,編程模型Qwen3-Coder性能與Gemini2.5 Pro、DeepSeek-R1、Claude4并列第一。
本周,通義千問(wèn)仍在以“周級(jí)迭代”頻率持續(xù)更新:Qwen3-30B-A3B 更新了Instruct模型、推理模型、編程模型等3款模型,性能媲美Gemini2.5-flash、GPT-4o,可在消費(fèi)級(jí)硬件直接部署,廣受開(kāi)發(fā)者歡迎。同時(shí),千問(wèn)3新模型的“訓(xùn)練秘籍”GSPO新算法也對(duì)外公開(kāi),GSPO從根源上解決了大規(guī)模MoE模型在強(qiáng)化學(xué)習(xí)中的穩(wěn)定性問(wèn)題,訓(xùn)練效率較經(jīng)典GRPO算法實(shí)現(xiàn)大幅提升,GSPO論文在全球最大的AI開(kāi)源社區(qū)HuggingFace里論文熱度排名第一。
阿里千問(wèn)模型API調(diào)用量市場(chǎng)份額超10.9%,位列全球第四
阿里AI多連發(fā),在全球范圍內(nèi)引發(fā)新一輪接入中國(guó)開(kāi)源模型熱潮。海外大模型API聚合平臺(tái)OpenRouter數(shù)據(jù)顯示,阿里千問(wèn)模型全球市場(chǎng)份額逾10.9%,超越OpenAI和Meta-Llama系列模型,位列全球第四;其中,Qwen3-Coder調(diào)用量一周暴增1474%,位列編程領(lǐng)域的全球第二。
編程領(lǐng)域中,Qwen3-Coder尤受AI社區(qū)歡迎,API調(diào)用量一周暴增1474%
截至目前,阿里已開(kāi)源300余個(gè)模型,持續(xù)推進(jìn)“全尺寸”、“全模態(tài)”的全面開(kāi)源。通義千問(wèn)衍生模型已超過(guò)14萬(wàn)個(gè),是全球第一的開(kāi)源模型,也是中國(guó)企業(yè)用得最多的大模型。未來(lái)三年,阿里巴巴還將投入3800億元在AI和云基礎(chǔ)設(shè)施建設(shè)上,夯實(shí)“AI全?!钡募夹g(shù)體系和戰(zhàn)略布局,為全球開(kāi)發(fā)者和企業(yè)提供更高性能、更普惠的AI和云計(jì)算服務(wù)。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )