明星潜规则之皇,日韩三级在线网站

為持續(xù)推動尖端AI模型的創(chuàng)新發(fā)展，英特爾始終與業(yè)界領(lǐng)先的創(chuàng)新力量保持深度協(xié)作。我們欣然宣布，全新升級的英特爾AI解決方案已全面覆蓋PC客戶端、邊緣計(jì)算、智能駕艙等場景，在第一時(shí)間為Qwen3系列大模型的發(fā)布提供技術(shù)支撐。

全新Qwen3系列大模型的五大亮點(diǎn)：

1. 稀疏MoE模型深度優(yōu)化，端側(cè)高效部署Qwen3

2. 首次在NPU上Day 0支持大模型，提供更好的性能和功耗表現(xiàn)

3. 端側(cè)微調(diào)，提升模型智能，優(yōu)化用戶體驗(yàn)

4. 動態(tài)稀疏注意力賦能Qwen3長上下文窗口，解鎖端側(cè)Agent新應(yīng)用

5. 擁抱開源生態(tài)，Day 0支持魔搭社區(qū)Ollama

在本次阿里巴巴開源的新一代通義千問Qwen3系列模型中，最為引人注目的是 30B 參數(shù)規(guī)模的 MoE混合專家模型（Mixture of Experts）（Qwen3-30B-MOE-A3B）。該模型憑借其先進(jìn)的動態(tài)可調(diào)混合專家架構(gòu)，在有效提升計(jì)算效率方面表現(xiàn)出色, 使其在本地設(shè)備（客戶端和邊緣設(shè)備）上具備廣闊的應(yīng)用前景。然而，其在部署環(huán)節(jié)存在較大難度，且對系統(tǒng)整體資源的消耗依然較高。為應(yīng)對這些挑戰(zhàn)，英特爾與阿里緊密合作，針對 MoE 模型展開了全面的技術(shù)適配工作。通過實(shí)施多種優(yōu)化策略，基于OpenVINOTM工具套件成功地將 Qwen 模型高效部署于英特爾硬件平臺之上。具體而言，在 ARL-H 64G內(nèi)存的系統(tǒng)上部署的 30B 參數(shù)規(guī)模MoE模型，實(shí)現(xiàn)了33.97 token/s 1的吞吐量，而且相較于同等參數(shù)規(guī)模的稠密模型，取得了顯著的性能提升。英特爾采用的軟件優(yōu)化策略涵蓋了針對稀疏混合專家模型架構(gòu)（Sparse MoE）的算子融合，針對3B 激活MOE模型定制化的調(diào)度和訪存優(yōu)化以及針對不同專家之間的負(fù)載均衡, 這些技術(shù)能夠助力更多MOE模型在英特爾平臺上實(shí)現(xiàn)高效部署。

此次發(fā)布的 Qwen3系列模型主要集中于中小參數(shù)量的稠密架構(gòu) LLM，參數(shù)規(guī)模涵蓋 0.6B 至 32B，能夠適配更廣泛的硬件資源，滿足多樣化的使用場景需求。英特爾的 CPU、GPU、 NPU 架構(gòu)全面適配 Qwen 系列模型，為模型的部署進(jìn)行優(yōu)化，使用英特爾OpenVINOTM工具套件和PyTorch社區(qū)工具都可以為全系列 Qwen 模型在英特爾酷睿Ultra平臺 (酷睿Ultra 100系列/200系列) 和英特爾銳炫™ A系列顯卡和B系列顯卡上的部署實(shí)現(xiàn)卓越性能表現(xiàn)。

值得一提的是，英特爾首次在 NPU上對模型發(fā)布提供第零日（Day 0）支持，體現(xiàn)了英特爾和開源生態(tài)更加深入的合作，針對不同模型參數(shù)量和應(yīng)用場景提供更多樣化的、更有針對性的平臺支持。針對從0.6B到高達(dá)8B的中小參數(shù)量模型全面支持，吞吐量最高達(dá)到36.68 token/s 2，借助英特爾Lunar Lake NPU平臺和英特爾OpenVINOTM工具套件，可以在保持低能耗的同時(shí)，又可以獲得優(yōu)異性能。

同時(shí)，在酷睿Ultra 的iGPU平臺上，英特爾持續(xù)為模型帶來卓越的性能。針對小尺寸的模型，在FP16精度下，最高達(dá)到66 token/s2，針對中小尺寸模型，在INT4精度下，最高達(dá)到35.83 token/s 2。開發(fā)者可以根據(jù)適合的使用場景，找到精度和性能的最佳組合。在英特爾銳炫B系列顯卡更強(qiáng)大算力加持下，Qwen3-8B模型可實(shí)現(xiàn) 70.67 token/s3 ，開發(fā)者能夠即刻領(lǐng)略到最新模型與英特爾卓越平臺能力的超強(qiáng)組合，暢享前沿科技帶來的高效與便捷。

作為生成式AI模型中的輕量級選手，0.6B 參數(shù)量的小型 LLM 具備靈活高效的部署優(yōu)勢以及快速迭代更新的能力。然而，在實(shí)際應(yīng)用落地過程中，人們常常對其知識的深度與廣度以及處理復(fù)雜任務(wù)的能力存在顧慮。通過借助特定的數(shù)據(jù)集對這些小型 LLM 進(jìn)行端側(cè)微調(diào)（Fine-tune），可以提升模型智能，優(yōu)化用戶體驗(yàn)。為此，基于Unsloth和Hugging Face參數(shù)高效微調(diào)框架（Parameter-Efficient Fine-Tuning, PEFT），英特爾構(gòu)建了一套完整的端側(cè)解決方案，使模型變得更加智能，AI PC應(yīng)用也真正變成用戶的貼心智能小助手。在本次發(fā)布的 Qwen3 模型中，我們注意到其 LLM 長上下文能力得到了顯著提升。面對有限的算力資源，如何有效利用模型的長上下文能力，避免計(jì)算資源消耗呈指數(shù)級增長，進(jìn)而拓展 LLM 在客戶端的應(yīng)用場景，英特爾已給出解決方案?；趧討B(tài)稀疏注意力，在保證近乎無損精度的前提下，我們可以使長上下文窗口處理速度成倍提升。采用該方案后，Qwen3-8B 模型在英特爾LNL 平臺上可實(shí)現(xiàn) 32K 的上下文長度。這樣的長上下文能力，解鎖了更多端側(cè)Agent新應(yīng)用。結(jié)合Qwen3更強(qiáng)的Agent和代碼能力，以及對MCP協(xié)議的加強(qiáng)支持，使得基于端側(cè)大模型調(diào)用MCP服務(wù)來開發(fā)各種AI PC Agent首次成為可能。視頻展示了，在英特爾AI PC上，基于Qwen3-8B模型調(diào)用必優(yōu)科技ChatPPT.cn MCP服務(wù)自動生成PPT的過程。

英特爾持續(xù)擁抱開源生態(tài)，英特爾優(yōu)化版Ollama也第一時(shí)間支持了包括MoE 模型在內(nèi)的Qwen3 系列模型，使開發(fā)者可以在英特爾客戶端平臺 (如英特爾酷睿Ultra AI PC，英特爾銳炫A/B 系列顯卡)上，利用 Ollama框架來搭建基于Qwen3系列模型的智能應(yīng)用。優(yōu)化版Ollama還提供了基于魔搭的模型下載源設(shè)置，使得本地開發(fā)者可以從魔搭社區(qū)更高效下載和部署安裝包及模型。

英特爾在車端艙內(nèi)對新發(fā)布的Qwen3 系列模型，也已經(jīng)順滑匹配?；谟⑻貭栜囕d軟硬件解決方案（含第一代英特爾AI增強(qiáng)軟件定義汽車（SDV） SOC、剛剛在上海車展發(fā)布的第二代SDV SoC NPU，以及英特爾銳炫™車載獨(dú)立顯卡），英特爾能讓Qwen3系列模型很快就有機(jī)會上車部署，從而充分發(fā)揮車端的本地算力。其中，率先在汽車行業(yè)內(nèi)采用了多節(jié)點(diǎn)芯粒架構(gòu)的第二代SDV SOC，其生成式和多模態(tài)AI性能，相比上一代，最高可提升十倍4，這讓汽車AI體驗(yàn)，如艙內(nèi)的實(shí)時(shí)對話、自然語言交互和復(fù)雜指令的響應(yīng)等，都充滿AI的靈性。

快速上手指南 (Get Started)

下面將以Qwen3-8B為例，介紹如何利用OpenVINO™的Python API在英特爾平臺（GPU, NPU）上運(yùn)行Qwen3系列模型。也可以參考下面的完整示例：

http://www.intimacywithspirit.com/uploadfile/pic2020/2025/0430/20250430150006191G>

http://www.intimacywithspirit.com/uploadfile/pic2020/2025/0430/20250430150007192G>

第一步，環(huán)境準(zhǔn)備

基于以下命令可以完成模型部署任務(wù)在Python上的環(huán)境安裝。