隨著海外AI算力供應(yīng)鏈不確定性增加,面對(duì)強(qiáng)勢(shì)的大模型訓(xùn)練推理需求,國(guó)產(chǎn)AI芯片迎來(lái)發(fā)展新機(jī)遇。而80%的算力需求正在向推理場(chǎng)景集中,由于推理場(chǎng)景對(duì)GPU峰值性能的要求相對(duì)放低,更多規(guī)格國(guó)產(chǎn)GPU已具備支持大模型應(yīng)用的能力,推動(dòng)海外AI芯片與國(guó)產(chǎn)芯片混合部署成為企業(yè)AI算力新常態(tài)。
然而,混合AI算力的構(gòu)建面臨諸多挑戰(zhàn),包括算力利用率低下、異構(gòu)資源管理困難、國(guó)產(chǎn)化替代進(jìn)程加速等現(xiàn)實(shí)問(wèn)題,正成為制約大模型規(guī)模化落地的核心瓶頸。京東云vGPU AI算力平臺(tái),以創(chuàng)新性的GPU算力池化技術(shù)和異構(gòu)算力統(tǒng)一管理,助力企業(yè)快速構(gòu)建異構(gòu)AI算力基礎(chǔ)設(shè)施,重塑AI生產(chǎn)力。
一、大模型落地面臨三重算力困局
當(dāng)前,眾多智算中心面臨一個(gè)嚴(yán)峻的現(xiàn)實(shí),購(gòu)買(mǎi)了昂貴的GPU卡,但集群MFU(模型算力利用率)卻很低。某頭部證券公司AI負(fù)責(zé)人坦言:“我們的數(shù)百?gòu)圙PU卡,實(shí)際利用率不足30%,但業(yè)務(wù)部門(mén)仍在不斷要求擴(kuò)容。”
行業(yè)普遍面臨三大核心痛點(diǎn)。首先是GPU資源空轉(zhuǎn)閑置:傳統(tǒng)物理卡部署模式下,推理任務(wù)往往占用不到30%的算力,卻需獨(dú)占整張顯卡。其次是異構(gòu)資源管理困難:同時(shí)存在英偉達(dá)、昇騰等多類(lèi)加速卡,不同芯片需要獨(dú)立運(yùn)維體系,資源池化率不足50%。第三是安全與性能難以兼得:部分機(jī)構(gòu)采用開(kāi)源vGPU方案,但用戶(hù)態(tài)算力池化帶來(lái)性能損耗高,且存在任務(wù)干擾風(fēng)險(xiǎn)。
二、京東云vGPU算力池化,破解AI算力困局
面對(duì)這些行業(yè)難題,京東云推出vGPU AI算力平臺(tái),支持算力資源統(tǒng)一納管、精細(xì)化運(yùn)維,具備內(nèi)核級(jí)1%算力和MB級(jí)顯存的細(xì)粒度切分與池化能力,損耗控制在0.1%,毫秒級(jí)任務(wù)優(yōu)先級(jí)搶占,絲滑支持訓(xùn)推混部,并且全面適配十余家國(guó)產(chǎn)化算力資源,幫助客戶(hù)低成本、高效率使用大模型。
第一,內(nèi)核級(jí)精準(zhǔn)算力切分:憑借創(chuàng)新的GPU算力切分技術(shù),內(nèi)核級(jí)1%算力和MB級(jí)顯存的細(xì)粒度切分與池化能力,猶如"手術(shù)刀"般將單卡分割為多個(gè)虛擬實(shí)例,實(shí)現(xiàn)了資源的動(dòng)態(tài)分配,GPU利用率最高提升70%。
第二,異構(gòu)算力統(tǒng)一納管:提供對(duì)多元異構(gòu)算力資源的統(tǒng)一管理,有效屏蔽異構(gòu)算力復(fù)雜性,并兼容國(guó)內(nèi)外主流深度學(xué)習(xí)AI框架,幫助客戶(hù)快速構(gòu)建面向大模型的訓(xùn)推一體化高性能基礎(chǔ)設(shè)施,降低運(yùn)維復(fù)雜度。
第三,全棧自研算力平臺(tái):京東云全自研vGPU技術(shù),通過(guò)內(nèi)核態(tài)攔截和推理引擎加速構(gòu)建產(chǎn)品核心競(jìng)爭(zhēng)力,內(nèi)核驅(qū)動(dòng)級(jí)優(yōu)化提升單臺(tái)服務(wù)器推理性能50%,同時(shí)借助AI全密態(tài)機(jī)密容器能力,確保模型參數(shù)與訓(xùn)練數(shù)據(jù)雙域零泄露,為用戶(hù)提供金融級(jí)安全防護(hù)。
三、服務(wù)數(shù)十家頭部客戶(hù)構(gòu)建異構(gòu)AI算力基座
當(dāng)前,京東云vGPU AI算力平臺(tái)憑借內(nèi)核級(jí)算力池化、全棧自研可控、金融級(jí)安全等差異化優(yōu)勢(shì),已服務(wù)數(shù)十家頭部銀行、券商、基金、保險(xiǎn)、運(yùn)營(yíng)商客戶(hù)。
華夏基金積極擁抱AI技術(shù),在GPU資源管理方面,華夏基金面臨提升資源利用率和降低運(yùn)行成本的雙重挑戰(zhàn)。通過(guò)采用京東云的vGPU算力池化技術(shù),華夏基金將物理GPU資源進(jìn)行了細(xì)粒度的切分,實(shí)現(xiàn)了資源的動(dòng)態(tài)分配和優(yōu)化利用。這一技術(shù)的應(yīng)用,使得華夏基金的GPU利用率最高提升了70%,大幅降低大模型推理成本。
北京銀行與京東云攜手,上線(xiàn)銀行業(yè)首個(gè)基于異構(gòu)計(jì)算的DeepSeek滿(mǎn)血版。依托京東云異構(gòu)計(jì)算能力,北京銀行創(chuàng)新性地采用vGPU彈性資源分配方案,實(shí)現(xiàn)了算力資源的高效復(fù)用與靈活調(diào)度,算力模式秒級(jí)供給,內(nèi)核級(jí)1%算力和MB級(jí)顯存的細(xì)粒度切分與池化能力,并全面適配國(guó)產(chǎn)算力資源。
某知名證券公司原有集群GPU資源分散,整體利用率長(zhǎng)期徘徊在25%。部署京東云vGPU AI算力平臺(tái)后,將分散在5個(gè)業(yè)務(wù)系統(tǒng)的GPU資源池化,形成統(tǒng)一AI算力池,AI算力分時(shí)復(fù)用實(shí)現(xiàn)多團(tuán)隊(duì)共享,推理任務(wù)資源滿(mǎn)足率從65%提升至98%。
面向未來(lái),京東云將持續(xù)投入技術(shù)自研,提供更高性能、更低成本的智算產(chǎn)品,助力企業(yè)快速構(gòu)建落地大模型的算力基座,重塑AI生產(chǎn)力。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )