華瑞指數(shù)云ExponTech聯(lián)合合作伙伴在硅谷發(fā)布新型AI存儲(chǔ)方案

全球AI的頂級(jí)盛會(huì)GTC于3月17日到3月21日在美國(guó)硅谷盛大舉行。在GTC大會(huì)期間,華瑞指數(shù)云ExponTech CTO曹羽中受邀參加了專(zhuān)注于AI Storage的技術(shù)研討會(huì)并發(fā)表演講。在演講中,曹羽中介紹了ExponTech與合作伙伴ScaleFlux, AIC基于英偉達(dá)的BlueField3 DPU以及英偉達(dá)最新發(fā)布的Spectrum-X網(wǎng)絡(luò)打造的新型AI Storage方案,展示了該方案的實(shí)際測(cè)試數(shù)據(jù),并與合作伙伴,AI Storage行業(yè)專(zhuān)家以及一些大型客戶(hù)進(jìn)行了深入討論。與會(huì)的專(zhuān)家均表示該方案的實(shí)測(cè)性能數(shù)據(jù)以及綜合優(yōu)勢(shì)表現(xiàn)遠(yuǎn)超預(yù)期,具備很高的商業(yè)價(jià)值,very impressive!

華瑞指數(shù)云ExponTech聯(lián)合合作伙伴在硅谷發(fā)布新型AI存儲(chǔ)方案

華瑞指數(shù)云ExponTech聯(lián)合合作伙伴在硅谷發(fā)布新型AI存儲(chǔ)方案

新型AI存儲(chǔ)方案采用的軟硬件方案:

硬件:

F2026 AI服務(wù)器,是一臺(tái)2U閃存JBOF,配備2個(gè)或4個(gè)NVIDIA BlueField-3數(shù)據(jù)處理單元(DPU)和24塊高性能ScaleFlux CSD5000 NVMe SSD(CSD5000是ScaleFlux公司最新推出的一款內(nèi)置硬件壓縮與解壓縮能力的高性能NVMe SSD介質(zhì));

NVIDIA Spectrum-X網(wǎng)絡(luò)交換機(jī);

軟件:

華瑞指數(shù)云ExponTech下一代分布式存儲(chǔ)軟件平臺(tái)WADP (WiDE AI Data Platform);

華瑞指數(shù)云ExponTech聯(lián)合合作伙伴在硅谷發(fā)布新型AI存儲(chǔ)方案

(本方案采用的2U存儲(chǔ)節(jié)點(diǎn)及ScaleFlux CSD5000 NVMe SSD)

基于此方案的AI訓(xùn)練和推理環(huán)境的實(shí)測(cè)部署架構(gòu)如下圖:

華瑞指數(shù)云ExponTech聯(lián)合合作伙伴在硅谷發(fā)布新型AI存儲(chǔ)方案

1臺(tái)2U AIC JBOF作為存儲(chǔ)服務(wù)器, 配備4塊NVIDIA BlueField3 DPU, 提供1600Gbps網(wǎng)絡(luò)帶寬,24塊ScaleFlux CSD5000 NVMe SSD,ExponTech WADP存儲(chǔ)軟件的后端運(yùn)行于BlueField3 DPU內(nèi);

1臺(tái)標(biāo)準(zhǔn)2U服務(wù)器作為計(jì)算服務(wù)器,配備4塊NVIDIA BlueField3 DPU,提供800Gbps網(wǎng)絡(luò)帶寬,在DPU內(nèi)部運(yùn)行ExponTech WADP存儲(chǔ)軟件的存儲(chǔ)網(wǎng)關(guān)和協(xié)議;

計(jì)算服務(wù)器上可以配置GPU,用于訓(xùn)練或推理,存儲(chǔ)軟件和網(wǎng)絡(luò)流量運(yùn)行于DPU內(nèi),存儲(chǔ)IO不會(huì)消耗計(jì)算服務(wù)器的CPU和內(nèi)存資源,計(jì)算服務(wù)器可以擁有更充沛的資源用于計(jì)算處理;

測(cè)試環(huán)境特別選擇了4臺(tái)NVIDIA Spectrum-X交換機(jī)組成兩層網(wǎng)絡(luò),主要是為了模擬與驗(yàn)證在大規(guī)模組網(wǎng)的情況下,RoCE網(wǎng)絡(luò)是否依然可以很好的處理?yè)砣?,存?chǔ)軟件可以依然保持穩(wěn)定的存儲(chǔ)性能和低時(shí)延;

存儲(chǔ)服務(wù)器(JBOF)和計(jì)算服務(wù)器均可以按需獨(dú)立擴(kuò)展,按需加入更多的存儲(chǔ)服務(wù)器(JBOF)或者計(jì)算服務(wù)器,構(gòu)成大規(guī)模的,存算分離的,按需擴(kuò)展的AI訓(xùn)練和推理集群。

基礎(chǔ)存儲(chǔ)性能驗(yàn)證:

基于上一節(jié)所述的實(shí)測(cè)部署環(huán)境,進(jìn)行了存儲(chǔ)系統(tǒng)的基礎(chǔ)性能驗(yàn)證,其驗(yàn)證方法是從計(jì)算節(jié)點(diǎn)上運(yùn)行FIO,測(cè)試存儲(chǔ)系統(tǒng)的基礎(chǔ)性能指標(biāo)。

華瑞指數(shù)云ExponTech聯(lián)合合作伙伴在硅谷發(fā)布新型AI存儲(chǔ)方案

單個(gè)計(jì)算節(jié)點(diǎn)可以達(dá)到近90GB/s的存儲(chǔ)帶寬,接近計(jì)算節(jié)點(diǎn)網(wǎng)卡的物理帶寬上限;

單個(gè)計(jì)算節(jié)點(diǎn)可以達(dá)到310萬(wàn)IOPS,當(dāng)配置更多的計(jì)算節(jié)點(diǎn)時(shí),可以同步獲得更多的IOPS。考慮到整個(gè)存儲(chǔ)系統(tǒng)的后端以及協(xié)議端都是跑在DPU內(nèi),DPU內(nèi)的CPU處理性能遠(yuǎn)遠(yuǎn)不如服務(wù)器配置的CPU,單個(gè)計(jì)算節(jié)點(diǎn)+單個(gè)存儲(chǔ)節(jié)點(diǎn)即達(dá)到310萬(wàn)IOPS已經(jīng)充分展現(xiàn)了本方案相當(dāng)驚人的IO處理效率;

存儲(chǔ)系統(tǒng)的IOPS與存儲(chǔ)節(jié)點(diǎn)上部署的數(shù)據(jù)處理單元(DPU)數(shù)量呈線(xiàn)性比例擴(kuò)展,系統(tǒng)的IOPS隨DPU部署數(shù)量線(xiàn)性擴(kuò)展,表明其具備極佳的橫向擴(kuò)展能力。本方案采用的存儲(chǔ)節(jié)點(diǎn)最多可以配置8張DPU(當(dāng)前測(cè)試環(huán)境配置4張),還可以實(shí)現(xiàn)IOPS性能翻倍以及網(wǎng)絡(luò)帶寬翻倍;

存儲(chǔ)系統(tǒng)在使用小IO size時(shí),并發(fā)大壓力時(shí)延低至266us, 在使用大IO size時(shí),打滿(mǎn)計(jì)算節(jié)點(diǎn)的網(wǎng)絡(luò)物理帶寬,時(shí)延還能始終保持在1毫秒以下。

MLPerfStorage v1.0測(cè)試結(jié)果:

MLPerf™ 是影響力最廣的國(guó)際AI性能基準(zhǔn)評(píng)測(cè),MLPerf™ Storage是針對(duì)AI Storage的基準(zhǔn)性能測(cè)試,可以較為全面的評(píng)估測(cè)試AI應(yīng)用程序的存儲(chǔ)需求。MLPerf™ Storage基準(zhǔn)測(cè)試通過(guò)運(yùn)行一個(gè)分布式訓(xùn)練測(cè)試程序,模擬GPU計(jì)算過(guò)程,在此過(guò)程中真實(shí)的執(zhí)行AI服務(wù)器對(duì)存儲(chǔ)系統(tǒng)的讀寫(xiě)訪(fǎng)問(wèn),以此來(lái)測(cè)試存儲(chǔ)系統(tǒng)能夠支撐的最大GPU數(shù)量和帶寬表現(xiàn)。

MLPerf Storage v1.0于2024年8月推出,國(guó)內(nèi)外一共有十三家從事高性能存儲(chǔ)研發(fā)的廠(chǎng)家參與了測(cè)試并提交正式測(cè)試結(jié)果,其中包括DDN(Lustre),華為,WekaIO,Hammerspace等知名的分布式文件系統(tǒng)廠(chǎng)家。

本次我們選擇了ResNet50模型(主要用于圖像分類(lèi)和圖像識(shí)別場(chǎng)景),在上述1存儲(chǔ)節(jié)點(diǎn)(JBOF)+1計(jì)算節(jié)點(diǎn)的測(cè)試環(huán)境上進(jìn)行了MLPerf Storage v1.0基準(zhǔn)測(cè)試,測(cè)試的結(jié)果如下:

華瑞指數(shù)云ExponTech聯(lián)合合作伙伴在硅谷發(fā)布新型AI存儲(chǔ)方案

測(cè)試結(jié)果表明:

ExponTech的新型AI存儲(chǔ)方案具備全球領(lǐng)先的性能,單客戶(hù)端能夠支持的GPU卡的數(shù)量超過(guò)了所有參與了MLPerf Storage v1.0正式測(cè)試的廠(chǎng)商,位居全球第一;單客戶(hù)端能夠?qū)崿F(xiàn)的存儲(chǔ)帶寬達(dá)到近30GB/s,位居全球第二;本次測(cè)試環(huán)境只有一個(gè)客戶(hù)端節(jié)點(diǎn)(計(jì)算節(jié)點(diǎn)),CPU和內(nèi)存配置較低,在運(yùn)行MLPerf Storage v1.0的測(cè)試中已經(jīng)達(dá)到了客戶(hù)端節(jié)點(diǎn)的計(jì)算能力的瓶頸,但是還遠(yuǎn)遠(yuǎn)沒(méi)有達(dá)到存儲(chǔ)節(jié)點(diǎn)的存儲(chǔ)能力的瓶頸。如果換用處理能力更強(qiáng)的計(jì)算節(jié)點(diǎn)來(lái)做測(cè)試,可以測(cè)試出更高的性能數(shù)據(jù),即支持更多的GPU卡,實(shí)現(xiàn)更高的存儲(chǔ)帶寬。

總結(jié)

基于本次在真實(shí)的環(huán)境上的全面測(cè)試,總結(jié)一下ExponTech與合作伙伴ScaleFlux, AIC基于英偉達(dá)的BlueField3 DPU以及英偉達(dá)最新發(fā)布的Spectrum-X網(wǎng)絡(luò)打造的新型AI Storage方案的關(guān)鍵特點(diǎn)和優(yōu)勢(shì):

世界頂級(jí)性能,SPC-1 評(píng)測(cè)超越所有高端全閃存儲(chǔ)陣列,打破世界紀(jì)錄,MLPerf Storage v1.0測(cè)試數(shù)據(jù)大幅度超越WekaIO, DDN等著名并行文件系統(tǒng);

世界頂級(jí)容量密度,當(dāng)前每2U Storage Node可實(shí)現(xiàn)超過(guò)1.6PB存儲(chǔ)裸容量,明年可擴(kuò)展至每2U超過(guò)6.6PB,最大化數(shù)據(jù)中心空間的AI數(shù)據(jù)價(jià)值;

配置的ScaleFlux CSD5000 NVMe SSD具有盤(pán)內(nèi)透明壓縮解壓縮能力,能夠在不消耗額外系統(tǒng)資源,不影響性能的情況下實(shí)現(xiàn)存儲(chǔ)裸容量的數(shù)倍放大,存儲(chǔ)容量效率獲得驚人的提升;

同一平臺(tái)上同時(shí)支持高性能分布式塊存儲(chǔ)和文件存儲(chǔ)等多種協(xié)議,除了支持AI的訓(xùn)練和推理場(chǎng)景,還可以覆蓋數(shù)據(jù)匯集,數(shù)據(jù)準(zhǔn)備,RAG等AI Pipeline全場(chǎng)景,無(wú)須為AI Pipeline配置不同的存儲(chǔ)方案以及反復(fù)進(jìn)行數(shù)據(jù)拷貝移動(dòng),可以實(shí)現(xiàn)AI算力和存力的完全存算分離和獨(dú)立擴(kuò)展,具備更好的可管理性和效率;

強(qiáng)大的并行擴(kuò)展性,存儲(chǔ)節(jié)點(diǎn)及計(jì)算節(jié)點(diǎn)均可以獨(dú)立的水平擴(kuò)展,同時(shí)實(shí)現(xiàn)存儲(chǔ)性能和容量的等比例擴(kuò)展;

可靠性高,可維護(hù)性高,存儲(chǔ)節(jié)點(diǎn)采用相比標(biāo)準(zhǔn)服務(wù)器更為精簡(jiǎn)的JBOF,硬件故障率更低,同時(shí)JBOF內(nèi)部采用冗余的硬件設(shè)計(jì)來(lái)保障可靠性,提升可維護(hù)性;

支持基于RoCE的超大規(guī)模組網(wǎng),采用RoCE動(dòng)態(tài)路由和細(xì)粒度的負(fù)載均衡實(shí)現(xiàn)更好的擁塞控制,基于標(biāo)準(zhǔn)以太網(wǎng)在大規(guī)模RDMA組網(wǎng)中實(shí)現(xiàn)高效帶寬, 低抖動(dòng)和超低時(shí)延;

優(yōu)化的總體擁有成本(TCO),高密度的存儲(chǔ)節(jié)點(diǎn)+透明盤(pán)內(nèi)壓縮+新型軟件定義存儲(chǔ)軟件的組合簡(jiǎn)化了硬件成本,大幅度提升了存儲(chǔ)空間利用效率和讀寫(xiě)性能,簡(jiǎn)化了管理,AI客戶(hù)將因此大幅度優(yōu)化其AI Storage的總體擁有成本(TCO);

基于此方案的KV Cache大規(guī)模持久化方案也即將推出,實(shí)現(xiàn)AI推理集群內(nèi)的K,V向量的全局共享,能夠以低成本高性能的大規(guī)模存儲(chǔ)能力替代AI推理過(guò)程中K,V向量的大量重復(fù)運(yùn)算,實(shí)現(xiàn)AI推理算力成本的大幅降低。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )