6月10日-11日,由云原生計算基金會(CNCF)主辦的KubeCon+CloudNativeCon China 2025,在中國中國香港成功舉辦。作為全球云原生技術領先者和生態(tài)共建先行者,華為重磅參與了此次大會。
會上,華為首席開源聯(lián)絡官、CNCF基金會董事任旭東帶來《Towards Clouds of AI Clusters》的主題演講,深度分享了AI時代的算力集群技術演進趨勢,介紹了華為在異構集群管理、超大規(guī)模集群調度、云邊協(xié)同AI等領域的應用實踐,以及openEuler、Volcano、Karmada、KubeEdge、openFuyao等開源項目的最新進展。
開源加速技術裂變:從云原生到AI原生的價值躍遷
“開源”作為加速創(chuàng)新協(xié)同的重要范式,匯聚全球智慧、縮短創(chuàng)新周期、催化更多創(chuàng)新應用落地,也為下一輪技術革命創(chuàng)造指數(shù)級價值。
任旭東表示,“回顧歷次科技革命可以發(fā)現(xiàn),從技術發(fā)明到產業(yè)大規(guī)模應用的時間正在縮短,并且每一次新的技術革命都是基礎設施層的重大變革,并且創(chuàng)造了更多價值。”
開源生態(tài)的成熟成為技術擴散的關鍵。2013年Docker宣布其開源計劃,歷經數(shù)年發(fā)展,云原生技術以其彈性、敏捷的特征重塑應用開發(fā)與部署模式,持續(xù)創(chuàng)造商業(yè)價值。
進入智能時代,頭部企業(yè)市值也早已超過萬億。站在新的歷史拐點,開源驅動的AI原生技術體系,正為十萬億美元級企業(yè)的誕生孕育土壤。
萬億大模型背后的算力困局
任旭東表示,當前企業(yè)在管理AI工作負載時,仍面臨嚴峻挑戰(zhàn),尤其是在大模型訓練、推理中對算力規(guī)模和集群協(xié)同的極高要求。
以DeepSeek V3為例,其參數(shù)量為6710億,單卡性能已無法滿足此類模型的需求,集群并行計算提升算力規(guī)模將是企業(yè)突破算力瓶頸、實現(xiàn)大模型落地的必由之路。
而這不僅需要異構硬件的高效協(xié)同,更依賴開源技術棧和分布式范式,如數(shù)據(jù)并行、模型并行、流水線并行進行深度支持,對異構算力的全棧兼容,最終才能在降低單位訓練推理成本的同時,加速萬億參數(shù)級模型的商業(yè)化落地進程。
為響應上述需求,華為從硬件驅動到集群資源調度實現(xiàn)算力設備的統(tǒng)一管理,支持HyperNode與多集群拓撲感知調度,并對PyTorch/TensorFlow/MindSpore等主流框架、大語言模型(LLMs)及智能體開發(fā)場景提供統(tǒng)一支持的全棧開源基礎設施解決方案。
“通過openEuler、Volcano、Karmada、KubeEdge、openFuyao五大項目,華為實現(xiàn)了從操作系統(tǒng)到平臺層的全棧開源打通與落地,幫助企業(yè)實現(xiàn)AI集群內優(yōu)化、跨集群協(xié)同和云邊協(xié)同,從而破解人工智能發(fā)展算力基礎設施上面臨的困局。”
openEuler:操作系統(tǒng)與AI應用雙向進化
任旭東首先介紹了智能時代操作系統(tǒng)底座openEuler的開源進展。2019年,華為將openEuler正式對外開源,2021年,華為攜手伙伴將openEuler正式貢獻給開放原子開源基金會,并運作至今。從2023年開始,openEuler便將支持人工智能作為核心發(fā)展目標之一,并開啟了“AI for OS”與“OS for AI”的協(xié)同進化。
其一,AI for openEuler:即利用人工智能大模型技術創(chuàng)新讓openEuler系統(tǒng)更智能。例如在版本中集成的openEuler智能化解決方案,支持基于自然語言的可視化交互。通過MCP Server,標準化整合了A-Tune調優(yōu)、A-Ops自動化運維等核心能力,并提供DevStation全流程開發(fā)平臺,oeDeploy一鍵分鐘級安裝部署工具等,用戶只需簡單操作,即可利用AI完成漏洞自動化修復、自然語言問答、代碼輔助生成、編譯構建、環(huán)境安裝部署等功能,使開發(fā)智能應用的效率提升至天級,運維效率提升50%以上。
其二,openEuler for AI:即讓openEuler成為更堅實的AI工作負載底座。首先,openEuler聚焦拓展和強化軟硬件生態(tài):從底層到上層,既支持通用計算與智能計算的全部主流硬件,又與AI框架、加速器及庫深度合作,打造全棧開源、“開箱即用”的容器鏡像生態(tài):目前各類鏡像倉庫中已有超200個此類鏡像,為用戶和開發(fā)者提供無縫銜接的體驗,并以此助力AI應用創(chuàng)新。此外,openEuler一直注重技術創(chuàng)新,通過GMem異構內存融合技術,sysHAX異構算力協(xié)同技術,最大化發(fā)揮CPU在推理中的利用率,使AI推理任務吞吐量提升50%。
Volcano:云原生智能調度,提升AI訓練和推理效率
作為業(yè)界首個云原生批量處理計算項目,Volcano自2019年開源以來,為人工智能、大數(shù)據(jù)等高性能計算場景提供支持,已成為處理計算密集型任務的關鍵平臺。
任旭東介紹,Volcano能力涵蓋隊列與資源管理、統(tǒng)一作業(yè)API、多樣化調度策略、在離線混部、GPU虛擬化、異構算力支持及性能優(yōu)化等關鍵領域。特別是針對當前大規(guī)模人工智能集群的調度需求,Volcano通過引入了基于HyperNode的網絡拓撲感知調度策略,提升人工智能訓練和推理效率。
譬如,360集團成功構建了超萬卡規(guī)模的智算集群,而Volcano作為CNCF官方孵化的云原生調度引擎,成為這一戰(zhàn)略平臺的核心中樞,助力360集團實現(xiàn)了眾多突破。
●全場景生態(tài)兼容:無縫支持Kubernetes全生態(tài)工作負載,覆蓋大數(shù)據(jù)(Spark)、AI訓練、大語言模型等多元化場景,形成統(tǒng)一算力調度底座;
●資源效率躍升:通過智能調度算法將集群資源碎片率控制在7%以內,分配率超85%,利用率提升至45%以上,年調度Pod量突破100萬+,大模型訓練任務性能優(yōu)化15%~20%;
●成本與效率雙優(yōu):依托資源池化與閑時共享機制降低硬件采購成本,通過統(tǒng)一調度平臺減少運維復雜度,實現(xiàn)“算力規(guī)模化”與“管理輕量化”的雙向突破。
Karmada:破解AI任務部署多集群編排難題
Karmada是一款用于云原生多集群工作負載的通用容器編排器,可用于管理傳統(tǒng)工作負載和人工智能工作負載。
當前,人工智能業(yè)務面臨集群選擇效率低、任務交付易出錯、資源利用率低下等難題,其核心原因在于缺乏智能編排器,而Karmada的自動化編排能力可系統(tǒng)性破解這些問題。
Karmada通過三大核心功能實現(xiàn)智能調度:
●多樣性的策略部署:Karmada能提供豐富的集群部署策略,用戶可輕松定義任務在多集群間的分布規(guī)則,從而避免人工決策的耗時與誤差。
●智能化資源解析:Karmada支持通過簡易配置自動提取AI任務的資源特征,調度器基于實時數(shù)據(jù)生成最優(yōu)分配方案,從而解決“任務需求與集群能力錯配”問題。
●動態(tài)化集群匹配:Karmada能夠持續(xù)監(jiān)測各集群的GPU/CPU利用率、網絡負載等關鍵指標,結合任務優(yōu)先級動態(tài)匹配最佳執(zhí)行集群,從而大幅提升AI推訓過程資源利用效率。
KubeEdge:Sedna云邊協(xié)同AI推理,優(yōu)化算力成本
在工業(yè)場景,數(shù)據(jù)在邊緣生成。但邊緣計算資源有限,模型推訓需要將數(shù)據(jù)發(fā)送到云端進行計算。這對云邊帶寬提出了很高的要求。在這一人工智能應用場景,任旭東也帶來了KubeEdge Sedna的最新進展。
KubeEdge是業(yè)界首個云原生邊緣計算項目,并于2024年10月成為CNCF首個畢業(yè)級的邊緣計算項目。其邊緣人工智能子項目Sedna,為開發(fā)者提供了云邊協(xié)同人工智能框架,在學習與推理模式上支持聯(lián)合推理、聯(lián)邦學習等多樣化模式。而在兼容性方面,Sedna與TensorFlow、PyTorch、MindSpore等主流人工智能框架無縫對接,開發(fā)者無需大幅改動代碼,就能將現(xiàn)有AI應用快速遷移至邊云協(xié)同環(huán)境,大大降低了開發(fā)門檻與成本。
“借助KubeEdge Sedna的云邊協(xié)同機制,用戶可靈活設置推理置信度閾值:邊緣端通過輕量化模型完成數(shù)據(jù)初篩,滿足置信度標準的結果直接本地返回,僅將疑難樣本傳輸至云端進行深度推理。這一機制使邊緣側計算資源需求降低50%,同時將云邊數(shù)據(jù)傳輸量削減90%,顯著優(yōu)化了帶寬壓力與算力成本。”
openFuyao:構建萬級節(jié)點級算力集群軟件生態(tài)
隨著人工智能的發(fā)展,算力需求持續(xù)爆發(fā),集群已成為當前業(yè)界應對算力需求快速增長的主要解決方案。然而,集群軟件生態(tài)的發(fā)展滯后,也導致異構硬件協(xié)同效率低下、資源調度精細化不足、跨集群協(xié)同能力缺失等問題日益凸顯。
“openFuyao希望與產業(yè)伙伴及開發(fā)者攜手,構建一個多樣化的算力集群軟件開源社區(qū),共同推動集群軟件發(fā)展,為世界提供多樣化算力集群軟件開源生態(tài)。”任旭東表示。
openFuyao面向企業(yè)伙伴,提供在線/離線混部、NUMA親和等算力調度組件,能夠實現(xiàn)資源利用率及性能超30%提升,支持超16000節(jié)點的超大規(guī)模集群;面向開發(fā)者,提供可插拔架構,實現(xiàn)分鐘級的一鍵安裝部署,以及小時級的平滑升級。
同時,openFuyao社區(qū)已于5月對外發(fā)布。任旭東呼吁廣大開發(fā)者加入openFuyao社區(qū),共建多樣化集群算力軟件生態(tài)及技術創(chuàng)新。
AI算力生態(tài)躍遷:從云原生到AI原生
在智能計算的賽道上,技術突破從不是單一個體的孤軍奮戰(zhàn),而是開源生態(tài)中千萬開發(fā)者與企業(yè)的接力長跑。
從云原生到AI原生的征程中,需要操作系統(tǒng)、算力調度、編排、邊緣計算等各領域的開源項目并肩前行,也需要模型訓練、推理服務等領域持續(xù)突破。開源,能吸引更多的企業(yè)、開發(fā)者加入到這場技術接力中來,共同走進智能新時代。
(免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現(xiàn)的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )