解析Advancing AI 2024:端到端AI,AMD開啟下一個黃金十年

10月11日消息(岳明)讓我們把時鐘撥回到7年前,2017年6月,AMD推出了公司面向數據中心市場的EPYC系列,憑借多核設計、PCIe 擴展選項以及原始內存帶寬等優(yōu)勢,EPYC開始展露頭腳。

七年后的今天,AMD EPYC CPU市場份額已經從原來的不足2%,持續(xù)成長到今年上半年的34%,七年之內實現了17倍的份額提升!但這顯然不是AMD的終極目標。

在本周舉行的Advancing AI 2024大會上,AMD董事會主席兼首席執(zhí)行官蘇姿豐博士指出,“展望未來,我們看到,2028年,數據中心、人工智能、加速器市場將增長至5000億美元。通過我們擴展的芯片、軟件、網絡和集群級解決方案,我們致力于提供大量開放式創(chuàng)新?!?/p>

端到端的AI,這將是AMD的新戰(zhàn)場,而且AMD已經做好了全方位的準備。

全方位升級第五代EPYC處理器重磅登場

作為AMD的明星產品,在今天的Advancing AI 2024大會上,AMD正式發(fā)布了家族代號為“Turin”的第五代EPYC處理器,全系采用臺積電3/4nm制程工藝打造,最高支持192核384線程,頻率最高達到5GHz,AVX512指令集支持完整的512位寬的數據路徑,整體IPC提升17%,并且兼容現有的SP5平臺,在密度、能效、寬開路堆棧方面實現了全方位升級。

具體來看,得益于Zen5架構高度的靈活性,第五代EPYC處理器在架構封裝方面更為靈活。既能夠打造出最高16個Zen5 CCD的128核256核全大核處理器,也能夠打造出最高12個Zen5c CCD的192核384線程的全小核處理器,可以為不同客戶提供豐富的、多元化的選擇。

同時,第五代EPYC處理器家族在ISA和IPC方面得到提升,其核心數量從8核延展到192核心,TDP從155W到500W,并且升級支持12通道DDR5-6400內存,支持128 PCIe5.0/CXL 2.0,并且提供更高度安全性的I/O。

以全新的AMD EPYC 9005系列處理器中的EPYC 9965為例,對比英特爾相關產品,SPEC CPU 2017整數吞吐量是其2.7倍;在視頻轉碼、商用APP、開源數據庫、圖片渲染等工作負載性能方面,最高達到了4倍的性能提升;企業(yè)級HPC性能方面,性能提升3.9倍;基于CPU的AI性能提升3.8倍,Llama3.1-70B大模型為基準的GPU Host節(jié)點提升1.2倍。

在數據中心服務器升級換代方面,第五代EPYC的升級難度以及成本相對更低。1000臺老舊英特爾至強白金8280服務器可以用131臺EPYC 9965服務器替代,能耗僅為原來的68%,服務器數量減少87%,3年TCO降低67%,可以有效幫助企業(yè)用戶節(jié)約空間與能耗。

根基已穩(wěn)AMD Instinct穩(wěn)步前行

作為智算算力的重要載體,GPU是市場關注的焦點;作為為數不多能與英偉達正面抗衡的廠商,AMD在AI加速器市場的舉措,無疑備受關注。

在Advancing AI 2024大會上,AMD也拿出了自己的誠意,正式發(fā)布了更新版本的Instinct MI325X加速器。

作為MI300X的升級版本GPU,MI325X配置了288GB HBM3E內存和6TB/秒的內存帶寬;也正是因為在內存和帶寬方面的優(yōu)化,AMD Instinct MI325X在多個模型的推理表現領域優(yōu)于英偉達H200。

AMD提供的測試數據顯示,在多個模型的推理表現領域,AMD Instinct MI325X優(yōu)于英偉達H200。在訓練方面,無論是在單GPU還是在8 GPU的Meta Llama-2訓練場景,AMD Instinct MI325X平臺的表現也都優(yōu)于英偉達H200。

對于芯片廠商而言,清晰明確是技術路線圖是取信于用戶與市場的關鍵。AMD Instinct 加速器的下一代產品——AMD Instinct MI350系列應該將于2025年面世;AMD Instinct MI400系列或將于2026年亮相。

與前兩代產品不同,AMD Instinct MI350系列產品預計基于AMD CDNA 4架構設計;同時,AMD Instinct MI350系列產品還將使用了先進的3nm工藝技術構建,搭載高達288 GB的HBM3E內存,并支持FP4和FP6 AI數據類型,進一步提升了整體的性能表現。

同時,為了降低開發(fā)者的使用門檻,AMD還將持續(xù)更新其ROCm系列,推動最廣泛使用的AI框架、庫和模型對AMD計算引擎的支持,最終實現AMD Instinct加速器在流行的生成 AI 模型(如 Stable Diffusion 3、Meta Llama3、3.1 和 3.2 以及 Hugging Face 上的一百多萬個模型)上的開箱即用的性能和支持。

加速AI網絡擴展以太網+DPU+AI NIC將是“神組合”

談到AI,可能很多人的第一反應是CPU/GPU,是算力短缺;但實際上,網絡正在成為制約AI系統(tǒng)性能的關鍵,平均30%的訓練時間被用來等待聯網;而在分布式推理中,通信更是占40%-75%的時間。這對于動輒部署萬卡集群的用戶而言是難以承受的。

如何去構建這張網絡,在此次Advancing AI 2024大會上,AMD給出的答案是以太網+DPU+AI NIC。在此次大會上,AMD正式發(fā)布了基于P4引擎的第三代DPU產品Pensando Salina 400以及Pensando Pollara 400。

Pensando Salina 400是一個面向前端網絡的DPU,也是是全球性能最高、可編程性最強的DPU產品。與上一代產品相比,其性能、帶寬和規(guī)模提高了2倍。同時,該DPU還支持400G吞吐量以實現快速數據傳輸速率,可優(yōu)化數據驅動型 AI 應用的性能、效率、安全性和可擴展性。

Pensando Pollara 400則是業(yè)內首個UEC ready AI NIC,支持下一代RDMA軟件和開放的網絡生態(tài)系統(tǒng),可以在后端網絡中提供加速器到加速器通信的領先性能、可擴展性和效率。在產品上市時間方面,Pensando Salina DPU和Pensando Pollara 400 均在今年第四季度向客戶提供樣品,并有望在明年上半年上市。

聚焦商用PC市場銳龍 AI PRO 300實現端到端AI

對于企業(yè)級用戶而言,AI不能飄在空中。作為當前最主要的生產力工具,PC則是實現AI落地的最佳載體。

在Advancing AI 2024大會上上,AMD就正式推出了面向移動商用市場的銳龍AI PRO 300系列,搶占商用AI PC市場的先機。

作為首款專為企業(yè)Copilot+PC而設計的芯片,銳龍AI PRO 300 CPU部分采用Zen 5架構,NPU采用XDNA 2架構,GPU采用RDNA 3.5架構。其中NPU算力提升到至高55 TOPS,完全滿足微軟Copilot+PC 40 TOPS以上的條件。

為了滿足多個應用場景的需求,AMD 銳龍AI PRO 300提供了三個SKU供選擇。與競爭對手的同類型產品相比,銳龍AI PRO 300系列的表現全面領先。例如在與Intel Core Ultra 7 165U相比時,AMD銳龍AI 7 PRO 360的CPU性能領先30% ;與Intel Core Ultra 7 165H相比時,銳龍AI 9 HX PRO 375 CPU的性能更是領先40%。

作為終端生產力工具,續(xù)航能力同樣非常重要。由于采用了領先的4nm制程,搭載這款移動商用處理器的AI PC一般使用時間可達23小時;連續(xù)使用Microsoft Teams進行視頻會議,續(xù)航也可超過9小時。

寫在最后

面向確定性的AI未來,無論是CPU、GPU、DPU,還是軟件,或亦是網絡和集群解決方案,AMD已經做好了準備,開啟新的黃金十年。正如蘇姿豐博士在社交媒體上所言:“10年前,我有幸被任命為AMD的首席執(zhí)行官。這是一段令人難以置信的旅程,有很多值得驕傲的時刻。今天,我要感謝全球的AMD團隊所做的一切。盡管過去的10年令人驚嘆,但最好的還在后面?!?

免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。

2024-10-11
解析Advancing AI 2024:端到端AI,AMD開啟下一個黃金十年
解析Advancing AI 2024:端到端AI,AMD開啟下一個黃金十年,C114訊 10月11日消息(岳明)讓我們把時鐘撥回到7年前,2017年6月,AMD推出了公司面向數

長按掃碼 閱讀全文