如何利用人工智能推動數(shù)據(jù)中心轉(zhuǎn)型?

瀏覽科技新聞頭條,你就會不由自主地認為人工智能(AI)即將改變幾乎所有行業(yè)。然而,通常情況下,這些故事描繪的人工智能驅(qū)動的顛覆仍然是假設(shè)的。而對于運營世界上最大數(shù)據(jù)中心的組織來說,轉(zhuǎn)型已經(jīng)開始。

生成式人工智能(GenAI)應(yīng)用對性能的超高要求及其爆炸式增長,正在將當前的數(shù)據(jù)中心網(wǎng)絡(luò)推向極限。為此,超大規(guī)模企業(yè)和云服務(wù)提供商正爭相添加數(shù)千個圖形處理單元和其他硬件加速器(xPU),以擴大人工智能計算集群。

連接它們需要網(wǎng)絡(luò)以前所未有的規(guī)模提供高吞吐量和低延遲,同時支持更復(fù)雜的流量模式,例如微突發(fā)。數(shù)據(jù)中心運營商不能像過去那樣,簡單地通過增加更多機架和光纖設(shè)備來滿足這些需求。無論是否準備好,他們別無選擇,只能重新構(gòu)想數(shù)據(jù)中心架構(gòu)。

新興的AI優(yōu)化數(shù)據(jù)中心結(jié)構(gòu)將會是什么樣子?它們將使用哪些接口技術(shù),以及它們將如何影響800-Gbps傳輸和下一代以太網(wǎng)的市場接受度?數(shù)據(jù)中心運營商目前正在研究這些問題,但即使在早期階段,我們也開始得到一些答案。

應(yīng)對人工智能網(wǎng)絡(luò)挑戰(zhàn)

預(yù)計每兩年,人工智能應(yīng)用流量將增長10倍,人工智能集群規(guī)模將增長4倍。這種增長部分源于人工智能應(yīng)用的普及,但很大一部分源于AI模型本身日益復(fù)雜,以及隨之而來的xPU到xPU通信的超大規(guī)模。

為了理解其中的原因,我們可以回顧一下人工智能工作負載的實際含義?;旧希珹I集群必須支持工作負載處理的兩個階段:

● 模型訓(xùn)練涉及攝取大量數(shù)據(jù)集來訓(xùn)練人工智能算法來尋找模式或建立關(guān)聯(lián)。

● 人工智能推理需要人工智能模型將其訓(xùn)練應(yīng)用于新數(shù)據(jù)。

這兩個階段都不會對主要用于數(shù)據(jù)采集的前端接入網(wǎng)絡(luò)產(chǎn)生重大的短期影響。然而,在后端集群中,密集的AI訓(xùn)練和推理工作負載需要一個單獨的、可擴展的、可路由的網(wǎng)絡(luò)來連接數(shù)千甚至數(shù)萬個xPU。

許多云服務(wù)提供商已經(jīng)在努力實現(xiàn)當前AI工作負載的TB網(wǎng)絡(luò)閾值。隨著人工智能模型的復(fù)雜性每三年增長1000倍,在不久的將來,他們可能需要支持具有數(shù)萬億個密集參數(shù)的模型。為了滿足這些需求,數(shù)據(jù)中心運營商需要提供以下功能的網(wǎng)絡(luò)結(jié)構(gòu):

極高的吞吐量:人工智能集群必須能夠處理極其計算和數(shù)據(jù)密集型的工作負載,并并行支持數(shù)千個同步作業(yè)。特別是AI推理工作負載,每個加速器產(chǎn)生的流量比前端網(wǎng)絡(luò)多5倍,需要的帶寬比前端網(wǎng)絡(luò)多5倍。

極低延遲:AI工作負載必須通過大量節(jié)點,因此系統(tǒng)中任何一點的過高延遲都可能導(dǎo)致嚴重延遲。當前AI工作負載處理中約三分之一的時間用于等待網(wǎng)絡(luò)。對于許多實時AI應(yīng)用,此類延遲可能導(dǎo)致用戶體驗不佳,甚至導(dǎo)致應(yīng)用無法使用。

零數(shù)據(jù)包丟失:當網(wǎng)絡(luò)嘗試緩沖或重新傳輸丟失的數(shù)據(jù)包時,數(shù)據(jù)包丟失可能是造成延遲的重要因素。這對于AI模型訓(xùn)練來說是一個大問題,因為在接收到所有數(shù)據(jù)包之前,工作負載操作甚至無法完成。

大規(guī)??蓴U展性:為了支持更先進的人工智能應(yīng)用,模型訓(xùn)練和其他分布式工作負載,必須能夠有效擴展到數(shù)千個節(jié)點上的數(shù)十億個參數(shù)。

總的來說,這些要求強調(diào)了后端AI基礎(chǔ)設(shè)施需要新的橫向擴展葉和脊架構(gòu)。使用數(shù)千個xpu的中等規(guī)模AI應(yīng)用可能需要帶有AI葉子層的機架級集群。連接數(shù)萬個加速器的最大人工智能集群將需要具有可路由結(jié)構(gòu)和人工智能葉脊的數(shù)據(jù)中心規(guī)模架構(gòu)。

人工智能市場不斷發(fā)展

關(guān)于人工智能的最大懸而未決的問題之一是新興應(yīng)用將如何影響800G以太網(wǎng)等下一代接口技術(shù)的采用。這也是一個正在展開的故事,但我們開始對市場將如何發(fā)展有了些許了解。

由于前端數(shù)據(jù)中心網(wǎng)絡(luò)將在很大程度上遵循傳統(tǒng)的升級時間表,預(yù)計到2027年,800G以太網(wǎng)將占前端網(wǎng)絡(luò)端口的三分之一。然而,在后端網(wǎng)絡(luò)中,運營商的遷移速度要快得多。在那里,800Gbps接口的采用率將以三位數(shù)的速度增長,到2027年幾乎涵蓋所有后端端口。

我們也開始了解運營商將使用哪種接口技術(shù)。預(yù)計在可預(yù)見的未來,大多數(shù)運營商將繼續(xù)在前端網(wǎng)絡(luò)中使用以太網(wǎng)。后端網(wǎng)絡(luò)將更加混雜,因為運營商會權(quán)衡熟悉、經(jīng)濟高效的以太網(wǎng)與專有InfiniBand(功能完善的網(wǎng)絡(luò)通信系統(tǒng))的無損傳輸能力。一些針對無法容忍不可預(yù)測性能的AI應(yīng)用的運營商將選擇InfiniBand。其他運營商將結(jié)合使用以太網(wǎng)和新協(xié)議,以及每個流擁塞控制,以實現(xiàn)低延遲無損流。還有一些運營商將同時使用這兩種協(xié)議。

展望未來

目前,對于最佳AI集群大小、接口類型或高速接口遷移路徑,還沒有單一的答案。對于特定運營商來說,正確的選擇取決于多種因素,包括他們計劃針對的AI應(yīng)用類型、這些工作負載的帶寬和延遲要求以及無損傳輸?shù)男枨?。但考慮因素不僅僅是技術(shù)因素。運營商還需要考慮他們是否計劃在內(nèi)部支持密集的模型訓(xùn)練工作負載還是將其外包,他們對標準化技術(shù)還是專有技術(shù)的偏好,對不同技術(shù)規(guī)劃圖和供應(yīng)鏈的適應(yīng)程度等等。

無論運營商如何回答這些問題,有一個事實已經(jīng)很清楚:鑒于人工智能應(yīng)用的發(fā)展速度如此之快,適當?shù)臏y試和驗證比以往任何時候都更加重要。驗證標準合規(guī)性、互操作性以及定時和同步的能力,是快速遷移到下一代網(wǎng)絡(luò)接口和架構(gòu)的必備功能。幸運的是,測試和仿真工具正在與人工智能一起發(fā)展。無論未來的人工智能數(shù)據(jù)中心是什么樣子,業(yè)界都將準備好支持它們。

免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2024-05-30
如何利用人工智能推動數(shù)據(jù)中心轉(zhuǎn)型?
生成式人工智能(GenAI)應(yīng)用對性能的超高要求及其爆炸式增長,正在將當前的數(shù)據(jù)中心網(wǎng)絡(luò)推向極限。為此,超大規(guī)模企業(yè)和云服務(wù)提供商正爭相添加數(shù)千個圖形處理單元和其他硬件加速器(xPU),以擴大人工智能計算集群。

長按掃碼 閱讀全文