將人工智能整合到傳統(tǒng)數(shù)據(jù)中心有多復雜?
將人工智能(AI)技術整合到傳統(tǒng)數(shù)據(jù)中心基礎設施中是一項極具挑戰(zhàn)性的任務。隨著AI工作負載需求的不斷攀升,數(shù)據(jù)中心面臨著諸多難題,其中最為突出的便是熱量與負載的顯著增加。這不僅要求配備先進的冷卻系統(tǒng)來應對額外的熱量,還需對數(shù)據(jù)中心的結構進行調(diào)整,并大幅提升電力容量,以確保整個系統(tǒng)的穩(wěn)定運行。
在當前形勢下,各種規(guī)模的數(shù)據(jù)中心都在積極將其基礎設施向先進的AI服務器整合。然而,傳統(tǒng)數(shù)據(jù)中心在設計之初并未考慮到要處理如此大幅增加的服務器負載與熱量,這使得AI的整合過程變得異常復雜。實際上,AI集成所需的專門設計與超大規(guī)模數(shù)據(jù)中心所采用的設計有諸多相似之處,而超大規(guī)模數(shù)據(jù)中心同樣面臨著高負載的嚴峻挑戰(zhàn)。AI服務器處理速度的提升以及對它們?nèi)找嬖鲩L的需求,導致處理器產(chǎn)生的熱量遠超傳統(tǒng)冷卻系統(tǒng)在傳統(tǒng)數(shù)據(jù)中心中的散熱能力,這就迫使冷卻系統(tǒng)必須不斷進化,以跟上溫度升高的步伐。這一進化過程涉及到基礎設施和設計的諸多變更,包括地板負載、機柜空間、機架密度和電力管理等方面,同時還需要集成液冷系統(tǒng)。
地板負載與機柜
早期的機架柜尺寸為24英寸(610毫米)見方,重量大約在250磅(113千克)左右。在大多數(shù)情況下,建筑樓板在通過提升式訪問地板承載負載時能夠承受這種重量。但隨著人工智能服務器的不斷進步與整合,機柜的重量和尺寸都有了顯著增加。如今,現(xiàn)代機柜的承載能力已達到2,500-3,000磅(1,134-1,361千克)。如此之重的機柜,可能已經(jīng)超出了大多數(shù)新建建筑的樓板評級所能承受的范圍。
為了應對這種情況,管理員需要對機柜進行更換或加固,以確保能夠支撐AI服務器增加的重量。這需要對機柜的尺寸和重量、服務器機架的數(shù)量、通道設計、冷卻系統(tǒng)以及活動地板的承重能力等進行綜合評估,而這些因素又會因樓層高度和設備放置位置的不同而有所差異。特別深的機柜往往難以適應現(xiàn)有的排間距,從而給布局帶來了極大的挑戰(zhàn)。值得慶幸的是,IBM提供了一個地板負載計算器,可以方便地估算設備的地板負載值,為管理員在進行相關決策時提供有力的數(shù)據(jù)支持。
電力供應
標準的數(shù)據(jù)中心機柜通常包含42個機架單元,而最常見的機架配置功率范圍在100千瓦到150千瓦之間。傳統(tǒng)的數(shù)據(jù)中心設計主要是基于5千瓦到10千瓦的機架密度。然而,AI服務器集成則需要至少50千瓦的機架密度。在這種情況下,傳統(tǒng)的交流電路和布線已無法高效地為更大的AI陣列提供所需的電流。除此之外,傳統(tǒng)的電源線、插頭和插座也未針對AI服務器機柜內(nèi)的高溫環(huán)境進行評級,這無疑增加了電力供應系統(tǒng)的風險。
目前,許多AI平臺已經(jīng)標準化為400伏直流電,這就需要特殊的電源和集成的電力分配總線。管理員必須聘請專業(yè)的專家,將所有電力整合到包含計算機架的機柜復雜結構中,并安裝電力總線來管理在地板上升起的電力分配。通過這種方式,不僅可以提高氣流效率,還能提升冷卻效果,從而更好地滿足AI服務器的運行需求。
在電力饋線方面,其中的電路額定值僅適用于一個AI計算集群平臺,這可能是傳統(tǒng)數(shù)據(jù)中心中最常見的配置。對于更大規(guī)模的安裝,通常會使用更高的電壓,并且所有電力都應具備冗余性,以確保系統(tǒng)的穩(wěn)定性和可靠性。穩(wěn)定的不間斷電源(UPS)能源對于全天以100%容量運行的AI基礎設施至關重要。因此,管理員必須對增加的電力需求進行全面評估,以整合和維持AI服務器操作,并及時更新電氣系統(tǒng),使其能夠滿足能源需求。同時,還應評估備用發(fā)電機并進行必要的升級,以確保備用系統(tǒng)能夠處理增加的能源消耗,從而有效減少停機時間,保障數(shù)據(jù)中心的正常運行。
冷卻系統(tǒng)
許多AI服務器支持直接到芯片的液體冷卻回路,這些回路專門用于冷卻處理器。直接到芯片的冷卻系統(tǒng)能夠承擔高達75%的熱負荷,而傳統(tǒng)的冷卻系統(tǒng)則負責處理剩余的熱負荷。例如,如果一個60千瓦的機柜需要25%的補充空氣,那么就需要15千瓦的空氣冷卻,這在設計良好的數(shù)據(jù)中心冷卻設備的容量范圍內(nèi)是可以實現(xiàn)的。然而,一個150千瓦的機柜則需要30千瓦到45千瓦的空氣冷卻,這已經(jīng)超出了大多數(shù)傳統(tǒng)空氣系統(tǒng)的備用容量。而對于一個250千瓦的安裝,可能需要50千瓦到75千瓦甚至更多的空氣冷卻,在大規(guī)模數(shù)據(jù)中心中,雖然這種需求是可行的,但對冷卻系統(tǒng)的壓力和要求也相應大幅提高。
冷卻系統(tǒng)必須能夠提供全天候的服務,并具備冗余性和極高的可靠性,這是確保數(shù)據(jù)中心穩(wěn)定運行的關鍵因素之一。有效的冷卻系統(tǒng)設計在很大程度上取決于數(shù)據(jù)中心所處的地理位置和環(huán)境條件。例如,在炎熱干燥的氣候條件下,蒸發(fā)冷卻或使用單獨的冷卻塔可能是最佳選擇;而在水資源稀缺或涼爽的氣候環(huán)境中,干冷卻是更為合適的選擇。
向計算設備分配水時,需要使用冷卻液分配單元(CDU)。這些專用的熱交換器能夠將建筑物的設施水供應與機柜的技術水供應有效連接起來。直接冷卻芯片采用微通道技術,但這也存在一定的風險,可能會被污染的水堵塞。而CDU則能夠徹底過濾和處理設施的水供應,從而避免這一問題。小型CDU可以安裝在機架上,方便靈活;大型CDU則配有平衡閥,能夠連接具有不同流量和壓力要求的設備,以滿足多樣化的冷卻需求。
此外,還有一種替代冷卻方法是使用需要冷卻水的主動式機柜門冷卻器。主動式門冷卻器雖然會消耗一定的風扇功率,但通常比大型空氣冷卻裝置更節(jié)能。這種冷卻方式使得集成芯片和風冷機柜成為可能,為數(shù)據(jù)中心的冷卻方案提供了更多的選擇和靈活性,有助于優(yōu)化整體的冷卻效果和能源利用效率。
綜上所述,將人工智能整合到傳統(tǒng)數(shù)據(jù)中心是一個復雜而艱巨的任務,涉及到多個方面的重大調(diào)整和升級。數(shù)據(jù)中心的管理者和相關技術人員需要充分認識到這些挑戰(zhàn),并采取有效的措施來應對,以確保數(shù)據(jù)中心能夠順利地適應人工智能時代的發(fā)展需求,實現(xiàn)高效、穩(wěn)定和可靠的運行。
- 四大通信央企2024年度業(yè)績考核全A
- 人工智能支持的邊緣設備安全:構建下一代邊緣網(wǎng)絡安全體系
- 工信部謝存:截至6月底,搭載開源鴻蒙系統(tǒng)產(chǎn)品超11.9億臺
- 工信部謝存:截至6月底,5G基站總數(shù)達到455萬個 5G移動電話用戶達11.18億戶
- 人工智能在制造業(yè)的應用為何現(xiàn)在至關重要?
- 美國移動市場整合最新動態(tài):T-Mobile收購UScellular遭強烈反對
- 美國移動市場整合最新動態(tài):T-Mobile收購UScellular遭強烈反對
- 人工智能時代的數(shù)據(jù)保護革命:為何傳統(tǒng)備份策略不再適用
- IDC:2024年中東和非洲地區(qū)電信服務支出增長率領先全球
- 商務部回應美方批準對華銷售英偉達H20芯片:美方應摒棄零和思維 繼續(xù)取消不合理限制
免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。