智算中心“火了”,但為什么火了起來?

撰文 | 李里里

編輯 | 李信馬

題圖 | IC Photo

“算力”相關產業(yè)近期持續(xù)火爆,智算中心的建設,也正在遍地開花。

據《全球計算力指數(shù)評估報告》顯示,全球算力排名美國和中國分列前兩位,同處于領跑者的位置,而在代表先進產業(yè)的 AI 算力上,中國以 AI 服務器指出規(guī)模同比增長 44.% 的增幅超過美國,位列全球第一。

據中國信息通信研究院測算,截至2021年底,中國算力核心產業(yè)規(guī)模超過1.5萬億元,關聯(lián)產業(yè)規(guī)模超過8萬億元。其中,云計算市場規(guī)模超過3000億元,互聯(lián)網數(shù)據中心(服務器)市場規(guī)模超過1500億元,AI 核心產業(yè)規(guī)模超過4000億元。

智算中心,簡單來說就是專門服務于人工智能的數(shù)據計算中心,能夠為人工智能計算提供所需的專用算力。隨著智能推薦、自動駕駛、智能制造等領域發(fā)展迅速,超大規(guī)模人工智能(AI)模型對算力的需求不斷提高,智算中心的建設也紛紛被提上日程。

7月30日,在中國首屆算力大會上,工業(yè)和信息化部副部長張云明表示:“算力已經成為繼熱力、電力之后新的關鍵生產力?!睋煌耆y(tǒng)計,從2021年1月1日到2022年2月15日,全國共有至少26個城市在推動或剛剛完成當?shù)刂撬阒行牡慕ㄔO,其中投入使用的有8個,包括南京、合肥等地的智算中心。除了這些投入使用的,全國至少還有18個城市簽約、開工、招標、計劃建設智算中心項目,包括深圳、長沙的項目都已經開工建設。

8月30日,阿里云宣布正式啟動張北超級智算中心,其建設規(guī)模為12?EFLOPS(每秒1200億億次浮點運算)AI算力,可以為AI大模型訓練、自動駕駛、空間地理等人工智能探索應用提供強大的智能算力服務。智算中心用來滿足AI計算需求,張北超級智算中心投入使用后,其算力規(guī)模超過了谷歌的9?EFLOPS和特斯拉的1.8?EFLOPS,成為全球最大的智算中心。

阿里云同步宣布了將啟動另一座位于烏蘭察布的智算中心,建設規(guī)模為3 EFLOPS(每秒300億億次浮點運算)AI算力。2020年,中國工程院院士、浪潮集團執(zhí)行總裁王恩東就曾提出,智算中心正在成為經濟社會運行的重要基礎設施,而如今,這一預測已然成為現(xiàn)實。

為什么要發(fā)展智算中心?

在8月30日的發(fā)布會上,阿里云智能全球銷售總裁蔡英華談到了近年來的兩個觀察:第一,是數(shù)字化轉型帶來了大量的數(shù)據,有機構預測2025年中國的數(shù)據量將達到48.6ZB,這驅動著我國算力基礎設施升級;第二,除了算力供給的總量在提升,算力供給的結構也在發(fā)生變化,十三五期間,我國算力總規(guī)模增長近5倍,其中通用算力增長接近3倍,但智能算力的增長接近百倍,智能算力在融合算力中的占比達到了40%,未來可能會更多。

據中國信通院數(shù)據統(tǒng)計,2016年至2021年,我國數(shù)字經濟規(guī)模從22.6萬億元增至45.5萬億元,增長1.01倍,總量穩(wěn)居世界第二,占GDP的比重39.8%。2021年全年,我國數(shù)據產量達到6.6ZB(1ZB約等于1萬億GB),占全球數(shù)據總產量(67ZB)的9.9%,僅次于美國而位列全球第二;且近三年來,數(shù)據產量保持每年30%左右的增速。

根據IDC、清華大學和浪潮信息聯(lián)合發(fā)布的《2021-2022全球計算力指數(shù)評估報告》,國家的算力指數(shù)每提高1個百分點,數(shù)字經濟和GDP將分別增長3.3‰和1.8‰。國家工業(yè)信息安全發(fā)展研究中心此前發(fā)布的《新一代人工智能算力基礎設施發(fā)展研究報告》認為,現(xiàn)階段人工智能已經成為世界各國競爭角逐的焦點。智算中心作為人工智能產業(yè)發(fā)展的重要底層基礎設施形態(tài),每單位功耗所能產生的計算的能力、智能的能力,遠遠高于傳統(tǒng)的算力中心,也因此被推向發(fā)展新高地。

目前我國的智算中心基本采用了高標準建設,算力高的像張北超級智算中心,少的也有100P,比如哈爾濱和鄭州的智算中心(1P相當于每秒運算能力為一千萬億次,100P大約相當于5萬臺高性能電腦的算力)。

“我們看到AI,或者說以數(shù)據為核心的AI場景智能化應用的使用趨勢在增加?!卑⒗镌浦悄芨笨偛?、行業(yè)解決方案銷售部總經理霍嘉表示,智算中心的價值,本質上來自于人工智能豐富的應用場景。智能計算和通用計算的區(qū)別,在于通用計算主要面向傳統(tǒng)的計算處理任務,或者離線大數(shù)據的計算,而智能計算可以滿足許多領域對人工智能、機器學習、深度學習的新需求,比如科研、 自動駕駛、生物制藥、智能制造、數(shù)字孿生、空間治理等一系列的場景,“可能很多時候大家沒有意識到在使用智能化的服務,其實打開高德導航的時候,背后全部是數(shù)據智能化應用,比如隨時提醒你改變一條道路。”

相比傳統(tǒng)數(shù)據中心,智算中心能滿足更具針對性的需求,以及更大的計算體量和更快的計算速度。從硬件上來看,傳統(tǒng)數(shù)據中心多采用通用計算的CPU,而智算中心中更多的是GPU等進行人工智能訓練的芯片;軟件上,智算中心會部署不同的人工智能框架,用于分配計算任務提高效率,并且提供了人工智能應用開發(fā)工具。

比如張北超級智算中心由飛天智算平臺支撐建設,據阿里云表示,其算力效率的核心指標“千卡并行計算效率”由傳統(tǒng)架構的40%提升至90%,算力資源利用率提高到3倍以上,AI訓練效率提升了11倍,推理效率提升了6倍。蔡英華表示,智算不僅在于規(guī)模大,沒有體系化的核心技術能力,堆硬件是堆不出算力的,更無法帶來實際的產業(yè)價值。

在阿里巴巴內部,飛天智算平臺支撐了達摩院前沿AI和電商智能技術的發(fā)展,并服務了小鵬汽車、深勢科技、上汽集團、中國氣象局、南方電網等機構和企業(yè)。其中,達摩院大模型M6僅使用512張GPU,在10天內就完成了10萬億參數(shù)模型訓練,阿里巴巴拍立淘訓練速度提升了200倍,10億張圖片全量訓練時間從2.5個月縮短到8小時;小鵬汽車在烏蘭察布建設智算中心“扶搖”,算力規(guī)模達600PFLOPS,是國內最大的自動駕駛智算中心,將自動駕駛模型訓練提速近170倍;深勢科技將集群性能優(yōu)化提升超過100%,讓分子動力學仿真模擬訓練效率提升了5倍。

今年8月初,浪潮信息總裁彭震曾表示:“根據全球服務器出貨量估算,從2020年到2025年全球算力規(guī)模將提高30倍,用于深度學習的人工智能算力規(guī)模每隔三四個月就翻一番。數(shù)字化、智慧化時代對于算力的需求幾乎是無窮盡的?!?/p>

這也意味著,智算中心的紛紛落地還在前期階段,未來仍有增長空間。

要高效,也要綠色

不過,智算中心的建設并沒有那么容易。

智能計算不同于通用型計算,需要海量數(shù)據對AI模式進行訓練,算力被損耗在數(shù)據遷移、同步等環(huán)節(jié),千卡以上規(guī)模的算力輸出最低往往僅有40%左右。傳統(tǒng)智算中心達到一定規(guī)模之后,增加算力資源反而會降低算力輸出的能力。這導致了智能算力成本高昂,制約了產業(yè)發(fā)展。

在張北和烏蘭察布的兩座超級智算中心,阿里云通過體系化的核心技術自研,改變了智能計算的損耗難題。據了解,基于阿里云磐久基礎設施的融合算力和大數(shù)據AI一體化平臺整體解決方案,可以實現(xiàn)“一云多芯”,以最高10倍IO優(yōu)化和5倍通信性能優(yōu)化,實現(xiàn)90%的千卡并行計算效率。其中在通信技術上,阿里云自研了Solar-RDMA網絡,實現(xiàn)端對端最低2微秒延遲,并配合了自研的無阻塞通信技術。此外在AI開發(fā)層,大數(shù)據+AI一體化平臺在模型訓練環(huán)節(jié),提供分布式訓練框架,可以將訓練效率提升了11倍以上。一站式的通用推理優(yōu)化工具可將推理效率提升6倍以上。

計算效率之外,另一個重要的問題是能耗,由于在數(shù)字化的過程中,算力會使用巨量的電力,如何在雙碳背景下降低能耗,近期被反復提及。在9月13日的《零碳制造論壇》上,國家信息中心信息化和產業(yè)發(fā)展部主任單志廣表示:“其實,數(shù)字技術本身并不是完全綠色化的,現(xiàn)在ICT的碳排放占比為2.3%左右,雖然碳排放總量不高,但增速非??欤瑩嚓P機構數(shù)據表明,其速度超過60%,到2040年總量會達到14%,超過現(xiàn)在排第三的建筑業(yè)。此外,2021年我國數(shù)據中心的整個用電量也達到了2160多億度,比2020年增加了44%,整個數(shù)據中心占了整個數(shù)字產業(yè)30%多的碳排放。所以降碳的需求也是非常大的?!?/p>

據工信部發(fā)布的《新型數(shù)據中心發(fā)展三年行動計劃(2021-2023年)》等政策,算力設施的建設方針和能耗管理逐漸趨于嚴格,如2023年新建大型及以上數(shù)據中心電能利用率(PUE)將被要求降到1.3以下。

阿里云大計算產品研發(fā)負責人曹政也對此表示:“在建設智數(shù)中心時,首先從IDC角度,你要有非常綠色的能耗,能降低成本,保證綠色發(fā)展?!睋私?,通過自然風冷、液冷等綠色技術的應用,阿里云讓智算中心的能耗持續(xù)降低,PUE最低可達1.09。

“我們在液冷領域應該已經有了六七年的研發(fā),現(xiàn)在液冷我們與其他家不太一樣的是,可以根據不同類型的服務器架構做自適應,現(xiàn)在我們單芯片功耗越來越高了,AI的加速芯片密度和熱量達到一定程度沒法擴展,這種情況下,不上液冷是不可能持續(xù)的,這是很現(xiàn)實的技術的要求?!?曹政表示。

智算中心在張北和烏蘭察布的落地,也與兩地得天獨厚的氣候與地質離不開關系。不過,阿里云智能副總裁、行業(yè)解決方案銷售部總經理霍嘉透露:“我們今天的數(shù)據中心建設,不是只在北方,在上海也已經啟動了華東智算中心的建設,隨著產業(yè)的發(fā)展,會有更多的智算中心,不單在中國,可能是在全球的很多地方都會有。其實現(xiàn)在也有一些客戶在跟我們溝通一些海外,幫他們做智算中心的一些事情。

當前發(fā)展數(shù)字經濟是國家戰(zhàn)略,政策支持力度不斷加大,“東數(shù)西算”全面鋪開,云計算、數(shù)據中心等基建投資不斷加碼。據IDC預測,2025年中國AI算力市場規(guī)模將達到701.8億元,占整體服務器市場近三成。彭震曾表示,智算中心的建設會圍繞開放標準、集約高效、普適普惠三個原則,未來發(fā)展主要有三個趨勢:更加開放多元的架構與標準體系;通過算力、算法的基建化和一體化,讓服務更加的高效;建立智算生態(tài),讓智算中心更好用。

工信部副部長張云明也表示,下一步工信部將要加速推進高端芯片、核心算法等算力關鍵核心技術的研發(fā)突破,攻克關鍵技術,支持企業(yè)、科研機構開展聯(lián)合攻關,增強算力產業(yè)鏈、供應鏈自主可控能力,并在綠色低碳發(fā)展等方面發(fā)力。

免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現(xiàn)的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。

2022-09-26
智算中心“火了”,但為什么火了起來?
最大不止于“大”

長按掃碼 閱讀全文