原標(biāo)題:傳統(tǒng)HPC擁抱大數(shù)據(jù)與人工智能?沒那么難也沒那么貴
人工智能、大數(shù)據(jù)時(shí)代的到來,給企業(yè)發(fā)展帶來新機(jī)遇的同時(shí),也帶來了新的煩惱,不菲的投入讓不少企業(yè)只能望人工智能、大數(shù)據(jù)卻步。
擁抱人工智能的苦惱
下面是一個(gè)真實(shí)的企業(yè)場景:由于業(yè)務(wù)相關(guān),這家企業(yè)很早就建設(shè)了高性能計(jì)算集群,不過利用率一直也不算高。隨著人工智能、大數(shù)據(jù)時(shí)代的到來,這家企業(yè)想著如果能把原有的存量資源用起來,豈不是兩全其美,但當(dāng)真正想把這一設(shè)想落地的時(shí)候,發(fā)現(xiàn)挑戰(zhàn)還是挺多的。
這樣的苦惱相信不少企業(yè)都有,一邊是現(xiàn)存高性能計(jì)算集群大量閑置的計(jì)算、存儲(chǔ)資源,一邊是上馬人工智能、大數(shù)據(jù)等前沿項(xiàng)目,居高不下的成本。
這樣的矛盾有辦法解決嗎?
答案當(dāng)然是有的。英特爾高性能計(jì)算融合平臺(tái)就致力于用同一通用平臺(tái),同時(shí)支持仿真和建模等傳統(tǒng)高性能計(jì)算應(yīng)用,以及人工智能與數(shù)據(jù)分析等新型應(yīng)用。目前,該平臺(tái)已經(jīng)有了不少落地實(shí)踐。
英特爾在其中究竟做了些什么?我們不妨先看看傳統(tǒng)的高性能計(jì)算集群建設(shè)模式和現(xiàn)在有什么不一樣?參見下圖。
如圖左,過去高性能計(jì)算集群建設(shè)是跟著應(yīng)用走,每上一個(gè)新項(xiàng)目,計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)、資源管理器等軟硬件就建設(shè)一次。由此帶來的問題很多,數(shù)據(jù)孤島、資源利用率低……現(xiàn)在呢?如圖右,計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)資源池化,統(tǒng)一資源管理器承載各種不同的應(yīng)用。
簡單類比,從圖左到圖右就是從傳統(tǒng)IT到云的轉(zhuǎn)變。從左到右需要做的工作也很清晰,三層:資源池化、資源管理器統(tǒng)一化、應(yīng)用優(yōu)化。一層一層展開:
資源層,打通
計(jì)算、存儲(chǔ)、網(wǎng)絡(luò),毫無疑問,難點(diǎn)在存儲(chǔ),因?yàn)槿斯ぶ悄?、大?shù)據(jù)分析的核心其實(shí)是數(shù)據(jù)的存儲(chǔ)、調(diào)用。
為此,英特爾使用Alluxio進(jìn)行存儲(chǔ)抽象化。Alluxio 是加州大學(xué)伯克利分校開發(fā)的一款開源軟件,可為各類存儲(chǔ)上的多個(gè)對象和文件存儲(chǔ)區(qū)中的數(shù)據(jù)創(chuàng)建單點(diǎn)訪問。
具體而言,Alluxio可將任意完全不同的數(shù)據(jù)存儲(chǔ)區(qū)集合作為可通過單一標(biāo)準(zhǔn)接口訪問的單一虛擬數(shù)據(jù)源提供給應(yīng)用。這樣,用戶就能在應(yīng)用和數(shù)據(jù)之間建立“任意對任意”的聯(lián)系,且無需考慮這些資源的物理位置或格式化方式。
換句話說,對于用戶來說,通過使用Alluxio,應(yīng)用無需進(jìn)行復(fù)雜且耗時(shí)的配置,即可訪問現(xiàn)有數(shù)據(jù),省時(shí)省力。另外,從軟件開發(fā)的角度來看,也省去了很多代碼開發(fā)工作。
事實(shí)上,為了保證存儲(chǔ)的性能和效率,Alluxio做了很多針對性改進(jìn)。
比如,爭奪緩存資源是分布式應(yīng)用最常見的挑戰(zhàn)之一,這會(huì)導(dǎo)致應(yīng)用必須從磁盤而非緩存訪問數(shù)據(jù),從而降低性能。而Alluxio可提供分布式共享緩存,通過支持應(yīng)用將共享訪問層中經(jīng)常訪問的數(shù)據(jù)緩存到系統(tǒng)內(nèi)存,來幫助克服性能缺陷。
很顯然,使用 Alluxio進(jìn)行存儲(chǔ)抽象化相當(dāng)于另一種方式的存儲(chǔ)資源池化,能夠在盡可能利用現(xiàn)有資源的前提下,幫助企業(yè)過渡到一組較小的、為融合平臺(tái)提供服務(wù)的通用數(shù)據(jù)存儲(chǔ)區(qū)。
而在計(jì)算層面和網(wǎng)絡(luò)層面,業(yè)界已經(jīng)有很多成熟的解決方案,這里不一一而足。值得一提的是,為了促進(jìn)高性能計(jì)算和人工智能的融合,英特爾在硬件研發(fā)方面也做了很多調(diào)整,基于全新英特爾技術(shù)創(chuàng)新,包括英特爾至強(qiáng)可擴(kuò)展處理器、英特爾傲騰數(shù)據(jù)中心級(jí)持久內(nèi)存等,用戶可以有力推進(jìn)二者的融合。
比如,實(shí)測數(shù)據(jù)顯示,與三年機(jī)齡的系統(tǒng)相比,搭載第二代英特爾至強(qiáng)可擴(kuò)展處理器的平臺(tái)在高性能計(jì)算CPU基準(zhǔn)測試中的平均性能提高多達(dá)3.7倍。此外,與競爭處理器相比,在 LINPACK CPU基準(zhǔn)測試中可將性能提升高達(dá)5.8倍。在人工智能推測方面,與競爭處理器相比,集成了英特爾深度學(xué)習(xí)加速的第二代英特爾至強(qiáng)可擴(kuò)展處理器可使圖像分類推理性能提升高達(dá)25倍。
資源管理器層,統(tǒng)一
由于每種工作負(fù)載的資源管理器在設(shè)計(jì)之初并沒有考慮彼此之間的互操作性,所以沒有一體適用的方案,為此英特爾正在研究多種解決方案,以對客戶現(xiàn)有環(huán)境進(jìn)行改造。這里介紹兩個(gè)方案。
一個(gè)是面向高性能計(jì)算批量調(diào)度程序的Magpie,架構(gòu)圖如下
Magpie是美國勞倫斯利物莫國家實(shí)驗(yàn)室的一個(gè)開源項(xiàng)目, 目的就是在高性能計(jì)算環(huán)境中運(yùn)行TensorFlow,英特爾深度參與其中。應(yīng)該說,為了更好的支持該方案,英特爾做了很多工作來確保各種工作負(fù)載擁有出色的性能和穩(wěn)定性。
最終的成果是,保證在同一平臺(tái)獨(dú)立運(yùn)行Apache Spark的同時(shí),仿真和建模工作負(fù)載照舊,二者互不干擾。另外,使用Horovod Magpie提交人工智能或數(shù)據(jù)分析工作負(fù)載的作業(yè),幾乎沒有額外開銷,且不會(huì)造成任何明顯的性能降級(jí)。
另一個(gè)方案是Univa Grid Engine和Resource Broker,架構(gòu)圖如下。
Univa Grid Engine是一個(gè)需要商業(yè)許可的資源管理器。不久前,該公司將Univa Universal Resource Broker開源,用于管理和優(yōu)化分布式應(yīng)用、服務(wù)與大數(shù)據(jù)框架,其可以抽象化處理分布式數(shù)據(jù)中心資源,從而創(chuàng)建一個(gè)跨物理服務(wù)器、虛擬機(jī)、混合云和容器運(yùn)行的單一虛擬資源池。
除了傳統(tǒng)的仿真和建模,該方案允許用戶使用Univa Grid Engine擴(kuò)展集群,從而支持Apache Spark和TensorFlow等工作負(fù)載。
從本質(zhì)上說,該方案是把Universal Resource Broker作為適配器,從而將各種工作負(fù)載與Univa Grid Engine 集成在一起,而Universal ResourceBroker允許任何與Apache Mesos兼容的軟件在UnivaGrid Engine上運(yùn)行。
應(yīng)用層,優(yōu)化
英特爾深度參與人工智能、大數(shù)據(jù)的整個(gè)生態(tài)系統(tǒng)中,貢獻(xiàn)、優(yōu)化包括TensorFlow、MXNet 和Caffe等在內(nèi)的深度學(xué)習(xí)框架。
眾所周知,人工智能在今天的應(yīng)用已經(jīng)不局限于常見的圖像識(shí)別、語言翻譯、推薦引擎、生成式設(shè)計(jì)和生成式對抗網(wǎng)絡(luò),隨著技術(shù)的不斷下沉,欺詐檢測、地震關(guān)聯(lián)、安全、安保和預(yù)測性維護(hù)等場景與人工智能的關(guān)聯(lián)也越來越緊密。
針對這種情況,英特爾開發(fā)了面向深度神經(jīng)網(wǎng)絡(luò)的英特爾數(shù)學(xué)核心函數(shù)庫(英特爾MKL-DNN) 。通過為在英特爾架構(gòu)上運(yùn)行訓(xùn)練和推理相關(guān)的資源密集型操作提供高度調(diào)優(yōu)的數(shù)學(xué)函數(shù),改進(jìn)人工智能框架在硬件上的橫向擴(kuò)展能力,優(yōu)化框架在高性能計(jì)算平臺(tái)的適用性。
另外,英特爾與谷歌建立了長期合作關(guān)系,共同優(yōu)化TensorFlow。基于英特爾處理器部署英特爾MKL-DNN,能夠給性能帶來數(shù)量級(jí)的提升。
特別值得一提的是,用戶只需要使用英特爾MKL-DNN的設(shè)置來構(gòu)建TensorFlow即可,無需進(jìn)行任何軟件或配置更改即可利用這些優(yōu)化,十分簡便。而且,這些優(yōu)化還在不斷進(jìn)行中。
此外,英特爾還參與了大量開源項(xiàng)目的優(yōu)化建設(shè)。比如,英特爾目前正在為ApacheSpark 開發(fā)功能,以便利用通過OpenFabrics接口提供消息傳遞的高性能結(jié)構(gòu)。
總結(jié)全文,人工智能、大數(shù)據(jù)……新技術(shù)催生新時(shí)代正在到來,未來很美好,但挑戰(zhàn)也不小,有各種各樣的,本文講的主要是如何利舊。從中不難看出,英特爾絕不只是一家處理器公司,在底層,在大家看不到的地方,英特爾做了非常多的工作。有這方面訴求的企業(yè)不妨去找英特爾去深入了解一下,擁抱人工智能、大數(shù)據(jù)沒那么難、沒那么貴。
- 世間將再無松下電視:松下官宣解散家電子公司并徹底放棄電視機(jī)業(yè)務(wù)
- 雅迪集團(tuán)與南都電源簽署協(xié)議:攜手共繪固態(tài)電池未來藍(lán)圖
- 美媒聚焦比亞迪“副業(yè)”:電子代工助力蘋果,下個(gè)大計(jì)劃瞄準(zhǔn)AI機(jī)器人
- 微信零錢通新政策:銀行卡轉(zhuǎn)入資金提現(xiàn)免手續(xù)費(fèi)引熱議
- 消息稱塔塔集團(tuán)將收購和碩印度iPhone代工廠60%股份 并接管日常運(yùn)營
- 蘋果揭秘自研芯片成功之道:領(lǐng)先技術(shù)與深度整合是關(guān)鍵
- 英偉達(dá)新一代Blackwell GPU面臨過熱挑戰(zhàn),交付延期引發(fā)市場關(guān)注
- 馬斯克能否成為 AI 部部長?硅谷與白宮的聯(lián)系日益緊密
- 余承東:Mate70將在26號(hào)發(fā)布,意外泄露引發(fā)關(guān)注
- 無人機(jī)“黑科技”亮相航展:全球首臺(tái)低空重力測量系統(tǒng)引關(guān)注
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。