著名經濟學家、世界經濟論壇主席Klaus Schwab在《第四次工業(yè)革命轉型的力量》一書中認為,這一輪工業(yè)革命的核心是智能化與信息化,進而形成一個高度靈活、人性化、數字化的產品生產與服務模式。
誠然如斯。如今,以AI為代表的數字化技術正在推動第四次工業(yè)革命,以期實現生產力的又一次飛躍。但經歷多年數字化轉型之后,用戶們發(fā)現AI應用上依然面臨著諸多挑戰(zhàn)。越來越多用戶意識到AI要想真正發(fā)揮威力,不僅僅涉及到機器學習、聯(lián)邦學習、模型算法等,更與底部的數據平臺息息相關。
用好AI還必須先從數據平臺入手?沒錯!因為一個好的數據平臺猶如為AI應用構建好大規(guī)模應用的基礎,真正讓AI通用性變強,從而為生產力注入智慧的力量。
為什么基礎架構會遇到瓶頸
不可否認,AI的興起給基礎架構帶來了極大變化。Gartner就預測,到2025年,由于人工智能市場的成熟,人工智能將成為推動基礎架構決策的最主要因素之一,這將導致基礎架構需求增長10倍。
具體來看,當前所有的AI應用都是由數據、算法和算力驅動,并且呈現出一些非常典型的特征:
首先,模型走向大型化和復雜化,帶來了極大的數據量和數據處理需求。以OpenAI的GPT模型為例,2020年的GPT-3模型參數達到1750億個,預訓練數據量高達45TB,并且目前市場上諸多模型無論是規(guī)模、數據量、訓練層數均是屢創(chuàng)新高,對于數據存儲的需求也是肉眼可見地增加。
其次,AI應用實時性要求極高,使得像數據平臺等基礎設施迎來極大壓力。例如,像自動駕駛如今成為各大汽車廠商的核心競爭力,一輛L4級的自動駕駛車輛每天誕生高達60TB的數據,誰能夠更快訓練出更高階的自動駕駛技術,誰就能夠在市場中處于競爭領先位置。
“傳統(tǒng)的基礎架構無法適應AI數據處理,在數據到達GPU之前,消耗了70%的時間做數據準備。”Hitachi Vantara中國區(qū)技術銷售總監(jiān)謝勇介紹道,“GPU、XPU等各種算力在不斷提升,但數據存儲處理能力卻跟不上?!?/p>
Hitachi Vantara中國區(qū)技術銷售總監(jiān)謝勇
第三,越來越多智慧應用極度渴望多樣性數據,AI模型需要多維度數據來不斷訓練與成長。比如,在金融領域,過去大部分都是基于服務流程中產生的過程數據;現在,很多金融機構為了讓模型更加準確,往往會融入像地理信息的遙感數據、動物數據等,數據維度和豐富程度遠勝以往。
“總體來看,AI應用在不斷走向成熟,帶來了數據指數級增長,但用戶預算卻不斷縮減,很多用戶在數據平臺層遇到瓶頸。”謝勇如是說。
AI需要什么樣的數據平臺
如果說數據平臺是AI應用的地基,那么這個地基的優(yōu)劣直接決定著AI應用的效率和通用性。一旦AI效率和通用性問題得到解決,也即意味著數據生產力將產生質的變化。
從數據類型、數據處理流程和效率來看,由傳統(tǒng)存儲架構組成的數據平臺的確是有著天然的各種“缺陷”。比如,在很多用戶的實際環(huán)境中,依然是采用不同接口來接入到不同存儲系統(tǒng)之中,很難在一個數據平臺上滿足不同數據類型對于性能的不同需求,并且容易形成多個數據孤島;而從數據處理管道來看,存在多個數據孤島之間來回拷貝的環(huán)節(jié),不僅數據處理效率低下,而且性能無法滿足AI應用的處理需求。
因此,為AI而生的數據平臺應該是在性能、擴展性和易用性方面實現重塑,以滿足AI應用對于數據處理的各種需求。事實上,以Hitachi Vantara HCSF (Hitachi Content Software for File) 為代表的新一代數據平臺正是在這種趨勢下脫穎而出,它讓AI數據處理避免了分散管理流程,無需拷貝數據和復雜的性能調優(yōu),使得所有數據處理流程均在一個數據平臺中進行,并且進行自動化的性能調優(yōu),實現性能、擴展性和易用性等方面質的提升。
以性能為例,HCSF采用具備專利的元數據和數據的全分布式架構,以及NVMe和高速網絡設計,從而實現同時高效處理高吞吐/高IOPS/低延遲/高效元數據處理,性能比當前市場上所有全閃存NAS快十倍之多;在擴展性方面,HCSF具備從TB到EB級的擴展能力,還能從本地擴展到云端,并且能夠實現跨NVMe和OBS的統(tǒng)一命名空間;在易用性方面,實現了從安裝到數據協(xié)議接入、自動性能調優(yōu)的簡易化,讓用戶能夠很快上手。
“ HCSF作為一個完整的數據平臺,避免了傳統(tǒng)架構多臺設備并存帶來的復雜性和數據孤島,并且在數據接入、空間管理和云端協(xié)同方面均實現了極為簡易的操作。AI應用的數據處理過程中不需要來回流動、遷移和復制?!盚itachi Vantara中國區(qū)資深解決方案顧問蔡慧陽介紹道,“在傳統(tǒng)架構的數據平臺下,管理復雜性、性能調優(yōu)都往往需要專家級的技術人員,并且在元數據等層面存在極大缺陷?!?/p>
據悉,HCSF在交付方式上也非常靈活,可以提供軟硬一體化或者純軟的方式來滿足不同用戶的需求。此外,Hitachi Vantara也與多家云服務商達成合作,將HCSF直接部署在云端,為客戶提供更加靈活的選擇。
深耕AI場景,HCSF經受多個行業(yè)考驗
近年來,金融、科研、醫(yī)學、制造、汽車等行業(yè)均在加速推動AI應用,像金融領域的智能投顧、智能風控,醫(yī)學領域的精準醫(yī)學、看片機器人,科研領域的基因研究、地理空間研究;汽車領域的自動駕駛等等,無不體現出AI和數據生產力的價值。
事實上,也正是這些行業(yè)用戶率先在數據平臺上意識到傳統(tǒng)架構的不足,并且積極尋求新的數據平臺。謝勇表示:“過去三年,很多行業(yè)用戶均意識到AI應用的最大瓶頸并不是GPU卡,而是數據平臺層。”
以某量化基金公司為例,擁有幾百個節(jié)點的計算集群,采用最先機的GPU計算加速卡,以最先進的算力來跑量化模型,但三年實踐下來,無論后端數據平臺層如何優(yōu)化,依然在性能、擴展性方面存在巨大不足?!邦愃七@樣的用戶不在少數,他們均是在實踐AI之后才意識到數據平臺的重要性,并且均是通過HCSF解決了上述挑戰(zhàn)?!?/p>
又如汽車領域的自動駕駛場景,很多車企通常部署了數百臺配置先進GPU的計算集群進行自動駕駛訓練,每提升一個級別,意味著數據量呈指數級的增長,L5級的自動駕駛甚至能夠達到EB級的數據量,對于數據平臺的性能、容量和擴展性極為考驗。蔡慧陽介紹:“有車企在采用HCSF之后,一次訓練與仿真測試時間從過去80個小時縮短為4個小時,EB級的擴展能力也讓車企不再為容量擔憂?!?/p>
“HCSF是專門為AI而生的數據平臺,并且在多個行業(yè)的AI應用中獲得了很好的實踐。Hitachi Vantara推出HCSF的初衷就是以數據為中心,讓更多行業(yè)客戶可以更好地應用AI和提升數據生產力,從而實現運營效率的提升和商業(yè)創(chuàng)新?!敝x勇最后表示道。
免責聲明:此文內容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權歸作者所有,且僅代表作者個人觀點,與極客網無關。文章僅供讀者參考,并請自行核實相關內容。投訴郵箱:editor@fromgeek.com。
免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。