華為云FusionInsight湖倉一體解決方案的來世今生

伴隨5G、大數據、AI、IoT的飛速發(fā)展,數據呈現(xiàn)大規(guī)模、多樣性的極速增長,為了應對多變的業(yè)務訴求,政企客戶對數據處理分析的實時性和融合性提出了更高的要求,“湖倉一體”的概念應運而生,它打破數據湖與數倉間的壁壘,使得割裂數據融合統(tǒng)一,減少數據分析中的搬遷,實現(xiàn)統(tǒng)一的數據管理。

早在2020年5月份的華為全球分析師大會上,華為云CTO張宇昕提出了“湖倉一體”概念,在隨后的華為云與計算城市峰會上,“湖倉一體”理念跟隨華為云FusionInsight智能數據湖在南京、深圳、西安、重慶等地均有呈現(xiàn),在剛結束的HC2020上,張宇昕在發(fā)布新一代智能數據湖華為云FusionInsight時再次提到了湖倉一體理念。那我們就來看看湖倉一體的來世今生。

數據湖和數據倉庫的發(fā)展歷程和挑戰(zhàn)

早在1990年,比爾·恩門(Bill Inmon)提出了數據倉庫,主要是將組織內信息系統(tǒng)聯(lián)機事務處理(OLTP)常年累積的大量資料,按數據倉庫特有的資料儲存架構進行聯(lián)機分析處理(OLAP)、數據挖掘(Data Mining)等分析,幫助決策者快速有效地從大量資料中分析出有價值的資訊,以利決策制定及快速響應外在環(huán)境變化,幫助構建商業(yè)智能(BI)。

大約十年前,企業(yè)開始構建數據湖來應對大數據時代,它通常把所有的企業(yè)數據統(tǒng)一存儲,既包括源系統(tǒng)中的原始副本,也包括轉換后的數據,比如那些用于報表, 可視化, 數據分析和機器學習的數據。

縱觀數據湖與數據倉庫的技術發(fā)展,不難發(fā)現(xiàn)兩者有著各自的優(yōu)劣,具體表現(xiàn)如下:

華為云FusionInsight湖倉一體解決方案的來世今生

企業(yè)在進行系統(tǒng)架構設計選型時,需要從具體的分析場景出發(fā),單一的模式已經無法滿足企業(yè)發(fā)展的業(yè)務訴求,集中表現(xiàn)在以下兩個痛點:

?數據湖主要以離線批量計算為主,因為不支持數據倉庫的數據管理能力,難以提高數據質量;數據入湖時效差不支持實時更新,數據無法強一致性;主題建模不友好,無法直接歷史拉鏈建模;同時交互分析通常將數據搬遷到數據倉庫平臺,造成分析鏈路長,數據冗余存儲;批&流等場景融合不夠,無法滿足企業(yè)的海量數據處理訴求。

?數據倉庫滿足不了非結構化數據的分析需求,性價比不高;同時倉&湖間難以互聯(lián)互通,數據協(xié)同效率較低,無法支持跨平臺透明訪問,形成了事實上的數據孤島,找數困難;缺乏全局數據視圖,不同平臺接口差異和不同開發(fā)管理工具,造成用戶開發(fā)使用復雜,數據分別管理維護代價高體驗差。

  數據湖和數據倉庫正在從兩條技術演進路線走向融合

綜上,數據湖和數據倉庫在企業(yè)數據分析場景分別承擔一湖一倉的重要角色,形成了完整的數據分析生態(tài)系統(tǒng),上述企業(yè)場景面臨的2個關鍵痛點也在驅動數據湖和數據倉庫在技術演進上走向融合:

第一個融合方向是基于Hadoop體系的數據湖向數據倉庫能力擴展,湖中建倉,從DataLake進化到LakeHouse。LakeHouse結合了數據湖和數據倉庫特點,直接在用于數據湖的低成本存儲上實現(xiàn)與數據倉庫中類似的數據結構和數據管理功能。目前業(yè)界已經涌現(xiàn)了一些LakeHouse產品,如NexFlix開源Iceberg、Uber開源Hudi、Databricks的 DeltaLake。

華為云FusionInsight湖倉一體解決方案的來世今生

圖2從DataLake進化到LakeHouse,數據湖擴展數倉能力

以目前生態(tài)發(fā)展迅速的Apache Hudi為例:統(tǒng)一數據存儲,分布式存儲不同應用所需的各種類型數據;數倉模式執(zhí)行和治理,實現(xiàn)事務&更新機制,保證數據完整性和一致性,具有健壯的治理&審計機制;支持各種分析引擎,統(tǒng)一數據存儲通過開放和標準化的存儲格式(如Parquet),提供API以便各類工具和引擎(包括機器學習和Python / R庫)直接有效地訪問數據。

雖然LakeHouse并不能完全替代數據倉庫,但通過增強性能,支持實時入湖、建模、交互分析等場景,將在企業(yè)分析環(huán)境中發(fā)揮更大作用。

第二個融合方向是數據湖和數據倉庫協(xié)同起來向湖倉一體的融合分析架構發(fā)展,隨著企業(yè)數據量快速增長,不僅是結構化數據,也有非結構化數據,同時提出了對搜索/機器學習更多的能力要求,使得原來數倉技術不能夠有效的處理復雜場景,為此需擴展原有系統(tǒng),引入Hadoop大數據平臺實現(xiàn)新類型數據、新業(yè)務場景的支持。在這個背景下由Gartner在2011年提出邏輯數據倉庫的概念,預測企業(yè)數據分析傾向于轉向一種更加邏輯化的架構,利用分布式處理、數據虛擬化以及元數據管理等技術,實現(xiàn)邏輯統(tǒng)一物理分開的協(xié)同體系。

華為云FusionInsight湖倉一體解決方案的來世今生

圖3邏輯數倉的高階架構

湖倉一體可以認為是邏輯數據倉庫架構理念下針對Hadoop數據湖和MPPDB數據倉庫的融合架構的最好詮釋,數據對用戶將完全實現(xiàn)虛擬化,以邏輯統(tǒng)一的數據分析系統(tǒng)為企業(yè)提供數據分析服務:

用戶使用層面提供統(tǒng)一元數據管理和數據視圖,實現(xiàn)全局數據可見可查,支持標準統(tǒng)一訪問接口簡化用戶開發(fā),提供統(tǒng)一開發(fā)和治理的工具體系。

平臺層面Hadoop與MPPDB具備數據共享和跨庫分析能力,支持互聯(lián)互通、計算下推、協(xié)同計算,實現(xiàn)數據多平臺之間透明流動。

華為云FusionInsight湖倉一體解決方案參考架構

華為云FusionInsight智能數據湖涵蓋了分布式存儲、大數據、數據倉庫、數據治理等,融合了上述兩個技術演進方向,為企業(yè)用戶提供云原生湖倉一體解決方案,整體的參考架構如下:

華為云FusionInsight湖倉一體解決方案的來世今生

圖4 華為云FusionInsight湖倉一體解決方案參考架構

下面一起來看看:

數據存儲層:通過OBS統(tǒng)一管理湖&倉的存儲底座,將存儲在EC(Erasure Code糾錯碼)、可靠性方面的優(yōu)勢融入進了大數據生態(tài):

?云原生架構領先:基于云原生架構的OBS存儲,具有高帶寬,大并發(fā),分布式元數據等特征,因此相同成本的華為存算分離的湖倉一體化集群,數據讀寫性能領先業(yè)界30%。

?存儲計算分離有效降低TCO:支持大比例EC,副本數從3最低可降低至1.09,TCO下降20%+。

?統(tǒng)一元數據管理實現(xiàn)湖倉共享存儲資源池:通過獨立的Data Lake Catalog提供統(tǒng)一元數據管理,兼容HiveMetastore接口,可以無縫對接各類大數據組件。實現(xiàn)針對同一份元數據定義支持各類場景、對象、文件、大數據等不同協(xié)議間的數據共享,讓數據倉庫、數據湖、圖引擎、AI等多種計算引擎共享統(tǒng)一的數據存儲池。此方案不僅消除了孤立系統(tǒng)中的數據副本,還使得客戶可以按照業(yè)務按需使用計算存儲資源,不僅降低了CAPEX,還簡化了運維,從而達成最佳TCO。同時,Data LakeCatalog開放接口,支持和第三方的計算引擎層、數據治理層對接。

計算引擎層:把事務能力引入數據湖,通過HetuEngine標準SQL實現(xiàn)跨域多源統(tǒng)一訪問,湖&倉數據互通協(xié)同計算,數據免搬遷:

?CarbonData&Hudi數據實時入湖,實現(xiàn)數據湖事務能力:企業(yè)內部許多數據管道通常會并發(fā)讀寫數據,我們通過CarbonData& Hudi數據存儲引擎實現(xiàn)數據實時、增量更新,數據T+0實時入湖,大幅縮短傳統(tǒng)T+1、T+2時延;引入的增量處理框架,實現(xiàn)了數據湖事務能力,支持入湖過程中的Update/Delete等。

?HetuEngine支持跨源跨域統(tǒng)一SQL訪問,簡單易用:用戶層基于統(tǒng)一的標準SQL接口,對接多個數據源(HDFS, HBase, DWS等),提供秒級交互式訪問,滿足各種統(tǒng)計分析、多表Join關聯(lián)等,讓分析建模人員數據分析更容易,降低訪問門檻。

?HetuEngine&DWS-Express打破數據墻,數據免搬遷創(chuàng)新更敏捷:支持數據湖與數據倉庫間的數據互聯(lián)互通、跨平臺協(xié)同計算,數據免搬遷。HetuEngine在湖內基于統(tǒng)一數據目錄,實現(xiàn)高并發(fā),高性能的交互式查詢,基于一份數據進行批、流、交互式融合分析,貼源加工、整合關聯(lián)、主題加工等都在湖內,數據不出湖,分析鏈路短,加速業(yè)務創(chuàng)新;用戶可使用DWS-Express提供由成百上千節(jié)點組成的加速集群,對存儲在OBS上的海量數據進行在線分析,相比本地托管集群,效率提升數百倍。

?自研Superior調度器支持單集群2萬+節(jié)點規(guī)模,業(yè)界最佳:在一個集群內,通過華為自研的Superior調度器支持各種工作負載統(tǒng)一調度,包括數據科學、機器學習以及SQL和分析,調度速率達35萬Container/s,資源利用率達90%+,大幅降低企業(yè)投入成本。

?數據冷熱分級存儲實現(xiàn)更高效的全生命周期管理:DWS具備與OBS的雙向互通的能力,既能直接讀取OBS上的海量歷史數據,也能夠直接寫入數據到OBS。通過這個特性,我們可以對企業(yè)中的海量數據進行更加高效的全生命周期管理,分析中經常使用到的熱/溫數據存放在DWS中,較少使用的冷數據存放到OBS中,兼顧企業(yè)對分析性能和存儲經濟性的訴求。

?無縫銜接AI挖掘更多數據價值:深度優(yōu)化一站式開發(fā)平臺ModelArts&分布式圖計算引擎GES提高開發(fā)效率。提供基于數據湖的AI訓練推理能力,減少數據搬遷次數,基于100+機器學習算子和NLP算法,實現(xiàn)海量數據快速價值挖掘,滿足場景預測、自然語言處理及企業(yè)知識圖譜等應用; 讓GES更快捷地為金融等場景提供關系網絡分析等服務。

運營管理層:通過DAYU實現(xiàn)了湖&倉統(tǒng)一的數據集成、開發(fā)、目錄、治理、開放服務等的運營管理:

?數據集成:實現(xiàn)多源異構數據高效入湖,支持批/流/實時數據多種方式接入。其中,批量數據遷移基于分布式計算框架,利用并行化處理技術,支持用戶穩(wěn)定高效地對海量數據進行移動,實現(xiàn)不停服數據遷移,快速構建所需的數據架構;流和實時數據接入每小時可從數十萬種數據源(例如日志和定位追蹤事件、網站點擊流、社交媒體源等)中連續(xù)捕獲、傳送和存儲數TB數據。

?數據開發(fā):提供一站式敏捷數據開發(fā)平臺,提供可視化的圖形開發(fā)界面、豐富的數據開發(fā)類型(腳本開發(fā)和作業(yè)開發(fā))、全托管的作業(yè)調度和運維監(jiān)控能力,內置行業(yè)數據處理pipeline,一鍵式開發(fā),全流程可視化,支持多人在線協(xié)同開發(fā),支持管理多種大數據云服務,極大地降低了用戶使用大數據的門檻,幫助用戶快速構建數據湖數據處理中心。

?數據治理:為企業(yè)提供數據體系標準和數據規(guī)范定義的方法論,統(tǒng)一數據語言和數據建模;為普通業(yè)務人員提供高效、準確的數據搜索工具,高效找到數據;提供技術元數據與業(yè)務元數據的關聯(lián),業(yè)務人員快速讀懂數據;為數據提供有效的質量管控和評估手段,數據可信質量高。

?數據開放:為數據湖搭建統(tǒng)一的數據服務總線,幫助企業(yè)統(tǒng)一管理對內對外的API服務,支撐業(yè)務主題/畫像/指標的訪問、查詢和檢索,提升數據消費體驗和效率;支持100+開放API,擁有10+行業(yè)模板,使能行業(yè)ISV快速集成,助力客戶數據標準資產沉淀。

綜上所述,正是在三層架構都打通了湖倉的技術壁壘,我們才看到了真正的湖倉一體:

數據存儲層基于云原生領先架構,存算分離有效降低TCO,統(tǒng)一元數據管理實現(xiàn)湖倉共享存儲資源池,針對同一份元數據定義支持各種場景,提供API方便各類工具和引擎(包括機器學習、Python、R等)直接有效地訪問數據,這是實現(xiàn)湖倉一體的一個關鍵點;

計算引擎層為數據湖增加了事務能力提升了數據質量;利用HetuEngine通過標準SQL訪問跨域多源數據,實現(xiàn)湖&倉數據關聯(lián)分析協(xié)同計算,簡單易用;打破數據墻,在湖內基于統(tǒng)一數據目錄,可基于數據湖實現(xiàn)融合分析&AI訓練推理,減少數據搬遷,實現(xiàn)海量數據快速價值挖掘。

運營管理層則提供統(tǒng)一的數據開發(fā)和治理環(huán)境,具備安全管理功能,支持多引擎任務統(tǒng)一開發(fā)和編排,數據統(tǒng)一建模和質量監(jiān)測,實現(xiàn)湖倉一致的開發(fā)治理體驗。

未來展望

華為云FusionInsight智能數據湖基于客戶需求和技術演進趨勢持續(xù)創(chuàng)新,為企業(yè)客戶提供湖倉一體解決方案,致力于打造業(yè)界最佳的數據底座,讓企業(yè)業(yè)務的創(chuàng)新更敏捷,業(yè)務洞察更準確,加速釋放數據價值,和數據使能協(xié)同更好地服務千行萬業(yè)!

(免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現(xiàn)的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )