2020云棲大會召開,大數據時代,數禾科技力推數據湖

“數智未來,全速重構”,2020云棲大會于9月17日通過線上直播的方式正式開啟。緣起2009年,歷經11載,云棲大會不光成長為全世界科技工作者的一大盛會,同時也成為了一個分享和洞察未來科技產業(yè)發(fā)展趨勢的舞臺。

本次云棲大會共有400余位重磅嘉賓與會,包括10位國家院士、70余位頂級學者、300位國內外知名企業(yè)管理者、青年科學家; 上百款新品發(fā)布,涵蓋云計算、人工智能、機器學習、量子計算、芯片、AIOT、組織協(xié)同、新零售、新金融、數字政府等領域……大會無疑成為了未來十數年產業(yè)與技術發(fā)展的風向標。

作為金融科技公司中的佼佼者,數禾科技也應邀參會。數字時代下,數據就好比工業(yè)的“原油”,如何高效的“提取煉制”,發(fā)揮其最大效用?對此,數禾科技大數據負責人萬鵬發(fā)表了“金融科技云上數據湖構建和管理之道”主題演講,指出了當下大數據于金融科技領域運用存在的問題以及瓶頸,分享了數禾科技云+數據湖解決方案,受到了廣泛關注。

“成”也大數據,“敗”也大數據

“你不會借錢給你不了解的人,因為信息不對稱”,萬鵬表示,“金融科技可以良性開展的核心點在于信貸風控,它要解決的核心問題是面對海量有著信貸需求的互聯(lián)網用戶,如何在信息不對稱的情況下為其提供金融服務,而大數據在其中發(fā)揮了顯著作用。”

目前,金融科技領域常用的風控體系,主要以基于各種風控模型收集的相關數據為基礎數據,再經由風控策略驅動AI等技術實現調用,對用戶風險進行多維度評估。比如通過圖像監(jiān)測模型、中介評估模型、申請評分模型等,對用戶工作地區(qū)、工作情況、多頭借貸等數據進行分析數據,實現對用戶風險評估,在大幅降低信息不對稱的情況下,做出是否提供信貸服務、服務額度多少等決定。

可以看到,大數據的運用起到了至關重要的作用,并且如果模型中的變量與策略足夠豐富、科學,就可以有效應用更多有用數據,也就意味著系統(tǒng)更“認識”用戶,風險評估也將更為準確有效。這種經由某種模型、規(guī)則處理過的數據通常稱為結構化數據。不過隨著業(yè)務的開展與拓展,金融活動的實時性與不間斷性越發(fā)明顯,金融風險構成的交叉性和復雜程度也更加突出,這就導致在服務場景復雜化的同時,數據積累出現了超出預期的暴增,傳統(tǒng)大數據結構已經難承其重。

  深耕行業(yè)需求,“科技云+數據湖”破局

面對因為市場發(fā)展而帶來的行業(yè)難題,數禾科技采用了“云+數據湖”的解決方案,它的特點就是靈活、高效、成本低。

“數據湖”概念自2011年被提出以來,就被業(yè)界廣泛討論,有人認為它是“新瓶裝舊酒”,也有人認為它是新一代數據倉庫。較為清晰的定義是,“數據湖是一個集中化存儲海量的、多個來源、多種類型數據,并可以對數據進行快速加工、分析的平臺,本質上是一套先進的企業(yè)數據架構”。但它如何對企業(yè)賦能,其實仍在摸索過程中。數禾科技在“云+數據湖”方案的應用,無論是在金融科技領域,還是其它大數據運用領域,已經成為了先行者。

首先,對于日益見長的數據體量,云技術的發(fā)展為新的數據存儲架構與處理引擎的開發(fā)奠定了基礎,數據湖就是其中一種。數據湖不但允許用戶在其中存儲任意形式、任意規(guī)模的數據,同時,不會在其內部對存儲數據自動進行結構化,只有當用戶調用數據時,才會利用強大的數據查詢、處理、分析等組件,對系統(tǒng)進行相應的處理和應用,為用戶數據的使用提供定制化支持。

換言之,數據湖可以存儲并調用包括結構化、非結構化、半結構化數據等一切數據。事實上,數據顯示,非結構化數據在企業(yè)數據中占比高達80%,并且每年還在以55%~65%的速度增長,對任何企業(yè)而言,這都是一筆難以估量的財富,僅對信貸風控一項進行賦能,就可以對風控能力的提升起到立竿見影的效果。

要搭建這樣一套體系顯然并非易事,數禾科技的做法就是摸著石頭探索前行。

早在2016年創(chuàng)立之初,數禾科技就搭建了小而全的開源大數據集群,這套系統(tǒng)持續(xù)運行了兩年。隨著公司業(yè)務與數據規(guī)模的擴大,由于計算資源與存儲資源無法彈性變化,集群出現了離線計算與實時計算爭奪資源的問題。2018年,為跳出困境,數禾科技采取了剝離實時計算于EMR之上,關鍵應用場景以云上Hbase承接的做法,但僅在一年之后,存儲成本高、權限管理難度大、架構過于復雜等問題的暴露又讓公司苦不堪言。最終,公司壯士斷腕,下線了原來全部的集群,設計出一種基于OSS對象存儲和EMR的流批一體數據湖架構,一步到位解決了性能、數據隔離以及數據共享三大難題,享受到了結構簡單、存儲低廉、彈性計算帶來的種種好處。

  精益數據管理,數禾科技的五大原則

為進一步挖掘數據湖持續(xù)產生價值的能力,數禾科技摸索出了精益數據管理的五大原則。一是全面紀錄,在用戶授權的前提下,以大數據收集技術驅動業(yè)務全流程數據收集的深度化、多維化、持續(xù)化;二是全面實時化,解決因時間變化而產生的持續(xù)性信息不對稱問題,讓人與系統(tǒng)實時做出決策;三是全面治理,進行數據質量、成本、架構、效率的全面治理,實現數據管理“降本增效”;四是場景驅動,大數據提供服務時圍繞關鍵業(yè)務痛點展開,“好鋼用在刀刃上”;五是安全合規(guī),杜絕灰色空間,堅守數據管理合規(guī)底線。

正是因為這樣的專業(yè)與專注,數禾科技得到了業(yè)內與用戶的廣泛認可。截至目前,包括銀行、消費金融公司、信托、小貸、保險等機構,國內已有30余家持牌機構與數禾展開深度合作,數禾打造的智能獲客、智能風控、精細運營等全鏈路金融科技技術,為中小金融機構與商業(yè)機構數字化轉型提供了強大驅動力;其旗下分眾小貸的“還唄”,面向年輕人提供賬單分期與商品分期服務,及至目前,已被超過5000萬消費者選用。

云棲大會不但是一場科技盛會,也是未來產業(yè)與科技發(fā)展趨勢的一次集中體現,可以預見,這些新發(fā)布的技術、產品,必然會驅動產業(yè)的革新。數禾科技云+數據湖的提出不光是數禾科技研發(fā)能力與科技實力的表現,也是在互聯(lián)網科技爆發(fā)的時代下,有志于積極探索新技術企業(yè)的一個縮影。未來,數禾科技將更加積極投身于新技術的研發(fā)與應用,為產業(yè)進步再立新功。

(免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )