2019年9月份開(kāi)始,一部分大數(shù)據(jù)公司在用戶不知道的情況下通過(guò)網(wǎng)絡(luò)爬蟲(chóng)爬取個(gè)人隱私數(shù)據(jù),監(jiān)管機(jī)構(gòu)針對(duì)大數(shù)據(jù)風(fēng)控行業(yè)進(jìn)行了一場(chǎng)聲勢(shì)浩大的合規(guī)檢查,數(shù)家大數(shù)據(jù)公司被協(xié)助調(diào)查甚至直接被查封。這場(chǎng)風(fēng)暴,讓整個(gè)大數(shù)據(jù)行業(yè)如履薄冰,很多人近日談爬蟲(chóng)色變。
據(jù)了解,互聯(lián)網(wǎng)上 超過(guò)50%以上的流量都是爬蟲(chóng)創(chuàng)造的,爬蟲(chóng)本身只是互聯(lián)網(wǎng)中常見(jiàn)的一種工具,例如我們用的搜索引擎,還有很多熱門(mén)數(shù)據(jù)都是通過(guò)高性能的爬蟲(chóng),才能有效地為用戶提供更好的服務(wù),技術(shù)是中立的,其實(shí)并不存在非法的性質(zhì)。
另一方面,國(guó)家十三五規(guī)劃綱要在2016年出臺(tái)時(shí),就提出將在 2020 年把大數(shù)據(jù)產(chǎn)業(yè)做到一萬(wàn)億產(chǎn)值。雖然國(guó)內(nèi)的大數(shù)據(jù)行業(yè)還處于初級(jí)階段,但每家金融機(jī)構(gòu)潛在的大數(shù)據(jù)資源非常豐富,只是很多數(shù)據(jù)在企業(yè)內(nèi)部是分散的、凌亂的、沒(méi)有體系化的數(shù)據(jù),屬于破解等待發(fā)掘的“金礦”。
那么,在這種背景下,如何有效利用合規(guī)數(shù)據(jù),避免違規(guī)陷阱呢?如何在監(jiān)管機(jī)構(gòu)允許的數(shù)據(jù)隱私保護(hù)條例下,將外部的合規(guī)數(shù)據(jù)與企業(yè)內(nèi)部的數(shù)據(jù)內(nèi)外結(jié)合,形成高價(jià)值的“大數(shù)據(jù)資產(chǎn)”呢?如何基于數(shù)據(jù)打造自己的獨(dú)特核心競(jìng)爭(zhēng)力呢?這就涉及一個(gè)金融機(jī)構(gòu)的數(shù)據(jù)戰(zhàn)略問(wèn)題:如何有效利用合規(guī)數(shù)據(jù),避免違規(guī)陷阱?這就需要我們對(duì)爬蟲(chóng)和數(shù)據(jù),有個(gè)系統(tǒng)的了解與準(zhǔn)確的認(rèn)識(shí)。
一、網(wǎng)絡(luò)爬蟲(chóng)是什么?有哪些價(jià)值?
網(wǎng)絡(luò)爬蟲(chóng)又稱(chēng)網(wǎng)絡(luò)機(jī)器人、網(wǎng)絡(luò)蜘蛛,是互聯(lián)網(wǎng)時(shí)代一項(xiàng)運(yùn)用非常普遍的網(wǎng)絡(luò)信息搜索技術(shù)。爬蟲(chóng)的本質(zhì)是一種能自動(dòng)獲取網(wǎng)頁(yè)信息并按照指定規(guī)則提取相應(yīng)內(nèi)容的程序。一個(gè)最簡(jiǎn)單的例子,我們經(jīng)??吹慕袢疹^條、微博等,其新聞資訊大都來(lái)源于對(duì)合作媒體及相關(guān)網(wǎng)頁(yè)采取的爬蟲(chóng)。通過(guò)網(wǎng)絡(luò)爬蟲(chóng),可以將互聯(lián)網(wǎng)各個(gè)角落收集來(lái)的信息,匯總后再進(jìn)行分類(lèi)、排序,梳理出熱點(diǎn)新聞,實(shí)現(xiàn)及時(shí)、動(dòng)態(tài)更新推送。
在金融行業(yè),以網(wǎng)絡(luò)爬蟲(chóng)為基礎(chǔ)獲取合規(guī)數(shù)據(jù),進(jìn)而基于人工智能機(jī)器學(xué)習(xí)、NLP、知識(shí)圖譜等技術(shù),可以發(fā)揮高價(jià)值的應(yīng)用場(chǎng)景主要包括:
1、精準(zhǔn)營(yíng)銷(xiāo)領(lǐng)域:通過(guò)采集用戶消費(fèi)行為數(shù)據(jù),分析和用戶消費(fèi)偏好,形成千人千面的“用戶畫(huà)像”,進(jìn)而有針對(duì)性的推送商品、促銷(xiāo)、廣告等行為,提升營(yíng)銷(xiāo)效果。
2、風(fēng)險(xiǎn)控制領(lǐng)域:基于大數(shù)據(jù)、云計(jì)算、機(jī)器學(xué)習(xí)、知識(shí)圖譜等技術(shù),把網(wǎng)絡(luò)采集到的工商、司法等合規(guī)數(shù)據(jù)與自有數(shù)據(jù)結(jié)合,挖掘數(shù)據(jù)資產(chǎn)的價(jià)值,對(duì)企業(yè)及用戶的貸前、貸中、貸后等全領(lǐng)域進(jìn)行更加準(zhǔn)確的評(píng)估,最大程度的避免風(fēng)險(xiǎn)、減少損失;
3、輿情監(jiān)測(cè)領(lǐng)域:通過(guò)爬取網(wǎng)頁(yè)、論壇、微博、微信等開(kāi)放的網(wǎng)絡(luò)信息,自動(dòng)分析出正面積極的或者色情、暴力、負(fù)面信息等,提前做風(fēng)險(xiǎn)預(yù)警。
二、什么是合規(guī)的數(shù)據(jù)?
一方面,網(wǎng)絡(luò)爬蟲(chóng)技術(shù),極大促進(jìn)了數(shù)據(jù)資源的流通和變現(xiàn);另一方面,隨著金融、電商等各類(lèi)場(chǎng)景的數(shù)據(jù)爬取案件頻發(fā),如何將這一“灰色地帶”提上數(shù)據(jù)治理議程已成為非常緊迫的現(xiàn)實(shí)問(wèn)題。
1、哪些是正確的爬法?
2019年10月30日,上海交通大學(xué)數(shù)據(jù)法律研究中心執(zhí)行主任、數(shù)據(jù)法盟創(chuàng)始人何淵在2019數(shù)字信用與風(fēng)控年會(huì)暨零壹財(cái)經(jīng)新金融秋季峰會(huì)上表示,官方的態(tài)度實(shí)際上是很明確的,數(shù)據(jù)并不是不能爬,“說(shuō)得很清楚,收集的時(shí)候不能采取妨礙網(wǎng)站的正常運(yùn)行,甚至有一個(gè)尺度,流量不能超過(guò)別人網(wǎng)站的1/3”。這個(gè)觀點(diǎn),可以作為一個(gè)參考。
2、哪些是違規(guī)的爬法?
通過(guò)侵入他人計(jì)算機(jī)信息安全系統(tǒng)去爬個(gè)人信息、國(guó)家秘密、商業(yè)秘密以及爬取數(shù)據(jù)導(dǎo)致影響市場(chǎng)競(jìng)爭(zhēng)秩序的,就構(gòu)成了違法。
在不能爬什么方面,可以總結(jié)為“三全一穩(wěn)定,兩秘密一隱私”。所謂“三全”是指國(guó)家安全、公共安全、經(jīng)濟(jì)安全;“一穩(wěn)定”指社會(huì)穩(wěn)定;“兩秘密一隱私”是指國(guó)家秘密、商業(yè)秘密和個(gè)人隱私。
2019年12月,上海數(shù)據(jù)治理與安全產(chǎn)業(yè)發(fā)展專(zhuān)委會(huì)秘書(shū)處與賽博研究院聯(lián)合發(fā)布了《數(shù)據(jù)爬取治理》研究報(bào)告,報(bào)告里提出,合規(guī)的爬蟲(chóng),主要依賴(lài)于行為人在數(shù)據(jù)爬取的“訪問(wèn)進(jìn)入-數(shù)據(jù)獲取-使用數(shù)據(jù)”三個(gè)階段下是否合規(guī)來(lái)進(jìn)行綜合的考量。
其實(shí),在法律方面, 無(wú)論是我國(guó)的《著作權(quán)法》、《反不正當(dāng)競(jìng)爭(zhēng)法》、《反壟斷法》、《民法》、《刑法》、《網(wǎng)絡(luò)安全法》等,還是歐盟的 GDPR 合規(guī)落地方案,都對(duì)數(shù)據(jù)利用是否合規(guī),制定了相應(yīng)的條款。
總體而言,如果企業(yè)為了謀取自身利益,在未經(jīng)當(dāng)事人同意的情況下,通過(guò)爬蟲(chóng)軟件爬取了公民的個(gè)人信息或者其他禁止類(lèi)信息數(shù)據(jù),就是不合法的,會(huì)受到相關(guān)的法律制裁。
三、如何利用合規(guī)數(shù)據(jù),發(fā)揮數(shù)據(jù)資產(chǎn)的價(jià)值
目前,數(shù)據(jù)爬取在治理中面臨著不少的挑戰(zhàn),包括:安全與發(fā)展難以平衡,數(shù)據(jù)基本權(quán)屬仍無(wú)定論,數(shù)據(jù)法制體系尚不完善,行業(yè)性共識(shí)規(guī)范缺乏,數(shù)據(jù)壁壘嚴(yán)重,數(shù)據(jù)散亂而高質(zhì)量數(shù)據(jù)較少等困境與難點(diǎn)。但另一方面,國(guó)家對(duì)人工智能和大數(shù)據(jù)行業(yè),又鼓勵(lì)創(chuàng)新,并給予了極大的支持。
在這種背景下,很多金融機(jī)構(gòu)對(duì)如何發(fā)掘“數(shù)據(jù)資產(chǎn)”,產(chǎn)生了一定的困惑。
那么,金融機(jī)構(gòu)如何合法的利用各種大數(shù)據(jù)信息,形成有價(jià)值的“數(shù)據(jù)資產(chǎn)”呢?在面臨數(shù)據(jù)的采集和使用的壁壘變得越來(lái)越高的情況,結(jié)合一些領(lǐng)先的金融機(jī)構(gòu)的做法,在東方林語(yǔ)的觀點(diǎn)看來(lái)有兩個(gè)思路可以借鑒:
首先,可以從三種維度獲取合規(guī)數(shù)據(jù),包括第一種,基于互聯(lián)網(wǎng)的公開(kāi)合規(guī)數(shù)據(jù)的挖掘;第二種,合法的第三方數(shù)據(jù)源的獲?。坏谌N,企業(yè)內(nèi)部分散的數(shù)據(jù)的統(tǒng)一整合。如果把這三種數(shù)據(jù)的價(jià)值能夠統(tǒng)一梳理整合呈現(xiàn),將會(huì)形成自己企業(yè)真正的“有價(jià)值數(shù)據(jù)資產(chǎn)”,進(jìn)而形成基于數(shù)據(jù)的“核心競(jìng)爭(zhēng)力”。
其次,打造企業(yè)內(nèi)部的“數(shù)據(jù)中臺(tái)”,將過(guò)往、現(xiàn)有、未來(lái)產(chǎn)生的數(shù)據(jù),以及內(nèi)部、外部的數(shù)據(jù)全部打通,繼而再通過(guò)通過(guò)機(jī)器學(xué)習(xí)、NLP、知識(shí)圖譜等領(lǐng)先型人工智能技術(shù),將整合后的數(shù)據(jù)轉(zhuǎn)化為業(yè)務(wù)上可以理解的“數(shù)據(jù)資產(chǎn)”,例如:精準(zhǔn)用戶畫(huà)像、精準(zhǔn)營(yíng)銷(xiāo)、風(fēng)險(xiǎn)控制、股權(quán)穿透、集團(tuán)派系分析、反洗錢(qián)等場(chǎng)景。
總而言之, 通過(guò)構(gòu)建內(nèi)外部數(shù)據(jù)一體的數(shù)據(jù)中臺(tái)架構(gòu),真正實(shí)現(xiàn)大數(shù)據(jù)的融合,再通過(guò)“數(shù)據(jù)升級(jí)”從而真正實(shí)現(xiàn)實(shí)體產(chǎn)業(yè)轉(zhuǎn)型升級(jí),進(jìn)而建立“與數(shù)據(jù)對(duì)話”的分析流程,對(duì)內(nèi)實(shí)現(xiàn)數(shù)據(jù)的智能服務(wù),對(duì)外打造個(gè)性化產(chǎn)品和服務(wù),才能真正實(shí)現(xiàn)金融機(jī)構(gòu)的數(shù)字化轉(zhuǎn)型和跨越式發(fā)展!
本文已標(biāo)注來(lái)源和出處,版權(quán)歸原作者所有,如有侵權(quán),請(qǐng)聯(lián)系我們。
- 螞蟻國(guó)際任命首席創(chuàng)新官,加速推進(jìn)數(shù)字化戰(zhàn)略發(fā)展
- 馬云現(xiàn)身支付寶20周年紀(jì)念日:AI將改變一切,但不意味著決定一切
- 萬(wàn)事達(dá)卡推出反欺詐AI模型 金融科技擁抱生成式AI
- OpenAI創(chuàng)始人的世界幣懸了?高調(diào)收集虹膜數(shù)據(jù)引來(lái)歐洲監(jiān)管調(diào)查
- 華為孟晚舟最新演講:長(zhǎng)風(fēng)萬(wàn)里鵬正舉,勇立潮頭智為先
- 華為全球智慧金融峰會(huì)2023在上海開(kāi)幕 攜手共建數(shù)智金融未來(lái)
- 移動(dòng)支付發(fā)展超預(yù)期:2022年交易額1.3萬(wàn)億美元 注冊(cè)賬戶16億
- 定位“敏捷的財(cái)務(wù)收支管理平臺(tái)”,合思品牌升級(jí)發(fā)布會(huì)上釋放了哪些信號(hào)?
- 分貝通商旅+費(fèi)控+支付一體化戰(zhàn)略發(fā)布,一個(gè)平臺(tái)管理企業(yè)所有費(fèi)用支出
- IMF經(jīng)濟(jì)學(xué)家:加密資產(chǎn)背后的技術(shù)可以改善支付,增進(jìn)公益
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。