來攢臺能跑深度神經(jīng)網(wǎng)絡(luò)的機(jī)器吧|Open Talk No.33

2017年6月24日,又拍云旗下技術(shù)沙龍 Open Talk 來到人工智能公司最為集中的城市之一——深圳,探討了“大數(shù)據(jù)和機(jī)器學(xué)習(xí)最佳實踐”這一熱門話題;阿基米公社的活動現(xiàn)場擠滿了被話題吸引來的觀眾。

大數(shù)據(jù)、機(jī)器學(xué)習(xí)已經(jīng)成為研究人工智能不能或缺的兩大要素,本次Open Talk的講師來自華為、數(shù)果科技、又拍云等公司在大數(shù)據(jù)、機(jī)器學(xué)習(xí)領(lǐng)域頗有實戰(zhàn)經(jīng)驗的工程師,分享了各自業(yè)務(wù)在大數(shù)據(jù)、機(jī)器學(xué)習(xí)方面的實踐經(jīng)驗,深受現(xiàn)場觀眾認(rèn)可。此次Open Talk由IT大咖說提供直播支持。

訓(xùn)練人工智能,如何搭配硬件?

“內(nèi)容識別”是又拍云于2017年推出的首個人工智能產(chǎn)品,可應(yīng)用于圖片、直播、點播等場景,智能識別色情、廣告、暴恐等不良內(nèi)容,其中鑒黃識別率已經(jīng)高達(dá)99.7%。

在Open Talk現(xiàn)場,負(fù)責(zé)又拍云“內(nèi)容識別”開發(fā)工作的葉靖,在《又拍云的深度學(xué)習(xí)實踐》的分享中,介紹了又拍云在開發(fā)“內(nèi)容識別”項目的過程中,所用到的各種工具和技術(shù),以及又拍云在人工智能方面的各種嘗試,面臨的挑戰(zhàn)等。

又拍云“內(nèi)容識別”的開發(fā)基于超千億張的圖片數(shù)據(jù),以及深度神經(jīng)網(wǎng)絡(luò),“最重要的一個工具就是GPU,GPU性能好,CPU運算速度都是50幾毫秒,但GPU可以達(dá)到0.17毫秒。但GPU還有很多不足的地方,GPU對硬件依賴性很高又不易擴(kuò)展,不能像內(nèi)存那樣擴(kuò)展到100多G;此外還需要針對GPU重寫算法,CPU的代碼不能直接拿到GPU上跑,而且比較復(fù)雜?!比~靖分享了對研發(fā)“人工智能”時候的硬件選擇,也介紹了其中存在的問題:“GPU從數(shù)據(jù)、內(nèi)存拷貝數(shù)據(jù)的速度比較慢慢,寫代碼時要盡量避免內(nèi)存的拷貝?!?/p>

“我們選擇了4張1070顯卡,配置了SSD,因為很多數(shù)據(jù)從機(jī)械硬盤讀取的話嚴(yán)重影響訓(xùn)練速度。在CPU上,為了突破CPU的通道限制,我們選擇了8核CPU*2的配置。在操作系統(tǒng)的選擇上,又拍云采用了Ubuntu 16.04,一開始選擇了14.04,結(jié)果出現(xiàn)了一大堆的問題?!比~靖好不藏私的分享內(nèi)容,引起了現(xiàn)場觀眾熱烈的提問。

海量用戶數(shù)據(jù)的處理妙招

人工智能的訓(xùn)練需要大數(shù)據(jù),面臨大數(shù)據(jù)的處理也需要人工智能的參與。數(shù)果智能聯(lián)合創(chuàng)始人、首席架構(gòu)師黃強(qiáng)在本次 Open Talk 上分享了《海量用戶行為數(shù)據(jù)的儲存和分析》。

“用一句話來說,用戶行為數(shù)據(jù)就是用戶在產(chǎn)品上的操作行為的記錄?!秉S強(qiáng)高度概括了用戶行為數(shù)據(jù)的含義,“其中包括了時間、地點、頁面信息等信息?!币话闫髽I(yè)的用戶數(shù)到了幾十萬,用戶一天下來做的所有的操作行為,像一個用戶行為數(shù)據(jù)包含用戶的IP、sessionID、imei、終端ID,這個數(shù)據(jù)量是非常龐大的,每一天就是一個App都是幾百億甚至上千億的數(shù)據(jù)量。

這些數(shù)據(jù)里,高基數(shù)的維度很多。“我認(rèn)為基數(shù)在百萬以上就比較高了?!秉S強(qiáng)認(rèn)為。什么是基數(shù)?比如說用戶ID有一個很大的量,一個維度下有多少個不重復(fù)的值,這種值就可以叫ID,如果基數(shù)很高,這個值會非常多。高基數(shù)產(chǎn)生的數(shù)據(jù)量非常龐大,幾千萬到上千億都是有可能,還有用戶行為是持續(xù)的。這些都是用戶行為數(shù)據(jù)的處理難點。

黃強(qiáng)分享了用戶行為數(shù)據(jù)處理環(huán)節(jié)的幾個步驟:第一步是采集,通過SDK等方式、工具采集數(shù)據(jù);采集到數(shù)據(jù)之后需要進(jìn)行存儲,“數(shù)據(jù)量非常大,需要拆成很多份,采用分布式資源,才能最大化利用一臺設(shè)備的計算資源。”因為數(shù)據(jù)被拆散了,所以數(shù)據(jù)處理還需要加入“查詢”功能,把查詢結(jié)果做一個合并,輸出最終結(jié)果。此外就是數(shù)據(jù)的索引,克分為倒排索引和正向索引兩種方式。

數(shù)據(jù)很重要,更重要的是呈現(xiàn)方式和互通

華為消費者BG數(shù)據(jù)分析架構(gòu)師王在清作為壓軸嘉賓,帶來了《數(shù)據(jù)分析與洞察》。王在清 因工作需求,從市場銷售分析投入到數(shù)據(jù)分析領(lǐng)域,后續(xù)進(jìn)入架構(gòu)、數(shù)據(jù)挖掘等領(lǐng)域,曾參與多項跨國企業(yè)的全球BI/DW 建設(shè)工作,擅長分析物(產(chǎn)品、事件)與人(客戶、員工)。

在活動現(xiàn)場,王在清主要介紹了華為消費者BG的數(shù)字化建設(shè)與數(shù)據(jù)驅(qū)動,從建立數(shù)據(jù)體系到分析洞察應(yīng)用。

很多年前,許多公司都在落地信息化,建了一大堆IT系統(tǒng),“但全部都是數(shù)據(jù)孤島,數(shù)據(jù)跟數(shù)據(jù)沒有什么連接。從現(xiàn)在回來看,這些數(shù)據(jù)開始建設(shè)的時候,就應(yīng)該有一個統(tǒng)一的視圖,借助統(tǒng)一的視圖完善數(shù)據(jù)的關(guān)聯(lián)。一開始有一個整合視圖以后,還可以是數(shù)據(jù)島,但是島與島的交通線是一致的,而不是事后兩邊各建一個橋,運氣不好還建兩座橋?!?/p>

王在清認(rèn)為,做數(shù)據(jù)分析和做洞察,必須要基于統(tǒng)一的做法,“否則挖掘出來的數(shù)據(jù)沒有辦法解釋,沒有辦法解釋的數(shù)據(jù)就不是數(shù)據(jù)報告的結(jié)果。我們必須要先建立整體的數(shù)據(jù)視圖,或許還是十幾套IT系統(tǒng),但是所有的數(shù)據(jù)定義是一致的。

王在清的分享當(dāng)中,提出一個觀點:數(shù)據(jù)只有“快速、簡單、可視”才會產(chǎn)生價值。實現(xiàn)數(shù)據(jù)可視化數(shù)又可以分為三個步驟:先進(jìn)入hindsight,再進(jìn)入insight,最后進(jìn)入foresight。

Open Talk No.33講師的分享詳情,將后續(xù)更新在又拍云微信公眾號上,歡迎大家持續(xù)關(guān)注。

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2017-06-30
來攢臺能跑深度神經(jīng)網(wǎng)絡(luò)的機(jī)器吧|Open Talk No.33
2017年6月24日,又拍云旗下技術(shù)沙龍 Open Talk 來到人工智能公司最為集中的城市之一——深圳,探討了“大數(shù)據(jù)和機(jī)器學(xué)習(xí)最佳實踐”這一熱門話題;阿基米公社的活動現(xiàn)場擠滿了被話題吸引來的觀眾。大數(shù)據(jù)、機(jī)器學(xué)習(xí)已經(jīng)成為研究人工智能不能或缺的兩大要素,本次Open Talk的講師來

長按掃碼 閱讀全文