教AI認知世界:云測數(shù)據(jù)正在做的那些事

屏前幕后,孜孜不倦的人們,用「數(shù)據(jù)標注」教會 AI 認識現(xiàn)實世界。而他們所處的數(shù)據(jù)采標行業(yè)本身,也正在從早期粗糙的「數(shù)據(jù)作坊」發(fā)展成為「數(shù)據(jù)工廠」的專業(yè)化運作。

如今,這些流程已經(jīng)發(fā)展出一條完整的產(chǎn)業(yè)鏈——采集、整理、清洗、標注,流水線似的過程恰恰是 AI 算法模型精確運行的根基所在。隨著 AI 技術(shù)在應(yīng)用場景下沉,AI 企業(yè)對算法落地性要求越來越高。此時,垂直精細和定制化數(shù)據(jù)顯得尤為重要。

2018 年,中國人工智能基礎(chǔ)數(shù)據(jù)服務(wù)市場規(guī)模為 25.86 億元,其中數(shù)據(jù)資源定制服務(wù)占比 86%。Testin云測旗下的 AI 數(shù)據(jù)服務(wù)品牌「云測數(shù)據(jù)」的出現(xiàn),就是一個典型案例。

通過定制化場景搭建,幫助 AI 企業(yè)或部門構(gòu)建數(shù)據(jù)核心壁壘,提供人工智能場景化落地最需要的數(shù)據(jù),這既是客戶獲取差異化優(yōu)勢的保證,同時也是云測數(shù)據(jù)的核心競爭力之一。

教AI認知世界:云測數(shù)據(jù)正在做的那些事

周一,忙碌的工作照常被擰上發(fā)條,北京 2019 年的第一場大雪如期而至,這一天讓張儷興奮不已的不僅僅是大雪,還有她手中剛接下的項目訂單。

客戶是一家圈內(nèi)名氣不小的自動駕駛公司,他們提供給張儷(化名)一套數(shù)萬張的道路數(shù)據(jù)集,張儷將任務(wù)分配給服務(wù)智能駕駛方向的小組員工。

十天左右,該套數(shù)據(jù)里的自動駕駛行車道檢測圖像即可標注完成,準確率超過客戶要求。

兩年前,就職于一家電商公司的張儷不會想到,兩年后的自己會和「高精尖」的人工智能技術(shù)打交道。

2017 年末,張儷所在的電商公司因為 O2O 市場降溫而倒閉。失業(yè)后不久,張儷在一位算法工程師朋友的推薦下,來到 Testin云測,開啟了一段不同尋常的工作,人工智能的訓(xùn)練員——數(shù)據(jù)標注。

一開始,她只需要標注出圖像中的人物性別,工作內(nèi)容簡單而機械。

接著,她開始給人物標注年齡段,開始框定 2D 對象,然后標注 3D 邊界框,再從白晝圖像到深夜和多霧場景……場景越來越多元、標注需求越來越詳盡,最后這些經(jīng)過人類點撥過的數(shù)據(jù)被一股腦地投入神經(jīng)網(wǎng)絡(luò)的研發(fā)之中。

到現(xiàn)在,張儷已經(jīng)成長為一名項目經(jīng)理助理,她的日常工作從標注轉(zhuǎn)向項目承接,那些 AI 圈里耳熟能詳?shù)拿餍枪径际撬闹匾蛻簟?/p>

與數(shù)據(jù)標注師相類似,螞蟻森林護林員、垃圾分類師、毒雞湯文案師……這些看似匪夷所思的新職業(yè),已經(jīng)與我們生活絲絲相扣。

一份今年的新興職業(yè)報告數(shù)據(jù)顯示,「小鎮(zhèn)青年」是 40 余種新職業(yè)的主力軍,從業(yè)者約一半生活在三四五線市縣,其中三分之二以上是兼職。

教AI認知世界:云測數(shù)據(jù)正在做的那些事

「非專業(yè)、兼職、勞動力密集型」——是報告為數(shù)據(jù)標注師圈定的標簽,雖然不免有些以偏概全,但談起「標注員」,確實很難將其與「專業(yè)化」、「技藝型」、「創(chuàng)造力」等字眼掛鉤。

但如今,數(shù)據(jù)服務(wù)的產(chǎn)業(yè)鏈條正在被重塑。AI 企業(yè)對于數(shù)據(jù)的應(yīng)用需求逐漸分化,精細度要求也越來越高,以往一味的粗放式加工模式已經(jīng)喪失市場競爭力,大浪淘沙,從奔騰到平靜,泥沙聚沉,清流上涌。

Testin云測旗下的 AI 數(shù)據(jù)服務(wù)品牌「云測數(shù)據(jù)」的出現(xiàn),就是重塑整個產(chǎn)業(yè)和標注員印象的一個典型案例。

一、小數(shù)據(jù)的大天地

根據(jù)佐治亞理工學(xué)院的一項研究——通過對 8 個圖像識別系統(tǒng)的測試,發(fā)現(xiàn)自動駕駛汽車的傳感器和攝像頭,更善于檢測膚色較淺的人,而膚色較深被檢測出的準確率平均會低 5%。

結(jié)論一經(jīng)報道,諸如「AI 行業(yè)也存在種族歧視」的言論便充斥在各大媒體上。

然而,從技術(shù)角度來看,計算機視覺是通過 RGB 或 RGBD 識別人(物體)的信息,但是黑色是最難被識別的(黑色或深色的 RGB 整體數(shù)值偏小),尤其在實際情況中,系統(tǒng)也欠缺黑色及深色的數(shù)據(jù),由此導(dǎo)致算法模型不夠精確,最終技術(shù)在實際落地應(yīng)用時出現(xiàn)差錯。

在數(shù)據(jù)服務(wù)行業(yè),這種細分且稀缺的數(shù)據(jù)統(tǒng)一被稱為「小數(shù)據(jù)」。

比如道路安防攝像頭,攝像頭中囊括行人、機動車、自行車數(shù)據(jù),卻唯獨缺少行人跌倒數(shù)據(jù);在自動駕駛領(lǐng)域,監(jiān)測系統(tǒng)需要采集駕駛員各種狀態(tài)數(shù)據(jù),但缺少疲勞狀態(tài)的數(shù)據(jù)。

教AI認知世界:云測數(shù)據(jù)正在做的那些事

賈宇航(云測數(shù)據(jù)總經(jīng)理)解釋道,云測數(shù)據(jù)針對這些需求,為客戶定制場景、采集數(shù)據(jù),在自動駕駛場景中,云測數(shù)據(jù)可以讓駕駛員先開 6 個小時車,最終采集到真實的疲勞數(shù)據(jù)。

據(jù)了解,云測數(shù)據(jù)目前的整個數(shù)據(jù)服務(wù)人員已達千人規(guī)模,通過標審分離的流程化作業(yè)模式和數(shù)據(jù)安全機制,更好的保證數(shù)據(jù)的高質(zhì)量產(chǎn)出和數(shù)據(jù)隱私性,從而更好地為人工智能落地提供定制化『數(shù)據(jù)養(yǎng)料』。

數(shù)據(jù)服務(wù)行業(yè)早期,企業(yè)主要通過數(shù)據(jù)爬蟲收集數(shù)據(jù),數(shù)據(jù)服務(wù)門檻很低,各個企業(yè)野蠻生長、魚龍混雜;第二階段開源/付費數(shù)據(jù)集開始出現(xiàn),主要分為語音類、圖像類、NLP 類數(shù)據(jù)集等。

隨著 AI 的發(fā)展,僅僅靠數(shù)據(jù)收集已經(jīng)不能滿足客戶的算法訓(xùn)練需求,第三階段的 AI 數(shù)據(jù)眾包平臺應(yīng)運而生,在眾包平臺上,可進行更豐富多樣的數(shù)據(jù)采集與標注,進一步提升 AI 的能力。

當時百度和亞馬遜都曾發(fā)展過此項業(yè)務(wù),2011 年百度數(shù)據(jù)眾包就以部門的形式成立,不僅為百度內(nèi)部需求方如百度 NLP、百度地圖等提供 AI 數(shù)據(jù)采集和標注服務(wù),同樣將數(shù)據(jù)眾包業(yè)務(wù)進行開放,根據(jù)客戶需求制定數(shù)據(jù)采集方案。

如今 AI 與各個產(chǎn)業(yè)結(jié)合得愈加緊密,為保證算法優(yōu)勢,客戶需要采用定制化服務(wù),由客提出具體需求,數(shù)據(jù)服務(wù)商對數(shù)據(jù)進行采集并標注,定制化數(shù)據(jù)的需求日益增長標志著數(shù)據(jù)服務(wù) 4.0 時代已經(jīng)來臨。

根據(jù)艾瑞《中國人工智能基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)白皮書》顯示,2018 年,數(shù)據(jù)資源定制服務(wù)已在基礎(chǔ)數(shù)據(jù)服務(wù)市場占據(jù) 86.2% 的份額。

二、 場景實驗室里的故事

浙江橫店,三腳架支起的鏡頭面前,往后延伸出長長的隊伍,這些群演并非在演戲試鏡,而是采集情緒數(shù)據(jù)。

「咔」地一聲,鏡頭面前,攝影燈下,群演們或大笑、或痛苦、或憤怒,表情的自然程度決定他們是否通過第一輪試鏡,進入第二輪,考核的標準更為嚴苛。

群演面前立著一面鏡子,鏡子旁邊便是審核人,「想想你上一次失戀是什么時候,心情怎樣」,「你到現(xiàn)在最有成就感事情是什么」,諸如此類的問答也是采集基地的苦心安排——引導(dǎo)情緒、烘托氣氛,保證情緒采集過程的真實、自然。

教AI認知世界:云測數(shù)據(jù)正在做的那些事

數(shù)據(jù)采集完成后,云測數(shù)據(jù)標注員工需要根據(jù)圖片表現(xiàn)的情緒進行精準標注,未經(jīng)精準標注的數(shù)據(jù),人工智能無法理解其中意義。

正如賈宇航所言,云測數(shù)據(jù)的采標業(yè)務(wù)正是整個 AI 產(chǎn)業(yè)所迫切需要的,橫店群演的情緒采集只是場景化定制數(shù)據(jù)的一個縮影。根據(jù)企業(yè)數(shù)據(jù)需求,還原 AI 應(yīng)用真實場景,這不僅需要深入理解需求,還需要快速構(gòu)建場景,而且對人力資源的調(diào)配能力也提出挑戰(zhàn)。

云測數(shù)據(jù)的服務(wù)采取項目制,每位專業(yè)項目經(jīng)理經(jīng)過了 30-60 天的職前培訓(xùn),幫助客戶拆分原始需求、優(yōu)化項目執(zhí)行方案,項目經(jīng)理集中培訓(xùn)后,再由項目經(jīng)理針對具體的項目對標注、質(zhì)檢、審核員工進行培訓(xùn)。

紛繁復(fù)雜的需求背后,有的是剛需,有的則是「無用功」,定制過程中,云測數(shù)據(jù)需要根據(jù)以往項目經(jīng)驗及實地調(diào)查來明確需求,此后再細化、優(yōu)化需求,幫助客戶完成復(fù)雜場景的落地,同時避免客戶花費更多成本。

在采集過程中云測數(shù)據(jù)會運用專業(yè)的軟/硬件設(shè)備,比如用測光強度的設(shè)備來滿足客戶的環(huán)境光照要求,如果客戶需要純凈音頻數(shù)據(jù),那云測數(shù)據(jù)會搭建一個錄音棚,滿足諸如混響或者高底噪的定制化需求,最后再用麥克風(fēng)進行錄制。

在云測數(shù)據(jù)交付部門負責(zé)人朱文輝看來,整個行業(yè)仍處在早期,客戶需求變更經(jīng)常發(fā)生;其次,行業(yè)內(nèi)部面臨很多的不確定性,采標現(xiàn)場的籌備環(huán)節(jié),人員的管理問題,需要一系列的協(xié)同化處理。

如果說數(shù)據(jù)采集只是備齊食材,那么標注流程稱得上后期「烹飪」環(huán)節(jié),幫場景數(shù)據(jù)「訓(xùn)練」算法模型完成最后一道工序。

在標注環(huán)節(jié),云測數(shù)據(jù)擁有線上自研的數(shù)據(jù)標注平臺——平臺上聚合著如圖像、文本、音頻等數(shù)據(jù)類型的先進標注工具,尤其是在 3D 點云的標注系統(tǒng)中優(yōu)化了渲染引擎,保證整個過程的流暢和快捷,當屬業(yè)內(nèi)領(lǐng)先。

據(jù)朱文輝介紹,「研發(fā)團隊里有產(chǎn)品經(jīng)理、前后端工程師」等,他們會針對不同領(lǐng)域循環(huán)式地改進標注工具,并根據(jù)客戶需求,實時反饋、實時更新、實時研發(fā)。「我們的迭代速度一直很快」朱文輝回憶道:「迭代之后有些領(lǐng)域的效率提高了三倍不止?!?/p>

教AI認知世界:云測數(shù)據(jù)正在做的那些事

除了自研線上標注平臺,云測數(shù)據(jù)分別在華東、華南、華北自建了標注基地,還有幾個基地正在部署中。在確保標注數(shù)據(jù)準確率的同時,有效保證標注作業(yè)的信息流轉(zhuǎn)和數(shù)據(jù)安全。

由于標注是人工完成,本身主觀性因素較大,加之行業(yè)缺乏統(tǒng)一的標注數(shù)據(jù)標準,這使得標注工作充滿不確定性。

「標注的過程是一個顛覆常識的過程」,朱文輝笑著說道,「不同人對待同一件事情標準是不一樣的,比如眼睛的大小,鼻子的高低,嘴唇的薄厚,每個人的標準都不一樣,主觀性很強,在判斷的過程中,我們會與客戶一起溝通交流需求,厘清標準;其次,有的標注事件異常復(fù)雜,需要對標簽進行優(yōu)化,例如人臉識別,描述一張人臉需要 80 多個標簽,此時云測數(shù)據(jù)會把該項目拆成 5 大類,分工完成,最終拼湊成完整的結(jié)果輸出」。

三、數(shù)據(jù)安全「密鑰」

2019 年 10 月 28 日,杭州「人臉識別「第一案將」究竟誰有權(quán)收集我們的人臉信息「這一話題推向輿論高地,事隔一個月,轉(zhuǎn)轉(zhuǎn)、咸魚、淘寶等平臺」5000 多張人臉照標價 10 元「的新聞在行業(yè)里又掀一輪風(fēng)波。

數(shù)據(jù)的惡意倒買倒賣已足夠駭人聽聞,而另一方面,平臺未經(jīng)用戶授權(quán),將用戶數(shù)據(jù)記錄、用作自身系統(tǒng)優(yōu)化更是讓人防不勝防。

今年 1 月,蘋果在 CES 會展中心場外拉起一塊以隱私為主題的巨幅戶外廣告牌——「what happens on your iPhone,stays on your iPhone」。廣告采用黑底白字的極簡風(fēng)格,但現(xiàn)實卻往往是灰色的——亞馬遜、蘋果、谷歌等公司都存在監(jiān)聽用戶數(shù)據(jù)的行為。

正如科技巨頭們?yōu)樽陨磙q解的那樣,「監(jiān)聽數(shù)據(jù)是為了優(yōu)化算法模型,提高用戶體驗」,但他們卻從未澄清重要事實——使用人工聽取錄音,標注用戶關(guān)鍵信息,致使大量用戶個人隱私泄露。

如今,面對輿論壓力,科技巨頭們開始調(diào)整戰(zhàn)略,亞馬遜允許 Alexa 用戶選擇對錄音不進行人工審核;蘋果開始允許用戶刪除 Siri 的歷史記錄,把共享錄音設(shè)為可選項;谷歌暫停人工轉(zhuǎn)錄 Assistant 音頻。

平臺應(yīng)用方竊取數(shù)據(jù)進行相關(guān)標注,已經(jīng)讓平臺用戶人人自危,而在專業(yè)第三方數(shù)據(jù)采標公司里,數(shù)據(jù)安全問題更是凸顯。

目前數(shù)據(jù)服務(wù)行業(yè)中,在保障數(shù)據(jù)安全層面,主要包括私有化離線部署,駐場標注,數(shù)據(jù)存儲在客戶本地;第二則是公有部署,數(shù)據(jù)接入在公有云服務(wù)器,通過數(shù)據(jù)接口加密、定期巡查、反爬蟲機制保證數(shù)據(jù)安全。

作為AI數(shù)據(jù)服務(wù)的頭部企業(yè)的云測數(shù)據(jù),一直將數(shù)據(jù)隱私、數(shù)據(jù)安全放在業(yè)務(wù)開展的首要地位。在賈宇航看來,數(shù)據(jù)安全領(lǐng)域,無論是 AI 公司還是數(shù)據(jù)服務(wù)公司,眼光都要長遠一些,采用未經(jīng)授權(quán)的數(shù)據(jù)當然可以控制成本,但是當行業(yè)進入越來越規(guī)范的階段,前期的野蠻發(fā)展終究會造成不良后果。

在保證數(shù)據(jù)安全方面,云測數(shù)據(jù)有三層面投入:

首先,不濫用數(shù)據(jù),數(shù)據(jù)交付后清毀數(shù)據(jù)不留底,絕不二次使用;

第二,不侵犯隱私,與所有數(shù)據(jù)采集的用戶都簽訂數(shù)據(jù)授權(quán)協(xié)議,確保AI企業(yè)用于訓(xùn)練的數(shù)據(jù)合法合規(guī);

第三,建立相關(guān)的數(shù)據(jù)保障機制,如從防火墻的設(shè)置、內(nèi)部信息系統(tǒng)的管護、乃至標準化的流程作業(yè)體系等。

Testin云測 CMO 張鵬飛也補充道,「從整體看來,AI 數(shù)據(jù)行業(yè)關(guān)于安全、隱私等方面并沒有統(tǒng)一的標準和強調(diào)重視。但從我們長遠角度出發(fā),一直在隱私和安全防護角度下大力氣服務(wù)行業(yè)、樹立數(shù)據(jù)質(zhì)量標桿,只有以這種負責(zé)的態(tài)度來服務(wù)客戶,我們的行業(yè)才能『良幣驅(qū)除劣幣』,真正讓人工智能成為新一輪技術(shù)革命,改變整個社會和人類進程」。

四、縱橫發(fā)展,數(shù)據(jù)服務(wù)的下一幕

目前,整個市場需求正向「一縱一橫「方向發(fā)展,」一橫「即指越來越多的行業(yè)開始運用 AI,不管是金融、保險、物流、零售還是智能制造等行業(yè)。云測數(shù)據(jù)的客戶主要分為兩大類,一種是運用 AI 顛覆行業(yè),一種是在傳統(tǒng)行業(yè)引入 AI,后者正在變得越來越多。

「一縱「是指 AI 與已有行業(yè)結(jié)合得越來越深,AI 正從大量數(shù)據(jù)驅(qū)動變成了與產(chǎn)業(yè)相結(jié)合,需要與產(chǎn)業(yè)專家進行合作,例如在人臉識別場景,早期只用識別人臉,之后發(fā)展到情緒檢測,后期愈加深入細分——如微表情識別。

賈宇航用人臉關(guān)鍵點標注來舉例。幾年前的人臉關(guān)鍵點標注任務(wù)要簡單很多,那時標注員只需在人臉上標出幾個點就行。而現(xiàn)在,人臉關(guān)鍵點標注可涉及多達 206 個點:每個眉毛上有 8+個點,嘴唇上有 20+個點,下頜輪廓上有 17+個點。在更多領(lǐng)域擁抱人工智能的趨勢下,數(shù)據(jù)服務(wù)從業(yè)者也需具備相應(yīng)的領(lǐng)域知識。

教AI認知世界:云測數(shù)據(jù)正在做的那些事

「一縱「趨勢讓 AI 數(shù)據(jù)服務(wù)逐漸從一個行業(yè)變成產(chǎn)業(yè),成本已不是企業(yè)唯一考量因素,管理效率,數(shù)據(jù)安全,數(shù)據(jù)質(zhì)量同樣重要。

早期行業(yè)的數(shù)據(jù)精度要求較低,工作機械化,如今正處在人工智能產(chǎn)業(yè)化落地前夕,算法對數(shù)據(jù)準確度要求越來越高,行業(yè)的創(chuàng)造性被激發(fā)出來,需要越來越專業(yè)的公司從事,留給數(shù)據(jù)標注兼職業(yè)態(tài)的生存空間將越來越小,而行業(yè)也逐漸從勞動密集型轉(zhuǎn)變成技藝密集型。

教AI認知世界:云測數(shù)據(jù)正在做的那些事

數(shù)據(jù)標注服務(wù)從業(yè)者是人工智能背后的「英雄」,從長期來看,AI 越來越智能,但對于偏感性的判斷仍比較難,如 AI 對文字的演化和情緒的識別仍是弱勢,未來 AI 要處理行業(yè)內(nèi)更為復(fù)雜的問題,但人的感知力和判斷力不能被替代。

雖然人力不可替代,但對數(shù)據(jù)標注員的專業(yè)要求將越來越高卻是無疑。

隨著「一縱」趨勢的深入,很多數(shù)據(jù)標注工作要交由專業(yè)人士去做。標注員將從兼職向全職再向具備專業(yè)領(lǐng)域知識的全職員工進化,從業(yè)門檻的提高其實是行業(yè)變遷的縮影,數(shù)據(jù)標注服務(wù)正從以往的「數(shù)據(jù)作坊」向流水線作業(yè)再向具備創(chuàng)造力與專業(yè)性的行業(yè)轉(zhuǎn)變。

依靠以往海量粗放的數(shù)據(jù)喂養(yǎng)已遠遠不能滿足如今 AI 行業(yè)的發(fā)展,而愈來愈精細的數(shù)據(jù)正是導(dǎo)致行業(yè)變遷的最大變量。

因此,AI 企業(yè)需要數(shù)據(jù)服務(wù)商強大的采標能力,保證數(shù)據(jù)安全及高質(zhì)量,而與此對應(yīng)的各類場景搭建、條件變換、特殊人群都是「稀缺資源」,所謂「天下大事必作于細」,在 AI 行業(yè)下半場競爭中,云測數(shù)據(jù)作為定制化數(shù)據(jù)服務(wù)提供商,通過提供「稀缺資源」、「以小博大」,在幫助算法公司獲得優(yōu)勢的同時,贏得自身的差異化競爭力。

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責(zé)任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2020-01-10
教AI認知世界:云測數(shù)據(jù)正在做的那些事
屏前幕后,孜孜不倦的人們,用「數(shù)據(jù)標注」教會 AI 認識現(xiàn)實世界。而他們所處的數(shù)據(jù)采標行業(yè)本身,也正在從早期粗糙的「數(shù)據(jù)作坊」發(fā)展成為「數(shù)據(jù)工廠」的專業(yè)化運作。

長按掃碼 閱讀全文