原標題:還覺得智能是靠人工堆出來的?AI下半場,這家公司要為數(shù)據(jù)正身
大數(shù)據(jù)文摘出品
記者:寧云州
數(shù)據(jù)、算法、算力是人工智能的基本三要素。在資本的催化下,算力和算法都得到了“大躍進”式的發(fā)展,但作為三要素之一的數(shù)據(jù)卻一直站在聚光燈之外。隨著AI的商業(yè)化的不斷落地,打造以數(shù)據(jù)為核心的行業(yè)壁壘已成為各大人工智能企業(yè)面前最重要、但卻最容易被忽視的環(huán)節(jié)。
26歲的單身母親Brenda住在非洲最大的貧民窟基貝拉,這也是全球最貧困的社區(qū)之一。每天早上Brenda都會乘坐公共汽車前往內羅畢東部,和她的1000多名同事一起,開始一天八小時的工作。
她的主要工作內容簡單而機械:上傳圖片,然后用鼠標機械地標記一張圖片上的所有物體——人、車輛、交通標識、道路標記,甚至天空。在這里工作八小時可以得到9美元的報酬,對于當?shù)厝藖碚f,這已是一筆可觀的收入。
能簡單控制鼠標的Brenda和她分布全球上百萬的同事們,在通過幾個小時的培訓后成為了全球人工智能產(chǎn)業(yè)鏈上最重要的環(huán)節(jié)之一。
在人工智能發(fā)展的早期,人工智能廠商通過廉價勞動力來滿足自身的數(shù)據(jù)標注需求。而Brenda和她的同事們就是這樣的勞力,是人工智能背后的“人工”。
隨著人工智能的發(fā)展迭代,這樣“粗放”的標注方式正在逐漸被淘汰。
從吃糠咽菜到山珍海味,人工智能變身挑剔老饕
作為人工智能發(fā)展最基本的三要素,數(shù)據(jù)、算法和算力三元素之間一直處于相互制約,又相互促進升級的關系?;ヂ?lián)網(wǎng)的誕生,讓數(shù)據(jù)處于井噴式的爆發(fā),助推了算力的提升,推動了算法的進步。而近年來生成對抗網(wǎng)絡(GANs)等技術及眾多數(shù)據(jù)采集設備的應用,用于訓練的數(shù)據(jù)可被多次復用,并與更多維數(shù)據(jù)融合進行算法訓練正在成為趨勢。使得數(shù)據(jù)需求從原來單純追求“量”轉變成追求“質量”。
隨著人工智能商業(yè)化進程的加速,輔助駕駛、客服機器人等應用已開始普及。人工智能從理論落地正逐漸走入平常百姓家。人們對于AI的能力要求,以及在實際使用中產(chǎn)品穩(wěn)定性,安全性的要求,也在逐漸提升。
安全性、穩(wěn)定性的提升,實際是在倒逼對標注數(shù)據(jù)精確度提升的,這也就對數(shù)據(jù)精度有了更高的要求。曾經(jīng)95%的數(shù)據(jù)精度就能“喂飽”的人工智能,開始需要更高精度的數(shù)據(jù)“喂養(yǎng)”,追求超高精度訓練數(shù)據(jù)已然成為了AI落地的必要因素。
如果說以前的算法使用的通用數(shù)據(jù)集是粗糧的話,那現(xiàn)在算法需要的就是定制化的營養(yǎng)餐。企業(yè)若想進一步提升模型的落地能力,必然要逐漸脫離原來的通用數(shù)據(jù)集和互聯(lián)網(wǎng)數(shù)據(jù),積極投身于定制化數(shù)據(jù)采集當中,打造數(shù)據(jù)優(yōu)勢壁壘。
數(shù)據(jù)采集進入深水區(qū):定制化數(shù)據(jù)采集成為數(shù)據(jù)獲取層面的必要一環(huán)
眾包采集和定制化采集是數(shù)據(jù)采集行業(yè)的兩種常見模式。
眾包模式的優(yōu)勢主要體現(xiàn)在樣本的豐富性和多樣性上,但對于行至今日的AI數(shù)據(jù)服務業(yè)務,通過眾包模式解決所有數(shù)據(jù)采集需求并不現(xiàn)實。
首先,數(shù)據(jù)的安全性問題很難解決:平臺用戶提供的圖片可能是未經(jīng)合法授權的,作為平臺方很難判斷用戶提供數(shù)據(jù)的來源。
此外,涉及到定制化需求的采集任務中,尤其是較為復雜的任務中,從眾包用戶采集到的數(shù)據(jù)往往差強人意,反倒增加了更多的審核成本。
更不用說有些采集需要在特定的場景內進行,具有一定的危險性(如輔助駕駛中對駕駛員行為進行采集),類似這樣的采集任務通過眾包非但達不到效果,還增加了采集用戶的風險。
圖:智能駕駛21區(qū)域定點識別采集
作為AI數(shù)據(jù)服務行業(yè)內唯一的獨角獸企業(yè),Testin云測對這個問題感同身受。一開始,只是有一些AI企業(yè)找到Testin云測,希望通過Testin云測的眾測平臺做數(shù)據(jù)采集。但隨著AI企業(yè)數(shù)據(jù)需求的不斷進化,Testin云測開始通過自建數(shù)據(jù)場景實驗室和數(shù)據(jù)標注基地,打造專業(yè)的定制化采集和高質量的標注隊伍,來幫助AI企業(yè)獲取更多優(yōu)質的特定場景數(shù)據(jù)。
場景實驗室:深挖真實數(shù)據(jù)需求,搭配穩(wěn)定被采樣本
“場景實驗室是Testin云測布局高度定制化、多模態(tài)的AI數(shù)據(jù)服務的重要組成部分,借此能使得Testin云測的交付能力與客戶需求平行,甚至領先客戶的需求一點點”,Testin云測VP賈宇航說道。
領先需求“一點點”,需要的不僅是強大技術能力和搭建能力,更要有對應用場景深入的了解。
“在一個項目中,客戶希望在不同光照條件和光照角度下采集玻璃后面的人臉數(shù)據(jù)”,賈宇航為我們舉例道:“不同于以往常見的安防攝像頭采集,這個項目中單是光源條件就分成了室內和室強光、逆光、倒光等一共24種光照條件,不僅如此,玻璃反光度、模特臉部遮擋比例值等都有嚴格的要求?!?/span>
對于這樣的定制化采集需求,場景搭建雖然非常繁瑣,但還談不上困難。然而,AI數(shù)據(jù)服務的提供商絕不應該僅僅是幫助客戶搭建場景,而是要幫助客戶找到最需要的數(shù)據(jù)結果。在這個項目中,玻璃的反光程度不僅與玻璃的材質厚度有關,也跟光源大小、光源與玻璃之間的角度和距離等一系列變量有關。Testin云測最終搭建了一個將近3000平米的場景以完成數(shù)據(jù)采集。
“只有深入理解了場景、深入理解了客戶需求,才有可能提供給客戶真實需要的數(shù)據(jù)。缺乏把握客戶真實需求的能力將會給我們帶來巨大的風險”,賈宇航總結道。
而面對越來越定制化的AI數(shù)據(jù)需求,僅僅擁有場景搭建能力也是不夠的,沒有穩(wěn)定的樣本儲備,再高超的場景搭建能力也是空談。
賈宇航為我們舉了很“簡單”的人臉表情采集的例子:“采集人臉表情是一件既簡單又困難的事情。簡單在于人群樣本并不難找,而困難則在于對著攝像頭切換不同表情并不是一件簡單的事情,能夠準確作出各種表情的人少之又少。例如‘痛苦’的表情,人類很難在沒有外界刺激的情況下憑空表現(xiàn)出來。對于這樣的需求,我們就需要更加專業(yè),配合度更高的人群樣本。場景實驗室的第二個顯著優(yōu)勢就是能夠搭配穩(wěn)定的備采人群樣本。我們剛才提到的‘表情采集’項目最終是由在浙江橫店的演員群體完成的。”
雖然被采人群在性別、年齡、人種等方面的豐富度很重要,但面對越來越精細的落地場景,人群樣本的配合度更需要相應提高,如果考慮到長尾場景,甚至需要一些專業(yè)人士來參與采集,比如演員、殘障人士等等。
不論是從最開始的“識別人的臉”到“苛刻條件下識別是誰的臉”,還是從以前的“識別表情”到“識別真實的表情”。我們總能感受到人工智能在朝著越來越細分的領域發(fā)展。
數(shù)據(jù)標注精度要求從95%上升到99%+
為了算法落地,AI企業(yè)不僅需要定制化的數(shù)據(jù)采集來獲得長尾場景的數(shù)據(jù);同時對于標注數(shù)據(jù)的精度也需要進一步提升。正如AI工程師的座右銘“garbage in, garbage out”所描述的那樣,對于模型精度要求的提高正在倒逼輸入數(shù)據(jù)的質量進一步提高。
賈宇航為我們解釋,“為了完成數(shù)據(jù)質量的跨越,我們選擇自建數(shù)據(jù)標注基地以及系統(tǒng)化流程。”
與場景實驗室的布局類似,Testin云測在全國范圍內也建立了數(shù)據(jù)標注基地。在這里,Testin云測的技術和項目管理能力能夠迅速轉換,成為具體數(shù)據(jù)標注業(yè)務中的生產(chǎn)力。
賈宇航接著說道:“為了應對專業(yè)度日益提高的標注任務,自建的數(shù)據(jù)基地能夠大幅提高數(shù)據(jù)標注的效率,在我們的標注平臺上,標注人員使用統(tǒng)一的工具在標準化的作業(yè)流程中對數(shù)據(jù)進行標注,在一些復雜任務上,甚至可以做到多人協(xié)同標注。而在無形的層面上,技術還能夠幫助我們迅速、深入地理解客戶需求,降低溝通成本?!?/span>
這種技術能力還滲透到了Testin云測的流程化管理中。通過標準化測試,標注云平臺將已經(jīng)標注完成的數(shù)據(jù)隨機安插在標注員的標注作業(yè)中,實時把握標注人員對需求的掌握情況,從而減少了質檢環(huán)節(jié)的壓力,再加上云平臺本身的輔助質檢功能,能夠更有效地保證數(shù)據(jù)的高質量輸出。
“在路況信息數(shù)據(jù)的標注作業(yè)中,每一個圖片數(shù)據(jù)包含著幾十個屬性分類,基于平臺的協(xié)同標注,標注團隊可以劃分為幾個標注小組,針對固定的幾個屬性進行標注,這樣不但提升了標注員的效率,同時配合平臺的標準化測試和輔助質檢功能,還可以有效地對標后數(shù)據(jù)進行錯標和漏標的篩查,從而確保高質高效的數(shù)據(jù)交付?!辟Z宇航表示。
未來:更加安全和個性化
人工智能正在逐漸從一些抽象的概念變成我們生活當中實際的應用,但階段性地來看,AI數(shù)據(jù)數(shù)量和質量的瓶頸還將持續(xù)制約行業(yè)的發(fā)展。
對于AI行業(yè)當下的發(fā)展,賈宇航也沒有掩飾自己的擔憂:“行業(yè)內客觀存在一些要求版權歸屬甲方,但乙方依然售賣多份給不同客戶的情況。而我們首先做的就是嚴格把控數(shù)據(jù)的私密性,讓擁有數(shù)據(jù)成為企業(yè)的核心壁壘,不會存在倒買倒賣等行為。同時,我們內部有數(shù)據(jù)隔離、質量保障等一系列保護數(shù)據(jù)安全的方法,可以在確保企業(yè)數(shù)據(jù)安全的情況下,持續(xù)為數(shù)據(jù)采集和標注構建和優(yōu)化自己的方案?!?/span>
盡管如此,賈宇航對于AI數(shù)據(jù)的未來依然充滿信心:“我們認為無論是過去的移動互聯(lián)網(wǎng)應用還是現(xiàn)在的AI應用都只是應用的一種,而我們想要做的事情就是幫助客戶讓其應用更有價值。從認識要用更加專業(yè)化的AI數(shù)據(jù)服務來解決越來越定制化的需求開始,我們已經(jīng)在AI真正全面落地的征途上邁出了第一步。”
- 世間將再無松下電視:松下官宣解散家電子公司并徹底放棄電視機業(yè)務
- 雅迪集團與南都電源簽署協(xié)議:攜手共繪固態(tài)電池未來藍圖
- 美媒聚焦比亞迪“副業(yè)”:電子代工助力蘋果,下個大計劃瞄準AI機器人
- 微信零錢通新政策:銀行卡轉入資金提現(xiàn)免手續(xù)費引熱議
- 消息稱塔塔集團將收購和碩印度iPhone代工廠60%股份 并接管日常運營
- 蘋果揭秘自研芯片成功之道:領先技術與深度整合是關鍵
- 英偉達新一代Blackwell GPU面臨過熱挑戰(zhàn),交付延期引發(fā)市場關注
- 馬斯克能否成為 AI 部部長?硅谷與白宮的聯(lián)系日益緊密
- 余承東:Mate70將在26號發(fā)布,意外泄露引發(fā)關注
- 無人機“黑科技”亮相航展:全球首臺低空重力測量系統(tǒng)引關注
免責聲明:本網(wǎng)站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內容可能涉嫌侵犯其知識產(chǎn)權或存在不實內容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。