10 月19 日凌晨,DeepMind 在《Nature》發(fā)布最新論文,AlphaGo 最強最新的版本AlphaGo Zero 使用純強化學(xué)習(xí),3 天訓(xùn)練后就以100 比0 擊敗了上一版本的AlphaGo,21 天達到AlphaGo Master 水平。AlphaGo Zero 的勝利引起了業(yè)內(nèi)和網(wǎng)友們的廣泛關(guān)注,但是機器已經(jīng)真的進化到可以自我學(xué)習(xí)了嗎?日前,專注報道AI的量子位對曠視科技Face++首席科學(xué)家孫劍博士做了專訪,詳盡解讀了AlphaGo Zero的技術(shù)創(chuàng)新和應(yīng)用局限。
“人類太多余了?!薄鎸o師自通碾壓一切前輩的AlphaGo Zero,柯潔說出了這樣一句話。
如果你無法理解柯潔的絕望,請先跟著量子位回顧上一集:
今年5月,20歲生日還未到的世界圍棋第一人柯潔,在烏鎮(zhèn)0:3敗給了DeepMind的人工智能程序AlphaGo,當(dāng)時的版本叫做Master,就是今年年初在網(wǎng)上60:0挑落中日韓高手的那個神秘AI。
AlphaGo Zero驟然出現(xiàn),可以說是在柯潔快要被人類對手和迷妹們治愈的傷口上,撒了一大把胡椒粉。
被震動的不止柯潔,在DeepMind的Nature論文公布之后,悲觀、甚至恐慌的情緒,在大眾之間蔓延著,甚至有媒體一本正經(jīng)地探討“未來是終結(jié)者還是黑客帝國”。
于是,不少認(rèn)真讀了論文的人工智能“圈內(nèi)人”紛紛站出來,為這次技術(shù)進展“去魅”。
AlphaGo Zero無師自通?
首當(dāng)其沖的問題就是:在AlphaGo Zero下棋的過程中,人類知識和經(jīng)驗真的一點用都沒有嗎?
在這一版本的AlphaGo中,雖說人類的知識和經(jīng)驗沒多大作用,但也不至于“多余”。
在Zero下棋的過程中,并沒有從人類的對局經(jīng)驗和數(shù)據(jù)中進行學(xué)習(xí),但這個算法依然需要人類向它灌輸圍棋的規(guī)則:哪些地方可以落子、怎樣才算獲勝等等。
剩下的,就由AI自己來搞定了。
對于這個話題,鮮有人比曠視科技首席科學(xué)家孫劍更有發(fā)言權(quán)了,因為AlphaGo Zero里面最核心使用的技術(shù)ResNet,正是孫劍在微軟亞洲研究院時期的發(fā)明。
△ 曠視科技Face++首席科學(xué)家孫劍博士
孫劍也在接受量子位等媒體采訪的過程中,對AlphaGo Zero的“無師自通”作出了評價,他認(rèn)為這個說法“對,也不對”,并且表示“偉大與局限并存”。
究竟對不對,還是取決于怎樣定義無師自通,從哪個角度來看。
和之前三版AlphaGo相比,這一版去掉了人類教授棋譜的過程,在訓(xùn)練過程最開始的時候,AI落子完全是隨機的,AlphaGo團隊的負(fù)責(zé)人David Silver透露,它一開始甚至?xí)验_局第一手下在1-1。在和自己對弈的過程中,算法才逐漸掌握了勝利的秘訣。
從這個角度來看,Zero的確可以說是第一次做到了無師自通,也正是出于這個原因,DeepMind這篇Nature論文才能引起這么多圈內(nèi)人關(guān)注。
但要說它是“無監(jiān)督學(xué)習(xí)”,就有點“不對”。孫劍說:“如果仔細(xì)看這個系統(tǒng),它還是有監(jiān)督的。”它的監(jiān)督不是來自棋譜,而是圍棋規(guī)則所決定的最后誰輸誰贏這個信號。
“從這個意義上說,它不是百分之百絕對的無師自通,而是通過這個規(guī)則所帶來的監(jiān)督信號,它是一種非常弱監(jiān)督的增強學(xué)習(xí),它不是完全的無師自通。”
孫劍還進一步強調(diào):“但是同時這種無師自通在很多AI落地上也存在一些局限,因為嚴(yán)格意義上講,圍棋規(guī)則和判定棋局輸贏也是一種監(jiān)督信號,所以有人說人類無用、或者說機器可以自己產(chǎn)生認(rèn)知,都是對AlphaGo Zero錯誤理解。”
離全面碾壓人類有多遠(yuǎn)?
Zero發(fā)布之后,媒體關(guān)切地詢問“這個算法以后會用在哪些其他領(lǐng)域”,網(wǎng)友認(rèn)真地?fù)?dān)心“這個AI會不會在各個領(lǐng)域全面碾壓人類”。
對于Zero算法的未來發(fā)展,DeepMind聯(lián)合創(chuàng)始人哈薩比斯介紹說,AlphaGo團隊的成員都已經(jīng)轉(zhuǎn)移到其他團隊中,正在嘗試將這項技術(shù)用到其他領(lǐng)域,“最終,我們想用這樣的算法突破,來解決真實世界中各種各樣緊迫的問題?!?/p>
DeepMind期待Zero解決的,是“其他結(jié)構(gòu)性問題”,他們在博客中特別列舉出幾項:蛋白質(zhì)折疊、降低能耗、尋找革命性的新材料。
哈薩比斯說AlphaGo可以看做一個在復(fù)雜數(shù)據(jù)中進行搜索的機器,除了博客中提到幾項,新藥發(fā)現(xiàn)、量子化學(xué)、粒子物理學(xué)也是AlphaGo可能大展拳腳的領(lǐng)域。
不過,究竟哪些領(lǐng)域可以擴展、哪些領(lǐng)域不行呢?
孫劍說要解釋AlphaGo算法能擴展到哪些領(lǐng)域,需要先了解它現(xiàn)在所解決的問題——圍棋——具有哪些特性。
首先,它沒有噪聲,是能夠完美重現(xiàn)的算法;
其次,圍棋中的信息是完全可觀測的,不像在麻將、撲克里,對手的信息觀測不到;
最后也是最重要的一點,是圍棋對局可以用計算機迅速模擬,很快地輸出輸贏信號。
基于對圍棋這個領(lǐng)域特性的理解,提到用AlphaGo算法來發(fā)現(xiàn)新藥,孫劍是持懷疑態(tài)度的。
他說,發(fā)現(xiàn)新藥和下圍棋之間有一個非常顯著的區(qū)別,就是“輸贏信號”能不能很快輸出:“新藥品很多內(nèi)部的結(jié)構(gòu)需要通過搜索,搜索完以后制成藥,再到真正怎么去檢驗這個藥有效,這個閉環(huán)非常代價昂貴,非常慢,你很難像下圍棋這么簡單做出來?!?/p>
不過,如果找到快速驗證新藥是否有效的方法,這項技術(shù)就能很好地用在新藥開發(fā)上了。而用AlphaGo算法用來幫數(shù)據(jù)中心節(jié)能,孫劍就認(rèn)為非常說得通,因為它和圍棋的特性很一致,能快速輸出結(jié)果反饋,也就是AlphaGo算法依賴的弱監(jiān)督信號。
當(dāng)然,從AlphaGo算法的這些限制,我們也不難推想,它在某些小領(lǐng)域內(nèi)可以做得非常好,但其實并沒有“全面碾壓人類”的潛力。
去魅歸去魅,對于AlphaGo Zero的算法,科研人員紛紛贊不絕口。
大道至簡的算法
在評價Zero的算法時,創(chuàng)新工場AI工程院副院長王詠剛用了“大道至簡”四個字。
簡單,是不少人工智能“圈內(nèi)人”讀完論文后對Zero的評價。剛剛宣布將要跳槽伯克利的前微軟亞洲研究院首席研究員馬毅教授就發(fā)微博評論說,這篇論文“沒有提出任何新的方法和模型”,但是徹底地實現(xiàn)了一個簡單有效的想法。
為什么“簡單”這件事如此被學(xué)術(shù)圈津津樂道?孫劍的解釋是“我們做研究追求極簡,去除復(fù)雜”,而Zero的算法基本就是在前代基礎(chǔ)上從各方面去簡化。
他說,這種簡化,一方面體現(xiàn)在把原來的策略網(wǎng)絡(luò)和價值網(wǎng)絡(luò)合并成一個網(wǎng)絡(luò),簡化了搜索過程;另一方面體現(xiàn)在用深度殘差網(wǎng)絡(luò)(ResNet)來對輸入進行簡化,以前需要人工設(shè)計棋盤的輸入,體現(xiàn)“這個子下過幾次、周圍有幾個黑子幾個白子”這樣的信息,而現(xiàn)在是“把黑白子二值的圖直接送進來,相當(dāng)于可以理解成對著棋盤拍照片,把照片送給神經(jīng)網(wǎng)絡(luò),讓神經(jīng)網(wǎng)絡(luò)看著棋盤照片做決策”。孫劍認(rèn)為,擬合搜索和ResNet,正是Zero算法中的兩個核心技術(shù)。
其中擬合搜索所解決的問題,主要是定制化,它可以對棋盤上的每一次落子都進行量化,比如會對最終獲勝幾率做多大貢獻,但是這其實并不是近期才產(chǎn)生的一種理論,而是在很早之前就存在的一種基礎(chǔ)算法理論。
而另一核心技術(shù)是最深可達80層的ResNet??偟膩碚f,神經(jīng)網(wǎng)絡(luò)越深,函數(shù)映射能力就越強、越有效率,越有可能有效預(yù)測一個復(fù)雜的映射。
下圍棋時要用到的,就是一個非常復(fù)雜的映射,神經(jīng)網(wǎng)絡(luò)需要輸出每個可能位置落子時贏的概率,也就是最高要輸出一個361維的向量。這是一個非常復(fù)雜的輸出,需要很深的網(wǎng)絡(luò)來解決。
人類棋手下棋,落子很多時候靠直覺,而這背后實際上有一個非常復(fù)雜的函數(shù),Zero就用深層ResNet,擬合出了這樣的函數(shù)。
ResNet特點就是利用殘差學(xué)習(xí),讓非常深的網(wǎng)絡(luò)可以很好地學(xué)習(xí),2015年,孫劍帶領(lǐng)的團隊就用ResNet把深度神經(jīng)網(wǎng)絡(luò)的層數(shù)從十幾二十層,推到了152層。
也正是憑借這樣的創(chuàng)新,孫劍團隊拿下了ImageNet和MSCOCO圖像識別大賽各項目的冠軍。到2016年,他們又推出了第一個上千層的網(wǎng)絡(luò),獲得了CVPR最佳論文獎。
而令孫劍更加意料之外的是,ResNet還被AlphaGo團隊看中,成為AlphaGo Zero算法中的核心組件之一。
這位曠視科技Face++首席科學(xué)家表示很開心為推動整個AI進步“做了一點微小的貢獻”,同時也很欽佩DeepMind團隊追求極致的精神。孫劍還說,在曠視研究院的工作中,還會不斷分享、開放研究成果,更注重技術(shù)在產(chǎn)業(yè)中的實用性,進一步推動整個AI產(chǎn)業(yè)的進步。
- 哈啰Robotaxi破局之戰(zhàn):30億大手筆能否打破行業(yè)僵局?
- 小猿AI智慧教育引領(lǐng)行業(yè)新潮流,下載量飆升榜首,重塑學(xué)習(xí)新體驗
- 穩(wěn)定幣風(fēng)波再起,京東嚴(yán)正聲明:堅決維護市場秩序
- 知乎直答升級:解鎖訂閱與內(nèi)容分享,探索知識新玩法!
- 百望股份攜手沐曦集成電路,共創(chuàng)智能芯片新紀(jì)元
- 螞蟻科技開放香港四大核心技術(shù):助力香港區(qū)塊鏈與人工智能發(fā)展,打造未來科技新生態(tài)
- 福特CEO反思中國電動汽車崛起:中國速度引發(fā)深思,電動汽車發(fā)展如何令人自慚形穢
- 小馬智行第七代Robotaxi落地新加坡:打破自動駕駛落地之困?
- 蘋果將推廉價版MacBook:破繭之作,A18 Pro芯片領(lǐng)銜,輕薄與性能并存
- 小鵬預(yù)定小米車,雷軍回應(yīng)力爭早交車,期待小鵬G7發(fā)布會新突破
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。