文|吳俊宇
今天是五四青年節(jié),提及青年節(jié),就不得不說“德先生”和“賽先生”。
100年前的五四運動中,響徹著“只有德先生、賽先生可以救中國”的口號。
“德先生”,即“Democracy”,德莫克拉西(音譯)——意指先進的思想。
“賽先生”,即“Science”,賽因斯(音譯)——意為,“科學(xué)”,所謂“科學(xué)”是指近代自然科學(xué)法則和科學(xué)精神。
今年央視五四晚會的主持人包括“賽先生”——春晚紅包之后,央視和百度再攜手五四晚會百度大腦AI虛擬主持人“小靈”。
這個虛擬主持人和主持人王俊凱、尼格買提同臺競技,絲毫不落下風(fēng)。
“小靈”背后的技術(shù)提供就是百度大腦,其中糅合了百度視覺、語音、大數(shù)據(jù)以及AR能力,打通了大小屏,讓每個電視機前的觀眾不僅可以看到晚會中的虛擬主持人,還能直接與它進行互動體驗。
當(dāng)年五四運動的“總司令”陳獨秀如果見到“小靈”,恐怕也會驚嘆今天中國技術(shù)之強大。
一
技術(shù)秀在哪兒
在五四晚會中,主持人“小靈”邀請旁邊的真人主持人用人臉識別測測自己是祖國的什么花。女主持人和“小靈”的互動非常自然流暢。
很多觀眾有個非常強烈的感受——這個AI主持人似乎遠比市面上其他AI主持人更細膩。
其他AI主持人似乎都是機器人腔,而且發(fā)聲時嘴巴只是一張一合,明顯對不上號。百度大腦這個AI主持人,怎么看怎么覺得舒服。
要做到“舒服”可不容易,這需要語音、表情、唇動這些技術(shù)都擬合在一起。
1、語音音色要自然
一般AI語音背后都有個語音庫。我在谷歌AI博客上找了下AI語音合成的技術(shù)模型圖。
大概翻譯一些這個圖的意思:AI語音庫制作的步驟大概是三步。
第一步是將文本變成音頻,先確定音色、風(fēng)格、使用領(lǐng)域、產(chǎn)品特性、角色要求。
第二步找到配音員試音,根據(jù)需求設(shè)計試音文本,收集錄音。
第三步是確投入音庫生產(chǎn)線,錄音腳本設(shè)計、錄音資源訓(xùn)練、效果優(yōu)化、豐富音色。
百度大腦為此準備了幾十個音庫,找播音主持專業(yè)的學(xué)生專業(yè)錄制了各式各樣的聲音,具備非常豐富的音色矩陣。
每個音庫只要用戶喜歡,都可以做成一個虛擬主播、虛擬人物的形象。這背后的技術(shù)其實基于業(yè)界領(lǐng)先的深度神經(jīng)網(wǎng)絡(luò)技術(shù),提供高度擬人、流暢自然的語音合成服務(wù),可以讓應(yīng)用、設(shè)備開口說話,更具個性。
我在百度大腦AI開放平臺找到了百度大腦AI開放平臺語音合成技術(shù)的體驗區(qū)。以度逍遙這個情感男聲為例測試了一句話:今年是五四運動一百周年。
這個男聲有著非常明顯的特點,非常舒服渾厚的京腔,不知道的人還以為是一個播音主持人在和自己說話。
可以說,百度機器學(xué)習(xí)模型的研究上取得了突破性成果,其生成的仿人類語音更加逼真自然,將仿人類語音與真實人類聲音之間的差異大大減小了。
2、表情唇動要豐富
人的表情,其實是由面部肌肉以及唇動共同組成的,不同人有不同肌肉動作。
以下面這張圖為例,人可能有千百種表情,不同人在表達喜悅、恐懼、得意、焦慮的時候,表情都不一樣。
真的把表情交到人類面前時,我們都不一定可以把不同表情做準確歸類。
但是機器可以做到啊?;诖罅康拿娌刻卣鞯臄?shù)據(jù)學(xué)習(xí)去做提取,機器可以把面部肌肉、唇部動作最細膩的表現(xiàn)都展開學(xué)習(xí)、歸納,然后從中總結(jié),學(xué)習(xí)人類的表情特征。
在需要輸出的時候,再用深度學(xué)習(xí)做表情驅(qū)動,使得表情更加豐富,甚至連發(fā)色、年齡都可以自動生成。
百度大腦的技術(shù)邏輯和這個其實也基本大同小異。
百度大腦AI開放平臺上提到,百度大腦在檢測出人臉后,可對人臉進行分析,獲得眼、口、鼻輪廓等150個關(guān)鍵點定位,準確識別多種人臉屬性,如性別,年齡,表情等信息。這個技術(shù)還可適應(yīng)大角度側(cè)臉,遮擋,模糊,表情變化等各種實際環(huán)境。
百度大腦把聲音、表情、嘴唇的這些素材經(jīng)過了數(shù)據(jù)采集、特征分析、模型訓(xùn)練,用深度學(xué)習(xí)的一些核心算法和思想做了唇動技術(shù),讓唇動、表情和語音更好的用不同的特征表示聯(lián)系在一起。
過去其他的AI主持人只是有一個語音庫,表情和唇動非常初級,百度等于是把三項技術(shù)全部都擬合在一起了,而且再通過AR技術(shù)輸出出來,比別的廠商想得更多、更細。
二
產(chǎn)品用在哪兒
你以為百度大腦的AI主持人只能用于這種晚會主持?
當(dāng)然不止于此。它背后涉及的技術(shù)包括面部識別、語音合成、AR輸出等等。這些AI技術(shù)可以組合成不同的產(chǎn)品,開放給其他客戶使用,幫助行業(yè)客戶改善服務(wù)、提升效率。
事實上,依托于百度大腦的百度AR Lab(百度增強現(xiàn)實實驗室),就在提供AR技術(shù)、產(chǎn)品、服務(wù)一站式智能交互解決方案,業(yè)務(wù)已廣泛覆蓋營銷、娛樂、教育、文化等各個領(lǐng)域。
1、教育和閱讀類產(chǎn)品:讓課程和講解變得更生動
通過閱讀類APP閱讀小說或新聞時,如果使用語音合成技術(shù)為用戶提供多種發(fā)音人的朗讀功能,釋放雙手和雙眼,獲得更極致的閱讀體驗。
實際上,熊貓看書、快聽小說已經(jīng)在使用百度大腦這項技術(shù)。用戶可以直接用語音播放電子書中的內(nèi)容。
教育類的客戶同樣可以引入這樣的AI主持人,在一些兒童故事機、智能機器人這類教育類設(shè)備或課程之中定制屬于自家產(chǎn)品的形象、聲音,讓課程變得更親切。
深圳一家名為AiMouse的智能鼠標廠商以及Kido兒童手表品牌都使用了百度這項技術(shù)。Kido通過運用百度語音識別和語音合成技術(shù),優(yōu)化了機器人的語音交互體驗,讓兒童手表實現(xiàn)語音交互。這款手表的日活躍量也達到了百萬級別。
2、生活和服務(wù)類產(chǎn)品:讓服務(wù)交互效率得以提升
語音合成還可應(yīng)用于打車軟件、餐飲叫號、排隊軟件等場景,通過語音合成進行訂單播報,讓用戶便捷獲得通知信息。面部識別則是可以展開顧客識別、訂單校對。
不管是語音合成還是面部識別,都天然適合服務(wù)業(yè)場景。一些酒店、飯店等服務(wù)業(yè)可以定制一些屬于自己的機器人,幫助顧客做客服。在訂單校驗的過程中則是可以用顧客的面部特征為基礎(chǔ)展開服務(wù)。
嘀嗒出行出租車業(yè)務(wù)的“聽單”以及順風(fēng)車業(yè)務(wù)的“聽單功能+派單服務(wù)”中都用到了百度的語音合成技術(shù)。
從2017年10月開始接入百度語音合成SDK。隨著嘀嗒業(yè)務(wù)的增長,調(diào)用量每日都在攀升,日調(diào)用超過千萬次以上,而錯誤率幾乎為零。百度語音合成技術(shù)保證了核心派單功能的穩(wěn)定服務(wù)。
3、影視文娛產(chǎn)業(yè):節(jié)省動漫動畫行業(yè)的人力
影視、動漫行業(yè)未來效率也能因百度大腦這套AI技術(shù)得到很大提升。
過去動漫、影視劇行業(yè)為了給動畫人物唇形、表情,必須手動一點點調(diào)整,而且很看動畫師主觀的思考。
百度這一套技術(shù)輸出給動漫行業(yè)的話,直接機器生成就OK,動畫師后期修改也很方便。程序驅(qū)動以后,動畫人物語言的唇動連續(xù)性也是完全一樣的。不會出現(xiàn)在說同一個詞匯時出現(xiàn)不同唇動的現(xiàn)象。
影視劇、動漫產(chǎn)業(yè)的動畫師未來可以把更多精力放在更多有價值的工作上,這樣不僅可以節(jié)省人工成本,還縮短了工作時間。
當(dāng)然,文中列舉的這些案例完全不能概括面部識別、語音合成、AR這些技術(shù)融合帶來的應(yīng)用場景。
我列舉這些案例的意思是,你只有非常努力,才能看起來毫不費勁。
三
百度領(lǐng)軍“賽先生”
央視五四晚會上這個AI主持人表面上看起來只是在主持一檔晚會。實際上它所需要用到的AI技術(shù)底蘊深厚,放到各行各業(yè)可以有更大的實際效益。
這也正如美國軟件技術(shù)專家艾德·伯內(nèi)特說過的一句話:
現(xiàn)在天上有三十一顆衛(wèi)星在地球上空環(huán)繞,不為別的,就為了告訴你便利店怎么走。
如果你只看到了手機地圖上的便利店要怎么走,你顯然低估了很多事情。
因為天上那三十一顆衛(wèi)星不僅僅在服務(wù)你,更在服務(wù)各行各業(yè)——那才是你沒看到的東西。
英國學(xué)者李約瑟(Joseph Needham)在編著的《中國科學(xué)技術(shù)史》中提出此問題:
盡管中國古代對人類科技發(fā)展做出重要貢獻,但為什么科學(xué)和工業(yè)革命沒有在近代中國發(fā)生?
作為享譽世界的文明古國,在技術(shù)上有過那么多自豪成就。明明自己發(fā)明了火藥,卻被八國聯(lián)軍炸掉了封建牌坊;明明發(fā)明了指南針,卻被英國的戰(zhàn)列艦找上門來。
100年前的五四運動就是探尋這個答案的過程。五四青年們因為國家積貧積弱,走上呼喚“德先生”和“賽先生”的道路。
可以說,德先生和賽先生,是推動中國社會前進的兩個車輪。
在今天,全世界范圍內(nèi)同樣在展開一場圍繞著“賽先生”的競爭——未來20年,是AI的時代,AI就是當(dāng)代“賽先生”。
百度為代表中國企業(yè)在AI領(lǐng)域已經(jīng)不遑多讓,多年以前呼吁的“賽先生”已經(jīng)不是短板?!百愊壬鄙踔琳诔蔀榻裉熘袊叩绞澜缂夹g(shù)之巔的重要基石。
以AI為代表的“賽先生”讓萬事萬物都處于精確計算之中,正如當(dāng)代哲學(xué)家西閃《國家的計算》所說的:
在現(xiàn)實世界的“賭局”中,帕斯卡的上帝已經(jīng)隱退,取而代之的,是作為信仰的“未來”。它像一個永恒的獎杯,在時間的盡頭閃閃發(fā)光。計算則取代了程式化的行為訓(xùn)練,演變成為一種新的思維習(xí)慣。“理性的計算”已經(jīng)成了是近現(xiàn)代的過程最主要的特征。
五四運動的倡導(dǎo)者陳獨秀如果看到中國科技企業(yè)把“賽先生”搞得這么強,怕是也要說一句,“你真秀!”
----------------------------------------------
作者 | 吳俊宇 公眾號 | 深幾度
作者系獨立撰稿人,微信號852405518
關(guān)注科技公司、互聯(lián)網(wǎng)現(xiàn)象的解讀
曾獲鈦媒體2015、2016、2018年度作者
新浪創(chuàng)事記2018年度十大作者
品途網(wǎng)2016年度十大作者
騰訊科技2015年度最具影響力自媒體
- 世間將再無松下電視:松下官宣解散家電子公司并徹底放棄電視機業(yè)務(wù)
- 雅迪集團與南都電源簽署協(xié)議:攜手共繪固態(tài)電池未來藍圖
- 美媒聚焦比亞迪“副業(yè)”:電子代工助力蘋果,下個大計劃瞄準AI機器人
- 微信零錢通新政策:銀行卡轉(zhuǎn)入資金提現(xiàn)免手續(xù)費引熱議
- 消息稱塔塔集團將收購和碩印度iPhone代工廠60%股份 并接管日常運營
- 蘋果揭秘自研芯片成功之道:領(lǐng)先技術(shù)與深度整合是關(guān)鍵
- 英偉達新一代Blackwell GPU面臨過熱挑戰(zhàn),交付延期引發(fā)市場關(guān)注
- 馬斯克能否成為 AI 部部長?硅谷與白宮的聯(lián)系日益緊密
- 余承東:Mate70將在26號發(fā)布,意外泄露引發(fā)關(guān)注
- 無人機“黑科技”亮相航展:全球首臺低空重力測量系統(tǒng)引關(guān)注
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責(zé)任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。