全球首推語(yǔ)音定制產(chǎn)品,百度地圖背后的語(yǔ)音技術(shù)到底有多強(qiáng)大?

文|李永華

來(lái)源|智能相對(duì)論(aixdlun)

地圖APP的競(jìng)爭(zhēng)日趨激烈,但往往都是你來(lái)我往,各大產(chǎn)品互有來(lái)回。

但現(xiàn)在,一些基于AI技術(shù)的顛覆性創(chuàng)意功能正在冒出,它們將成為競(jìng)爭(zhēng)“殺招”,很可能一招制勝,讓?xiě)?zhàn)況不再膠著。

你可能經(jīng)常使用XX明星的聲音作為手機(jī)地圖的提示音,但你可能沒(méi)有想到,有一天“前面路口左轉(zhuǎn)”這樣的發(fā)音準(zhǔn)確、播音員級(jí)別的語(yǔ)音播報(bào),會(huì)通過(guò)“你的聲音”發(fā)出來(lái)。

近日,百度地圖推出“語(yǔ)音定制功能”,簡(jiǎn)而言之,用戶通過(guò)手機(jī)就能自主錄制與合成個(gè)人完整語(yǔ)音包,可以同步應(yīng)用到地圖全端語(yǔ)音場(chǎng)景,如駕車導(dǎo)航、語(yǔ)音交互、智能旅游等。

從技術(shù)角度看,如果了解為每個(gè)人進(jìn)行“語(yǔ)音定制”的技術(shù)難度的話,就知道百度先發(fā)制人推出的“語(yǔ)音定制功能”,或已經(jīng)讓行業(yè)對(duì)手“無(wú)計(jì)可施”。這背后是百度大腦語(yǔ)音能力的強(qiáng)力加持,是深厚技術(shù)積淀的產(chǎn)物。

毫無(wú)疑問(wèn),百度地圖出的這一招,已經(jīng)沒(méi)有人能夠在短時(shí)間內(nèi)接得起。

而從整個(gè)行業(yè)角度看,語(yǔ)音定制功能的加入,也讓“AI+地圖”組合的 “完全體”獲得了進(jìn)一步進(jìn)化、升級(jí)。

百度地圖事業(yè)部總經(jīng)理李瑩

盤(pán)點(diǎn)語(yǔ)音合成:百度地圖AI實(shí)力成為競(jìng)爭(zhēng)“殺招”

百度地圖此次推出的語(yǔ)音定制功能,依賴的技術(shù)即百度語(yǔ)音獨(dú)創(chuàng)的風(fēng)格遷移技術(shù)MEITRON模型。

該技術(shù)實(shí)際上已經(jīng)“露過(guò)臉”,大型公益節(jié)目《等著我》有一期講述了91歲老兵袁林昌尋找老排長(zhǎng)的故事,老排長(zhǎng)2004年即已去世,但技術(shù)團(tuán)隊(duì)采集老排長(zhǎng)的語(yǔ)音素材,利用MEITRON對(duì)音色、情感、風(fēng)格等進(jìn)行獨(dú)立的編碼建模,最終合成了老排長(zhǎng)聲音發(fā)出的句子,讓老兵袁林昌與觀眾感動(dòng)落淚。

智能相對(duì)論認(rèn)為,同樣作為AI語(yǔ)音合成技術(shù),MEITRON價(jià)值和優(yōu)勢(shì)在于三個(gè)方面:

素材要求低,一般僅需提供20句話的素材,在百度地圖上,用戶僅需跟隨錄制20句、每句15個(gè)字左右的語(yǔ)句即完成數(shù)據(jù)采集;

訓(xùn)練時(shí)間短,在百度地圖上,一般僅需20分鐘即可完成訓(xùn)練(實(shí)測(cè)往往15分鐘即可完成),合成個(gè)性化的目標(biāo)聲音,用戶無(wú)需漫長(zhǎng)等待;

“情感”豐富,即合成的語(yǔ)音可以注入不同的情感,效果變得更加逼真、豐富,就好像是某個(gè)人真的在說(shuō)一樣。

直接說(shuō)這些優(yōu)勢(shì)可能大家沒(méi)有直觀感受,當(dāng)我們盤(pán)點(diǎn)和回顧語(yǔ)音合成的發(fā)展史,就會(huì)發(fā)現(xiàn)MEITRON這些卓有成效的能力對(duì)整個(gè)語(yǔ)音合成領(lǐng)域的重要價(jià)值。在它的加持下,百度地圖的語(yǔ)音定制場(chǎng)景應(yīng)用直接摘取了“目標(biāo)聲音個(gè)性化”這顆皇冠明珠,讓競(jìng)爭(zhēng)對(duì)手不得不擺手放棄追趕。

1、大面上,AI已經(jīng)解決語(yǔ)音合成的幾個(gè)基本問(wèn)題

事實(shí)上,在MEITRON之前,AI深度介入語(yǔ)音合成領(lǐng)域,已經(jīng)解決了行業(yè)的三大基本痛點(diǎn)問(wèn)題:

韻律問(wèn)題:可理解為符合正常人聊天語(yǔ)態(tài),例如句子的停頓,重讀等要求,計(jì)算機(jī)過(guò)去往往比較機(jī)械,聽(tīng)起來(lái)不自然,例如,過(guò)去合成“你真好看”四字簡(jiǎn)單的句子,可能讀成“你真/好看”等,現(xiàn)在AI可以實(shí)現(xiàn)“你/真好看”相對(duì)正確的短句和頓挫,或者如普通人一樣還能在“真”字上加上重音;

音色擬合問(wèn)題:即不只有一個(gè)單調(diào)的女聲,還可以擬合其他想要的種類的聲音;

情感擬人問(wèn)題:即說(shuō)出的話有不同的“調(diào)調(diào)”,個(gè)人風(fēng)格濃厚,而不是冰冷的、無(wú)情感的輸出。

2、AI長(zhǎng)時(shí)間難以解決“目標(biāo)聲音個(gè)性化”問(wèn)題,MEITRON出手

但是,AI解決的語(yǔ)音合成三大基本問(wèn)題,只是在“商用層面”,尚不能到達(dá)“民用層面”。

形象地理解,過(guò)去幾乎所有的地圖產(chǎn)品都能針對(duì)一個(gè)特定的“目標(biāo)聲音”進(jìn)行采集和訓(xùn)練,實(shí)現(xiàn)有韻律、有音色、有情感,百度地圖的湯唯、楊洋、郭采潔、韓喬生、柳巖,高德地圖的郭德綱、林志玲等,都是如此。

早期這種“商用采集”的特點(diǎn)是“目標(biāo)聲音”的提供者,需要配合進(jìn)行大量的采集工作,并等待十天半個(gè)月甚至更長(zhǎng)時(shí)間的合成,才能生成我們?cè)诘貓DAPP里熟悉的明星語(yǔ)音包。如果面向海量的普通用戶,這種成本平臺(tái)無(wú)法承受,用戶也很難談得上有什么體驗(yàn)。

所以,地圖產(chǎn)品的語(yǔ)音包早期只能一個(gè)一個(gè)來(lái),只在商用層面無(wú)法抵達(dá)“民用”。

而問(wèn)題恰恰又在于,AI浪潮下,所有面向大眾的產(chǎn)品都在談個(gè)性化,地圖產(chǎn)品概莫能外。個(gè)性化需求只要生根就會(huì)發(fā)芽、長(zhǎng)大,在AI語(yǔ)音合成的支持下,有了不同的明星語(yǔ)音包,越來(lái)越多的用戶潛在也會(huì)有的更為個(gè)性化的語(yǔ)音需求,誰(shuí)能激發(fā)和實(shí)現(xiàn)這種需求,誰(shuí)就贏得了無(wú)法追趕的競(jìng)爭(zhēng)優(yōu)勢(shì)。

將目標(biāo)聲音“個(gè)性化”,千人千面、每個(gè)人定制自己想要的語(yǔ)音,無(wú)疑成了語(yǔ)音合成皇冠上的明珠。

此時(shí),MEITRON出來(lái)了,百度地圖語(yǔ)音定制功能落地了,20句15字左右的跟讀素材采集,實(shí)測(cè)15分鐘左右的合成速度,駕車導(dǎo)航、語(yǔ)音交互、智能旅游的多樣化個(gè)人語(yǔ)音應(yīng)用……當(dāng)百度地圖打出這張技術(shù)+體驗(yàn)牌時(shí),就是徹底的殺招。

一旦把地圖APP中用戶日常接觸最頻繁的語(yǔ)音改造成用戶自己想要的聲音,也意味著移動(dòng)APP們共同的夢(mèng)想——為每個(gè)用戶打造只屬于自己的“專屬APP”得到切實(shí)的落地,APP產(chǎn)品夢(mèng)寐以求的高用戶粘性也有了額外支撐。

直白地說(shuō),如果百度地圖APP獨(dú)有用戶個(gè)人或者想要的某種特質(zhì)語(yǔ)音,他可能就更加沒(méi)有理由再去使用其他產(chǎn)品。

百度語(yǔ)音首席架構(gòu)師賈磊

出彩的語(yǔ)音定制,本質(zhì)仍是百度地圖“AI+地圖”策略的重要一環(huán)

語(yǔ)音定制是百度地圖的競(jìng)爭(zhēng)殺招,但它仍舊處在百度地圖“AI+地圖”的整體招式之中。

這不是第一次AI技術(shù)在百度地圖的應(yīng)用。

2018年,百度AI開(kāi)發(fā)者大會(huì)曾現(xiàn)場(chǎng)演示一段長(zhǎng)達(dá)60多字的服務(wù)請(qǐng)求:“我要從三里屯的團(tuán)結(jié)湖地鐵站出發(fā)路過(guò)望京的家樂(lè)福然后再去南鑼鼓巷最后到我家,我要紅綠燈少的不堵車的最快的路線,你幫我路線規(guī)劃一下吧”,百度地圖語(yǔ)音助手順利接受語(yǔ)音輸入,自然流暢地提供了導(dǎo)航服務(wù)。

這個(gè)過(guò)程中,百度地圖的語(yǔ)音技術(shù)邁過(guò)了AI語(yǔ)音操控的三道坎:聽(tīng)清,在類似駕車等嘈雜環(huán)境中聽(tīng)清楚語(yǔ)音;聽(tīng)懂,識(shí)別復(fù)雜語(yǔ)句的真實(shí)意圖,尤其是適應(yīng)用戶非標(biāo)準(zhǔn)的、隨性的請(qǐng)求;滿足,將意圖與后臺(tái)操作對(duì)應(yīng),滿足用戶真實(shí)訴求。只有這樣,所謂“全語(yǔ)音操控”才能坐實(shí)。

而這些同樣得益于百度的語(yǔ)音技術(shù)能力——從SMLTA模型(一種大大提高語(yǔ)音理解能力的技術(shù)),到小度全雙工連續(xù)交互技術(shù)(連續(xù)多次指令,不需要重復(fù)說(shuō)小度小度這樣的喚醒詞,只要按正常人與人交流的方式即可)以及更多百度AI的亮眼語(yǔ)音技術(shù)來(lái)看,百度地圖的全語(yǔ)音操控也并不意外。

在語(yǔ)音之外,百度地圖還有許多與前沿科技結(jié)合的交互技術(shù)來(lái)提升用戶體驗(yàn)。

例如,百度地圖利用AR現(xiàn)實(shí)增強(qiáng)技術(shù),在各個(gè)場(chǎng)景中,為用戶提供沉浸式實(shí)景地圖使用體驗(yàn)。比如,AR雙屏步導(dǎo)功能可以同步顯示常規(guī)地圖與實(shí)景畫(huà)面,用戶只需要跟隨實(shí)景畫(huà)面中的箭頭圖案即可到達(dá)目的地;AR周邊探索功能可顯示當(dāng)前場(chǎng)景內(nèi)美食、娛樂(lè)、購(gòu)物、麗人、運(yùn)動(dòng)、銀行、酒店、景點(diǎn)、樓宇等POI點(diǎn)(興趣點(diǎn)),點(diǎn)擊即可導(dǎo)航;此外,地圖常常被使用的旅游場(chǎng)景中,AR導(dǎo)覽可以屏幕上標(biāo)記當(dāng)前景區(qū)的景點(diǎn)。

回過(guò)頭來(lái)看,自從2018年3月百度地圖并入AIG后,借助AI技術(shù)的百度地圖煥發(fā)出全新的生機(jī),憑借各種顛覆性的用戶體驗(yàn)創(chuàng)新,百度地圖與競(jìng)品的差異化程度逐步加深。

定制語(yǔ)音功能的推出,更標(biāo)志著百度地圖在競(jìng)爭(zhēng)中已經(jīng)升維,以擁抱未來(lái)的新一代產(chǎn)品姿態(tài)參與競(jìng)爭(zhēng)。

可以料想的是,未來(lái),這樣借助AI等前沿技術(shù)的細(xì)節(jié)體驗(yàn)打磨想必會(huì)更多,技術(shù)上的絕對(duì)領(lǐng)先讓百度地圖不會(huì)再像過(guò)去那樣在競(jìng)爭(zhēng)中見(jiàn)招拆招不分勝負(fù),招招必殺的2.0時(shí)代或已經(jīng)開(kāi)啟。

結(jié)語(yǔ)

語(yǔ)音技術(shù)在百度地圖上有了最佳實(shí)踐,其實(shí)也是百度AI技術(shù)本身硬核實(shí)力的表現(xiàn)。除了百度地圖,百度硬核的語(yǔ)音技術(shù)一直在賦能百度系內(nèi)部各大產(chǎn)品,例如:

語(yǔ)音輸入用戶認(rèn)知、使用狀況、準(zhǔn)確率遙遙領(lǐng)先行業(yè)的百度輸入法,已經(jīng)憑借語(yǔ)音輸入獲得了全新的差異化競(jìng)爭(zhēng)優(yōu)勢(shì);全新體驗(yàn)的語(yǔ)音搜索徹底解放用戶雙手,“所說(shuō)即所得”,簡(jiǎn)單動(dòng)動(dòng)嘴即可探索世界,這為搜索注入了全新的動(dòng)能;出貨量國(guó)內(nèi)第一、全球領(lǐng)先的小度音箱,區(qū)別競(jìng)品聽(tīng)不懂、亂回話的尷尬狀況,為智能音箱的智能和體驗(yàn)正名……

百度AI業(yè)界公認(rèn)最強(qiáng),而語(yǔ)音定制功能反映出語(yǔ)音技術(shù)更是業(yè)界翹楚。從最深層的技術(shù)能力,到最表層的用戶體驗(yàn),百度語(yǔ)音技術(shù)憑借內(nèi)部產(chǎn)品和外部合作伙伴打通了全部鏈路、進(jìn)行了全面落地化的布局,正在成為百度AI的重頭戲。

免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評(píng)論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個(gè)人觀點(diǎn),與極客網(wǎng)無(wú)關(guān)。文章僅供讀者參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

2019-09-20
全球首推語(yǔ)音定制產(chǎn)品,百度地圖背后的語(yǔ)音技術(shù)到底有多強(qiáng)大?
個(gè)性化需求只要生根就會(huì)發(fā)芽、長(zhǎng)大,在AI語(yǔ)音合成的支持下,有了不同的明星語(yǔ)音包,越來(lái)越多的用戶潛在也會(huì)有的更為個(gè)性化的語(yǔ)音需求,誰(shuí)能激發(fā)和實(shí)現(xiàn)這種需求,誰(shuí)就贏得了無(wú)法追趕的競(jìng)爭(zhēng)優(yōu)勢(shì)。

長(zhǎng)按掃碼 閱讀全文