三大技術(shù)突破,助力國(guó)內(nèi)智能語(yǔ)音產(chǎn)業(yè)規(guī)模飛速增長(zhǎng)

據(jù)行業(yè)預(yù)測(cè),中國(guó)智能語(yǔ)音產(chǎn)業(yè)規(guī)模將達(dá)到101.4億元。而智能語(yǔ)音產(chǎn)業(yè)的快速發(fā)展,將帶動(dòng)智能家居、智能汽車(chē)以及智能穿戴設(shè)備等相關(guān)領(lǐng)域市場(chǎng)規(guī)模增長(zhǎng)上千億元。

智能語(yǔ)音市場(chǎng)規(guī)模得以如此神速擴(kuò)張,并且應(yīng)用到多個(gè)領(lǐng)域,這必然離不開(kāi)智能語(yǔ)音技術(shù)的不斷突破。那么,我們當(dāng)前的語(yǔ)音技術(shù)達(dá)到了什么地步?換句話(huà)說(shuō),能夠?qū)崿F(xiàn)什么樣的人機(jī)互動(dòng)效果呢?

以歐拉蜜團(tuán)隊(duì)為代表,我們一起來(lái)看看這些年國(guó)內(nèi)智能語(yǔ)音行業(yè)的技術(shù)突破。

技術(shù)門(mén)檻高,首先得保證語(yǔ)音識(shí)別準(zhǔn)確率

中國(guó)的語(yǔ)音識(shí)別研究起始于1958年,由中國(guó)科學(xué)院聲學(xué)所利用電子管電路識(shí)別10個(gè)元音。雖然與國(guó)外語(yǔ)音識(shí)別研究起步時(shí)間同步,但由于當(dāng)時(shí)條件的限制,隨后一段時(shí)間內(nèi)技術(shù)的進(jìn)展較為緩慢。

最初,我國(guó)語(yǔ)音技術(shù)的研究一直以學(xué)術(shù)界為主,隨后才有企業(yè)逐漸涉足這個(gè)領(lǐng)域。由于語(yǔ)音識(shí)別技術(shù)準(zhǔn)入門(mén)檻高、人才稀缺,經(jīng)過(guò)多年研究與探索,一些國(guó)內(nèi)企業(yè)終于在這個(gè)行業(yè)冒頭,形成了“一超多強(qiáng)”的局面。

歐拉蜜團(tuán)隊(duì)在智能語(yǔ)音方面的研究已達(dá)5年。初期,歐拉蜜以設(shè)計(jì)出一個(gè)中文理解能力超越Siri的智能語(yǔ)音助理為目標(biāo),開(kāi)始投入人工智能相關(guān)研究領(lǐng)域,而長(zhǎng)遠(yuǎn)的目標(biāo)則是致力于提供全方位的人機(jī)交互解決方案。

這5年里,歐拉蜜攻破了不少技術(shù)難關(guān)。首先要解決的,就是語(yǔ)音識(shí)別的精準(zhǔn)度。

語(yǔ)音人機(jī)交互面臨著多重技術(shù)難題。例如,人聲距離不能過(guò)遠(yuǎn)、發(fā)音要標(biāo)準(zhǔn)、環(huán)境要安靜、不能持續(xù)對(duì)話(huà)、不能被打斷……

(歐拉蜜開(kāi)發(fā)套件拾音測(cè)試視頻截圖)

歐拉蜜團(tuán)隊(duì)重點(diǎn)解決了這些語(yǔ)音識(shí)別方面的問(wèn)題。目前,歐拉蜜的人聲識(shí)別準(zhǔn)確度高達(dá)90%,并且可實(shí)現(xiàn)超遠(yuǎn)距離識(shí)別(最遠(yuǎn)可準(zhǔn)確識(shí)別距離8米的人聲)。

同時(shí),歐拉蜜團(tuán)隊(duì)研發(fā)了具有強(qiáng)抗噪能力的語(yǔ)音識(shí)別技術(shù)與核心算法,包括語(yǔ)音活性檢測(cè)(Voice Activity Detection | Speech Activity Detection),回聲消除算法(AcousticEcho Cancellation),噪聲處理算法(Noise Reduction & Cancellation),混響處理算法(Reverberation)等多項(xiàng)專(zhuān)利技術(shù)。

歐拉蜜還為企業(yè)用戶(hù)提供深度定制服務(wù),比如對(duì)兒童聲音、嘈雜環(huán)境聲音進(jìn)行訓(xùn)練,可達(dá)到特殊要求下的語(yǔ)音識(shí)別高準(zhǔn)確度。

難點(diǎn)在于自然語(yǔ)言語(yǔ)義理解和處理

“能穿多少穿多少”,這句話(huà)的意思,到底是要你“多穿”呢,還是要你“少穿”呢。同樣的,中文語(yǔ)境下,類(lèi)似的歧義句還不在少數(shù)。

例如,“中國(guó)隊(duì)大敗德國(guó)隊(duì)”,不知是中國(guó)贏了德國(guó),還是德國(guó)贏了中國(guó);“小王跟我請(qǐng)了假”,不知是小王向我請(qǐng)了假,還是小王和我都請(qǐng)了假……那么,在這種歧義的語(yǔ)境下,我們需要更多的信息來(lái)明確原句的意思。

比較常見(jiàn)的NLP/NLU現(xiàn)有技術(shù)與方案有這么幾種。一是基于關(guān)鍵詞和簡(jiǎn)單規(guī)則,但這樣誤抓率高、歧義多,無(wú)法精準(zhǔn)抓取參數(shù);二是基于ASR語(yǔ)法的擴(kuò)展,但這種方式描述能力有限,可擴(kuò)展性較低;三是基于統(tǒng)計(jì)的句法分析算法,這種算法準(zhǔn)確率與性能不夠高,且不易處理上下文問(wèn)題;最后呢,是處理語(yǔ)法擴(kuò)展的編程,但這種程序復(fù)雜度很高。

那么,歐拉蜜是怎么解決這個(gè)問(wèn)題的呢?

歐拉蜜團(tuán)隊(duì)自主研發(fā)的語(yǔ)法描述語(yǔ)言(Syntax Language),可用靈活的規(guī)則來(lái)描述說(shuō)法。同時(shí),依托可全文檢索的結(jié)構(gòu)化知識(shí)庫(kù),輔助確定語(yǔ)法參數(shù)的合法性,消除歧義。

歐拉蜜采用了結(jié)合規(guī)則和統(tǒng)計(jì)的有機(jī)算法、時(shí)間和數(shù)字識(shí)別技術(shù)、以編譯器技術(shù)動(dòng)態(tài)解析和匹配規(guī)則,能夠?qū)崿F(xiàn)多維度的上下文支持能力,準(zhǔn)確理解用戶(hù)的表達(dá)意圖。

(上圖為歐拉蜜語(yǔ)音助手截圖)

例如,當(dāng)用戶(hù)連續(xù)輸入“今天上海的天氣”,“北京呢”,“買(mǎi)一張去那里的機(jī)票”。經(jīng)過(guò)算法處理以及數(shù)據(jù)庫(kù)檢索,歐拉蜜能夠結(jié)合上下文,準(zhǔn)確將“北京呢”理解為“北京今天的天氣如何”,并給出當(dāng)天北京的天氣狀況。

同樣的,歐拉蜜也能獲取最后一句中的“那里”指代的是“北京”,并為用戶(hù)反饋當(dāng)?shù)厝ケ本┑臋C(jī)票信息。

以視覺(jué)行為偵測(cè)技術(shù)為輔助的語(yǔ)音人機(jī)交互

如果人機(jī)交互可以更加“智能”,那么它應(yīng)該擁有哪些能力呢?歐拉蜜團(tuán)隊(duì)進(jìn)一步改進(jìn)了語(yǔ)音機(jī)器人的喚醒功能,使人機(jī)交互更加流暢。

市面上主流的智能音響,目前使用的都是語(yǔ)音喚醒。由于智能音響沒(méi)有屏幕,一切功能都是通過(guò)語(yǔ)音來(lái)操控,喚醒功能也不例外。往往會(huì)用一句喚醒話(huà)術(shù)(通常是產(chǎn)品的名稱(chēng))來(lái)作為啟動(dòng)標(biāo)志,當(dāng)人們對(duì)著智能音響說(shuō)出這句話(huà)時(shí),智能音響就會(huì)進(jìn)行答復(fù)并開(kāi)始接收你傳遞給它的信息。

你可能會(huì)說(shuō),語(yǔ)音喚醒已經(jīng)很方便了,難道還能有什么改進(jìn)余地嗎?

試想一下,日常生活中,當(dāng)我們想要對(duì)另一人說(shuō)話(huà)時(shí)常常會(huì)面向他,這時(shí)候,不需要叫對(duì)方的名字,對(duì)方也知道我們正在與他對(duì)話(huà)。如果機(jī)器也能做到這樣,那么“語(yǔ)音喚醒”都可以省略掉了。

(歐拉蜜人臉與視線(xiàn)追蹤視頻截圖)

歐拉蜜正是想賦予語(yǔ)音機(jī)器人這樣“人性化”的功能。因此,歐拉蜜團(tuán)隊(duì)使用聲源定位并結(jié)合視線(xiàn)檢測(cè)(Eye Gaze Detection)技術(shù),來(lái)幫助機(jī)器人確認(rèn)用戶(hù)的說(shuō)話(huà)對(duì)象。這樣一來(lái),機(jī)器人們除了知道你在說(shuō)話(huà),還能夠判斷出你是否是在跟它說(shuō)話(huà),并自動(dòng)喚醒。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )

贊助商
2018-01-29
三大技術(shù)突破,助力國(guó)內(nèi)智能語(yǔ)音產(chǎn)業(yè)規(guī)模飛速增長(zhǎng)
據(jù)行業(yè)預(yù)測(cè),中國(guó)智能語(yǔ)音產(chǎn)業(yè)規(guī)模將達(dá)到101 4億元。而智能語(yǔ)音產(chǎn)業(yè)的快速發(fā)展,將帶動(dòng)智能家居、智能汽車(chē)以及智能穿戴設(shè)備等相關(guān)領(lǐng)域市場(chǎng)規(guī)模增長(zhǎng)上千億元。

長(zhǎng)按掃碼 閱讀全文