穩(wěn)定、降噪、全場景,思必馳智能降噪“凈”音勿擾

隨著城市的快速發(fā)展,噪音作為“看不見的污染”,正持續(xù)地“入侵”著現(xiàn)代城市生活。不過,這一難題,現(xiàn)已在眾多場景中,被思必馳新一代的智能降噪技術所攻破。

穩(wěn)定、降噪、全場景,思必馳智能降噪“凈”音勿擾

自研算法,兼顧噪音抑制和保真性

語音識別近年來有了極大的發(fā)展,但在當前,它還沒有達到“一套技術打遍天下”的狀態(tài)。作為一個強場景化的技術,語音識別在諸多真實應用場景中,仍然存在著“最后一公里”的問題。

這其中,特定場景的噪聲,就是一個非常大的干擾因素,會使得通用系統(tǒng)識別準確率的急劇下降。可以說,降噪是對話式人工智能技術在實際應用中所要解決的首要問題。

傳統(tǒng)的噪音抑制方法,只能作用于某些固定的穩(wěn)態(tài)噪音,如空調(diào)等電器的運轉(zhuǎn)聲,通過尋找連續(xù)的背景音,預估噪聲的基線,然后將其過濾掉。

而動態(tài)噪音,如開關門聲、汽車喇叭聲、尖叫聲、寵物叫聲等,和人的語音出現(xiàn)頻率重疊時,傳統(tǒng)方法就無法很好的抑制。深度神經(jīng)網(wǎng)絡(DNN)則在這一領域表現(xiàn)出了強大的優(yōu)勢。近幾年來,深度學習方法取得飛速發(fā)展,更強大的深度神經(jīng)網(wǎng)絡被應用于語音識別,包括卷積神經(jīng)網(wǎng)絡(CNN)等。

穩(wěn)定、降噪、全場景,思必馳智能降噪“凈”音勿擾

傳統(tǒng)降噪結(jié)合AI降噪,兼顧降噪效果與人聲保真度

思必馳的智能降噪技術采用的是“兩者兼融”的方式——傳統(tǒng)分離結(jié)合深度學習方案,可以兼顧傳統(tǒng)信號處理的保真性和深度學習的非穩(wěn)態(tài)噪聲抑制能力,即在很好的去除非穩(wěn)態(tài)噪聲的同時保證語音的較小失真,聽感更自然。

在深度學習的神經(jīng)網(wǎng)絡結(jié)構(gòu)方面,思必馳也與傳統(tǒng)的語音模型僅使用1至2層卷積層不同。思必馳采用的是自研的極深卷積神經(jīng)網(wǎng)絡模型(VDCNN),該模型通過堆疊較小的卷積層和池化層,將語音模型中的卷積層的深度提高到了10層以上。利用小卷積核更加精細的局部刻畫能力和頻率不變性描述,能夠更好地在語音模型的內(nèi)部實現(xiàn)了聲學自動降噪的能力。

穩(wěn)定、降噪、全場景,思必馳智能降噪“凈”音勿擾

原始音頻

穩(wěn)定、降噪、全場景,思必馳智能降噪“凈”音勿擾

降噪音頻

因地“治噪”,清晰悅耳體驗即時賦予

思必馳算法模型的應用,使得系統(tǒng)巨大的性能提升。不過技術的價值,仍需要實際應用來檢驗和證明。目前,聲學模型已覆蓋家居環(huán)境、車載環(huán)境、賣場商場環(huán)境、公共交通環(huán)境以及辦公環(huán)境等數(shù)十個典型場景,在諸多智能終端產(chǎn)品中大展拳腳。

會議場景

思必馳智能降噪技術基于上千小時會議場景噪聲模型學習和研究,能夠有效抑制會議室多種背景噪音,包括穩(wěn)態(tài)噪聲、動態(tài)噪聲,例如空調(diào)聲、電腦運轉(zhuǎn)聲、鍵盤敲擊聲鼠標點擊聲、椅子拉動聲、腳步聲、開關門聲、翻書聲、鼓掌聲等等。

搭載該技術的思必馳會議魔方M1,能夠保留還原出干凈的語音原聲,有效避免遠程會議時與會人員被雜音干擾。針對在遠程會議中經(jīng)常聽到的通話回聲,嚴重時會聽到刺耳的嘯叫聲等設備自噪聲,會議魔方M1采用麥克風揚聲器分離式設計,并內(nèi)置業(yè)內(nèi)領先的智能回音消除技術(AEC),能夠有效地消除通話中產(chǎn)生的回音,線性回聲消除ERL≥35dB,總體回聲抑制能力≥60dB。

城市交通場景

城市交通是噪聲污染的主要來源。在地鐵、機場、駕車、騎行等具體環(huán)境中,所面臨的噪聲挑戰(zhàn)各不相同。其中,難度最大的當屬騎行過程中智能穿戴產(chǎn)品的降噪,一方面面臨馬路上的常規(guī)噪聲干擾,另一方面是風噪的影響,兩者都會對語音的質(zhì)量造成較大影響。

針對風噪問題,思必馳耳機方案結(jié)合入耳麥的物理防風特性,配合深度學習降噪,有效地抑制了風噪帶來的影響,同時具備降噪深度高、魯棒性強、穩(wěn)定性佳等優(yōu)勢。哪怕是在開窗行駛的汽車中等噪聲環(huán)境下,通話對象也能清楚地聽到用戶的說話內(nèi)容。

商場、餐廳場景

商場、賣場、餐廳等環(huán)境,是又一個富有挑戰(zhàn)性的降噪場景,因為其噪聲的來源較多,噪聲類型非常豐富,而且噪聲比較大,約70分貝以上。

在上述場景中,服務人員可通過佩戴藍牙耳麥、智能錄音工牌等拾音設備與客戶交談,將所交流的信息提取以進一步提升服務質(zhì)量、驅(qū)動業(yè)務創(chuàng)新,讓AI輔助服務行業(yè)數(shù)字化升級。

醫(yī)療場景

醫(yī)療場景的應用,面臨著器械噪聲、候診人群話語聲等背景噪聲,不過思必馳技術團隊表示,這其中最為難處理的是核磁共振檢查時的設備本身的自噪音,信噪比極低。

做過核磁共振檢查的人都知道,核磁共振設備運轉(zhuǎn)時發(fā)出的噪音非常高,這使得醫(yī)療人員與病患在檢查時存在極大的溝通困難。針對這一場景的降噪方案,能夠有效幫助醫(yī)療人員指導病患配合檢查,提高檢查效率。

(以上場景降噪效果,可關注思必馳關微信公眾號,查閱本篇內(nèi)容聆聽對比)

(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。 )