ICASSP 2019將于2019年5月12日-17日在英國布萊頓拉開序幕,作為國內(nèi)AI語音賽道獨角獸公司的出門問問Mobvoi AI Lab有三篇論文已經(jīng)被ICASSP 2019接收。ICASSP 全稱 International Conference on Acoustics, Speech and Signal Processing(國際聲學、語音與信號處理會議),是由 IEEE 主辦的全世界最大的,也是最全面的信號處理及其應用方面的頂級學術(shù)年會。
出門問問是一家以語音交互和軟硬結(jié)合為核心的人工智能公司。2012年創(chuàng)立后,出門問問始終以定義下一代人機交互方式為使命,堅持做AI應用的探索,希望用“AI喚醒生活”,讓每一個人都能夠感受到,以語音交互為代表的AI科技可以給每個人帶來的美好與便利。
技術(shù)方面,出門問問擁有全套自主研發(fā)的智能語音交互八大關(guān)鍵核心技術(shù),掌握600多項技術(shù)專利。從1.前端聲音信號處理,到2.熱詞喚醒,到3.語音識別,到4.自然語言理解和5.對話管理,到6.垂直智能搜索和7.推送,到8.語音合成,在這一整套“聽到-識別-處理-輸出”的人機交互過程中,出門問問可以自主提供所有技術(shù),為需要語音交互的場景提供一整套端到端人機交互解決方案。
出門問問始終堅持產(chǎn)學研高度一體化,在語音交互技術(shù)上一直深入探索,由IEEE院士(IEEE Fellow)黃美玉博士領(lǐng)導的出門問問Mobvoi AI Lab,在此次ICASSP 2019提交的論文概述如下。
【1】信任正則化的知識蒸餾在遞歸神經(jīng)網(wǎng)絡語言模型上的應用
Knowledge Distillation for Recurrent Neural Network Language Modeling with Trust Regularization
Yangyang Shi, Mei-Yuh Hwang, Xin Lei,
Mobvoi AI Lab,Seattle, USA
Haoyu Sheng
Williams College
基于遞歸神經(jīng)網(wǎng)絡的語言模型較于傳統(tǒng)的n-gram語言模型,有顯著的性能提升,已經(jīng)成為語言模型的主流模型,在很多云端應用中得到廣泛的青睞。然而遞歸神經(jīng)網(wǎng)絡語言模型在實際應用中需要占據(jù)大量的內(nèi)存容量以及計算資源。在很多移動終端,由于有限的內(nèi)存以及功耗,極大的限制了遞歸神經(jīng)網(wǎng)絡語言模型的應用。最近知識蒸餾的方法被用于壓縮遞歸神經(jīng)網(wǎng)絡語言模型并減少它在終端裝置上的計算量。這一篇文章也同樣采用了知識蒸餾的方法,并用信任正則化的方法對知識蒸餾方法做出了改進。文章的實驗表明這種信任正則化的知識蒸餾方法,可以把 Penn Treebank 數(shù)據(jù)集的遞歸神經(jīng)網(wǎng)絡的模型大小降到原有大小的33%,而仍然得到當前學術(shù)界最好的結(jié)果。在華爾街日報語音識別的任務中,這篇文章的實驗表明,信任正則化的知識蒸餾方法可以將遞歸神經(jīng)網(wǎng)絡語言模型的大小降到原有大小的18.5%,并且仍然保持和原有模型一樣的效果。
【2】基于高階LSTM-CTC的端到端語音識別
End-To-End Speech Recognition Using A High Rank LSTM-CTC Based Model
Yangyang Shi,Mei-Yuh Hwang,Xin Lei
Mobvoi AI Lab, Seattle, USA
基于LSTM-CTC的端到端語音模型, 由于其簡單的訓練過程以及高效的解碼過程,最近在語音識別領(lǐng)域得到廣泛的關(guān)注和應用。在傳統(tǒng)的LSTM-CTC模型中,一個瓶頸投影矩陣將LSTM隱層的輸出向量投影到CTC的輸入向量。研究表明增強這個瓶頸投影矩陣的階數(shù)可以提高LSTM模型的表達能力。這篇文章提出用一個高階的投影層替代傳統(tǒng)的投影矩陣。高階投影層以LSTM的隱層的輸出向量作為輸入,經(jīng)過一系列的投影矩陣以及非線性函數(shù),這個高階投影層的輸出是一系列向量的線性組合。在高階投影層中,這些線性組合的權(quán)重也是由模型根據(jù)訓練數(shù)據(jù)學習得到。文章的實驗表明在語音領(lǐng)域普遍采用的WSJ數(shù)據(jù)集以及Librispeech數(shù)據(jù)集合上,較于傳統(tǒng)的LSTM-CTC的端到端語音模型,高階的LSTM-CTC模型可以帶來3%-10%相對詞錯誤率的下降。
【3】使用對抗性樣例提升基于注意力機制端到端的神經(jīng)網(wǎng)絡關(guān)鍵字檢出模型
Adversarial Examples for Improving End-to-end Attention-based Small-Footprint Keyword Spotting
Xiong Wang, Sining Sun, Changhao Shan, Jingyong Hou, Lei Xie,
School of Computer Science, Northwestern Polytechnical University, Xi’an, China
Shen Li, Xin Lei
Mobvoi AI Lab, Beijing, China
本文提出使用對抗性樣例來提升關(guān)鍵字檢出(Keyword spotting,KWS)的性能。 對抗性樣例近年來在深度學習領(lǐng)域是一個研究熱點,它是指在原來正確分類的樣例上加一個輕微的擾動后即被分類器錯誤分類的樣例。 在KWS任務中,將系統(tǒng)誤喚醒或誤拒絕的錯誤樣例視為對抗性樣例非常直觀而貼切競爭性樣例的概念。在我們的工作中,我們首先建立了一個訓練有素的基于注意力機制端到端的KWS模型,然后使用快速梯度符號法(FGSM)生成了對抗性的樣例,發(fā)現(xiàn)這些樣例會顯著降低KWS的性能,最后我們利用這些對抗性的樣例作為增強數(shù)據(jù)來一起訓練KWS模型。最終在出門問問智能音響上收集的喚醒詞數(shù)據(jù)集上進行了實驗。實驗結(jié)果顯示,設定閾值在每小時1.0次誤喚醒情況下,提出的方法獲得了相對44.7%的誤拒絕率的降低。
作為AI語音領(lǐng)頭公司,出門問問2018年開始在學術(shù)頂會發(fā)表重要論文,并在麥克風陣列噪聲消減、口語理解、噪聲環(huán)境下的語音識別、帶口音的語音識別中實現(xiàn)重大突破。
未來,出門問問不僅要做人工智能技術(shù)的前鋒探索者,更要做人工智能應用的奠基人,既保持前端技術(shù)的研發(fā)能力,同時擁有扎實的落地應用能力,ToC通過AI可穿戴、車載、智能家居消費級智能硬件+ToB通過AI企業(yè)服務雙輪戰(zhàn)略驅(qū)動,繼續(xù)探索,用AI喚醒更多人的生活。
- AI家庭“四大件”重塑家庭生活:中興通訊引領(lǐng)智能共生新潮流
- 紫光國微一季度利潤驟降:2025年Q1凈利潤僅1.19億元,降幅高達61.11%
- 尚網(wǎng)網(wǎng)絡攜手南京公交集團,共創(chuàng)智慧出行新生態(tài),讓出行更便捷
- 華為發(fā)布AI數(shù)據(jù)湖解決方案:大數(shù)據(jù)領(lǐng)域的新變革,行業(yè)智能化新動力
- 淘寶外賣升級:小時達變閃購,外賣市場再掀波瀾
- 中國電信柯瑞文談云改數(shù)轉(zhuǎn)與AI發(fā)展:探索數(shù)字未來,打造新型競爭力
- 華為智領(lǐng)未來,創(chuàng)新驅(qū)動加速邁向智能世界
- 臺積電巨額虧損仍押注美國建廠,先進產(chǎn)能布局成謎?
- 馬斯克警告:中國汽車銷量超越美歐指日可待,消費實力崛起挑戰(zhàn)全球汽車市場
- 外賣平臺競爭激烈,餓了么推出百億補貼并關(guān)懷騎手,超時扣款取消,看誰能笑到最后
免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。