最高識別率可達99%!剛剛火山語音ASR技術,實力獲得國檢中心權威檢測

2023年1月9日,由國家工業(yè)信息安全發(fā)展研究中心舉辦的以“智融應用 質惠未來”為主題的人工智能高質量融合與安全應用研討會在京舉行。

會上針對技術評測以及標準化工作帶來的成果,研究中心公布了一眾通過AI國檢中心檢驗檢測的優(yōu)秀行業(yè)企業(yè),其中火山引擎語音識別產品榜上有名,獲得國家語音及圖像識別產品質量檢驗檢測中心(以下簡稱“AI國檢中心”)頒發(fā)的語音識別增強級檢驗檢測證書,在語音識別的基本要求以及擴展要求上均已達AI國檢中心的最高等級標準。

本次技術評測涵蓋中文普通話、方言混合、語種混合識別在低噪和高噪喚醒下的識別效果和準確率等多個角度,經專業(yè)評測后最高語音識別字正確率可達99.54%,集中體現了在火山語音支持下的語音識別技術能力和產品方案成熟度獲得了業(yè)界認可。

作為我國質檢系統(tǒng)在人工智能領域的首家、也是唯一的國家級語音及圖像產品質量檢驗檢測機構,AI國檢中心始終致力于推動智能語音產業(yè)的健康發(fā)展。本次獲得AI國檢中心的權威檢測,也充分表明了火山語音的語音識別技術能力已達行業(yè)領先水平。

長期以來,火山語音(字節(jié)跳動 AI Lab Speech & Audio 智能語音與音頻團隊)將打磨多年的AI語音技術能力以及全棧語音產品解決方案面向市場并通過火山引擎開放給外部企業(yè),目前已經覆蓋多種語言和方言,涵蓋音視頻、有聲閱讀、語音交互、游戲、廣告等眾多行業(yè)應用場景,為抖音、剪映、飛書、番茄小說、Pico等核心業(yè)務提供了領先的AI語音能力應用與拓展。

本次參評的火山引擎語音識別產品為火山語音團隊自主研發(fā)的端到端流式語音識別系統(tǒng),主要涵蓋語音識別、斷點檢測、逆文本標準化、智能分句以及標點、口語順滑等模塊,對口音、復雜的聲學場景都體現了更強的魯棒性,對不同領域詞匯的識別率以及推理速度、識別結果展示速度等均比其他競品有大幅提升。

混合模型和端到端模型的對比示意圖

眾所周知語音識別主要負責將音頻轉換成文字,為了兼顧效率和成本,火山語音團隊率先基于RNN-T框架,通過大量訓練數據的積累和持續(xù)的算法優(yōu)化,自研推出的端到端的流式語音識別系統(tǒng),有效規(guī)避傳統(tǒng)語音識別系統(tǒng)中涉及的大量人工假設,采用了業(yè)界領先的Conformer結構,做到同時對局部信息以及全局信息進行建模,識別效果較傳統(tǒng)的CNN、LSTM和DFSMN等結構都有大幅提升。

此外團隊又從模型角度優(yōu)化了Conformer的訓練和推理耗時,主要通過下采樣和Attention Mask等方式,憑借自研的模型壓縮框架,自動對模型進行裁剪和量化,在降低計算復雜度的同時做到效果基本無損;并提出將上下文信息引入語音識別系統(tǒng)中來提升系統(tǒng)的識別效果,更充分的將對話歷史信息融入到 RNN-T 模型中,目前該論文已成功入選全球最大的綜合性語音信號處理盛會Interspeech2022。

(a)基礎 RNN-T 結構 (b)引入對話歷史到 predictor 的結構 (c)引入對話歷史到 encoder 的

如今在火山語音ASR技術支持下,火山引擎語音識別產品已廣泛應用于金融、傳媒、互娛、游戲等多類應用場景中,例如在短視頻成為全民時尚的今天,為了改變視頻內容生產過程中傳統(tǒng)添加字幕方式帶來的反復聽寫校對以及逐幀對齊的費時費力,與過程中需要精通多語言并熟悉字幕文件的制作的高門檻要求,火山語音自研推出了智能字幕解決方案。

該方案不僅能夠高效識別方言與歌曲,還可以針對語種混合以及說話唱歌混合的場景有不錯的識別效果;實踐過程中團隊通過對用戶創(chuàng)作內容的音頻特性以及領域分析,憑借算法優(yōu)化大大提升語音識別對于噪聲場景、多人說話等復雜場景的表現。尤其面對移動端用戶針對功能響應時間的較高要求,即希望字幕可以既快且準,還做了大量的工程優(yōu)化和策略,1分鐘的視頻只需2-3秒即可完成。

智能字幕解決方案的展現

除此之外為應對人們對于音頻信息的獲取效率遠低于文本信息的獲取效率的情況,火山語音又強力推出了“千言轉文字,一字勝千言”的實時字幕解決方案,通過“語音識別+語音翻譯”的AI鏈路讓跨國家、跨語言交流變得更加流暢;憑借自動生成會議記錄與紀要,做到大大提升與會者的工作效率,大幅減少會后整理和會中記錄的工作量。

值得提及的是,在2022年卡塔爾世界杯期間,火山語音的ASR技術能力還同步支持了上線抖音的“無障礙字幕直播間”,截至12月19日決賽,已有累計超過1905萬人在該直播間觀看了球賽,累計觀看次數超過2624萬次。

賽事期間,火山語音團隊通過自研推出的端到端的流式語音識別系統(tǒng),著力解決了世界杯比賽場景中外國球員教練員的人名識別等難題,通過對足球相關領域專有名詞、球隊和球員名稱等術語進行自動化語料挖掘,憑借語言模型干預和自動化熱詞干預完成專項優(yōu)化,從而發(fā)揮更好的識別效果;還憑借對解說場景的分析以及對現場原聲的分析進行模型調優(yōu),做到在“解說+現場原聲+bgm”的復雜場景下也能準確識別,為觀眾呈現更佳的字幕效果,帶來更好的觀賽體驗。

無障礙字幕直播間展示

伴隨不斷的創(chuàng)新發(fā)展,火山引擎語音識別產品已廣泛應用于視頻娛樂、辦公會議、硬件交互、智能客服等諸多行業(yè),為用戶提供了優(yōu)質且有前景的語音識別解決方案??梢韵胍姡磥碓诨鹕秸Z音不斷探索前沿科技與業(yè)務場景的高效結合的基礎上,持續(xù)為用戶體驗和業(yè)務增長注入創(chuàng)新勢能以實現更大價值乃是大勢所趨。

(免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )