超1800萬(wàn)累計(jì)觀看,多次占據(jù)熱榜前列……“無(wú)障礙字幕直播間”帶來(lái)的遠(yuǎn)不止這些!

截至12月6日,世界杯無(wú)障礙字幕直播間已累計(jì)觀看超1800萬(wàn),多次占據(jù)熱榜前列……但TA帶來(lái)的遠(yuǎn)不止這些。

“過(guò)去覺(jué)得世界杯距離我太遠(yuǎn)了,熬夜看球卻聽(tīng)不懂、聽(tīng)不清只能緊緊盯著屏幕;但今年無(wú)障礙字幕直播間一出,似乎一下子就把我骨子里的體育DNA帶動(dòng)起來(lái)了,字幕和畫面同時(shí)播放,那感覺(jué)說(shuō)身臨其境也不為過(guò),最重要的是再也不用擔(dān)心跟不上、聽(tīng)不懂了……”

“以前觀看這種節(jié)目其實(shí)我挺迷茫的,周圍人都在熱烈討論,甚至到精彩處歡呼雀躍,但因?yàn)槲易约旱纳眢w原因,很難融入,脫節(jié)帶來(lái)的孤獨(dú)感一度讓我很沮喪……如今借助無(wú)障礙字幕直播間,我又找到了那份可以與朋友快樂(lè)同步的體驗(yàn)!”

無(wú)障礙字幕直播間展示

沉浸體驗(yàn)并與快樂(lè)同步,是“無(wú)障礙字幕直播間”帶來(lái)的驚喜與感動(dòng);但對(duì)火山語(yǔ)音團(tuán)隊(duì)來(lái)說(shuō),做好“無(wú)障礙字幕直播間”的技術(shù)支持與保障,讓精彩持續(xù),卻是前所未有的挑戰(zhàn)。

攻克口語(yǔ)現(xiàn)象、語(yǔ)速語(yǔ)氣差異化 火山語(yǔ)音自研端到端流式語(yǔ)音識(shí)別系統(tǒng)

“其實(shí)語(yǔ)音識(shí)別本身就是一種挑戰(zhàn)!足球比賽瞬息萬(wàn)變,解說(shuō)下來(lái),很多口語(yǔ)現(xiàn)象不可避免,尤其是自我修正以及語(yǔ)序顛倒,差異化的語(yǔ)速語(yǔ)氣更是司空見(jiàn)慣。如果再碰上一些沒(méi)有經(jīng)過(guò)專業(yè)訓(xùn)練的解說(shuō)嘉賓參與其中,識(shí)別的難度就會(huì)進(jìn)一步加碼。為應(yīng)對(duì)這個(gè)問(wèn)題,我們其實(shí)思考了很久,最終還是通過(guò)自研端到端的流式語(yǔ)音識(shí)別系統(tǒng)得到了解決。”火山語(yǔ)音團(tuán)隊(duì)表示。

據(jù)了解,火山語(yǔ)音團(tuán)隊(duì)基于RNN-T框架,通過(guò)大量訓(xùn)練數(shù)據(jù)的積累和持續(xù)的算法優(yōu)化,自研推出的端到端的流式語(yǔ)音識(shí)別系統(tǒng),可以有效規(guī)避傳統(tǒng)語(yǔ)音識(shí)別系統(tǒng)中涉及的大量人工流程,例如依賴專業(yè)人員設(shè)計(jì)各種口音的發(fā)聲規(guī)則等,大幅度提高口音識(shí)別的效果。當(dāng)然其他中間環(huán)節(jié)的人工假設(shè)也減少了很多,比方說(shuō)對(duì)于猶豫、自我修正、語(yǔ)序顛倒等口語(yǔ)現(xiàn)象的表達(dá),會(huì)有更好的建模能力。

混合模型和端到端模型的對(duì)比示意圖

據(jù)團(tuán)隊(duì)介紹,端到端識(shí)別系統(tǒng)的backbone結(jié)構(gòu)(主干網(wǎng)絡(luò)結(jié)構(gòu))對(duì)識(shí)別效果至關(guān)重要,所以火山語(yǔ)音采用了業(yè)界領(lǐng)先的Conformer結(jié)構(gòu),可以同時(shí)對(duì)局部信息和全局信息進(jìn)行建模,識(shí)別效果較傳統(tǒng)的CNN、LSTM和DFSMN等結(jié)構(gòu)都有了大幅提升。但隨之而來(lái)的Conformer的計(jì)算開(kāi)銷也會(huì)增加不少,因此團(tuán)隊(duì)又從模型角度優(yōu)化了Conformer的訓(xùn)練和推理耗時(shí),主要包括下采樣、Attention Mask和模型壓縮等方式。“首先Conformer結(jié)構(gòu)的計(jì)算復(fù)雜度與輸入音頻的長(zhǎng)度相關(guān),特別是Attention計(jì)算復(fù)雜度與n的平方相關(guān),即音頻序列長(zhǎng)度越長(zhǎng)模型越慢,因此在整個(gè)模型的淺層,我們通過(guò)增加下采樣來(lái)降低模型的序列長(zhǎng)度;其次通過(guò)Attention Mask的方式約束Attention的范圍;最后通過(guò)自研的模型壓縮框架,自動(dòng)對(duì)模型進(jìn)行裁剪和量化,在降低計(jì)算復(fù)雜度的同時(shí),效果基本無(wú)損。”

除了對(duì)識(shí)別準(zhǔn)確率的要求之外,字幕的上屏速度也對(duì)觀賽體驗(yàn)起到重要影響?;鹕秸Z(yǔ)音團(tuán)隊(duì)通過(guò)在RNN-T訓(xùn)練過(guò)程中,對(duì)于每個(gè)字的發(fā)射延遲增加損失函數(shù),疊加Conformer結(jié)構(gòu)強(qiáng)大的上下文建模能力,發(fā)射延遲提升了300-400ms。

“無(wú)視”背景噪聲 優(yōu)化術(shù)語(yǔ)識(shí)別 品質(zhì)字幕如此煉成

在過(guò)往的很多大型競(jìng)技比賽中,因?yàn)?ldquo;遭遇”大量背景噪音,例如背景音樂(lè)以及現(xiàn)場(chǎng)歡呼聲等,而帶來(lái)的識(shí)別困擾,被認(rèn)為是同傳字幕不準(zhǔn)的“罪魁禍?zhǔn)?rdquo;。“賽場(chǎng)上經(jīng)常會(huì)出現(xiàn)的觀眾吶喊聲,特別容易被誤識(shí)別為'嗯、啊、哈'的語(yǔ)氣詞;背景音樂(lè)和觀眾聲則會(huì)降低解說(shuō)員聲音的清晰度,對(duì)識(shí)別模型造成了較大挑戰(zhàn)。”火山語(yǔ)音團(tuán)隊(duì)提出。

針對(duì)上述問(wèn)題,團(tuán)隊(duì)設(shè)計(jì)了一整套流程應(yīng)對(duì)優(yōu)化:首先需要自動(dòng)化地從足球比賽音頻中提取出這些噪聲片段,通過(guò)在模型中顯式地建模噪聲, 將噪聲誤出字的比例下降了95%;同時(shí)通過(guò)數(shù)據(jù)增強(qiáng)方式提高聲學(xué)模型在足球場(chǎng)景下的魯棒性,即在有背景音的情況下也能清晰識(shí)別人聲,實(shí)現(xiàn)更好的流式字幕效果。

在世界杯這樣的大型賽事中,提高對(duì)相關(guān)術(shù)語(yǔ)的識(shí)別效果,提升同傳字幕的專業(yè)度往往很關(guān)鍵。通常的做法是收集相關(guān)場(chǎng)景的語(yǔ)音識(shí)別訓(xùn)練集,但收集的過(guò)程耗費(fèi)時(shí)間太長(zhǎng)且成本較高;此外面對(duì)大量文本語(yǔ)料,如何利用這些純文本來(lái)優(yōu)化領(lǐng)域識(shí)別效果,這對(duì)于端到端的語(yǔ)音識(shí)別是一個(gè)業(yè)界難題。

“針對(duì)足球術(shù)語(yǔ)的優(yōu)化,我們選擇在收集的足球文本語(yǔ)料的基礎(chǔ)上訓(xùn)練語(yǔ)言模型,通過(guò)語(yǔ)言模型干預(yù)方式提高模型在足球領(lǐng)域的適配性。”由于端到端模型本身也隱含語(yǔ)言模型信息,直接與外部語(yǔ)言模型進(jìn)行融合,往往效果不佳。所以團(tuán)隊(duì)根據(jù) RNN-T 的建模方式,通過(guò)解藕聲學(xué)模型和語(yǔ)言模型,顯式建模內(nèi)部語(yǔ)言模型,調(diào)整內(nèi)部語(yǔ)言模型和外部語(yǔ)言模型的權(quán)重,可以實(shí)現(xiàn)最佳的融合效果。

“對(duì)于教練與運(yùn)動(dòng)員人名識(shí)別難的問(wèn)題,我們從足球相關(guān)語(yǔ)料中自動(dòng)挖掘?qū)S忻~、球隊(duì)和球員名稱等術(shù)語(yǔ),通過(guò)在解碼備選中引入FST(Finite State Transducer)邏輯結(jié)構(gòu),結(jié)合'匹配走圖+Backoff權(quán)重償還'的方式對(duì)熱詞進(jìn)行干預(yù),有效利用該熱詞專項(xiàng)技術(shù)優(yōu)化后,這些術(shù)語(yǔ)的召回從 64% 提升到 76%。”團(tuán)隊(duì)總結(jié)道。

盡管成功使用了熱詞干預(yù)的方式,但經(jīng)過(guò)大量測(cè)試實(shí)踐,火山語(yǔ)音團(tuán)隊(duì)發(fā)現(xiàn),人名又是一種特殊的熱詞,在 RNN-T 訓(xùn)練平行語(yǔ)料中多為 OOV,采用簡(jiǎn)單的熱詞干預(yù)方式會(huì)存在兩個(gè)問(wèn)題:第一,人名中的每個(gè)單字RNN-T建模單元都是常見(jiàn)字,但是組合起來(lái)作為熱詞是OOV,這種情況下,純熱詞激勵(lì)權(quán)重會(huì)導(dǎo)致在不該出現(xiàn)人名的時(shí)候召回了人名,即“過(guò)召回”,再加上scale過(guò)大,導(dǎo)致弧上的邊加分過(guò)于明顯,更易過(guò)召回,這是人名重復(fù)出字的主要原因;第二,Top10備選路徑里面不會(huì)出現(xiàn)人名,單純通過(guò)外掛熱詞FST根本無(wú)法有效加分。

針對(duì)上述兩個(gè)問(wèn)題,團(tuán)隊(duì)對(duì)人名熱詞干預(yù)做出了兩方面優(yōu)化,分別是擴(kuò)大FST干預(yù)備選以及對(duì)熱詞區(qū)分稀疏熱詞和普通熱詞,然后對(duì)兩種熱詞分別構(gòu)圖,在解碼邏輯區(qū)別處理。經(jīng)過(guò)兩項(xiàng)優(yōu)化,人名的召回率從76%提升到84%。此外還聯(lián)合火山語(yǔ)音音頻合成團(tuán)隊(duì)的同學(xué),采用TTS技術(shù)合成術(shù)語(yǔ)音頻,并加入聲學(xué)模型訓(xùn)練中,將這些術(shù)語(yǔ)的召回率進(jìn)一步提高到90%,字幕效果更佳。

熱詞干預(yù)方案的流程示意圖

如今在火山語(yǔ)音識(shí)別技術(shù)支持下,火山引擎語(yǔ)音識(shí)別產(chǎn)品已廣泛應(yīng)用于視頻娛樂(lè)、辦公會(huì)議、硬件交互、智能客服等諸多行業(yè),為客戶提供了優(yōu)質(zhì)且有前景的語(yǔ)音識(shí)別解決方案。近日,在火山語(yǔ)音識(shí)別能力的技術(shù)支持下,火山引擎語(yǔ)音識(shí)別產(chǎn)品獲得了國(guó)家語(yǔ)音及圖像識(shí)別產(chǎn)品質(zhì)量檢驗(yàn)檢測(cè)中心(簡(jiǎn)稱“AI國(guó)檢中心”)頒發(fā)的語(yǔ)音識(shí)別增強(qiáng)級(jí)檢驗(yàn)檢測(cè)證書(shū),充分表明其語(yǔ)音識(shí)別技術(shù)能力已達(dá)到行業(yè)領(lǐng)先水平。

從洗腦主題曲“下蛋歌”的魔性旋律與動(dòng)作被爭(zhēng)先效仿,到可愛(ài)吉祥物“拉伊卜”被譽(yù)為“會(huì)飛的餃子皮兒”,再到旅居中東的大熊貓四海竟然能聽(tīng)懂四川話,鄉(xiāng)音未改好不歡樂(lè)……不得不說(shuō)今年的卡塔爾世界杯確實(shí)貢獻(xiàn)了很多“眼前一亮”,如今賽程已進(jìn)四強(qiáng)爭(zhēng)霸,想必?zé)o障礙字幕直播間還將帶來(lái)更多驚喜。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )