在全球化進程不斷加快的當下,國際交流的場景早已從會議室里的安靜對話,拓展到展會、工廠等復(fù)雜環(huán)境。隨之而來的,是跨語言溝通面臨的諸多現(xiàn)實挑戰(zhàn):嘈雜的環(huán)境、多人同時交談、聲源相互交織,讓傳統(tǒng)翻譯設(shè)備常常難以應(yīng)對。作為人工智能領(lǐng)域的“國家隊”,科大訊飛憑借著深厚技術(shù)積淀,創(chuàng)造性地給訊飛雙屏翻譯機2.0配備了“耳朵+大腦”,讓這款設(shè)備既聽得清又會思考,為用戶帶來了全新的跨語種溝通體驗。
首先,在聲音捕捉層面,訊飛雙屏翻譯機 2.0 配備了五顆高靈敏麥克風,它們以星型分布在設(shè)備的左右兩側(cè)與底部。這種獨特的陣列布局,如同為翻譯機打造了多個“敏銳的耳朵”,能夠從不同角度捕捉聲音。在復(fù)雜的聲場環(huán)境中,這些麥克風協(xié)同工作,快速判斷哪個聲音離設(shè)備最近,哪個來自遠方,為后續(xù)的“語音識別”筑牢根基。
有了精準的聲音捕捉,接下來就是對聲音的“篩選過濾”。訊飛雙屏翻譯機 2.0引入深度強化學習技術(shù)和深度神經(jīng)網(wǎng)絡(luò),在嘈雜聲場中構(gòu)建了智能化的“聲學結(jié)界”。它會優(yōu)先處理 1 米以內(nèi)的近場人聲,將其視為“主角”;而1米以外的環(huán)境音,則自動被識別為“干擾配角”,算法會對其進行削弱或濾除。這就好比在用戶和翻譯機之間拉起了一圈“隱形的聽力護欄”,將外界的嘈雜聲音隔絕在外,讓關(guān)鍵語音清晰傳遞。
并且,訊飛雙屏翻譯機 2.0還引入了自適應(yīng)注意力機制,使算法模型進一步具備了類似人耳的“選擇性聚焦”能力,模擬人類聽覺注意力機制,在瞬間完成從“環(huán)境識別”到“目標鎖定”的全過程,讓機器能夠精準捕捉目標語音,使訊飛雙屏翻譯機 2.0即便在多人交談、背景復(fù)雜的環(huán)境中,也能夠自動聚焦對話對象,翻譯機等同于有了會思考的“大腦”。
“通過深度強化學習方法,目標語音的STOI(語音可懂度)達到0.92,在工廠90dB機械轟鳴噪音、展會復(fù)雜背景人聲混雜場景,語音識別率從32.39%提升到98.69%,這個準確率已經(jīng)接近了理論極限。”訊飛研究院聲學算法高級工程師程楓介紹道。
從會議室的精準對譯到展會現(xiàn)場的嘈雜交涉,從工廠機械的轟鳴背景到機場人流的多音交織,當全球化浪潮推動著人類交流走向更復(fù)雜的場景,訊飛雙屏翻譯機 2.0憑借“耳朵 + 大腦”的創(chuàng)新架構(gòu),真正實現(xiàn)了從“能翻譯”到“會溝通”的跨越。
正如科大訊飛翻譯業(yè)務(wù)線產(chǎn)品總監(jiān)孫境廷所言,“從技術(shù)中來,到用戶中去,技術(shù)創(chuàng)新優(yōu)化用戶體驗”,訊飛雙屏翻譯機2.0通過最前沿的強降噪技術(shù),讓跨國交流不再受困于語音識別的模糊地帶,為全球用戶打開了更廣闊的溝通空間。未來隨著人工智能與聲學技術(shù)的進一步融合,科大訊飛將持續(xù)以技術(shù)創(chuàng)新助力實現(xiàn)“聲動世界 智聯(lián)未來”的愿景。
(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )