關(guān)注殘障用戶,谷歌Euphonia項(xiàng)目如何幫助語(yǔ)言障礙人士更好地交流

作為在無(wú)障礙領(lǐng)域的新進(jìn)展,谷歌于今年五月在I/O大會(huì)上宣布推出Euphonia項(xiàng)目:試圖讓語(yǔ)音識(shí)別系統(tǒng)理解具有非標(biāo)準(zhǔn)語(yǔ)音或障礙的人。谷歌在近期發(fā)布的文章和論文中,解釋了人工智能的一些功能。

需要解決的問(wèn)題是顯而易見(jiàn)的:那些有運(yùn)動(dòng)障礙的患者,如肌萎縮側(cè)索硬化癥(ALS)等退化性疾病,他們的說(shuō)話聲音根本無(wú)法被現(xiàn)有的自然語(yǔ)言處理系統(tǒng)所理解。

研究小組將其描述如下:

ASR(自動(dòng)語(yǔ)音識(shí)別)系統(tǒng)通常是從“典型”語(yǔ)音中訓(xùn)練出來(lái)的,這意味著代表性不足的群體,比如那些有語(yǔ)音障礙或口音重的群體,無(wú)法體驗(yàn)到同樣程度的實(shí)用功能。

目前最先進(jìn)的ASR模型在服務(wù)中等語(yǔ)音障礙的ALS患者時(shí),也會(huì)產(chǎn)生高誤碼率(WER)。

值得注意的是,這種情況至少在一定程度上要?dú)w咎于訓(xùn)練集,通??梢酝ㄟ^(guò)更具包容性的源數(shù)據(jù)來(lái)解決。這是我們?cè)?a href="http://www.intimacywithspirit.com/%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD_1.html" target="_blank" class="keylink">人工智能模型中發(fā)現(xiàn)的內(nèi)隱偏見(jiàn)之一,這些偏見(jiàn)可能會(huì)在其他地方導(dǎo)致高錯(cuò)誤率,比如面部識(shí)別。

對(duì)谷歌的研究人員來(lái)說(shuō),這意味著要從ALS患者那里收集數(shù)十小時(shí)的語(yǔ)音。正如你可能預(yù)期的那樣,每個(gè)人受自身狀況的影響都不一樣,這就對(duì)研究造成了不小的障礙。

為此,研究人員將一個(gè)標(biāo)準(zhǔn)的語(yǔ)音識(shí)別模型用作基準(zhǔn),然后以一些實(shí)驗(yàn)性的方式進(jìn)行調(diào)整,在新的音頻上進(jìn)行訓(xùn)練。僅這一點(diǎn)就大大降低了單詞錯(cuò)誤率,而且對(duì)原始模型的更改相對(duì)較小,這意味著在調(diào)整到一個(gè)新的語(yǔ)音時(shí)不需要太多的計(jì)算。

研究人員發(fā)現(xiàn),當(dāng)這個(gè)模型仍然被一個(gè)給定的音素(即像“e”或“f”這樣的單個(gè)語(yǔ)音)所混淆時(shí),它會(huì)出現(xiàn)兩種錯(cuò)誤。首先,事實(shí)是,它不能識(shí)別意圖的音素,因此不能識(shí)別單詞。其次,模型必須猜測(cè)說(shuō)話者想要表達(dá)的音素,在兩個(gè)或兩個(gè)以上單詞發(fā)音大致相似的情況下,可能會(huì)選擇錯(cuò)誤的音素。

第二個(gè)錯(cuò)誤是可以智能處理的錯(cuò)誤。也許你說(shuō),“我要回到房子里去”,而系統(tǒng)卻不能識(shí)別出句子里的“b(back)”和“h(house)”;也有可能house在患者口中更像是mouse(鼠標(biāo)),人工智能系統(tǒng)也許能夠利用它對(duì)人類語(yǔ)言的了解——以及你自己的聲音或你說(shuō)話的語(yǔ)境——來(lái)聰明地填補(bǔ)空白。

但這要留給未來(lái)的研究。目前,你可以閱讀該團(tuán)隊(duì)目前為止的研究成果,論文名為《Personalizing ASR for Dysarthric and Accented Speech with Limited Data》,將于下月在奧地利舉行的Interspeech大會(huì)上發(fā)表。

AD:還在為資金緊張煩惱嗎?獵云銀企貸,全面覆蓋京津冀地區(qū)主流銀行及信托、擔(dān)保公司,幫您細(xì)致梳理企業(yè)融資問(wèn)題,統(tǒng)籌規(guī)劃融資思路,合理撬動(dòng)更大杠桿。填寫(xiě)只需兩分鐘,剩下交給我們!詳情咨詢微信:zhangbiner870616 (來(lái)源:獵云網(wǎng))

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

2019-08-15
關(guān)注殘障用戶,谷歌Euphonia項(xiàng)目如何幫助語(yǔ)言障礙人士更好地交流
人工智能系統(tǒng)也許能夠利用它對(duì)人類語(yǔ)言的了解來(lái)聰明地填補(bǔ)空白。

長(zhǎng)按掃碼 閱讀全文