關注殘障用戶,谷歌Euphonia項目如何幫助語言障礙人士更好地交流
【獵雲網(微信號:ilieyun)】8月15日報道(編譯:清酒)
作為在無障礙領域的新進展,谷歌於今年五月在I/O大會上宣布推出Euphonia項目:試圖讓語音識別系統理解具有非標準語音或障礙的人。谷歌在近期發布的文章和論文中,解釋了人工智慧的一些功能。
需要解決的問題是顯而易見的:那些有運動障礙的患者,如肌萎縮側索硬化症(ALS)等退化性疾病,他們的說話聲音根本無法被現有的自然語言處理系統所理解。
研究小組將其描述如下:
ASR(自動語音識別)系統通常是從「典型」語音中訓練出來的,這意味著代表性不足的群體,比如那些有語音障礙或口音重的群體,無法體驗到同樣程度的實用功能。
目前最先進的ASR模型在服務中等語音障礙的ALS患者時,也會產生高誤碼率(WER)。
值得注意的是,這種情況至少在一定程度上要歸咎於訓練集,通常可以通過更具包容性的源數據來解決。這是我們在人工智慧模型中發現的內隱偏見之一,這些偏見可能會在其他地方導致高錯誤率,比如面部識別。
對谷歌的研究人員來說,這意味著要從ALS患者那裡收集數十小時的語音。正如你可能預期的那樣,每個人受自身狀況的影響都不一樣,這就對研究造成了不小的障礙。
為此,研究人員將一個標準的語音識別模型用作基準,然後以一些實驗性的方式進行調整,在新的音頻上進行訓練。僅這一點就大大降低了單詞錯誤率,而且對原始模型的更改相對較小,這意味著在調整到一個新的語音時不需要太多的計算。
研究人員發現,當這個模型仍然被一個給定的音素(即像「e」或「f」這樣的單個語音)所混淆時,它會出現兩種錯誤。首先,事實是,它不能識別意圖的音素,因此不能識別單詞。其次,模型必須猜測說話者想要表達的音素,在兩個或兩個以上單詞發音大致相似的情況下,可能會選擇錯誤的音素。
第二個錯誤是可以智能處理的錯誤。也許你說,「我要回到房子里去」,而系統卻不能識別出句子里的「b(back)」和「h(house)」;也有可能house在患者口中更像是mouse(滑鼠),人工智慧系統也許能夠利用它對人類語言的了解——以及你自己的聲音或你說話的語境——來聰明地填補空白。
但這要留給未來的研究。目前,你可以閱讀該團隊目前為止的研究成果,論文名為《Personalizing ASR for Dysarthric and Accented Speech with Limited Data》,將於下月在奧地利舉行的Interspeech大會上發表。


※微算互聯與Arm中國達成戰略合作,推動5G雲計算新場景
※雖前路阻礙重重,美國科技崗仍備受移民青睞
TAG:獵雲網 |