語音AI設備頻現「口音歧視」自動語音識別也分三六九等？

最新 08-06

幾十年來，自動語音識別（ASR）一直是機器學習問題的一大挑戰。

與人類不同，自動語音識別器有時對上下文信息不是特別敏感，並且對於條件的變化（例如記錄條件和重音）感應不穩定。

而越來越多用戶開始發現，語音識別領域，竟也存在著赤裸裸的「口音歧視」。

（圖源：Economist）

案例1：同一國家地域方言的尷尬

在一個惡搞廣告中，一位美國姑娘要求亞馬遜的語音控制助手Echo播放「鄉村音樂電台」（the country music station）。但Echo卻沒有「聽懂」她的口音，然後把她的命令聽成了「極度便秘」（extreme constipation），這種反差簡直讓人忍俊不禁。不久之後，她實在忍受不了，就換了一款能識別「南方口音」的設備，但這回這台語音助手又犯了錯，有一次直接把罐頭餅乾列入了姑娘的購物清單上——要知道，一般美國的南方姑娘都是自己做的這類餅乾，一不小心就丟臉丟到了太平洋。

如今，越來越多的智能手機和電腦（包括檯面式電腦，如Echo）可以通過語音命令進行操作。這些系統在了解用戶告訴他們要做什麼方面變得越來敏捷，但對那些口音特別、非標準英音/美音的消費者來說，帶來的卻可能是一次次讓人沮喪的體驗。

今年，在被曝出「怪笑bug」後，亞馬遜Echo又出了一次大糗——因為理解錯誤，將用戶的一段家庭談話「打包發送」給了她的同事。

（圖源：Daily Express）

訓練機器識別用戶語音，需要大量錄製的演講，然後人工製作它的轉錄。語音識別系統查看音頻和文本文件，並學習彼此匹配，以便它可以最好地猜測以前從未聽過的新的單詞流。

每個國家用的可能只是單一一種標準語音的識別系統，而其他口音可能被過濾掉。但每個人都有口音，即使有些並不那麼明顯或奇怪。

案例2：語音識別的「種族歧視」

作為華盛頓大學語言學博士的一部分，Rachael Tatman研究了各種區域口音的自動語音識別。在一項研究中，她查看了使用谷歌語音識別系統的YouTube上的自動字幕。塔特曼女士專註於五種不同口音的演講者，閱讀一系列孤立的單詞，這些單詞因其對不同發音的敏感性而被選中。

蘇格蘭演講者的自動字幕在語音識別中表現最差，一半以上的單詞不正確地轉錄，其次是美國南方人（來自喬治亞）。

除了「口音歧視」外，有時這些語音輔助設備涉及了「種族歧視」。在後續實驗中，Tatman女士使用微軟製作的YouTube和Bing Speech來測試美國口音。兩者都發現，對語音識別系統而言，黑人、黃種人的發言者比白人更難理解。

口音，對人類來說不是大問題，有時還會覺得充滿了異國情調的魅力，但對機器來說，卻是高級挑戰。這些系統的製造商意識到了這個問題。他們正在嘗試提供更多選擇：您可以將Apple的Siri或Echo設置為澳大利亞英語。但他們仍然只能達到如此多的口音，偏向於標準而非區域性。

以口音奇特聞名的「印度腔」可能會讓很多人抓狂，機器更是如此，但印度市場自然也就最大化地為這些公司帶來了誘人的市場機遇，同時更多的是巨大的技術挑戰。

案例3

不久前，《華盛頓郵報》發表的一篇深度報導引起了頗大的迴響，他們與Globalme、Pulse Labs兩家語言研究公司合作研究智能音箱的口音問題，研究範圍來自美國近 20個城市、超過100位受試者所發出的數千條語音命令，發現這些系統對不同地區人們的語言理解有著差異。例如，Google Home聽懂西岸口音勝於南方口音，但差異更明顯的是，非英文母語的人所說的英文，例如以西班牙文、中文作為第一語言的人，在此測試中，這兩大族群所說的英文，不論是Google Home或Amazon Echo的辨識準確率都是排最後，很可惜的是——拉丁裔及華裔是美國兩大移民族群。

用戶自己訓練語音識別

一種解決方案是——讓人們訓練自己的手機和小工具來識別它們，這是一項相當簡單的任務，它可以讓用戶掌握控制權而不是等待科技公司提供解決方案。 Echo已經允許這樣做了。一個名為Cleo的新功能就像一個遊戲一樣，誘使用戶發送亞馬遜的新數據，無論是還沒有被Echo同化的新語言，還是是理論上已經收錄的重音。

亞馬遜的珍妮特·斯利夫卡（Janet Slifka）描述了這種適應性系統特性：隨著顧客的使用，它們會變得更好。應用程序允許用戶告訴Echo他們是否已被正確理解，例如，提供進一步的培訓數據。但如果它們不能立即奏效，人們就會放棄使用它們，也就不會繼續改善它們。那些有非標準口音的人如果想不被身旁的語音設備遺忘，可能必須堅持下去。

研究人員給出越來越多的AI語音識別方案

另一方面，研究人員也在幫忙開發專門檢測重音的人工智慧方案，以改善語音識別。

思科，莫斯科物理科學與技術學院和高等經濟學院的研究人員Arxiv.org上發表的一篇新論文中提出了一個可能的解決方案，該論文名稱為「學習語音模式的外國英語口音調整」（Foreign English Accent Adjustment by Learning Phonetic Patterns）。他們的系統利用了辭彙和語調的辯證差異來創建新的重音詞樣，與類似的系統相比，它學會了一些準確的識別。

研究人員寫道：「為了提高現有[語音識別]模型的性能，需要更多的非本地重音語音數據。」「然而，它的合成仍然是一個懸而未決的問題。」

該團隊從卡內基梅隆大學（CMU）發音詞典中獲取數據，該詞典包含數千個英語使用者錄製常用詞的錄音。一般而言，當訓練系統採用新口音時，語音學家必須手動提取稱為語音概括的特徵，以表示通用美國英語（GAE）——一種缺乏明顯區域或種族特徵的英語口語——與不同口音的音頻樣本之間的差異。但是那種硬編碼往往不能很好地擴展。

研究人員的模型自動推廣了這些規則。他們使用字典，將來自喬治梅森大學的語音口音檔案——來自各種語言背景的語音樣本集合——映射到CMU的獨特聲音，該模型通過對輸入單詞進行替換、刪除和插入來預測發音。

團隊使用該模型生成一個語音數據集，它們被送入一個遞歸神經網路（一種常用於語音識別任務的神經網路），試圖擺脫不必要的聲音並改變它們，以便它們不會與來自GAE單詞版本偏離太遠。在對800,000個樣本進行培訓後，它能夠識別重音詞，準確率為59％。

這是初步的研究——因為CMU詞典記錄的聲音比GMU群體的豐富語音要少，因此該模型只能學習CMU的20個語音大綱中的13個。但該團隊設法將CMU數據集的大小從單個重音的103,000個語音轉錄增加到具有多個重音的100萬個樣本。

「我們所提出的模型，能夠學習以前由語音學家手動獲得的所有大綱。」研究人員寫道。

口音是自動語音識別（ASR）系統希望進一步突破的領域，不論是對神經網路引擎或統計模型都是如此。

瘋狂收集語音樣本的科技巨頭

對做語音識別、智能音箱的科技巨頭們而言，口音仍然是他們面臨的主要挑戰之一，他們正投入資源以訓練、測試新的語言和口音，包括利用遊戲的方式來吸引用戶，以取得不同的聲音數據。

國外知名語料庫之一是Switchboard，搜集了543位發言者（caller）、70個話題，總計大約260個小時的電話錄音，而且在不斷更新。微軟及IBM近一兩年的語音識別研究，就是用Switchboard 來測試語音系統的錯字率（WER，Word Error Rate）。

但收集語音數據成本昂貴、流程繁瑣，目前也存在著諸多門檻。企業還是會先迎合那些較多樣本的群體，消費者們使用越多，也就越容易幫助改善體驗。

呼籲開源「獻聲」的機構

在這種情況下，已經有機構和企業站出來，呼籲齊力「獻聲」打破谷歌、亞馬遜等巨頭的壟斷，進一步開源語音樣本。Mozilla在去年7月宣布了一項最大開源語音募集專案——同聲計劃（Common Voice），希望建立一個開放且公開的語音數據集，每個人都可以使用它來訓練語音應用程序。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 頭條前瞻 的精彩文章:

※貝索斯身價超1500億美元！打破蓋茨巔峰紀錄成現代史上最富之人
※機器人、自動化及人工智慧扎推美國鋼鐵心臟匹茲堡能否重喚生機？

TAG:頭條前瞻 |

語音AI設備頻現「口音歧視」 自動語音識別也分三六九等？

語音AI設備頻現「口音歧視」自動語音識別也分三六九等？