當前位置:
首頁 > 最新 > 語音AI設備頻現「口音歧視」 自動語音識別也分三六九等?

語音AI設備頻現「口音歧視」 自動語音識別也分三六九等?

幾十年來,自動語音識別(ASR)一直是機器學習問題的一大挑戰。

與人類不同,自動語音識別器有時對上下文信息不是特別敏感,並且對於條件的變化(例如記錄條件和重音)感應不穩定。

而越來越多用戶開始發現,語音識別領域,竟也存在著赤裸裸的「口音歧視」。

(圖源:Economist)

案例1:同一國家地域方言的尷尬

在一個惡搞廣告中,一位美國姑娘要求亞馬遜的語音控制助手Echo播放「鄉村音樂電台」(the country music station)。但Echo卻沒有「聽懂」她的口音,然後把她的命令聽成了「極度便秘」(extreme constipation),這種反差簡直讓人忍俊不禁。不久之後,她實在忍受不了,就換了一款能識別「南方口音」的設備,但這回這台語音助手又犯了錯,有一次直接把罐頭餅乾列入了姑娘的購物清單上——要知道,一般美國的南方姑娘都是自己做的這類餅乾,一不小心就丟臉丟到了太平洋。

如今,越來越多的智能手機和電腦(包括檯面式電腦,如Echo)可以通過語音命令進行操作。這些系統在了解用戶告訴他們要做什麼方面變得越來敏捷,但對那些口音特別、非標準英音/美音的消費者來說,帶來的卻可能是一次次讓人沮喪的體驗。

今年,在被曝出「怪笑bug」後,亞馬遜Echo又出了一次大糗——因為理解錯誤,將用戶的一段家庭談話「打包發送」給了她的同事。

(圖源:Daily Express)

訓練機器識別用戶語音,需要大量錄製的演講,然後人工製作它的轉錄。語音識別系統查看音頻和文本文件,並學習彼此匹配,以便它可以最好地猜測以前從未聽過的新的單詞流。

每個國家用的可能只是單一一種標準語音的識別系統,而其他口音可能被過濾掉。但每個人都有口音,即使有些並不那麼明顯或奇怪。

案例2:語音識別的「種族歧視」

作為華盛頓大學語言學博士的一部分,Rachael Tatman研究了各種區域口音的自動語音識別。在一項研究中,她查看了使用谷歌語音識別系統的YouTube上的自動字幕。塔特曼女士專註於五種不同口音的演講者,閱讀一系列孤立的單詞,這些單詞因其對不同發音的敏感性而被選中。

蘇格蘭演講者的自動字幕在語音識別中表現最差,一半以上的單詞不正確地轉錄,其次是美國南方人(來自喬治亞)。

除了「口音歧視」外,有時這些語音輔助設備涉及了「種族歧視」。在後續實驗中,Tatman女士使用微軟製作的YouTube和Bing Speech來測試美國口音。兩者都發現,對語音識別系統而言,黑人、黃種人的發言者比白人更難理解。

口音,對人類來說不是大問題,有時還會覺得充滿了異國情調的魅力,但對機器來說,卻是高級挑戰。這些系統的製造商意識到了這個問題。他們正在嘗試提供更多選擇:您可以將Apple的Siri或Echo設置為澳大利亞英語。但他們仍然只能達到如此多的口音,偏向於標準而非區域性。

以口音奇特聞名的「印度腔」可能會讓很多人抓狂,機器更是如此,但印度市場自然也就最大化地為這些公司帶來了誘人的市場機遇,同時更多的是巨大的技術挑戰。

案例3

不久前,《華盛頓郵報》發表的一篇深度報導引起了頗大的迴響,他們與Globalme、Pulse Labs兩家語言研究公司合作研究智能音箱的口音問題,研究範圍來自美國近 20個城市、超過100位受試者所發出的數千條語音命令,發現這些系統對不同地區人們的語言理解有著差異。例如,Google Home聽懂西岸口音勝於南方口音,但差異更明顯的是,非英文母語的人所說的英文,例如以西班牙文、中文作為第一語言的人,在此測試中,這兩大族群所說的英文,不論是Google Home或Amazon Echo的辨識準確率都是排最後,很可惜的是——拉丁裔及華裔是美國兩大移民族群。

用戶自己訓練語音識別

一種解決方案是——讓人們訓練自己的手機和小工具來識別它們,這是一項相當簡單的任務,它可以讓用戶掌握控制權而不是等待科技公司提供解決方案。 Echo已經允許這樣做了。一個名為Cleo的新功能就像一個遊戲一樣,誘使用戶發送亞馬遜的新數據,無論是還沒有被Echo同化的新語言,還是是理論上已經收錄的重音。

亞馬遜的珍妮特·斯利夫卡(Janet Slifka)描述了這種適應性系統特性:隨著顧客的使用,它們會變得更好。應用程序允許用戶告訴Echo他們是否已被正確理解,例如,提供進一步的培訓數據。但如果它們不能立即奏效,人們就會放棄使用它們,也就不會繼續改善它們。那些有非標準口音的人如果想不被身旁的語音設備遺忘,可能必須堅持下去。

研究人員給出越來越多的AI語音識別方案

另一方面,研究人員也在幫忙開發專門檢測重音的人工智慧方案,以改善語音識別。

思科,莫斯科物理科學與技術學院和高等經濟學院的研究人員Arxiv.org上發表的一篇新論文中提出了一個可能的解決方案,該論文名稱為「學習語音模式的外國英語口音調整」(Foreign English Accent Adjustment by Learning Phonetic Patterns)。他們的系統利用了辭彙和語調的辯證差異來創建新的重音詞樣,與類似的系統相比,它學會了一些準確的識別。

研究人員寫道:「為了提高現有[語音識別]模型的性能,需要更多的非本地重音語音數據。」「然而,它的合成仍然是一個懸而未決的問題。」

該團隊從卡內基梅隆大學(CMU)發音詞典中獲取數據,該詞典包含數千個英語使用者錄製常用詞的錄音。一般而言,當訓練系統採用新口音時,語音學家必須手動提取稱為語音概括的特徵,以表示通用美國英語(GAE)——一種缺乏明顯區域或種族特徵的英語口語——與不同口音的音頻樣本之間的差異。但是那種硬編碼往往不能很好地擴展。

研究人員的模型自動推廣了這些規則。他們使用字典,將來自喬治梅森大學的語音口音檔案——來自各種語言背景的語音樣本集合——映射到CMU的獨特聲音,該模型通過對輸入單詞進行替換、刪除和插入來預測發音。

團隊使用該模型生成一個語音數據集,它們被送入一個遞歸神經網路(一種常用於語音識別任務的神經網路),試圖擺脫不必要的聲音並改變它們,以便它們不會與來自GAE單詞版本偏離太遠。在對800,000個樣本進行培訓後,它能夠識別重音詞,準確率為59%。

這是初步的研究——因為CMU詞典記錄的聲音比GMU群體的豐富語音要少,因此該模型只能學習CMU的20個語音大綱中的13個。但該團隊設法將CMU數據集的大小從單個重音的103,000個語音轉錄增加到具有多個重音的100萬個樣本。

「我們所提出的模型,能夠學習以前由語音學家手動獲得的所有大綱。」研究人員寫道。

口音是自動語音識別(ASR)系統希望進一步突破的領域,不論是對神經網路引擎或統計模型都是如此。

瘋狂收集語音樣本的科技巨頭

對做語音識別、智能音箱的科技巨頭們而言,口音仍然是他們面臨的主要挑戰之一,他們正投入資源以訓練、測試新的語言和口音,包括利用遊戲的方式來吸引用戶,以取得不同的聲音數據。

國外知名語料庫之一是Switchboard,搜集了543位發言者(caller)、70個話題,總計大約260個小時的電話錄音,而且在不斷更新。微軟及IBM近一兩年的語音識別研究,就是用Switchboard 來測試語音系統的錯字率(WER,Word Error Rate)。

但收集語音數據成本昂貴、流程繁瑣,目前也存在著諸多門檻。企業還是會先迎合那些較多樣本的群體,消費者們使用越多,也就越容易幫助改善體驗。

呼籲開源「獻聲」的機構

在這種情況下,已經有機構和企業站出來,呼籲齊力「獻聲」打破谷歌、亞馬遜等巨頭的壟斷,進一步開源語音樣本。Mozilla在去年7月宣布了一項最大開源語音募集專案——同聲計劃(Common Voice),希望建立一個開放且公開的語音數據集,每個人都可以使用它來訓練語音應用程序。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 頭條前瞻 的精彩文章:

貝索斯身價超1500億美元!打破蓋茨巔峰紀錄成現代史上最富之人
機器人、自動化及人工智慧扎推美國鋼鐵心臟 匹茲堡能否重喚生機?

TAG:頭條前瞻 |