單詞錯誤率低至2.6%!谷歌音頻數據增強方法,直接應用頻譜圖
智東西(公眾號:zhidxcom)編 | 王小溪
導語:谷歌AI的研究人員正在把計算機視覺應用於頻譜圖,開發出了新的數據增強技術SpecAugment,能在不需要引入額外數據的情況下,使語音識別系統性能達到最優。
智東西4月24日消息,據外媒報道,Google AI的研究人員正在把計算機視覺應用於頻譜圖。SpecAugment可以在不改編基礎語言模型的情況下使語音識別系統的性能達到最優。
研究人員表示,SpecAugment方法不需要額外的數據,便可有效解決模型的過擬合問題,極大的減少了計算成本。
該成果詳見4月18日發表在預印本論文提交平台arXiv的論文,論文名為《SpecAugment:一種用於自動語音識別的簡單數據增強方法》(SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition)。
一、新數據增強技術劍指過擬合問題
SpecAugment是谷歌AI研究人員新開發的一種數據增強的技術,這種技術不同與傳統的數據增強技術,在語音識別方面,是對聲波圖直接進行增強,而是另闢蹊徑,對轉化後的聲波圖——頻譜圖進行增強。
這種數據增強的技術,能更高效地解決自動語音識別(ASR)系統模型出現的過擬合問題。
過擬合是指,隨著訓練次數增多模型會慢慢找出數據的模式,能在儘可能多地擬合數據點的同時反映數據趨勢,如果繼續訓練,那模型就會進一步挖掘訓練數據中的細節和雜訊,為了擬合所有數據點「不擇手段」。結果是,模型會對已知數據預測得很好,而對未知數據預測的很差。
通常人們採用增大數據量和測試樣本集的方法來解決過擬合的問題,但這會增加計算成本。
而SpecAugment無需引入額外的數據,通過直接對頻譜圖數據進行增強,來解決過擬合問題,從而提升語音識別準確率。
二、SpecAugment使單詞錯誤率降至2.6%,
在傳統的ASR中,音頻波在被作為網路的訓練數據之前通常被編碼為可視圖,例如頻譜圖。訓練數據的增強一般會應用於聲波圖,然後增強後的聲波圖會轉換為頻譜圖,這樣一來,每次增強之後,都會生成新的頻譜圖。
在饋送到網路之前,聲波圖通常被轉換成頻譜圖
而在SpecAugment增強的是頻譜圖本身而不是波形數據。由於增強功能直接應用於網路的輸入特徵,因此可以在訓練期間在線運行,而不會顯著影響訓練速度。
SpecAugment對頻譜圖的修改方式包括:沿時間方向扭曲頻譜圖、屏蔽某一些連續的頻率段的信號、以及及時屏蔽某一時間段的發音。下圖為示意圖:
通過在時間方向上扭曲、並且屏蔽(多個)頻率段信號(橫坐標)和多個時間段(縱坐標)來增強梅爾頻譜圖。頻譜圖的屏蔽部分以紫色顯示以強調。
為了測試SpecAugment,研究人員將SpecAugment應用於Listen、Attend和Spell網路進行語音識別,在衡量語音識別技術的主流開源數據集LibriSpeech 960h得到的單詞錯誤率(WER,衡量語音識別技術水平的核心指標)是2.6%,在Switchboard 300h語音識別基準測試中得到的單詞錯誤率為6.8%。
三、傳統數據增強方法計算成本高
ASR系統能將語音翻譯成文本,它應用於許多現代設備和產品中,比如Google的Alexa智能語音助手、Android智能手機發簡訊和電子郵件時用到的Gboard虛擬鍵盤服務、Google Home以及YouTube。
在開發基於深度學習的ASR系統方面仍存在許多重要挑戰。其中之一是ASR模型會出現上文所提到的過擬合問題。
在語音識別方面,傳統的數據增強通常用於聲波圖上,通過加速或減慢的手段讓聲波圖變形,或者增加背景雜訊。這種方法會讓單數據的多個增強版本在訓練過程中被反饋到網路中,迫使網路學習相關特徵,的確會幫助網路變得更優。
然而,傳統的增強音頻輸入的方法增加了額外的計算成本,並且有時需要額外的數據。
結語:新數據增強法提升語音識別準確率
谷歌AI研究人員Daniel S. Park和研究科學家William Chan(這兩人也是論文作者)在博文中表示:雖然網路仍然可以通過不斷引入語言模型達到更優,但他們的研究成果振奮人心的一點在於,在沒有語言模型的幫助下,SpecAugment訓練的模型超越了先前所有的方法。
谷歌SpecAugment這種新的語音數據增強技術將大幅提升語音識別的準確率。如果這項技術可以被廣泛應用,相信智能語音助手將會更聰明。
論文鏈接:https://arxiv.org/pdf/1904.08779.pdf
文章來自:Venturebeat、Google Blog


※高通5G負責人:中國已進入5G時代,全球5G部署將加速!
※AI早報:微軟市值突破萬億;一張貼紙就能讓人在AI眼中隱形
TAG:智東西 |