IBM Watson新突破：詞錯率低至 6.9％

科技 05-05

近日，IBM 沃森團隊宣布在會話語音識別任務中，他們的系統創造了 6.9% 的詞錯率新紀錄。

去年，我們公布了英語會話語音識別領域的一個重大里程碑：一個系統在非常流行評測基準 Switchboard 資料庫中取得了 8% 的詞錯率（WER）。現在，由 Tom Sercu、Steven Rennie、Jeff Kuo 和我本人組成的 IBM 沃森團隊很高興地宣布在同樣的任務中我們的系統創造了 6.9% 的詞錯率新紀錄。

要想正確看待這一結果，先讓我們回到 1995 年，一個「高性能」的 IBM 識別器實現了 43% 的錯誤率。在 90 年代末和 00 年代初 DARPA（美國國防先進研究項目局）資助的一系列語音識別評估的推動下，我們的系統穩步提高，並在 2004 年以 15.2% 的詞錯率贏得了 2004 EARS Rich Transcription 評估比賽第一名。而最近，深度神經網路的出現在幫助我們取得 8% 和 6.9% 的成績上發揮了關鍵性的作用。我們項目的最終目標是達到或超過人類準確度，也就是大約 4% 的語音識別詞錯率。

6.9% 的錯誤率之所以成為可能，是因為聲學和語言建模兩方面技術的提高（https://developer.ibm.com/watson/blog/2015/02/09/ibm-watson-now-brings-cognitive-speech-capabilities-developers/）。在聲學方面，我們融合了兩個強大的深度神經網路，這兩個神經網路可以從輸入音頻中預測依賴於語境的語音。該模型基於來自 Switchboard、Fisher 和 CallHome 公開可用的 2000 個小時的轉錄音頻進行訓練。

第一個模型是一個能夠記憶過去的聲學-語音事件的循環神經網路[1]。自去年以來，通過使用 maxout 激活函數（從前一層執行神經元的空間池化）取代常見的 S 型非線性函數，該模型得到了提升。和 S 型神經元相反，maxout 神經元使用一種我們介紹過的全新形式的 annealed dropout 進行訓練，這種形式在訓練過程中專門檢測相關特徵。

我們的第二個模型被稱為非常深度卷積神經網路（very deep CNN），它起源於圖像分類[4]。如果我們用時間和頻率兩個維度來考慮音頻信號的頻譜表徵，那麼語音就可以被視為圖像。與應用在我們之前的系統中的經典 CNN 架構（[5]具有大內核（通常為 9×9）的僅一個或兩個卷積層）相反，我們的非常深度 CNN 具有小的 3×3 內核的多達 10 個卷積層，這能夠保存輸入的維數。通過在池化層之前將這些卷積層與線性修正函數（Rectified Linear Unit）非線性進行結合，具有更少參數和更多非線性的同樣的接受域（ receptive field）被創造了出來。這兩個在架構和輸入表徵上有很大不同的模型表現出了非常好的互補性，它們的組合帶來了超越單個最好模型的額外增益。

在語言建模方面，我們使用了一序列越來越精緻的語言模型（LM）。其基準是一個在多種公開可用的語料庫上進行評估的 n-gram 語言模型，這些語料庫包括 Switchboard、Fisher、Gigaword 和 Broadcast News and Conversations。使用一種基於指數類的被稱為模型 M（model M）的語言模型對通過使用這種語言模型解碼獲得的假設進行再評級[7]。模型 M 中的「M」是指「medium（媒介）」，即該模型處於語言模型中「恰到好處的」區域：它既不太大也不太小，它剛剛好。最後，我們再次使用神經網路語言模型對候選句子進行評分以得到最終輸出。

我們目前正在研究將這些技術整合進 IBM 沃森最先進的語音轉文本服務中。通過將我們的聲學和語言模型展示給越來越多的真實世界數據，我們期望能彌合「實驗室環境」和部署的服務之間的表現差距。

要了解更多細節，請參考我們發布在 arXiv 上的論文。

IBM Watson新突破：詞錯率低至 6.9％

1. G. Saon, H. Soltau, A. Emami, and M. Picheny, 「Unfolded recurrent neural networks for speech recognition」, in Proc. Interspeech, 2014.

2. I. J. Goodfellow, D. Warde-Farley, M. Mirza, A. Courville, and Y. Bengio, 「Maxout networks」, arXiv preprint arXiv:1302.4389, 2013.

3. S. Rennie, V. Goel, and S. Thomas, 「Annealed dropout training of deep networks」, in Spoken Language Technology (SLT) IEEE Workshop, 2014.

4. K. Simonyan and A. Zisserman, 「Very deep convolutional networks for large-scale image recognition」, CoRR arXiv:1409.1556, 2014.

5. G. Saon, H.-K. J. Kuo, S. Rennie, and M. Picheny. 「The IBM 2015 English conversational telephone speech recognition system.」 *arXiv preprint arXiv:1505.05899*, 2015.

6. T. Sercu, C. Puhrsch, B. Kingsbury, and Y. LeCun, 「Very deep multilingual convolutional neural networks for LVCSR」, Proc. ICASSP, 2016.

7. S. F. Chen, 「Shrinking exponential language models」, in Proc. NAACL-HLT, 2009.

8. H.-K. J. Kuo, E. Arisoy, A. Emami, and P. Vozila, 「Large scale hierarchical neural network language models」, in Proc. Interspeech, 2012.

9. G. Saon, T. Sercu, S. Rennie and H.-K. J. Kuo, 「The IBM 2016 English conversational telephone speech recognition system.」 *arXiv preprint arXiv:1604.08242*, 2016.

請您繼續閱讀更多來自 機器之心 的精彩文章:

人工智慧不會主宰世界，反而正在幫助我們拯救地球，有實例證明！

互聯網和搜索引擎給你了信息，卻控制了你的思維

谷歌已獲英國160萬病患數據

神秘的Drive.ai開始路測，如何用深度學習打造完整的自動駕駛系統

讓人工智慧自由演化吧，它會比人類更道德

您可能感興趣

※出錯率百萬分之一，iPhone X 的Face ID其實很安全！
※美國人最容易拼錯的十個單詞，出錯率最高的竟是beautiful？！
※2018國考省考！出錯率最高的32個文史常識
※微軟語音識別系統達新里程碑：出錯率僅5.1%
※谷歌自2012年以來已把語音識別詞錯率降低逾30％
※2017年高考：降低第一道題的出錯率，取得開門紅！
※晒晒印度的午餐快遞員：出錯率只有600萬分之一，絕對比中國強
※一不小心就出錯，excel條件格式出錯率最高的一個問題
※晒晒印度的午餐快遞員：出錯率只有600萬分之一，絕對比中國牛
※容錯率奇低，王者榮耀有18888金幣千萬別買這三個英雄！
※50個出錯率最高的成語，千萬別亂用！
※一出口就尷尬，50個出錯率最高的成語！
※68個高出錯率漢字，快來測試你能讀對幾個？
※筆杆子寫稿出錯率最高的，竟是這99個字！
※人民日報：補節語文課！68個高出錯率漢字，你能讀對幾個？
※央視公布出錯率最高的99個漢字，你能寫對幾個？
※一出口就尷尬？看看央視公布的50個出錯率最高成語！
※比肩專業速錄員！微軟語音識別出錯率創新低
※挑選了五個出錯率高的字謎，大家來猜猜