谷歌團隊提出全新在線序列到序列模型，可應用於雜訊語音識別

新聞 07-04

近日谷歌團隊發布了一篇關於在線語音識別的序列到序列模型論文，雷鋒網了解到，該模型可以實現在線實時的語音識別功能，並且對來自不同揚聲器的聲音具有識別能力。

以下內容是雷鋒網AI科技評論根據論文內容進行的部分編譯。

論文摘要

生成式模型一直是語音識別的主要方法。然而，這些模型的成功依賴於使用的精密的組合和複雜方法。最近，關於深入學習方面的最新研究已經產生了一種可以替代生成式模型的識別模型，稱為「序列到序列模型」。這種模型的準確性幾乎可以與最先進的生成模型相匹配。該模型在機器翻譯，語音識別，圖像標題生成等方面取得了相當大的經驗成果。由於這些模型可以在同一個步驟中端對端地進行培訓，因此該模型是非常易於訓練的，但它們在實踐中卻具有限制，即只能用於離線識別。這是因為該模型要求在一段話開始時就輸入序列的整體以供使用，然而這對實時語音識別等任務來說是沒有任何意義的。

谷歌團隊提出全新在線序列到序列模型，可應用於雜訊語音識別

圖. 1：本文使用的模型的總體架構

為了解決這個問題，谷歌團隊最近引入了在線序列模型。這種在線序列模型具有將產生的輸出作為輸入的特性，同時還可以保留序列到序列模型的因果性質。這些模型具有在任何時間t產生的輸出將會影響隨後計算結果的特徵。其中，有一種模型將使用二進位隨機變數來選擇產生輸出的時間步長。該團隊將這個模型稱為神經自回歸感測器（NAT）。這個模型將使用策略梯度方法來訓練隨機變數。

谷歌團隊提出全新在線序列到序列模型，可應用於雜訊語音識別

圖. 2：熵正則化對排放位置的影響。每行顯示為輸入示例的發射預測，每個符號表示3個輸入時間步長。 "x"表示模型選擇在時間步長發出輸出，而「 - 」則表示相反的情況。頂線 - 沒有熵懲罰，模型在輸入的開始或結束時發出符號，並且無法獲得有意義的梯度來學習模型。中線 – 使用熵正規化，該模型及時避免了聚類排放預測，並學習有意義地擴散排放和學習模型。底線 - 使用KL發散規則排放概率，同時也可以緩解聚類問題，儘管不如熵正則化那樣有效。

通過使用估計目標序列相對於參數模型的對數概率的梯度來訓練該模型。雖然這個模型並不是完全可以微分的，因為它使用的是不可微分的二進位隨機單元，但是可以通過使用策略梯度法來估計關於模型參數的梯度。更詳細地說，通過使用監督學習來訓練網路進行正確的輸出預測，並使用加強學習以訓練網路來決定何時發出各種輸出。

谷歌團隊提出全新在線序列到序列模型，可應用於雜訊語音識別

圖. 3：在TIMIT上運行示例培訓

圖3b和3c分別示出了混合比例分別為0.25和0.5的兩種情況的訓練曲線的實例。在這兩種情況下，都可以看出，該模型學習了過適合數據。

谷歌團隊還研究使用該模型進行雜訊輸入，其中以不同混合比例將兩個揚聲器的單聲道混合語音作為模型的輸入。

實驗和結果

使用這個模型對兩種不同的語音語料庫進行了實驗。第一組實驗是對TIMIT進行了初步實驗，以評估可能導致模型穩定行為的超參數。第二組實驗是在不同混合比例下從兩個不同的揚聲器（一個男性和一個女性）混合的語音進行的。這些實驗被稱為Multi-TIMIT。

A：TIMIT

TIMIT數據集是音素識別任務，其中必須從輸入音頻語音推斷音素序列。有關訓練曲線的示例，請參見圖3。可以看出，在學習有意義的模型之前，該模型需要更多的更新（> 100K）。然而，一旦學習開始，即使模型受到策略梯度的訓練，實現了穩定的過程。

表I顯示了通過這種方法與其他更成熟的模型對TIMIT實現的結果。可以看出，該模型與其他單向模型比較，如CTC，DNN-HMM等。如果結合更複雜的功能，如卷積模型應該可以產生更好的結果。此外，該模型具有吸收語言模型的能力，因此，應該比基於CTC和DNNHMM的模型更適合端到端的培訓，該模型不能固有地捕獲語言模型。

谷歌團隊提出全新在線序列到序列模型，可應用於雜訊語音識別

表I：針對各種模型使用單向LSTM的TIMIT結果

B：Multi-TIMIT

通過從原始TIMIT數據混合男性聲音和女性聲音來生成新的數據集。原始TIMIT數據對中的每個發音都有來自相反性別的聲音。

表II：Multi-TIMIT的結果：該表顯示了該模型在不同比例的混合中為干擾語音所實現的音素誤差率（PER）。還顯示了深層LSTM 和RNN-自感器的CTC的結果

表II顯示了使用混合揚聲器的不同混合比例的結果。可以看出，隨著混合比例的增加，模型的結果越來越糟糕。對於實驗而言，每個音頻輸入始終與相同的混音音頻輸入配對。有趣的是，可以發現，將相同的音頻與多個混淆的音頻輸入配對會產生更差的結果，這是由於產生了更為糟糕的過度配對。這可能是因為該模型強大到足以複製整個轉錄的結果。

谷歌團隊提出全新在線序列到序列模型，可應用於雜訊語音識別

圖. 5：Multi-TIMIT的聲音分布：該圖顯示了在TIMIT中發出乾淨話語的情況下發出令牌的概率以及Multi-TIMIT中對應的雜訊發音。可以看出，對於Multi-TIMIT語句，該模型稍稍比TIMIT語句發出符號要晚一點。

圖5顯示為示例Multi-TIMIT話語的模型發出的符號。並與一個乾淨模型的發出進行比較。一般來說，與TIMIT發出的模型相比，該模型選擇稍後再發布Multi-TIMIT。

結論

在本文中，谷歌團隊引入了一種新的在線序列到序列模型的訓練方式，並將其應用於具有噪音輸入的環境。作為因果模型的結果，這些模型可以結合語言模型，並且還可以為相同的音頻輸入生成多個不同的轉錄結果。這使它成為一類非常強大的模型。即使在與TIMIT一樣小的數據集上，該模型依然能夠適應混合語音。從實驗分析的角度來說，每個揚聲器只耦合到一個干擾揚聲器，因此數據集的大小是有限的。通過將每個揚聲器與多個其他揚聲器配對，並將每個揚聲器預測為輸出，應該能夠實現更強的魯棒性。由於這種能力，該團隊希望可以將這些模型應用到未來的多通道、多揚聲器識別中。

via arxiv，雷鋒網編譯

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷鋒網 的精彩文章:

※Yoshua Bengio教授獲得加拿大總督功勛獎，Yann LeCun發來賀電
※自動駕駛新驅動力：點雲演算法如何釋放激光雷達威力 | 講座預告
※我知道的鄒勝龍

TAG:雷鋒網 |

您可能感興趣

※序列轉換模型三合一！谷歌提出首個端到端的直接語音翻譯模型
※基於序列到序列模型創造神奇數據產品
※由蛋白質序列編碼成的樂譜，會奏出怎樣的音樂？
※聽，這是蛋白質序列奏出的音樂
※谷歌大腦提出通過對長序列進行摘要提取，AI可自動生成維基百科
※點過程模型在序列數據挖掘中的應用
※Go 中 JSON 的序列化和反序列化
※染色質結構-序列與非序列性質
※DNA序列是怎麼測量出來的？
※哈他瑜伽經典體式編排序列圖解大全，收藏級！
※研究提出基於圖神經網路的會話序列推薦模型
※《刀劍神域序列之爭》的遊戲模式在現實中真的可行嗎？
※變字元序列和不可變字元序列使用陷阱
※基因序列重組，外星人全新的入侵方式
※點擊率預估問題中的深度興趣網路、點過程模型在序列數據挖掘中的應用
※循序漸進的打開胸腔，這套陰瑜伽序列簡單有效！
※美軍反艦導彈序列選型結束中國需要跟進嗎？
※動態規劃：二項式序列
※基於結構化SVM進行序列標註
※基於結構化 SVM 進行序列標註