學界｜谷歌聯合英偉達重磅論文：實現語音到文本的跨語言轉錄

新聞 03-29

選自arxiv

機器之心編譯

參與：吳攀、李亞洲、蔣思源

機器翻譯一直是人工智慧研究領域的重頭戲，自去年穀歌推出了神經機器翻譯（GNMT）服務以來，相關技術的研發並沒有止步不前，在多語言翻譯和 zero-shot 翻譯上也取得了引人注目的進展。近日，谷歌大腦和英偉達聯合發布的一篇論文《序列到序列模型可以直接轉錄外語語音（Sequence-to-Sequence Models Can Directly Transcribe Foreign Speech）》將機器翻譯這方面的研究又向前推進了一步，實現了從一種語言的語音到另一種語言的文本的直接端到端轉錄，而且其效果也要優於單獨的語音轉錄模型和機器翻譯模型的最佳結合。機器之心在本文中編譯介紹了該研究的模型設計部分，更多內容請參考原論文。

學界｜谷歌聯合英偉達重磅論文：實現語音到文本的跨語言轉錄

論文地址：https://arxiv.org/abs/1703.08581

學界｜谷歌聯合英偉達重磅論文：實現語音到文本的跨語言轉錄

摘要：

我們提出了一種循環編碼器-解碼器深度神經網路（recurrent encoder-decoder deep neural network）架構，該架構能將一種語言的語音直接轉換為另一種語言的文本。模型並不會明確地將源語言語音轉換為源語言文本，也不需要在訓練過程中使用源語言轉錄的 ground truth 作為監督。我們在以前用於語音識別的帶有注意架構（attention architecture）序列到序列（sequence-to-sequence）模型上進行了一些修改，並表明了其能處理這種更複雜的任務，證實了基於注意的模型的強大。一個端到端訓練的單一模型在 Fisher Callhome 西班牙語-英語的語音翻譯任務中達到了當前最高水平，在 Fisher 測試集上超過了一系列級聯的單獨訓練的序列到序列語音識別和機器翻譯模型 1.8 BLEU 分。另外，我們發現通過使用一個共享編碼器網路來多任務訓練序列到序列的語音翻譯和識別模型，能讓我們同時利用兩種語言的訓練數據，並能將表現進一步提升 1.4 BLEU 分。

3. 序列到序列模型

我們使用了一種類似於 [1] 中所描述的帶有注意架構的序列到序列模型。該模型由 3 個聯合訓練的神經網路構成：一個循環編碼器，其可以將一個輸入特徵幀的序列 x1...T 轉換成一個隱藏激活序列 h1...T，可以選擇一個較慢的時間尺度：

學界｜谷歌聯合英偉達重磅論文：實現語音到文本的跨語言轉錄

這整個被編碼的輸入序列 h1...T 然後被一個解碼器網路消費，並輸出一個輸出 token 的序列 y1...K，這是通過下一步預測完成的，即：根據之前的時間步驟所輸出的 token 和整個編碼的輸入序列，在每一步輸出一個輸出 token（比如詞或字元）：

學界｜谷歌聯合英偉達重磅論文：實現語音到文本的跨語言轉錄

這個 dec 函數被實現成了一個堆疊的循環神經網路，有 D 層，其可被展開為以下形式：

學界｜谷歌聯合英偉達重磅論文：實現語音到文本的跨語言轉錄

其中

學界｜谷歌聯合英偉達重磅論文：實現語音到文本的跨語言轉錄

是一個長短期記憶（LSTM）單元 [23]。

該解碼器對輸入的依賴是通過一個注意網路（attention network）來促成的，其可以將整個輸入序列歸納為一個固定維度的語境向量 ck，該向量可使用跳過連接（skip connections）被傳遞給所有後續的層。在每一個輸出步驟 k，ck 都從第一個解碼器層開始計算：

學界｜谷歌聯合英偉達重磅論文：實現語音到文本的跨語言轉錄

其中 ae 和 ad 是小的全連接層。αkl 概率計算的是輸入和輸出序列之間的軟對齊（soft alignment）。圖 1 給出了一個例子。

學界｜谷歌聯合英偉達重磅論文：實現語音到文本的跨語言轉錄

圖 1：具有兩個解碼器的多任務模型的注意概率（attention probabilities）αkl 的案例。這個 ASR 注意基本上是單調的，而其翻譯註意（translation attention）包含了序列到序列機器翻譯模型通常具有的詞重排序。首要注意幀 l = 58 ? 70，同時發出「living here」。該識別解碼器注意到這些幀上，同時發出對應的西班牙短語「vive aqui」。ASR 解碼器比翻譯註意要更有置信度，並且也往往使得每個輸出 token 的許多輸入幀上更加平滑。這也是西班牙語語音和英語翻譯之間模糊映射的結果。

最後，從最後解碼器層輸出計算出的多項分布採樣一個輸出符號（output symbol）：

學界｜谷歌聯合英偉達重磅論文：實現語音到文本的跨語言轉錄

3.1 語音模型

我們為端到端語音翻譯和一個語音識別的基線模型訓練 seq2seq 模型。我們發現來自 [10] 的一個變體的同樣架構在兩個任務上表現都很好。我們使用了 80 個通道的對數梅爾濾波器組特徵（log mel filterbank features），其是從帶有 10 ms 跳過（hop）大小的 25 ms 窗口提取出來的。所有模型的輸出 softmax 會在 90 個符號中預測出其中一個，這些符號包括英語和西班牙語的小寫字母。詳見第 4 節。

編碼器共有 8 層。輸入特徵的組織形式是 T × 80 × 3 的張量，即原始特徵、deltas 和沿「深度（depth）」維度的 delta-delta 聯結體（concatennation)。使用 ReLU 激活函數，它被傳入到兩個堆疊的卷積層，每個包含 32 個核（kernel），大小為 3 × 3 × 時間深度 × 頻率。這兩個層的步幅為 2 × 2，在時間序列上以 4 的總採樣因子來對序列進行下採樣，從而減少後續層中的計算。在每個層後會用到 Batch Normalization[24]。

使用一個 1×3 的濾波器，下菜樣得到的特徵序列然後被傳入一個單層雙向卷積 LSTM [25, 26, 10]（也就是在每個時間步驟中只在頻率維度上取卷積）。最後，它被傳遞到三層的雙向 LSTM 堆棧中，其每個方向大小為 256，交錯著 512 維的線性投射（linear projection），然後是 batch normalization 和一個 ReLU 激活函數，來計算最後的 512 維編碼器表徵 hl。

解碼器的輸入由串級一個 yk-1 的 64 維嵌入、先前每個時間步驟發出的符號和 512 維的注意語境（attention context）向量 ck 所創造出的。ck 是使用 ae 和 ad 網路來計算的（查看公式 6），其中每個網路都包含一個帶有 128 個單元的單隱層。這被傳遞到一個帶有 4 個單向 LSTM 層（帶有 256 個單位）堆棧中。最後，注意語境和 LSTM 輸出的聯結體（concatenation）被傳遞到一個 softmax 層，來預測在輸出辭彙中發出每個符號的概率。

該網路使用 TensorFlow [27] 實現，並且在具有 64 個表達方式的 minibatch 上使用了 teacher forcing 進行訓練。我們使用參數 β1 = 0.9、β2 = 0.999 和的 Adam 優化器 [28] 進行使用 10 個副本的非同步隨機梯度下降。初始學習率設置為 0.001，並在 100 萬步之後以 10 的係數衰減。L2 的權重使用 1e-6 權重衰減，並從 20k 步開始，將標準差為 0.125 的高斯加權噪點添加入所有 LSTM 層和解碼器嵌入的權重中。然後調整超參數以最大化在 Fisher/dev 集上的表現。

我們使用在 8 個假設模型和集束寬度為 3 上進行排序修剪的集束搜索進行解碼，並使用在 [7] 中提出的評分函數。我們並沒有使用任何語言模型。對於基線 ASR 模型（baseline ASR model），我們發現既不需要長度歸一化，也不需要 [7] 提出的覆蓋罰項（coverage penalty）。然而，只有當它的對數概率（log-probability）比下一個最可能的 token 還要大三倍時，才允許發送序列結束 token。對於語音翻譯我們發現長度歸一化為 0.6 的時候，性能會提高 0.6 BLEU 分。

3.2 神經機器翻譯模型

我們還參照 [7] 訓練了一個基線的 seq2seq 文本機器翻譯模型。為了減少在小訓練語料庫上的過擬合，我們相對於 [7] 而顯著減小了模型的大小。

其編碼器網路由 4 個編碼器層（共 5 個 LSTM 層）組成。正如在基礎架構中的一樣，其底層（bottom layer）是一個雙向 LSTM 而其餘的層都是單向的。其解碼器網路由 4 個堆疊的 LSTM 層構成。所有的編碼器和解碼器 LSTM 層都包含 512 個單元。我們為輸入和輸出使用了和上述語音模型發出的一樣的字元級的辭彙。

如 [7] 中的一樣，我們在訓練過程中應用了概率為 0.2 的 dropout [29] 來減少過擬合。我們使用了帶有一個單個副本的 SGD 進行訓練。使用了 128 個句子對的 minibatch，訓練在大約 100k 步之後實現了收斂。

3.3 多任務訓練

我們通過一種多任務配置 [30] 對語音識別模型和翻譯模型進行了聯合訓練，並使用了源語言轉錄副本的監督。我們使用了上述的模型和訓練協議，其中每一個工作器（worker）都會在每一步選擇一個隨機的任務來進行優化。我們還進行了以下修改：我們使用了 16 個非同步的工作器、在 30k 的整體步驟引入了權重雜訊（weight noise）、在 150 萬整體步驟之後對學習率進行了衰減。

4. 實驗

學界｜谷歌聯合英偉達重磅論文：實現語音到文本的跨語言轉錄