當前位置:
首頁 > 新聞 > 學界|谷歌聯合英偉達重磅論文:實現語音到文本的跨語言轉錄

學界|谷歌聯合英偉達重磅論文:實現語音到文本的跨語言轉錄

選自arxiv

機器之心編譯

參與:吳攀、李亞洲、蔣思源


機器翻譯一直是人工智慧研究領域的重頭戲,自去年穀歌推出了神經機器翻譯(GNMT)服務以來,相關技術的研發並沒有止步不前,在多語言翻譯和 zero-shot 翻譯上也取得了引人注目的進展。近日,谷歌大腦和英偉達聯合發布的一篇論文《序列到序列模型可以直接轉錄外語語音(Sequence-to-Sequence Models Can Directly Transcribe Foreign Speech)》將機器翻譯這方面的研究又向前推進了一步,實現了從一種語言的語音到另一種語言的文本的直接端到端轉錄,而且其效果也要優於單獨的語音轉錄模型和機器翻譯模型的最佳結合。機器之心在本文中編譯介紹了該研究的模型設計部分,更多內容請參考原論文。

學界|谷歌聯合英偉達重磅論文:實現語音到文本的跨語言轉錄

論文地址:https://arxiv.org/abs/1703.08581



學界|谷歌聯合英偉達重磅論文:實現語音到文本的跨語言轉錄

摘要:

我們提出了一種循環編碼器-解碼器深度神經網路(recurrent encoder-decoder deep neural network)架構,該架構能將一種語言的語音直接轉換為另一種語言的文本。模型並不會明確地將源語言語音轉換為源語言文本,也不需要在訓練過程中使用源語言轉錄的 ground truth 作為監督。我們在以前用於語音識別的帶有注意架構(attention architecture)序列到序列(sequence-to-sequence)模型上進行了一些修改,並表明了其能處理這種更複雜的任務,證實了基於注意的模型的強大。一個端到端訓練的單一模型在 Fisher Callhome 西班牙語-英語的語音翻譯任務中達到了當前最高水平,在 Fisher 測試集上超過了一系列級聯的單獨訓練的序列到序列語音識別和機器翻譯模型 1.8 BLEU 分。另外,我們發現通過使用一個共享編碼器網路來多任務訓練序列到序列的語音翻譯和識別模型,能讓我們同時利用兩種語言的訓練數據,並能將表現進一步提升 1.4 BLEU 分。



3. 序列到序列模型

我們使用了一種類似於 [1] 中所描述的帶有注意架構的序列到序列模型。該模型由 3 個聯合訓練的神經網路構成:一個循環編碼器,其可以將一個輸入特徵幀的序列 x1...T 轉換成一個隱藏激活序列 h1...T,可以選擇一個較慢的時間尺度:

學界|谷歌聯合英偉達重磅論文:實現語音到文本的跨語言轉錄

這整個被編碼的輸入序列 h1...T 然後被一個解碼器網路消費,並輸出一個輸出 token 的序列 y1...K,這是通過下一步預測完成的,即:根據之前的時間步驟所輸出的 token 和整個編碼的輸入序列,在每一步輸出一個輸出 token(比如詞或字元):

學界|谷歌聯合英偉達重磅論文:實現語音到文本的跨語言轉錄

這個 dec 函數被實現成了一個堆疊的循環神經網路,有 D 層,其可被展開為以下形式:

學界|谷歌聯合英偉達重磅論文:實現語音到文本的跨語言轉錄

其中

學界|谷歌聯合英偉達重磅論文:實現語音到文本的跨語言轉錄

是一個長短期記憶(LSTM)單元 [23]。

該解碼器對輸入的依賴是通過一個注意網路(attention network)來促成的,其可以將整個輸入序列歸納為一個固定維度的語境向量 ck,該向量可使用跳過連接(skip connections)被傳遞給所有後續的層。在每一個輸出步驟 k,ck 都從第一個解碼器層開始計算:

學界|谷歌聯合英偉達重磅論文:實現語音到文本的跨語言轉錄

其中 ae 和 ad 是小的全連接層。αkl 概率計算的是輸入和輸出序列之間的軟對齊(soft alignment)。圖 1 給出了一個例子。

學界|谷歌聯合英偉達重磅論文:實現語音到文本的跨語言轉錄

圖 1:具有兩個解碼器的多任務模型的注意概率(attention probabilities)αkl 的案例。這個 ASR 注意基本上是單調的,而其翻譯註意(translation attention)包含了序列到序列機器翻譯模型通常具有的詞重排序。首要注意幀 l = 58 ? 70,同時發出「living here」。該識別解碼器注意到這些幀上,同時發出對應的西班牙短語「vive aqui」。ASR 解碼器比翻譯註意要更有置信度,並且也往往使得每個輸出 token 的許多輸入幀上更加平滑。這也是西班牙語語音和英語翻譯之間模糊映射的結果。

最後,從最後解碼器層輸出計算出的多項分布採樣一個輸出符號(output symbol):

學界|谷歌聯合英偉達重磅論文:實現語音到文本的跨語言轉錄

3.1 語音模型

我們為端到端語音翻譯和一個語音識別的基線模型訓練 seq2seq 模型。我們發現來自 [10] 的一個變體的同樣架構在兩個任務上表現都很好。我們使用了 80 個通道的對數梅爾濾波器組特徵(log mel filterbank features),其是從帶有 10 ms 跳過(hop)大小的 25 ms 窗口提取出來的。所有模型的輸出 softmax 會在 90 個符號中預測出其中一個,這些符號包括英語和西班牙語的小寫字母。詳見第 4 節。

編碼器共有 8 層。輸入特徵的組織形式是 T × 80 × 3 的張量,即原始特徵、deltas 和沿「深度(depth)」維度的 delta-delta 聯結體(concatennation)。使用 ReLU 激活函數,它被傳入到兩個堆疊的卷積層,每個包含 32 個核(kernel),大小為 3 × 3 × 時間深度 × 頻率。這兩個層的步幅為 2 × 2,在時間序列上以 4 的總採樣因子來對序列進行下採樣,從而減少後續層中的計算。在每個層後會用到 Batch Normalization[24]。

使用一個 1×3 的濾波器,下菜樣得到的特徵序列然後被傳入一個單層雙向卷積 LSTM [25, 26, 10](也就是在每個時間步驟中只在頻率維度上取卷積)。最後,它被傳遞到三層的雙向 LSTM 堆棧中,其每個方向大小為 256,交錯著 512 維的線性投射(linear projection),然後是 batch normalization 和 一個 ReLU 激活函數,來計算最後的 512 維編碼器表徵 hl。

解碼器的輸入由串級一個 yk-1 的 64 維嵌入、先前每個時間步驟發出的符號和 512 維的注意語境(attention context)向量 ck 所創造出的。ck 是使用 ae 和 ad 網路來計算的(查看公式 6),其中每個網路都包含一個帶有 128 個單元的單隱層。這被傳遞到一個帶有 4 個單向 LSTM 層(帶有 256 個單位)堆棧中。最後,注意語境和 LSTM 輸出的聯結體(concatenation)被傳遞到一個 softmax 層,來預測在輸出辭彙中發出每個符號的概率。

該網路使用 TensorFlow [27] 實現,並且在具有 64 個表達方式的 minibatch 上使用了 teacher forcing 進行訓練。我們使用參數 β1 = 0.9、β2 = 0.999 和 的 Adam 優化器 [28] 進行使用 10 個副本的非同步隨機梯度下降。初始學習率設置為 0.001,並在 100 萬步之後以 10 的係數衰減。L2 的權重使用 1e-6 權重衰減,並從 20k 步開始,將標準差為 0.125 的高斯加權噪點添加入所有 LSTM 層和解碼器嵌入的權重中。然後調整超參數以最大化在 Fisher/dev 集上的表現。

我們使用在 8 個假設模型和集束寬度為 3 上進行排序修剪的集束搜索進行解碼,並使用在 [7] 中提出的評分函數。我們並沒有使用任何語言模型。對於基線 ASR 模型(baseline ASR model),我們發現既不需要長度歸一化,也不需要 [7] 提出的覆蓋罰項(coverage penalty)。然而,只有當它的對數概率(log-probability)比下一個最可能的 token 還要大三倍時,才允許發送序列結束 token。對於語音翻譯我們發現長度歸一化為 0.6 的時候,性能會提高 0.6 BLEU 分。

3.2 神經機器翻譯模型

我們還參照 [7] 訓練了一個基線的 seq2seq 文本機器翻譯模型。為了減少在小訓練語料庫上的過擬合,我們相對於 [7] 而顯著減小了模型的大小。

其編碼器網路由 4 個編碼器層(共 5 個 LSTM 層)組成。正如在基礎架構中的一樣,其底層(bottom layer)是一個雙向 LSTM 而其餘的層都是單向的。其解碼器網路由 4 個堆疊的 LSTM 層構成。所有的編碼器和解碼器 LSTM 層都包含 512 個單元。我們為輸入和輸出使用了和上述語音模型發出的一樣的字元級的辭彙。

如 [7] 中的一樣,我們在訓練過程中應用了概率為 0.2 的 dropout [29] 來減少過擬合。我們使用了帶有一個單個副本的 SGD 進行訓練。使用了 128 個句子對的 minibatch,訓練在大約 100k 步之後實現了收斂。

3.3 多任務訓練

我們通過一種多任務配置 [30] 對語音識別模型和翻譯模型進行了聯合訓練,並使用了源語言轉錄副本的監督。我們使用了上述的模型和訓練協議,其中每一個工作器(worker)都會在每一步選擇一個隨機的任務來進行優化。我們還進行了以下修改:我們使用了 16 個非同步的工作器、在 30k 的整體步驟引入了權重雜訊(weight noise)、在 150 萬整體步驟之後對學習率進行了衰減。

4. 實驗

學界|谷歌聯合英偉達重磅論文:實現語音到文本的跨語言轉錄

表 3:語音識別模型的詞錯率(WER)表現

學界|谷歌聯合英偉達重磅論文:實現語音到文本的跨語言轉錄

表 4:在 ground truth 副本上的翻譯表現

學界|谷歌聯合英偉達重磅論文:實現語音到文本的跨語言轉錄

表 5:語音翻譯模型的 BLEU 分數表現

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

GMIS 2017嘉賓:AI「標準教科書」作者Russell
亞馬遜Alex Smola:為什麼你的機器學習代碼運行速度慢
自然語言處理領域歐洲頂級會議EACL 2017傑出論文出爐
馬斯克成立Neuralink:用植入電極增強人腦計算能力

TAG:機器之心 |

您可能感興趣

道德經語音文字版
谷歌雲端語音識別服務上線:語音直轉文字,支持中文
語音
《星際爭霸:重製版》將登陸國服 含簡體中文與語音
忠言逆耳,你懂的 道德經語音文字版
火焰紋章回聲另一個英雄王:怎麼設置中文語音?中文語言設置方法圖文詳解
喪屍圍城4簡體中文和中文語音設置方法 中文語言怎麼設置
風暴英雄:全英雄調侃中文語音英雄都是段子手
斯坦福大學《語音與語言處理》第三版:NLP必讀書籍
谷歌最牛語音識別上線:粵語也能直轉文字
《羞辱2》日語語音語言設置教程
我的語音
《台北物語》電話語音藏鏡人揭曉!導演只挑中她的聲音
頭條語音訪談的文字整理版
一文讀懂語音識別史
法語音樂劇明星集錦音樂會將辦 展獨特魅力
【語音+文字】早間會報
一分鐘模仿你的聲音,谷歌實驗室發布重磅語音合成技術
每周詩語丨《詩經·淇奧》:中國的男神丨語音播報