當前位置:
首頁 > 新聞 > 重建「巴別塔」:谷歌推出全新端到端語音翻譯系統

重建「巴別塔」:谷歌推出全新端到端語音翻譯系統

要將一個外國人說的話翻譯成本國文字,通常需要兩種機器學習模型:語音識別和文本翻譯。最近,谷歌提出的 Translatotron 模型創造性地實現了單一模型端到端(End-to-End)的直接語音翻譯。不僅如此,它還可以保留說話人的聲音特徵輸出語音,實現最直接的翻譯。

可能是職業習慣,《流浪地球》中有一幕讓小編印象非常深刻:劉培強戴著耳機和俄羅斯宇航員交流,兩人各自說著母語,然後被實時同步翻譯,毫無障礙不說,甚至拉家常開玩笑都沒問題。這種黑科技,太好用了叭!

最近谷歌的一項研究不僅實現了這項黑科技,而且比起電影里的機器人聲音,谷歌的模型還可以模仿源說話者的聲音生成目標語音。這麼說吧,利用這個模型,當你說英文時,可以直接輸出你 「講」 的西班牙語。

這一神奇的模型叫做 Translatotron,它不僅可以實現端到端的語音翻譯,還可以比傳統的串聯模型更快地完成翻譯,並避免一些複雜過程所導致的「併發症」。

在過去的幾十年里,語音到語音翻譯系統的發展目標一直是幫助使用不同語言的人互相溝通。這種系統系統通常可以分為三個部分:將源語音轉換為文本的自動語音識別、將得到的文本翻譯為目標語言文本的機器翻譯以及從翻譯文本生成目標語言語音的文本 - 語音合成(TTS)。這種將任務分為幾個階段的級聯模式一直以來都非常成功,支撐了很多商業語音到語音的翻譯產品,包括谷歌的 Google Translate。

然而,這種 「三步走」 的方法能否再簡化一下?

答案是肯定的。近日,谷歌提出了一種新的轉換系統 ——Translatotron,可以實現源語音到目標語音的直接轉換,還能保留源語音的聲音特徵。相關研究發表在 「Direct speech-to-speech translation with a sequence-to-sequence model」 論文中。

這一新系統基於單個注意力序列到序列模型,無需依賴中間的文本表徵就能直接實現語音到語音的翻譯。該系統沒有將任務分為多個階段,因此增加了一些傳統級聯繫統無法比擬的優勢,如推理速度更快、自然而然地避免識別和翻譯之間的複合誤差、翻譯後更容易保持源語音的聲音特徵以及更好地處理無需翻譯的單詞(如名字和專有名詞)。

Translatotron

端到端語音翻譯模型最早出現在 2016 年,那時,研究者展示了使用單個序列到序列模型實現語音到文本翻譯的可行性。2017 年,谷歌表明,這種端到端模型的表現優於級聯模型。

最近,研究者們提出了很多端到端語音到文本翻譯模型的改進方法,包括谷歌在利用弱監督數據上所做的努力(參見 「Leveraging Weakly Supervised Data to Improve End-to-End Speech-to-Text Translation」)。Translatotron 又往前推進了一步,無需依賴中間文本表徵就能實現不同語言之間的語音翻譯,這是之前的級聯繫統所無法做到的。

Translatotron 基於一個序列到序列的網路,該網路將源聲譜作為輸入,生成目標語言的翻譯內容聲譜。它還利用了另外兩個單獨訓練的組件:一個神經語音編碼器(vocoder),可以將輸出聲譜轉化為時間域波形;以及一個揚聲器編碼器(speaker encoder)(可選),可用於在合成翻譯語音中保持源語音的聲音特徵,如下圖所示。

重建「巴別塔」:谷歌推出全新端到端語音翻譯系統

Translatotron 的模型架構。

在訓練過程中,序列到序列的模型利用一個多任務目標來預測源和目標轉錄本,同時生成目標聲譜。然而,推理期間並不使用任何轉錄腳本或其他中間本文表徵。

性能

雖然簡化了翻譯流程,但翻譯質量仍然是很重要好的問題。谷歌研究人員測試了 Translatotron 的翻譯水平,以 BLEU 分數為標準(該分數是以語音輸出再轉錄為文本計算的)。測試發現新方法目前仍無法達到傳統方法的業內最佳水平,但已高於一些基線標準,實驗證明了端到端直接語音翻譯的可行性。

對於端到端的語音模型而言,如何訓練是一個大問題 —— 目前多國語言語音對照數據集還很少。谷歌的研究中使用了語音合成的方法,把 Spanish-English MT 數據集中對應的文字生成了語音用於訓練。此外,研究人員也找到了容量為 12 萬對的 Fisher 西班牙語 - 英語語音數據集進行模型訓練。

谷歌還放出了一些音頻剪輯,展示了 Translatotron 的直接語音到語音翻譯結果(見後文)。

保留聲音特徵

結合 speaker 編碼器網路,Translatotron 能夠在翻譯後的語音中保留源說話者的聲音特徵,使得翻譯後的語音聽起來更加自然、和諧。這項功能利用了谷歌之前關於 speaker 驗證和 multispeaker 文本語音合成技術的研究。

speaker 編碼器在 speaker 驗證任務上預訓練,學習根據簡短的示例表達編碼說話者的聲音特徵。根據這種編碼調節聲譜圖解碼器,模型可以合成具有說話者相似特徵的語音,即使內容為不同的語言。

下面的音頻片段展示了 Translatotron 將源說話者的聲音遷移到目標語音的效果。在這個示例中,Translatotron 給出的翻譯結果比基線級聯模型更準確,同時還保留了源說話者的聲音特徵。保留源說話者聲音的 Translatotron 輸出使用的訓練數據比使用標準聲音(不保留源說話者聲音)更少,所以它們生成的翻譯略有不同。

重建「巴別塔」:谷歌推出全新端到端語音翻譯系統

音頻地址:https://google-research.github.io/lingvo-lab/translatotron/#conversational

結論

谷歌表示,據目前所知,Translatotron 是第一個可以直接實現從一種語言到另一種語言語音轉換的端到端模型。它還能在翻譯後的語音中保留源說話者的聲音。谷歌希望這項研究可以作為今後端到端語音翻譯系統研究的起點。

論文:Direct speech-to-speech translation with a sequence-to-sequence model

重建「巴別塔」:谷歌推出全新端到端語音翻譯系統

論文地址:https://arxiv.org/abs/1904.06037

摘要:谷歌展示了一種基於注意力的序列到序列神經網路,該網路可以直接實現從一種語言到另一種語言的語音轉換,而無需依賴中間的文本表徵。該網路是端到端訓練的,學習將源語的語音聲譜圖映射到目標語聲譜圖中,翻譯內容也是對應的。

該模型還能夠使用源說話者的聲音合成翻譯語音。谷歌在兩個西班牙語 - 英語語音翻譯數據集上進行了實驗,發現該模型的性能略低於語音 - 文本翻譯模型和文本 - 語音合成模型的級聯基線模型,表明了該方法在此極具挑戰性的任務中是可行的。

參考內容:

https://ai.googleblog.com/2019/05/introducing-translatotron-end-to-end.html

https://venturebeat.com/2019/05/15/googles-translatotron-is-an-end-to-end-model-that-mimics-human-voices/

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

沒有三年實戰經驗,我是如何在谷歌雲專業數據工程師認證中通關的

TAG:機器之心 |