當前位置:
首頁 > 新聞 > 對話搜狗口語機器翻譯團隊:國際冠軍的誕生

對話搜狗口語機器翻譯團隊:國際冠軍的誕生

繼2017年摘取國際頂級機器翻譯評測大賽桂冠之後,搜狗又一次在國際大賽拔得頭籌,且是在更為前沿的口語機器翻譯領域。

近日,國際頂級口語機器翻譯評測大賽(International Workshop on Spoken Language Translation,以下簡稱IWSLT)落下帷幕。搜狗擊敗訊飛、阿里巴巴, APPTEK(美國應用科技公司)、AFRL(美國空軍研究實驗室)以及KIT(德國卡爾斯魯厄理工學院)等國際國內多個強勁對手,一舉奪得了2018年IWSLT大賽Baseline Model(基線模型)賽道冠軍。

IWSLT的口語機器翻譯指的是從語音信號翻譯成目標語言文本,正是搜狗已經落地應用的「AI同傳」、「旅行翻譯寶」等多款產品的核心技術,並不是我們熟悉的文本到文本的翻譯。口語機器翻譯領域是一個新興領域,搜狗則一直走在前沿,此次摘得大賽冠軍,也是實力的印證。

11月5日下午,搜狗口語機器翻譯團隊接受了媒體採訪,介紹了IWSLT參賽歷程、口語機器翻譯的技術進展以及商業落地情況。


口語機器翻譯註重細節

據雷鋒網了解,IWSLT是國際上最具影響力的口語機器翻譯評測比賽,每年舉辦一次,至今已經是第15屆,大賽吸引全世界頂尖機構參加。IWSLT針對語音翻譯實際應用面臨的難題,每年會設定一些研究任務,並向外界提供公開的數據集合和評測交流機會。

今年的比賽包括兩個主要任務,一是英語到德語演講場景下的語音翻譯任務,二是巴斯克語到英語的低資源文本翻譯任務。其中,英語到德語演講場景下的語音翻譯任務又分為Baseline Model(基線模型賽道)和End-to-End(端到端賽道)兩個賽道。

                                         

據介紹,Baseline Model賽道主要評測語音翻譯的流水線方案,輸入語音先通過語音識別系統得到語音識別結果,之後將結果送入機器翻譯系統獲得譯文。

搜狗、科大訊飛、阿里以及國外數家公司都參加了Baseline Model賽道,在這個賽道中,搜狗取得28.09的BLEU(機器翻譯質量評價指標,值越大代表翻譯質量越好)成績,獲得第一名,比第二名科大訊飛高出1.6個BLEU。

搜狗語音交互中心負責人陳偉介紹,此次搜狗語音團隊派出了語音和機器翻譯兩個部分的人員合力準備此次比賽,有做聲學模型、語音增強、語言模型、機器翻譯的人員,還有自然語言處理的人員負責將語音識別模塊與機器翻譯結合起來。

由於必須使用大賽提供的數據重新訓練語音識別模型和機器翻譯模型,搜狗語音團隊也花費了不少時間和心力。大賽提供的語音數據大概有500小時,搜狗語音團隊首先是做了數據增廣,調整語速、降噪、增強之類,最終把數據大小提高了3倍。團隊用單機多卡機器做語音識別模型訓練,訓練一個模型需要兩到三天的時間。在翻譯方面,大賽提供了大概有六千萬到七千萬序列的雙語平行數據,搜狗投入了10-15台八卡機器做模型訓練,每訓練一個模型需要花4-5天時間,一共做了多輪的模型迭代更新才得到最佳的效果。

雖然是第一次參加一個「命題」的國際賽事,但是搜狗團隊早已經駕輕就熟,因為這樣的人員配置和技術流程與他們做業務時完全一致。

據雷鋒網了解,搜狗目前的AI同傳、搜狗翻譯寶、錄音翻譯筆等產品都採用了Baseline Model解決方案。搜狗也認為Baseline是業內最主流、效果最好的語音翻譯解決方案,市場上商用機器同傳、翻譯機等語音翻譯類產品幾乎都採用了類似的方法。

IWSLT大賽此次提供的數據和測試場景很貼合實際應用,其預料包括TED上有英文字幕的德語演講視頻,還有一些有英文字幕的德語電影,這些對話語料都很生活化,會有語氣詞、停頓、口頭禪等常見的語言現象。因此,搜狗在此次IWSLT獲得的成績也印證了搜狗的口語機器翻譯技術在應用落地上的領先優勢。

在陳偉來看來,目前國內公司在語音識別技術上相差不大,搜狗的語音識別技術處於業內頂尖水平,機器翻譯技術則有更大的領先優勢。在口語機器翻譯這個領域,並不是看語音識別技術或者是機器翻譯單方面有多強,而是要看公司是否能處理好細節,將兩個環節融合在一起。搜狗在不斷的產品落地中已經積累起領先於行業的細節處理能力,能真正做好口語機器翻譯和AI同傳。


關注前沿與未來

本次IWSLT大賽還增設了End-to-End賽道,其採用基於神經網路的端到端語音翻譯解決方案,輸入語音後基於深度神經網路模型直接輸出譯文。目前業內有觀點認為End-to-End代表著更前沿的探索,是語音翻譯的新思路和新方向。

不過我們發現,End-to-End賽道上第一名的BLEU為19.4,與搜狗在Baseline Model賽道獲得的28.09的BLEU相差還很遠。

對於這一現象,陳偉告訴雷鋒網目前End-to-End需要的語音-文本平行預料難以大規模採集、演算法研究也不成熟。雖然目前End-to-End技術在語音識別和機器翻譯這種單個環節中取得了不錯的效果,但是其應用於口語機器翻譯還尚未成熟,距離商業化落地還需要大概5年的時間。

End-to-End賽道尚未成熟,目前還沒有出現大家都能認可的技術方案,因此在這個領域奪得第一併不能真正證明實力。當然,陳偉也承認,End-to-End確實是未來的方向之一,搜狗也已經進行了接近半年的嘗試。


不斷推進商業化落地

近兩年,搜狗已經建立起以語言為核心的長遠AI戰略,核心產品圍繞輸入法、搜索、同傳和翻譯。2016年,搜狗將語音識別與機器翻譯技術相結合,推出了全球首款商用AI同傳系統-搜狗同傳,引領了語音翻譯技術的普及與應用。

在語音識別領域,與一些老牌廠商比,搜狗是後來者。但是從目前已經取得的成績來看,搜狗已經抹平了時間上的差距,搜狗是如何做到的呢?

陳偉談到:從80年代一直到2010年的這二三十年時間,語音識別的流水線很長,老牌語音識別公司在調節參數、模型訓練方面有很強的壁壘,然而深度學習技術應用後,相當於推倒重開,在這樣的情況下,整個行業後入者有很好的機會,大家可以快速地彎道超車。搜狗在數據和人才儲備上都不輸給老牌語音公司,搜狗也是一家C端公司,很注重技術與產品的結合,細節可以做到很極致。有數據、有場景,有技術,搜狗就沒有理由做不好語音識別和翻譯。

在AI同傳取得成功之後,搜狗也推出了一系列的智能硬體,例如具備離線翻譯和拍照翻譯功能的搜狗旅行翻譯寶;搜狗錄音翻譯筆,提供錄音轉寫、對話翻譯、同聲傳譯等功能,把AI同傳落地到了消費級產品之中,開拓了語音翻譯的新航道。搜狗也正在跟VIVO、OPPO等手機廠商合作語音翻譯的技術合作,將在線和離線的翻譯能力在智能手機上上線。

除此之外,搜狗語音團隊也在致力於多模態語音語義技術的探索。在近兩天的烏鎮世界互聯網大會上,搜狗與新華社合作開發的全球第一個「AI合成主播」正式亮相,只用輸入新聞文本,AI合成主播就能用和真人一樣的聲音進行播報,而在播報的過程中唇形、面部表情等也能與真人主播完全吻合,效果惟妙惟肖。

據雷鋒網了解,AI合成主播的技術被稱為「搜狗分身」,該技術能通過人臉關鍵點檢測、人臉特徵提取、人臉重構、唇語識別、情感遷移等多項前沿技術,並結合語音、圖像等多模態信息進行聯合建模訓練後,生成與真人無異的AI分身模型。這項技術讓機器首次做到逼真的模擬人類說話時的聲音、嘴唇動作和表情,並且將三者自然匹配,與真人幾乎一致。

從IWSLT大賽到「AI同傳」再到「搜狗分身」,我們看到搜狗語音團隊在基礎技術與應用落地兩方面的優異成績,期待這樣一個穩紮穩打的團隊帶給我們更多的驚喜。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

遊戲黑產:我還在空中跳傘,就被人用拳頭遠程打死
Neuromation:一文告訴你如何用CNN檢測兒童骨齡

TAG:雷鋒網 |