當前位置:
首頁 > 科技 > 對話搜狗陳偉:機器同傳關鍵是做好語音識別、機器翻譯的中間環節

對話搜狗陳偉:機器同傳關鍵是做好語音識別、機器翻譯的中間環節

智東西(公眾號:zhidxcom)文 | 寓揚

近日,在IWSLT(International Workshop on Spoken Language Translation)國際口語機器翻譯評測大賽上,搜狗擊敗其他對手獲得Baseline Mode(基線模型)賽道冠軍。

IWSLT是國際口語機器翻譯評測中的最具影響力之一的大賽,從2004年開始至今已舉辦15屆。本屆比賽吸引了搜狗、科大訊飛、阿里巴巴、愛爾蘭ADAPT中心、美國約翰霍普金斯大學、美國應用科技公司APPTEK、美國空軍研究實驗室AFRL等國內外知名大學、研究機構與公司參加。

搜狗語音交互中心技術總監陳偉

圍繞搜狗在本屆口語機器翻譯測評大賽中的表現以及其背後的技術探索,今天智東西等少數幾家媒體與搜狗語音交互中心技術總監陳偉、機器翻譯負責人王宇光等人進行溝通,看看搜狗近兩年機器翻譯道路上又有哪些新的探索。


一、賽道選擇出於實戰考量

本次的國際口語機器翻譯測評大賽主要考驗的是AI從英語到德語的語音翻譯,主要分為兩個賽道,一個是Baseline(基線)模型,另一個是端到端模型賽道。搜狗本次參加的是Baseline賽道,並獲得該賽道的第一名。

而在本屆的端到端模型賽道上,科大訊飛則獲得了第一名。搜狗為何在本次比賽中選擇了Baseline的模型賽道而非端到端賽道呢?

搜狗語音交互中心技術總監陳偉介紹道,Baseline模型是目前做口語機器翻譯比較成熟的方案,由機器像流水線一樣逐一進行語音識別、機器翻譯、語音合成等的方案;而口語機器翻譯的端到端意味著直接輸入英語輸出德語口語,目前還處於學術界的一種探索,尚在應用的早期。

他們在本次比賽中選擇了Baseline的模型賽道,主要原因是出於實用性考量。2016年11月的世界互聯網大會上,搜狗便推出機器同聲傳譯技術,經過過去2年的產品實戰,搜狗想要藉助這場比賽檢驗自身在語音翻譯上的實力。

陳偉稱,翻譯是搜狗幾個比較大的戰略方向之一,他們希望通過產品實戰把技術打磨好,並在真實的場景中檢測一下自身實力。本次比賽其大約投入十多人的團隊,主要來自內部語音識別、機器翻譯、NLP(自然語言處理)、數據資源等多個團隊。

此外,搜狗在機器翻譯的端到端應用上也有一些前沿性探索,但該技術短期內並不能落地。

在他看來,小領域可控制的端到端模型更有價值,比如語音識別或者機器翻譯這樣一個環節的端到端在實際應用中更加可靠,而端到端的口語機器翻譯至少還有5年以上的路要走。

二、要把語音識別、機器翻譯的中間環節做好

陳偉也借著這場口語機器翻譯比賽談了他們對於機器翻譯同傳的一些新思考,他稱早期認為機器同聲傳譯就是語音識別+機器翻譯,近兩年在單點模型迭代的同時,他們在實際落地鍾發現,要把語音識別與機器翻譯的中間銜接環節做好,才能夠真正實現領先。

他說,「想要做好機器同聲傳譯,不僅僅是要把語音識別、機器翻譯做好,還要把中間環節做好,這來自搜狗同傳產品、實踐中的積累。」

在Baseline這種流水線式的模型中,分為單點模型的迭代與不同環節之間的銜接。在單點模型上,搜狗通過多模型融合的方式來做語音識別與機器翻譯,保證不同維度的特徵,從而迭代效果。

科大訊飛無疑是語音賽道一位資深的老牌玩家,當談及來自科大訊飛的競爭時,陳偉稱,科大訊飛是一家很值得尊敬的公司,它們在技術細節上做的很紮實。

但他認為搜狗在語音識別技術上並不輸於科大訊飛。隨著2010年後深度神經網路在語音識別與機器翻譯上的應用,對於新技術,大家都處於同一起跑線,這也是行業後入局者的機會。同時,搜狗依託搜狗輸入法等產品,在數據上同樣具有優勢。

科大訊飛的會議同傳產品訊飛聽見最近鬧出一場風波,它主要採用語音識別將語音轉換成中文文本,然後由人工結合文本翻譯成英文。針對這一「人機耦合」概念,陳偉稱這是一種AI應用的方式,但一個成熟的人工同傳是不需要看屏幕(看文字)的,人機結合應該以提升效率、降低成本為前提。此外,他們團隊希望在未來3~5年內,搜狗同傳能夠達到人類的一般同傳水平。

同時,他也談道,目前同聲傳譯領域還存在很多問題有待解決:其一是機器同傳具有很強的領域屬性,而在領域之外或者大量專業領域則效果一般;其二口音問題、重複詞等也是翻譯中的一個難點,其三演算法中還存在一些亟待解決的問題,比如中譯英中很大的問題是中英混雜,這都值得長期投入和推敲。


三、探索多模態、語音合成技術

2018年是人工智慧深入落地場景的一年,搜狗也將AI技術落地到輸入法、出行/旅行、大會同傳等領域。在B端上,搜狗也開始將自身的AI能力對外輸出,比如其AI能力已經上線到OPPO、vivo的手機中。

而在AI技術探索上,陳偉介紹了搜狗在多模態、語音合成等方面的進展。

2016年搜狗對外發布搜狗知音引擎,但最初它是一個以語音為主的單模態引擎,但語音在表達上是較為單薄的,近期搜狗將語音、唇語、圖片等都加入知音引擎中,從而具備多模態表達的能力。

在語音合成方面,他展示了一個變聲應用,你隨便說一句話後,就可以模仿其他人的聲音說出,比如經常被拿來調侃的特朗普。

陳偉還展示了一個搜狗制音坊的微信小程序應用,主要圍繞兒童故事場景,爸爸媽媽們需要5分鐘左右錄製10句話,軟體即可為孩子講述帶有父母聲音的故事。

近年來語音合成技術也逐漸收到關注,並呈現出個性化、情感化發展的趨勢。陳偉也表示,語音合成的關鍵是如何快速定製個性化聲音,而目前最大的問題是數據問題。

語音合成希望機器的聲音與人的聲音很像,這意味著聲音的音色、韻律等信息都需要還原,機器對數據的適配能力還需要加強。

此外,在今年的烏鎮世界互聯網大會上,搜狗還將與新華社合作展示搜狗分身技術。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 智東西 的精彩文章:

印度邀華為參與5G測試 欲2020年推5G
華為公布五大AI戰略,推最強7nm昇騰AI晶元!提出十大變革

TAG:智東西 |