當前位置:
首頁 > 科技 > 搜狗+NMT+團隊:神經機器翻譯將消除跨語言溝通障礙

搜狗+NMT+團隊:神經機器翻譯將消除跨語言溝通障礙

搜狗+NMT+團隊:神經機器翻譯將消除跨語言溝通障礙



近三年來,「神經網路機器翻譯技術」成為人工智慧翻譯主流。該技術通過「端到端」的方法將翻譯平行語料進行映射,以「編碼器—注意力機制—解碼器」的結構,解決翻譯問題。

自 2016 年 8 月搜狗 NMT 團隊成立至今,其自主研發的「機器翻譯·一期系統」基本搭建完成。近日,人工智慧媒體《機器之心》對搜狗 NMT 團隊進行了專訪。搜狗搜索技術負責人許靜芳、搜狗搜索機器翻譯負責人翟飛飛、清華計算機系副教授劉洋,就「搜狗神經機器翻譯」的優勢、團隊組建和技術拓展等問題,展開了深度的分享。


採訪如下:


搜狗翻譯可生成更流暢的翻譯結果


機器之心:神經機器翻譯(NMT)將整個輸入句子視作翻譯的基本單元,相比於之前的基於短語的翻譯系統,除了所需的工程設計更少這個優點外,句子意思理解的精確度有哪些提升?

劉 洋:NMT 有兩個關鍵的技術很重要,一個是 gating,另外還有一個是 attention,這兩個特別適合處理語言中長距離調序,比如中英文結構差異特別大,詞語順序存在全局變化,NMT 處理這種情況特別有優勢,生成的譯文要比傳統的方式生成的譯文流利很多,這是 NMT 很突出的特點。


翟飛飛:在統計機器翻譯中,我們使用調序模型來處理不同語言之間詞序不同的問題。但在處理長距離調序時,由於搜索空間太大,調序模型很難做到有效建模,導致許多統計機器翻譯系統生成的譯文存在較多詞序錯誤,難以看懂。但 NMT 的模型架構對處理長距離調序問題特別有效,生成的譯文更為流利。


搜狗翻譯有望實現「多場景即時對話翻譯」


機器之心:在更高層次上自然語音處理上,實現兩種語言的實時對話還需要多久?

搜狗+NMT+團隊:神經機器翻譯將消除跨語言溝通障礙


搜狗搜索技術負責人許靜芳


許靜芳:我覺得這個會很快,當然有一個前提,就是提出什麼樣的要求,如果要求特別流暢,包括上下文的理解,那不一定能做到。但由於語言的障礙,至少可以從以前的不能交流變成現在能夠輔助理解和交流,這個會非常快。在某些場景口語交互或者日常的生活場景上,達到非常流利地交流,我覺得這也是在一兩年的時間內可以做得非常好的一件事情。


當然這裡面也會涉及到更多的口語上的交互,又會和語音掛上鉤,涉及到多種語音識別,包括和口音、設備關聯在一起,會很複雜。但單純在翻譯這個層面,這個會非常快,現在已經做到有幫助。

搜狗+NMT+團隊:神經機器翻譯將消除跨語言溝通障礙


清華計算機系副教授劉洋


劉 洋:我個人覺得在「多場景即時對話翻譯」領域至少有兩個挑戰。從方法層來說,最難的就是語言歧義性問題,這是自然語言處理所最大的挑戰。人類語言和機器語言不一樣,機器語言要求精準、沒有歧義,比如 C+,JAVA。但是自然語言的歧義性很高,比如英文詞「bank」,既可能是指「銀行」,也可能是指「堤岸」。口語交互過程中歧義現象很嚴重。


從數據層面來說,無論是語音識別、機器翻譯還是語言合成,都是數據驅動的方法,系統性能嚴重依賴於標註數據的規模、質量和覆蓋率。對於開放領域的即時對話翻譯而言,目前還缺乏大規模、高質量、廣覆蓋的標註語料庫。

搜狗翻譯水平已部分超越 Google 等巨頭


機器之心:通過深度學習來搭建的實時翻譯技術與數據密不可分,搜狗的 NMT 在大型數據集上工作有哪些挑戰?


許靜芳:我想這個挑戰應該是對所有機器翻譯團隊都類似的一個有趣的現象是業內翻譯做得好的團隊大多來自搜索公司。搜索和翻譯本身是密不可分的,這個密不可分首先是數據層面,語料的挖掘,搜索本身天然有優勢,在這裡面,其實都涉及很多自然語言處理、數據挖掘的問題,搜索積累的經驗可以很快地應用到翻譯上來。


機器之心:相較於谷歌和百度的神經機器翻譯,搜狗這次發布的神經機器翻譯有哪些差異性的特徵?


許靜芳:首先,對翻譯問題的理解、重視和投入問題,在不同的公司不同的階段是有差異的。其次,聚焦在技術上面,NMT 從發展到應用在商業系統里也就這一、兩年左右的事情,本身這個技術正處在非常快速的迭代的過程中。如果現在要去比較我們(搜狗)和百度、谷歌的差異,我們自己本身在翻譯的模型,語料的挖掘,特別是深度學習模型很大,用的語料很多。在模型在分布式訓練上,搜狗也有自己的創新。我們和谷歌最新的工作去對比,在某些方法上,可以看出我們比谷歌做得好,最終在中英兩種語言互譯的效果優於也驗證了這個事情。搜狗比谷歌更有動力去做好翻譯這件事情。


搜狗翻譯技術持續改進,未來可期


機器之心:剛才談到模型,現在 seq2seq+attention 的模型已經在 NMT 及其他眾多 NLP 任務上取得了非常好的效果,我也注意到搜狗的神經網路做到了 5 層。之前有些論文提到了通過增加更多層的網路來取得更好的效果,您認為這個準確嗎,通過不斷增加網路層數來提升效果?


許靜芳:我覺得這是方法之一,但不是唯一的方法,而且層數變深了以後,在數據和模型訓練,包括網路的結構和優化方法上,都應該去適配這樣的網路結構,所以我覺得適當加深層數是一種有效的方法,但不是唯一的途徑。


劉 洋:增加層數肯定有幫助,能夠提高模型的表達能力,但是層數增加的越多,訓練的難度也越大,需要更先進的技術。


機器之心:這種模型(seq2seq+attention)在效果方面是否已經達到了上限,從而需要新的模型解決?


許靜芳:我覺得遠遠沒有,從演算法層面,這種網路的結構只是其中之一,包括損失函數的設置、先驗知識連接、模型後處理等方面都有很多工作要做。


劉 洋:肯定有提升空間。目前看來,有兩個問題非常明顯。第一個問題是漏詞。很多用戶反映神經機器翻譯系統在生成譯文時經常漏掉重要的詞沒有翻譯,嚴重影響了譯文的忠實度。


另一個問題是缺乏篇章一致性。目前的翻譯都按照句子為基本單位進行翻譯,沒有考慮篇章層面的上下文信息,會導致翻譯同一個篇章出現同一個詞在不同句子中的譯法不一樣。


搜狗獨創的「深度學習」訓練模型


機器之心:除此之外,搜狗的 NMT 還有哪些正在應用的模型?

搜狗+NMT+團隊:神經機器翻譯將消除跨語言溝通障礙



搜狗搜索機器翻譯負責人翟飛飛


翟飛飛:目前很多通用的 NMT 相關方法我們都在使用,同時依託天工研究院,我們和清華的機器翻譯團隊也合作進行了很多模型技術上的探索,取得了不錯的成果,翻譯性能穩步提升。


劉 洋:清華的機器翻譯團隊由孫茂松教授領導,我是技術負責人。在這次與搜狗合作研發機器翻譯系統的過程中,我們多年積累的技術和經驗得到充分體現。另外,我們也受到最新的前沿技術的啟發,如生成對抗網路和 zero-shot learning。相關的技術目前正在申請專利和撰寫論文,預計不久會公開。


機器之心:不同語言的語料規模差別很大,英文中的語料非常多,但中文語料就顯得非常少。請問,是否能將 NMT 的研究成果應用在不同語言語料構建上,從而提升其他語言 NLP 研究水平?


翟飛飛:我個人覺得是可以的,比如現在有各種各樣的工作用來自動生成訓練語料,但具體怎麼操作,還要針對不同的任務,生成的數據能不能拿來使用,也需要經過評測之後,才能判定。。


機器之心:搜狗的 NMT 有應用在外部的對準模型嗎?


翟飛飛:外部對準模型是一個相對比較通用的技術,我們也在使用,同時也在探索其他的相關技術。


機器之心:在哪些具體場景,搜狗 NMT 的表現會比較好?


許靜芳:搜狗的機器翻譯整體來說有非常好的調序能力,翻譯譯文流暢,利於理解。英文我們利用翻譯的主場景是跨語言檢索,所以書面語言的翻譯效果比口語還要更好一些,英翻中比中翻英效果的領先優勢更突出。


四個月上線,搜狗翻譯打通華語世界與英語世界


機器之心:這次根據機器翻譯推出了海外搜索,國內獲取英文信息一直是非常困難的事情,川總在演講中也提到過這個。用先進的機器翻譯技術切入這個剛需變成產品,而這個產品又會因為用戶頻繁使用來產生更多數據並優化技術。這可能是我們目前所看到的機器翻譯技術最恰當的產品形態。當初我們是怎麼想到這種產品思路的?以及海外搜索和機器翻譯的良好互動將實現什麼樣的一種目標?


許靜芳:海外搜索的前身叫英文搜索,是 2016 年 5 月份發的一款產品。有幾個背景,首先全世界的信息 10% 是中文,90% 是英文。不管是國情還是文化,英文的質量在某些領域是明顯高於中文的質量,並且平均水平還是高於中文的水平。其次國人隨著各方面的進步,有非常迫切打開眼界與國際接軌的需求。世界是平的,有這樣的需求存在。


搜狗 5 月份發布英文搜索是讓用戶搜索更優質的英文內容。由於各種原因,國內並沒有特別好用的英文搜索,搜狗英文搜索是將優質的英文信息引入,給大家提供這樣的入口,才能接觸到這樣的信息。在 5 月份上線的時候就附帶一個小的功能,舉個例子,在爆發魏則西的事件的時候,大家要查滑膜肉瘤,查細胞免疫療法,大家知道中文的概念,而且也明白,更權威性的信息與知識在國外。但是當用戶在用搜索英文信息的時候,首先遇到的第一個門檻就是不知道如何用英文拼寫出」滑膜肉瘤」,」細胞免疫療法」。


所以搜狗英文搜索當時就有一個功能是允許用戶用中文查詢詞,通過機器翻譯自動翻譯成英文查詢詞,再找到英文信息。當時面向的用戶,是英文相對還可以,但在一些專業術語上需要補足的用戶,尤其在不太熟悉的領域,構建英文表達很困難。但是如果返回英文結果,能讀懂但比中文結果要困難。


這個功能上線以後,在這個主打英文語言的搜索頻道,中文的查詢詞占 20% 以上,而且隨著時間的推移,還在逐步的提升。可以說這樣的功能是很受用戶歡迎,所以我們想把目標用戶範圍擴得更大一點,英文水平再差一點的同學,也能幫助他去閱讀。進一步想法:把搜索結果能夠翻譯成中文,讓不懂英文的用戶在這裡基本能看懂;懂英文的,藉助機器翻譯,也能更快到去找到他想要的信息。所以海外搜索的想法是在英文搜索發布不久,就已經萌生出來的,只不過翻譯很難,搜索也很難,要把這兩件事結合在一起,是難上加難。我們在英文搜索發布之後,大概花了四個月左右的時間,在建立團隊的基礎上,首先構建自己自主的機器翻譯的能力,而且機器翻譯的第一場景就是跨語言檢索。


機器之心:現在有很多企業都和高校實驗室建立了非常緊密的合作關係,能介紹下搜狗在 NMT 上和清華大學的合作嗎?


許靜芳:這是非常成功的校企合作的案例。2016 年搜狗捐贈清華大學打造天工智能計算研究院,機器翻譯也是天工智能研究院下面的第一個合作項目,將搜狗的技術能力與清華劉洋教授的機器翻譯團隊的長期積累相結合充分發揮兩個團隊各自的優勢,最終也取得非常好的效果。機器翻譯的技術門檻很高,業內很多團隊做機器翻譯都是一年以後上線,或者兩年以後再上線的,我們其實只花了四個月,這也體現搜狗在人工智慧上的優勢與決心。


天工智能計算研究院是 2016 年成立的,但是這個研究院的前身是搜狗和清華計算機系的搜索技術聯合實驗室,這個實驗室已經有 9 年的時間。搜狗一直以都非常支持學術界的研究,我們對學術界開放了最多的數據集,也有著廣泛的合作,可以說搜狗在這方面是推動了國內相關方向的發展,也推動了全世界關於中文的研究。2016 年聯合實驗室進一步升級成研究院,還有很多其他項目正在進行中,相信馬上會有一些其他的成果會出來。


本文為機器之心編譯,轉載請聯繫本公眾號獲得授權


------------------------------------------------

您的贊是小編持續努力的最大動力,動動手指贊一下吧!


本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

CMU人機德撲大戰進入中場,人工智慧豪取46萬籌碼
2016中國人工智慧大事件:從百度深度學習平台到中國腦計劃
業內一篇噓聲,質疑暮光女主發表人工智慧學術論文
為NASA火星探測器研發人工智慧大腦:NeuralaA輪融資
資源|谷歌發布用於有監督詞義消歧的大型語料庫

TAG:機器之心 |

您可能感興趣

越消除越幸運《消除者聯盟》NINEPERCENT 主題版本上線
MIT SCAIL科學家研究出讓AI演算法自動消除偏見的方法
中軟國際哈爾濱ETC:消除物聯網卡安全隱患的四大原則
恐怖射擊《絕望:黑暗洞穴》、街機消除《#OneRoom》
抵消高超音速武器夢魘,美國稱正想法消除「俄超音速武器」威脅
消除AI歧視,用遊戲幫助腦癱患兒恢復!矽谷技術前沿周報
滿屏BlingBling!KING式消除新作《寶鑽傳奇》簡評
電音風音游《Dynamix》、消除遊戲《瘋狂動物城:築夢日記》
App Store限免:量子魚塘遊戲&夜星消除遊戲&皮克斯濾鏡
「團伙作案」?狗狗裡應外合打開大門偷跑,事後還消除「證據」
消除駕駛中的噪音 Bose要將看家的降噪技術應用於汽車
Survios推出VR消除遊戲《繽紛泡泡》
不愧是信聽實力女團,電視台音樂節目親自上傳MR消除視頻!
聯貝德&魔貝-MSC上漲邏輯以及如何消除泡沫
4分鐘暴汗燃脂TABATA訓練方案,專攻小腹贅肉消除你的大肚腩
CAR-T免疫療法升級 或可消除嚴重副作用
Cindy教口語,「消除誤會」英語怎麼說?
iPhone通話噪音太大,打開手機這個開關,消除噪音很實用
策略消除《索爾加德傳奇》、休閑海戰《DOKDO》
如何消除團隊內耗