當前位置:
首頁 > 新聞 > 有道周楓:未來三年,神經網路翻譯將滿足90%以上的翻譯需求

有道周楓:未來三年,神經網路翻譯將滿足90%以上的翻譯需求

有道周楓:未來三年,神經網路翻譯將滿足90%以上的翻譯需求

新智元原創

編輯:零夏 隨一 胡祥傑

有道周楓:未來三年,神經網路翻譯將滿足90%以上的翻譯需求

耶和華說:「看哪,他們都是一樣的人,說著同一種語言,如今他們既然能做起這事(建造巴別塔),以後他們想要做的事就沒有不成功的了。」——《聖經》

《聖經》用巴別塔的故事解釋了人類語言複雜性的起源,但是,千百年來,雖然面臨重重阻礙,人類從未放棄過建造巴別塔的願望,從職業翻譯的出現到國際語的出現都是如此。

智能時代為跨語言交流提供了有力的武器——AI。機器翻譯大大降低了翻譯的門檻,並且,當下眾多科技公司都是免費提供這一服務。如果要評選一個離大眾最近的人工智慧產品,機器翻譯絕對不能忽略。

以時下用戶量較大的微信為例,在微信中長按文字,可以進行實時翻譯,這就是大眾以最簡便的方式能感受到的機器翻譯。網易有道正是微信的翻譯提供商之一。

機器翻譯這一已經「飛入尋常百姓家」的AI技術有什麼特點?最近的技術焦點在哪?當下國內外的市場格局如何?未來會走向何方?帶著這些問題,新智元近日獨家專訪了有道CEO周楓。

有道周楓:未來三年,神經網路翻譯將滿足90%以上的翻譯需求

周楓先生現任網易高級副總裁,網易有道CEO。周楓在清華大學取得計算機科學學士和碩士學位,在加州伯克利大學取得計算機科學博士學位,曾在多個頂級國際學術會議和期刊上發表超過10篇論文。周楓加入網易後,主持有道詞典開發、有道搜索平台架構、有道雲筆記和密碼認證系統「將軍令」開發等,將有道詞典打造成了份額第一的詞典與翻譯產品,用戶量超過6億。目前,周楓帶領有道的NMT團隊攻堅基於人工智慧的神經網路翻譯(NMT)技術,並開始進軍在線教育領域。

今年網易有道十歲了。

從創辦有道開始,周楓已經帶著有道團隊經歷了中國互聯網發展的兩次重大變革,一次是移動互聯網的熱潮,另一次就是今天的人工智慧熱潮。

2009年,移動互聯網熱潮到來的時候,周楓決定,「必須要把計算機的那根線剪掉了」。有道團隊的動作很快,有道詞典移動版上線後,迎來了巨大的用戶紅利。

而對於這次人工智慧熱潮,周楓表示,這對於企業來說,可能是一次彎道超車的機會,但如果不小心,也許會成為掉隊的開始:

「AI和移動互聯網的變革將會帶來共同的結果,都能夠大幅提高用戶體驗,帶動大量新技術被採納。同時,AI將會帶來終端數量的激增,就像移動互聯網的終端數量比PC時代暴漲了十倍一樣。

在這場AI的變革中,企業如果能抓到用戶需求和技術的好的結合點,就可能開拓並佔領一些新的領域。而企業本身的優勢業務領域,如果沒有及時調整,很容易就會被別人吃掉。」

翻譯這個有道的王牌領域,是周楓決定攻佔的第一塊人工智慧高地。

翻譯的巨頭之爭:翻譯質量和用戶交互是制勝關鍵

互聯網的江湖永遠充滿著硝煙。最近幾年,神經網路翻譯這個新概念,把機器翻譯這一潭靜水攪起了風浪,加之整個社會翻譯使用量的快速提升,翻譯這個原本小眾的業務,突然站上了風口變成了互聯網巨頭重點發力的對象。他們都想藉助神經網路翻譯這一新技術,打破翻譯市場的舊秩序,從中分一杯羹。

面對谷歌、百度、科大訊飛等這些強勁的對手,周楓表示,已經為這場市場爭奪站準備好了充足的彈藥。

「國內的機器翻譯市場,最大的兩個供應商是有道和百度,其他的廠商包括海外廠商在內,普通用戶的使用佔比其實很小。

有道是國內最早推出機器翻譯系統的互聯網公司,在語言翻譯市場中早早地站穩了腳跟。從移動端來看,有道在國內翻譯市場的份額超過50%,在詞典這個領域,有道的市佔率超過了70%。

在周楓看來,要在巨頭的翻譯之爭中繼續保持領先,關鍵在於兩點,首先是需要不斷創新提升翻譯質量,其次是怎麼把自然交互這件事情做好。這兩點經驗來自有道翻譯官的用戶增長,2015到2016年的一年時間內,有道翻譯官的用戶量提升了三倍,這其中有翻譯需求增長的因素,更重要的是原因是產品交互的改變:語音翻譯和拍照翻譯兩個場景化很強的功能,成為產品的主打功能,用戶對這樣的交互方式感到很興奮。

谷歌、百度等很多企業都用了NMT,筆者曾在網上做了一個小測試:谷歌和有道能把「一百一」翻譯成「one hundred and ten」,但是百度翻譯是「one hundred and one」。

有道周楓:未來三年,神經網路翻譯將滿足90%以上的翻譯需求

有道周楓:未來三年,神經網路翻譯將滿足90%以上的翻譯需求

有道周楓:未來三年,神經網路翻譯將滿足90%以上的翻譯需求

對於這樣的結果,周楓表示,單個例句的翻譯結果其實無法說明準確度,翻譯和語音識別、搜索一樣,需要大量數據評測。具體到「一百一」翻譯不準確的原因,周楓認為,一方面是翻譯總數據量的原因,另外一方面也因為垂直語料演算法沒經過專門處理,比如數字、日期、人名就需要專門演算法處理,如果依賴總體資料庫翻譯就會不完全準確。

「所有自然交互系統都是很複雜的,不存在教科書式的用某一個辦法一下子就把所有問題都解決了的情況,需要專門處理。這也反映出團隊在這一領域中的經驗和積累。」

利用這一垂直領域的演算法處理經驗,有道正在把神經網路機器翻譯技術迅速商業化。

不少有垂直領域翻譯需求的大機構找上門來,希望有道能提供精準高效和更加場景化的翻譯服務,並且,他們非常樂意付錢來做這件事。有道智雲正是這一翻譯技術合作的入口,支持API介面,同時能夠追蹤用戶翻譯行為,了解用戶翻譯使用情況。

對新技術催生的新商業模式,周楓興趣十足。「金融、醫療等垂直領域的翻譯需求其實非常適合用機器翻譯去解決,有道比起海外公司更了解和接近中國市場,所以這也是我們很感興趣的一個方向。」

準確度對比:BLEU盲測中,比谷歌NMT更勝一籌

對整個翻譯行業來說,2017年是充滿變化的一年。不僅國內的競爭者相繼帶著神經網路的翻譯技術走向市場,谷歌翻譯也在3月重新回歸中國大陸。翻譯的準確度,自然成為衡量技術水準最直觀的標準。

出身於清華和加州伯克利這兩所頂級院校的計算機專業,周楓的身上有著深深的技術烙印。談到準確度,他更喜歡用數據說話。

他用國際通用的BLEU評測把谷歌和有道的中英互譯進行了的對比。BLEU(雙語評估研究-Bilingual Evaluation Understudy)是一種用於評估自然語言之間機器翻譯的文本質量的演算法,它是與人類質量判斷高度相關的指標之一,也是最受歡迎的指標之一。「機器翻譯越接近專業的人文翻譯越好,這是BLEU背後的核心思想。」BLEU評測輸出百分數,該值表示候選文本與參考文本的相似度BLEU值越高,代表翻譯準確度越高。

有道的這次評測採用了盲測方式,即評測採用的例句數據對開發者保密,更不會出現在模型的訓練數據中。同時,由於語言在不同的場景下表現出很強的多樣性,這次評測針對翻譯引擎不同的使用場景(學習、新聞、口語、用戶日誌)採集不同的評測數據,分別作出評測。結果顯示,在以下語料類型中,有道的翻譯準確度均高於谷歌,並且最高能超出谷歌8個百分點。

2017 年 04 月 27 日評測結果



學 習 新 聞 口 語 用戶日誌
翻譯方向 中譯英 英譯中 中譯英 英譯中 中譯英 英譯中 中譯英 英譯中
有道NMT 29.45 33.05 27.86 37.33 20.78 23.78 31.92 51.98
其他國際NMT 21.64 25.39 19.76 31.27 14.60 19.69 29.12 47.62

周楓介紹這一成績時說:「現在機器翻譯的準確度並不像大家想像的,能夠達到90%這種級別的數值,因為 BLEU 通常只以一個答案為參考,而翻譯實際上可以有很多答案,因此要完全準確是非常難的。即使人工翻譯的BLEU值也無法達到百分百,一般也就50-60%。」

NMT法寶:自適應模型和兩大機制——注意力機制、覆蓋度

是什麼樣的技術優勢,讓有道在BLEU盲測中的結果更勝一籌?

周楓把這歸功於有道的領域自適應模型和兩個機制——Attention(注意力)、Coverage(覆蓋度)。

首當其衝的是領域自適應模型,即針對特定領域用特定模型做翻譯。

用戶的需求是是多元的,比如有人想查時政新聞,有人要查醫學知識,若想要用一個模型來覆蓋所有用戶需求,必然會影響翻譯的準確度。機器翻譯中的領域自適應模型是指,若想要讓翻譯質量更好,需要給它更多垂直領域的數據,更多的平行語料。有道對於一些特定領域有單獨的模型,系統會判定語料適應的領域,分配不同的模型進行翻譯。

此外,NMT的兩個重要機制之一是,Attention(注意力機制)。

Attention機制最早在圖像識別取得很大突破,2015年引入到NMT中,它跟人的思維方式很像。現在業界的機器翻譯幾乎都基於Attention的模型。

其基本思想就是目標語言端的詞,往往只與源語言端部分詞有關。Attention機制的引入,可以使模型在每一步注意到源句子中不同的部分,從而提高NMT的效果,該效果的提升對於長句子的翻譯尤其明顯,並緩解Encoder-Decoder框架中將源語言壓縮成固定維度向量帶來的問題。它能保證從前到後,翻譯結果的不同部分對應原文的相應部分,這樣就能表達比較複雜的概念。

Attention雖然大大提升了機器翻譯的效果,但是仍然不夠完備。

有道周楓:未來三年,神經網路翻譯將滿足90%以上的翻譯需求

Coverage(覆蓋度):翻譯的內容完整覆蓋原文

在實際應用中,有道還為技術模型加了一個「Coverage(覆蓋度機制)」。

Coverage大約是2016年提出的,所謂Coverage就是要衡量翻譯結果是不是比較完整地覆蓋原文想要表達的意思。NMT最初的模型有一個比較大的問題就是——有時候他會漏掉某一部分,也可能會多出來某一部分。因為神經網路模型會對語義信息和語法信息同時進行建模,往往會混在一起。機器並不知道自己漏了東西,因此要引入Coverage(覆蓋度)的概念。

所有深度學習網路都是一個優化問題,就是讓訓練演算法去優化整個網路,使得在某一個評價標準下得分最高。如果這個網路得分最高,那訓練完之後,就拿這個網路來處理所有的問題。

因此,在訓練中間加入覆蓋度之後,最後得到的網路就傾向於選擇覆蓋比較完整的模型。翻譯的內容多了少了,模型都會管。神經網路模型是一個很強的語言模式,會從大量的語料里生成結果。如果不加入Attention或者Coverage等機制,機器可能會生出一堆很順利的文字,但是不一定符合翻譯的原意。這兩個機制能夠使它更好地呈現原來的語義。

不惜成本的數據投入,佔據語料優勢

深度學習模型的性能提升通常依賴於數據量的大小,神經網路翻譯模型也是如此。

周楓覺得,比技術模型更關鍵的,是有道這十年來累計的語料數據。「我們在中文語言方面有長期的語料積累,相對其他廠商,我們在優質數據量上具有壓倒性的優勢。」

互聯網是有道NMT最主要的數據來源。網上有大量中英文的句對和網頁,特別是新事物、新概念,網上能夠找到最新的英文原文和對應中文,而演算法會去判定和篩選最準確的對應翻譯。例如像有道詞典的網路釋義功能,就是通過分析網頁來得到一些新詞的解釋,比如deepneural network(深度神經元網路)這樣的新詞就很快能查到準確翻譯。

同時有道也有線下的語料數據源。有道會投入重金以合作的方式專門訂製高質量的語料數據;此外,有道還有一支超過3000人的兼職人工翻譯團隊,每年的翻譯量超過一億五千萬字。在剛剛過去的蘋果WWDC 2017大會上,有道人工翻譯就為大會提供了同聲傳譯服務。這些都奠定了有道的語料數據優勢。

NLP和機器翻譯的挑戰:瘋長的計算量和語義鴻溝

作為一個技術型的CEO,周楓經常是某個新技術最早的觀察者和探討者,他很清楚NMT未來將面臨的挑戰。

機器人可以識別文字,卻沒有思維。翻譯最終還是涉及知識儲備層面,如果一個翻譯者僅僅懂語言,卻沒有背景知識,是很難去理解語言表達的真正意圖。可以預見到,在某一個時間點,機器表層的翻譯能力會超過人,比如辭彙量,整體通順度,但是缺少思維能力會導致機器無法翻譯出更深層的語義。

瘋長的計算量與晶元處理速度的矛盾。隨著模型越來越複雜,數據越來越多,模型迭代的速度會變慢,訓練時間就會出問題。「為什麼GPU(圖像處理器)這麼流行,因為它能大大縮短訓練時間。如果未來數據量激增,可能一屋子GPU都不太管用了。」

據報道,谷歌前段時間在烏鎮的圍棋對決上高調宣傳並公開出售CloudTPU,聲稱其能夠解決GPU訓練速度的問題,並能在神經網路的計算之外執行TensorFlow程序。它能否解決處理速度的問題?對此,周楓的看法值得業內人士借鑒。

「深度學習比較有意思的一個特點是大量時間集中在少數幾種運算上,比如最關鍵的計算是矩陣乘法,TPU的架構就是為矩陣乘法和累加優化的,這樣就可以大幅提高深度學習的性能。但是,英偉達新的GPU也對矩陣以及Tensor的運算進行了針對性的優化,所以綜合考慮兩者之間的絕對性能以及性價比,並不一定是TPU佔優。」

機遇和挑戰總是同時存在。那麼,機器翻譯和人工翻譯的距離還有多遠?

周楓表示,在未來三年,機器翻譯應該能夠滿足90%以上的翻譯需求,但不包括文學創作、商業合同等場景,那依然是人類的領域。

在機器翻譯尚不完美之前,有道的NMT團隊給了有高標準需求的用戶另一個選擇——有道人機翻譯。NMT+譯後編譯結合的模式,可以讓翻譯成本降低50%,並且翻譯質量能夠達到標準水平。

但願這一次,周楓和他的NMT團隊,能在人工智慧的浪潮中再次續寫技術奇蹟。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 新智元 的精彩文章:

「谷歌招聘」推出,垂直搜索AI篩選,迥異百度招聘
「重磅」李飛飛高徒Karpathy加入特斯拉,主管人工智慧部門
「神經網路為什麼過擬合?」理解深度學習需要重新思考「記憶」
Facebook對話AI發展出人類無法理解語言,肇因兩個智能體參數跑偏
「開源」谷歌「一個模型解決所有DL難題」背後的Tensor2Tensor

TAG:新智元 |

您可能感興趣

聽說城裡人文化高,來把9000年前的「天符經」翻譯一下
日本軍隊為了統治需要,1937年,到底從哪找來的翻譯官?
暢銷16年,被翻譯成39種語言,每49秒賣出一本的書,到底講了什麼
是時候走遍全世界了!有道翻譯王2.0,暢聊43種語言
鏡頭下:一位美國人拍攝的1949年漢城,看了就知道,為啥去韓國旅遊不用翻譯
1979年日本首相訪華,鄧小平說了兩個字,翻譯急的冒冷汗
31年前的今天,1個人用38年翻譯了《莎士比亞全集》的梁實秋逝世
歐盟翻譯中心如何做到每年翻譯75萬頁海量材料?
日本軍隊為了統治需要,1937年,從哪找來的翻譯官?
搜狗翻譯,讓華語連接世界,2020年機器翻譯可趕上人類
97歲翻譯名家許淵沖,翻譯八十餘年仍然精神矍鑠,曾獲諾貝爾提名
老照片!1978年日本東京女性:圖6能看出,為什麼去日本玩,不用帶翻譯的原因!
搜狗王小川:搜狗翻譯日均翻譯請求達1.5億次
31年前的今天,1個人用38年翻譯莎士比亞全集的梁實秋逝世
2018年四六級考試有哪些神翻譯?快來看!
視角丨日本100歲導盲犬突然哭叫,翻譯狗狗臨終遺言後,所有人哭了…
28幅世界經典名畫,70年前,一個中國人翻譯了莎士比亞的24部戲劇,至今無人超越
1676年撒旦附身的修女寫下一封惡魔的信,340年後終於被成功翻譯
日本投降後,翻譯官譯錯一句話讓美國怒了,導致日本死亡60萬人
美國人鏡頭下的1949年的韓國漢城,街上到處是中文,根本不用翻譯