當前位置:
首頁 > 知識 > 機器翻譯:生於冷戰,卻為人類重建巴別塔

機器翻譯:生於冷戰,卻為人類重建巴別塔

本文是《環球科學》總編、社長陳宗周先生撰寫的系列專欄「AI傳奇」的第七回。在這一回中,陳宗周先生將帶領我們回顧機器翻譯半個多世紀的發展史。這個在誕生後不久一度陷入低潮的領域,是如何實現飛躍,並可能在不久的將來打破不同民族間的語言壁壘?

陳宗周是《環球科學》雜誌社社長,《電腦報》創始人。

2017年3月的全國「兩會」上,李克強總理來到安徽代表團。訊飛公司董事長劉慶峰拿起桌子上一部手機模樣的小設備,說出總理以前對訊飛的勉勵——讓世界聆聽我們的聲音,機器馬上翻譯成流利的英文。他又說「這個哈密瓜很甜」,機器立刻又翻譯成流利的維吾爾語。這部叫曉譯多語種翻譯機的小機器,是訊飛公司的產品。

2016年11月的一天,東京大學教授、人機交互專家曆本純一(Jun Rekimoto),在社交網路上發現一個消息:谷歌翻譯有了巨大提升。他親自訪問了谷歌翻譯的頁面開始體驗,他被震驚了。

他對比了兩位日本翻譯家所翻譯的《了不起的蓋茨比》中的幾句話與谷歌翻譯出的結果。他認為,谷歌的日語翻譯非常流暢,比起翻譯家的作品,對他而言,更加易懂。

他隨後又在谷歌翻譯上輸入美國作家海明威作品的日文版,翻譯為英文,結果發現機器翻譯與海明威英文原著有著驚人的相似度。

上面的兩個場景都和機器翻譯有關,前者叫語音翻譯,後者叫文本翻譯,而這兩種翻譯,核心問題都在於自然語言理解。

機器翻譯的早期發展

機器翻譯(Mchine Translation,MT),又稱自動翻譯,是用計算機將一種自然語言(源語言)轉換為另一種自然語言(目標語言)的過程。機器翻譯是AI中的明星技術。因為它是實現不同民族不同語言人群無障礙交流的最有力助手。圓滿解決機器翻譯難題,重建巴別塔的夢想也就實現了。

正像計算機是被戰爭催生出一樣,機器翻譯這個想法的出現,也與軍事有關。1946 年,第一台計算機ENIAC誕生後不久,洛克菲勒基金會的美國科學家瓦倫·威弗(Warren Weaver)等人在思考計算機未來應用時,想到了第二次世界大戰期間,圖靈用機器破譯密碼取得的巨大成功。他們認為,語言翻譯與破譯密碼相似,都是把一種符號轉換成另一種符號,同樣可以用機器來完成。沿著這樣的思路,1949年,威弗發表《翻譯備忘錄》,正式提出機器翻譯的思想。

機器翻譯的先驅——瓦倫·威弗

機器翻譯的想法提出後立即受到重視,美蘇兩國當時正值冷戰期間,俄文情報資料的翻譯,需求量很大。1954年,美國喬治城大學和IBM共建的實驗室研製出第一台機器翻譯演示系統。這個現在看來比玩具好不了多少的系統,可以將俄語翻成英文。系統容納250個單詞,遵循六條語法規則,只可以翻譯49個仔細挑選的句子。但是,這仍然是個了不起的成就,已經足以點燃人們的熱情。記者這樣興奮地報道:今天,電子大腦首次將俄語譯成英語。美國國防機構和計算機科學家樂觀期望,機器翻譯將在五年之內實現。

機器翻譯也吸引了蘇聯、日本和歐洲國家的研究興趣。一時間,各國政府紛紛撥款,全球機器翻譯熱潮興起。

好景不長,機器翻譯研究進展緩慢,開始受到廣泛質疑。1964年,為了對機器翻譯的研究進展作出評價,美國科學院成立了語言自動處理諮詢委員會(Automatic Language Processing Advisory Committee,ALPAC),進行為期兩年的調研和測試。1966年11月,該委員會公布了題為《語言與機器》的阿爾帕克(ALPAC)報告,全面否定了機器翻譯的可行性,認為十年研究未能完成預期目標,並在近期或可以預見的未來,也沒有開發出實用的機器翻譯系統的希望,建議停止經費支持。報告給了正在蓬勃發展的機器翻譯當頭一棒,它很快轉入低潮。

為什麼機器翻譯研究進展緩慢,這是因為自然語言理解當時很難取得實質性突破。自然語言理解(Natural Language Understanding,NLU),是解決對語音信息和文本信息的理解問題的重要AI學科。通俗說,是要解決要聽得懂和看得懂這兩個問題。語音翻譯和文本翻譯雖然也有各自關注的技術難點,但共同面對的核心難題都是自然語言理解。這是一個很高、甚至是終極的目標,所以許多研究者喜歡用另外一個詞,即自然語言處理(Natural Language Processing,NLP)來描述這一學科,強調過程而不是目的。

人類社會在漫漫長路中形成的語言,是一個非常複雜的系統。最初的研究者,對問題的複雜性缺乏深入了解。從方法上,他們希望迅速找到語言規則,就像找到密碼的編碼規則就很容易破譯密碼一樣,如果找到語言規則,就能夠理解自然語言,機器翻譯難題就解決了。

但是,語言的規則實在太複雜了。就以文法規則來說吧,有人計算過,如果僅僅覆蓋20%的真實語句,文法規則至少需要數萬條。而如果要覆蓋50%的真實語句,以後每增加一個新句子,就要新增數條文法規則。由於語言是發展和流動的,真實句子實際上變化無窮,文法規則難以窮盡。

再從計算複雜度考慮,圖靈獎得主高德納(Donald Ervin Knuth)從理論上指出了文法與計算複雜度的關係。如果上下文無關,計算複雜度是語句長度(即有多少單詞)的二次方;而如果上下文有關,計算複雜度是語句長度的六次方。單單分析一個有二三十個單詞的句子的文法,就是用今天的高性能計算機,也要計算幾分鐘。所以,要完全從規則上理解上下文有關聯性的一篇文章或者一段長語音的文法,複雜度就會使計算耗時難以想像。在上世紀70年代,即使是擁有大型計算機的IBM,也做不到用文法規則的方法來分析一些真實語句。

當然,上述分析是在非限制性的語言應用環境中得出的結論。在實際應用中,語言的應用都是限制性的,比如不同文化、不同學科、不同情景下應用語言都有各自的特徵。在限制性語言應用環境中,問題要簡化很多。於是,基於語言規則的機器翻譯仍然在努力前行,也取得了一定的成果。而另一種方法,即基於統計的機器翻譯開始嶄露頭角。

統計翻譯的登基之路

我們在第五回提到上世紀70年代IBM沃森實驗室的賈里尼克,他提出了統計語音識別的理論框架,簡潔地用兩個隱馬爾可夫模型——聲學模型和語言模型來清晰概括語音識別。這個框架對語音和語言處理都有著深遠影響。從此,自然語言處理開始走上統計方法之路。

對基於語言規則的機器翻譯系統來說,需要大量特定語言的語言學家編撰相應語言的大型詞典,制定大量的語法、句法、語義學有關的規則。詞典和語法規則庫構成翻譯知識庫,機器根據這些詞典和規則進行翻譯。這與人通過查詞典和語法書理解語言並進行翻譯十分類似。其中,規則很繁複,對於由數十萬辭彙構成的詞庫,翻譯系統包含的語法規則可能高達數萬條。

而統計翻譯則避開語言規則。統計語言學開創人賈里尼克有一句名言:我每開除一個語言學家,語音識別的正確率就提高1%。這句極端的話,說明他對語言規則的無視。

統計翻譯用大量的雙語文本,建立兩種語言的平行語料庫。翻譯時對單詞通過語料庫進行匹配(後來又發展到對片語、短語乃至整個句子進行匹配),然後根據匹配概率,來評判和選擇翻譯結果。

統計翻譯的另外一種方法是建立雙語對照的實例庫,這是一個更龐大的語料庫。翻譯時根據實例進行匹配。

統計翻譯避開繁雜的語法規則,顯而易見更為簡單,而且是威弗提出《翻譯備忘錄》時的原始想法。但是,統計翻譯需要大規模的語料庫,這在當時並不容易做到。所以,自然語言處理從基於規則轉向基於統計並沒有那麼簡單,而是經歷了很長的過程。基於規則的自然語言處理,後來在採用新技術以後,仍然在發揮作用。不過,隨著互聯網的普及,大規模語料庫逐步建成,統計翻譯最終成為主角。

機器翻譯行業最早的開發者和軟體提供商Systran,就是見證這一過程的活樣板。Systran是老一代基於規則的機器翻譯技術的商業化代表,於1968由彼得·托馬(Peter Toma)創辦。托馬是一位科學家,當時在前面提到的美國喬治城大學機器翻譯項目組工作,之後他以大學機器翻譯研發小組為班底,創辦Systran機器翻譯公司。在ALPAC報告後,政府資助經費銳減,Systran公司卻生存下來,是少數幾個活下來的機器翻譯公司之一。1986年,Systran被賣給一個法國家族,後來在法國上市;2014年,又賣給一家韓國公司。

Systran公司

這家幾十人的小公司,一直靠自己的技術從上世紀60年代走到今天。慢慢發展到支持多語種互譯,產品大量內嵌在雅虎、谷歌、美國在線等公司的翻譯系統中。Systran公司年銷售額只有1000多萬美元,但在100億美元的機器翻譯市場中,卻一度佔了內嵌翻譯引擎很大的份額。「我們公司如此之小,可我們又是最大的。」Systran 公司董事長自豪地說。

關鍵的一戰終於在2005年打響。已經成為互聯網搜索巨頭的谷歌公司雖然採用了Systran的規則翻譯技術,但一直想充分利用自己的大語料庫。從2002年起,谷歌挖來統計語言處理天才弗朗茲·奧克(Franz Och), 組建機器翻譯團隊。2005年夏天,由奧克設計、尚處於實驗階段的Google翻譯系統,在NIST(美國國家標準與技術研究院)組織的機器翻譯競賽中大獲全勝,比賽提供100 篇新聞文稿,將阿拉伯語或漢語譯成英語,谷歌公司的系統在所有類別上全勝,擊敗包括IBM在內的全部對手。

奧克賽後披露,他們為自己的系統提供了相當於100萬部圖書的文本語料進行學習,這成為了提高翻譯質量的關鍵。他還把公司當時採用的Systran中英翻譯系統,與其基於統計的實驗系統作了對比,認為後者明顯優於前者。

這場競賽,被看成是統計機器翻譯系統正式登基的標誌。

巴別塔終將建成?

2007年10月,谷歌公司終止與Systran合作,採用自己的統計機器翻譯系統。2010年,Systran只好轉向,採用規則和統計混合機器翻譯系統,後來又引入深度神經網路技術。Systran的變化,說明基於統計的深度神經網路自然語言處理和翻譯系統,已經成為主流。但同時,統計翻譯也開始重視語法、句法和語義的一些細節,用來完善機器翻譯系統。

從此,機器翻譯高歌猛進,不斷向各個應用縱深發展,也成為衡量巨頭科技公司AI水平的一個標誌。

谷歌翻譯是最有名的機器翻譯產品,2006年上線以來,已經能支持 103 種語言,每天處理1800 萬次翻譯,共1400億單詞,一直是業界的標杆。2016年9月28日,谷歌發布新的神經機器翻譯系統GNMT,同時發布了PC和移動版。這套系統克服了傳統方法將句子分割為不同片段進行翻譯的缺點,而是充分利用上下文信息,對句子進行整體的編碼和解碼,從而產生更為流暢的譯文。據說,在新技術使用後,翻譯錯誤可減少60%及以上。谷歌新的翻譯系統在支持困難的中-英文翻譯上,有了很大的提升。

谷歌大腦的研究團隊甚至表示,雖然它還會犯一些人類譯員不會犯的重大錯誤,比如說漏掉一些詞語、脫離語境孤立地翻譯句子等,但使用新技術後的翻譯質量,已經接近普通人類譯員水平。

與前面那位日本專家對谷歌新系統英日翻譯能力進行的測試相仿,2017年1月,在美國總統特朗普就職時,中國國內的AI新媒體「新智元」對谷歌的新翻譯系統作了中英文翻譯測試。輸入特朗普就職演說的英文,一分鐘後,谷歌翻譯全文翻譯成中文。新智元的評測結論是:通篇來看,谷歌翻譯在正確性上已經讓人印象非常深刻,基本上達到70%到80%的正確率。如果不是準確性要求非常嚴格的文本,在可用性上基本可以滿足。

微軟一直有規模可觀的自然語言處理團隊,與谷歌不同,團隊最初聚焦於基於規則翻譯,但現在已經採用深度神經網路統計翻譯。微軟的機器翻譯系統支持微軟產品線上的很多產品,如Bing(必應)、Skype等。2014年12月,微軟的Skype翻譯器推出了預覽版,當時只支持英文和西班牙文在通話中翻譯,但已經引起轟動;到了2015年4月,已經能支持中文普通話。儘管Skype的通話翻譯還在發展之中,目前翻譯的準確率也有待繼續提高,但已經讓人想像不同語言的人可以無障礙自由通話的美好前景。2016年12 月,微軟發布了世界上第一個萬能翻譯器。除了支持語音識別、拍照識別、直接輸入等翻譯功能外,它甚至可以實現多達 100 人之間實時翻譯交談,是一個翻譯神器。

中國在機器翻譯上表現也非常出色。

科大訊飛在語音合成、語音識別和語義理解方面一直走在世界前列,2014和2015年兩次在國際漢英翻譯大賽IWSLT中獲得全球第一,2015年口語機器翻譯系統獲NIST國際評測冠軍。在2016國際知識圖譜構建大賽(KBP)上,科大訊飛首次參賽就包攬了賽事核心任務的冠亞軍,充分展示了訊飛在自然語言理解、知識推理等領域國際頂尖的技術實力。訊飛的多語種實時翻譯技術處於全球先進行列,同樣有自己的互譯神器——曉譯多語種翻譯機。AI實力雄厚的科大訊飛,能夠面對任何競爭。

與谷歌一樣搜索起家、擁有大規模語料庫的百度,對機器翻譯當然不甘落後。2011年7月,百度翻譯上線,到目前已經支持28個語種,同時在PC和移動端應用。2015年5月,百度翻譯正式上線神經網路機器翻譯(NMT)系統,成為全球第一個實用NMT,比谷歌還要早一年多。同年,百度翻譯獲得了國家科技進步二等獎,成為首個獲此殊榮的中國互聯網企業。

百度翻譯也有自己的特色,獨創實物翻譯、塗抹翻譯、文言文翻譯等功能,能隨時隨地、便捷地滿足中文用戶的翻譯需求,是中國人工作、生活、旅遊、學習的好幫手。

2016年11月,李彥宏在烏鎮召開的第三屆世界互聯網大會講演時樂觀預言:未來的若干年,我們很容易想像語言的障礙會完全被打破,現在做同聲翻譯的這些人,可能將來就沒有工作了。

無獨有偶,奇點論鼓吹者、美國未來學家雷·庫茲韋爾(Ray Kurzweil)在接受《赫芬頓郵報》採訪時也預言:到2029年,機譯的譯文質量將達到人工翻譯的水準。

自然語言處理和機器翻譯已經取得了輝煌的成就,重建巴別塔,讓全世界不同民族說不同語言的人,實現無障礙交流的日子,不太遙遠了。

第四回 | 助飛的雙翼

點擊展開全文

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 環球科學 的精彩文章:

《環球科學》招聘,6大崗位等你來
我們為什麼要發射空間X射線天文衛星?專訪首席科學家張雙南
什麼情況?連機器人都自由戀愛生小孩了
宇宙中會憑空冒出大腦嗎?
地球生物的進化,也是一個利用的能源升級換代的過程

TAG:環球科學 |

您可能感興趣

翻譯機將臨勁敵?細數糖果翻譯手機的優勢
人工智慧十大難題之首:機器翻譯挑戰眾包模式
人與人工智慧,翻譯VS翻譯機,誰能戰勝誰
機器翻譯正在消除語言障礙,人類專業翻譯會下崗嗎?
微軟新一代人工智慧打破機器翻譯壁壘!漢英翻譯與人類不相上下
人工翻譯和機器翻譯之爭中的種種謬誤
翻譯領域的人機大戰
智能語音技術如何拯救翻譯機:翻譯機的技術抉擇和優勝略汰
對話搜狗陳偉:機器同傳關鍵是做好語音識別、機器翻譯的中間環節
微軟宣布重大里程碑:中英機器翻譯水平可「與人類媲美」
微軟AI秀肌肉:機器翻譯水準達人類水平 小米華為都在使用
既是耳機又是翻譯機?悅譯Mix智能翻譯耳機測評
OpenAI背後的領袖:計算機視覺、機器翻譯、遊戲和機器人的變革者
主攻文檔翻譯,翻譯狗的機緣與速度
對話搜狗口語機器翻譯團隊:全球奪冠只為驗證技術,更看重落地商用
機器翻譯新突破,微軟中英新聞翻譯達人類水平
機器翻譯新突破:微軟中到英新聞翻譯達人類水平
微軟的機器翻譯水準已經達到人類水平
令人生畏的文案類翻譯
太空旅行改變基因;石墨烯無毒染髮;機器翻譯媲美專業譯者……