機器翻譯雖然火，但距離取代人工翻譯還有一段距離

新聞 10-30

智造觀點

對現在發展迅猛的人工智慧來說，大多數人們很容易誤讀和高估其取得的成就。而這一點在人類語言領域中尤為明顯，因為在這個領域，一些表象的進步就很容易被錯誤的暗示成AI具備更深層的能力。

過去的一年，很多像聊天機器人等這類的應用程序，已經可以像人類一樣進行有意義的對話了，比如谷歌的Duplex、漢森機器人的Sophia以及其他許多產品，它們在一定程度上代表著人工智慧已進到可以體現人類行為的階段。但需要注意的是，掌握人類語言並不僅僅意味著複製類似人類的聲音或製作結構合理的句子，它更需要的是常識以及對環境和創造力的理解，而這些都不是當前人工智慧所具備的。

文/灰灰

來源/人工智慧觀察（ID：Aiobservation）

數周前科大訊飛捲入的「AI同傳造假」風波，引發了人們關於AI實時翻譯技術的更多關注；緊接著谷歌悄悄改變了Pixel Buds耳機的支持頁面，並寫道:「所有經過Google Assistant優化的耳機和安卓手機，現在都可以使用谷歌翻譯。」此前，這一功能僅限於Pixel Buds耳機和Pixel手機用戶。儘管谷歌並未大張旗鼓地宣布這個消息，但這個小小的調整也引起了人們的注意。

直到近日百度的AI同傳又宣布取得了最新突破：其開發的名為STACL的同傳AI，具備了能預測和延時可控的強大能力，能夠在演講者講話後幾秒鐘開始翻譯，並在句子結束後幾秒鐘內完成。對此，麻省理工科技評論、IEEE Spectrum等一眾外媒，紛紛給出好評，比如IEEE Spectrum就認為這個AI可以跟聯合國會議里的人類同傳相媲美。

是不是覺得很神奇？是不是再次讓同傳專家們感到了壓力？其實不用擔心，機器翻譯的優勢暫時還不能蓋過人類翻譯專業人員的風頭，短時間內人類翻譯者還不能被取代。

由淺至深，了解AI與人類語言之間的聯繫

從實際情況來看，深度學習和其他人工智慧技術已經讓人類和計算機在更接近彼此方面取得了長足的進步，然而在電路和二進位數據的世界以及人類大腦奧秘之間仍存在巨大的鴻溝。

從語音轉文字的層面來看，語音轉錄是人工智慧演算法取得最大進步的領域之一。平心而論，這一技術並不能被稱為人工智慧，但由於人工智慧定義有些模糊，以至於很多人錯誤地將自動轉錄理解成為了一種智能表現。

在這方面，較早的技術迭代會讓程序員經歷一個特別複雜繁瑣的過程，即發現並編纂語音樣本分類和轉換為文本的規則。後來，因為深度學習和深層神經網路的出現，語音到文本的轉錄便發生了巨大的飛躍，變得更加簡單和精確。具體而言，通過神經網路，研究人員需要提供大量的語音樣本及相應的文本，而不是編寫規則。也就是說，神經網路可以找到單詞發音中常見的模式，然後「學習」將新的語音映射到相應的文本，進而讓很多服務能夠為用戶提供實時轉錄服務。

人工智慧驅動的語音到文本有很多用途，像谷歌最近推出的Call Screen，就可以讓用戶藉助AI來應付諸如騷擾和廣告等自己不想聽的電話。Call Screen會在畫面中顯示AI對來電者的敘述，而來電者說話的內容也將轉化為文字顯示在畫面當中，以便用戶選擇進一步的回應，或者是直接掛掉電話。

不過，雖然人工智慧演算法可以將語音轉換為文本，但這並不意味著它能明白自己在處理什麼。同理，在語音合成方面，人工智慧所做的工作也並不是真的智能，因為這項工作與理解人類語言的意義和語境沒有任何關係。其實，語音合成技術已經存在了很長時間了，那些失去聲音的漸凍症患者數十年來一直在使用這項技術交流，而盲人也通過這項技術來「閱讀」自己看不到的文字。

在過去，計算機生成的聲音並不像人類，而語音模型的創建需要數百小時的編碼和調整。到現在，藉助於神經網路，語音合成已經不再像原來那麼麻煩。在這個過程中，使用了生成對抗網路（GAN），也是人工智慧技術的一種，可以將神經網路相互對立以創建新的數據。

目前這項技術也已經有了很多的應用。舉個例子，很多企業正在利用人工智慧的語音合成功能提高其客戶體驗，讓自己的品牌擁有獨特的聲音，以提高可識別性；在醫學方面，人工智慧正在幫助ALS患者恢復自己的聲音，而不必繼續使用計算機的聲音。當然，這項技術也存在很多的弊端，比如可能會被非法分子利用充當國家元首發布虛假新聞。但需要注意的是，一台計算機聽起來像人，也不是意味著它能理解自己所說的內容。

所以，從淺層來說，人工智慧與人類語言之間有一定的關係，進一步說，人工智慧在自然語言處理領域，也因為深度學習的加持也有了一定的進步。眾所周知，自然語言處理是人工智慧的一個子集，它可以幫助計算機識別書面文字的意義，無論是將語音轉換為文本，還是從文件中進行信息讀取。最重要的是，它可以使用這些詞語背後的意義執行某個操作。這其中最簡答的形式，便是自然語言處理幫助計算機執行通過文本命令給它們下達的指令。

智能音箱和智能手機上的AI語音助手便是通過自然語言處理來完成用戶指定的，基本上，用戶不必保持嚴格的單詞序列來出發命令，他們還可以使用相同句子的不同變體來讓語言助手完成任務。谷歌Gmail的智能回復功能就是一個很好的例子，這個功能可以根據郵件的內容為用戶提供回復建議。只不過現在這項功能局限於回復要求比較簡單且具有實際意義的郵件，就像「謝謝」或者「我會看一下」。

當然，與語音轉文本和語音合成一樣，我們不能因為語音助手可以回復不同的聊天請求，就認為人工智慧可以完全理解人類語言了。現在的自然語言處理技術只是善於理解具有非常明確含義的句子。從一定程度上來說，AI助手在執行基本命令方面變得越來越好，但在參與有意義的對話或抽象的話題討論時，結果只會讓人感到失望。

機器翻譯進步大，但與人類翻譯仍有很大差距

2016年，《紐約時報》雜誌刊登了一個長篇報道，介紹了人工智慧（更具體的說是深度學習）如何讓谷歌的翻譯引擎獲得了突飛猛進的發展。誠然，事實也是如此，谷歌機器翻譯已經有了很大的改善。

但我們還需要承認的是，人工智慧翻譯有其自身的局限性。神經網路使用一種機械的、統計的過程來翻譯不同的語言。它們會標出目標與嚴重單詞和短語出現時的不同模式，並嘗試在翻譯的時候選擇最方便的模式，也就是說，它們是基於數學值的映射，而不是翻譯單詞的意思。相反，當人類進行翻譯時，他們會考慮語言的文化和語境，以及文字和諺語背後的歷史背景。同時，再對單詞翻譯做出決定之前還會對主題進行研究。這是一個非常複雜的過程，涉及許多常識和抽象的理解，現在的人工智慧都無法做到這一點。

另外，語言是主觀的，人工智慧所擅長的通常是植根於客觀事實的任務。無論是識別數據中的信號模式，還是導航道路的條件，機器在面對明確的數學或物理規則作出決策時都能發揮最佳優勢，但面對語言這個人類群里發明的彼此交流的主觀結構，他們通常會表現出類似規則的行為（比如語法），但這些規則僅基於慣例，並不是一個客觀現實，且還在處於不斷發展中。所以，有時候機器翻譯會無法準確的完成任務。

同時，人類的語言是博大精深的。我們有時候會面對一個笑話、一個雙關語甚至是一個帶有暗示性的語言，對機器翻譯來說，這是最難克服的語言障礙。所以，在它們不能準確理解深層含義的情況下，我們的表達質量會變得很差。從口譯者的角度來看，語音和肢體語言也會直接告知對話者的意圖，並且會以準確的目標語言進行分析和傳達。對人類來說這都是一項極具挑戰性的工作，更何況是機器呢？

更令人不安的是，機器翻譯往往不會承認自己的錯誤，就像一個考試準備不足的小學生，它往往會試圖矇混過關。比如，今年7月谷歌翻譯出現了一個小故障——若用戶將翻譯設置為從毛利語翻譯成英語，之後輸入一長串的「dog」，谷歌翻譯竟產生關於世界末日的荒謬警告。對此，一些專家認為，這些神秘的翻譯結果可能和谷歌幾年前採用的「神經機器翻譯」技術有關。當輸入的是無意義內容時，系統會出現「幻覺性」的輸出結果。

當然，這些隱蔽的「誤報」的影響勢必會比那些更明顯的語法錯誤更嚴重，因為目標語言的讀者可能不會意識到是機器出現了故障，反而會將這些詭異的翻譯結果歸因於文本本身，對人與人之間的溝通造成困難。

一直以來，人類都對自身的感知優勢進行「反思」，我們比動物聰明、比機器也聰明。但我們也不應該懷疑，或許未來有一天，不管是口譯、筆譯，還是文案、編輯以及主持人等專業人士也會在機器人的砧板上找到自己的工作。但這一天的到來比大多數人想像到的還要遠。

與許多其他行業一樣，語言專業人員更應該將注意力集中在使用人工智慧或自然語言處理技術來提高自己的效率，因為從現在來看，人工智慧是一種增強人類的技術，可以有效的幫助加速或簡化涉及使用人類語言的人物。不過，當下次在看到一種聽起來、看起來以及很多行為都與人類相似的AI技術時，不妨好好關注一下它對人類語言掌握的深度，以便更好地理解其功能和限制，畢竟「人不可貌相」，外表有時候會騙人。

（文中圖片來自網路）

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 人工智慧觀察 的精彩文章:

※真的還是假的？谷歌AI能讓人「起死回生」
※亞馬遜一次發表10款新硬體，連微波爐、時鐘都有！

TAG:人工智慧觀察 |