微軟亞研院周明盤點 NLP 重要進展，中國的進步不容小覷

最新 02-01

過去的一年，自然語言處理 ( NLP ) 領域碩果連連，無論是頂級會議還是期刊論文，NLP 科學家們都產出了高質量的成果。

而在 1 月 29 日的 EmTech China 峰會上，微軟亞洲研究院副院長周明則給出了自己對於 NLP 近年發展的理解。以下為整理後的演講全文：

人工智慧最重要的分支就是自然語言的理解與處理，即語言智能，通過對詞、句子、篇章進行分析，對內容裡面的人物、時間、地點等進行理解，然後在此基礎上，去支持一系列核心技術，比如跨語言的翻譯、問答系統、閱讀理解、知識圖譜等技術，基於這些技術，又可以把它應用到其它應用領域，比如說搜索引擎、客服、金融、新聞等等領域。

總之，就是通過對語言的理解，實現人跟電腦的直接交流，從而實現人跟人更加有效的交流。自然語言技術不是一個獨立的技術，其受雲計算、大數據、機器學習、知識圖譜等等各個方面的支撐。

圖 | 周明在演講

接下來將從四個方面介紹自然語言的進展，即神經機器翻譯、聊天機器人、閱讀理解及機器創作。

神經機器翻譯就是模擬人腦的翻譯過程，人在翻譯的時候，首先是理解這句話，然後在腦海里形成對這句話的語義表示，最後再把這個語義表示轉化到另一種語言。

神經機器翻譯有兩個模塊，一個是編碼模塊，把輸入的源語言變成一個中間的語義表示，用一系列的機器的內部狀態來代表，另一個模塊是解碼模塊，根據語義分析的結果，逐詞生成目標語言。

神經機器翻譯在這幾年發展非常迅速，2017 年的研究熱度更是一發不可收拾，現在神經機器翻譯已經取代了統計機器翻譯，成為機器翻譯的主流技術。

目前有統計數據表明，在一些傳統的統計機器翻譯難以完成的任務上，神經機器翻譯的性能遠遠超過了統計機器翻譯，而且跟人的標準答案非常接近，甚至說是相仿的水平。圍繞著神經機器翻譯，研究者們已做了很多的工作，比如如何提升訓練的效率，如何提升編碼和解碼的能力。

還有一個重要的研究問題就是數據問題，神經機器翻譯依賴於雙語對照的大規模的數據集來訓練，端到端地訓練神經網路參數，這涉及很多語音段和很多的垂直領域，但我們實際上並沒有那麼多的數據，我們只有小量的雙語數據和大量的單語數據。

所以，我們就提出了半監督的聯合垂直模型，就是已知一個雙語推導語料，分別對之訓練，從而達到中英翻譯系統與英中翻譯系統的相互促進，比如拿中英翻譯系統去翻中文的語料，形成很多偽的中英對照語料，然後把這個語料去加到英中翻譯裡面去。同樣，用英中翻譯系統去翻譯大量的英文語料，然後把這個語料加到中英翻譯裡面，這樣經過多次迭代之後，翻譯水平大幅度提升。

微軟現在已經全面採用神經機器翻譯，最近還跟華為的 Mate10 手機合作，讓手機端得到了類似於在雲上的效果。

第二個話題是聊天機器人。聊天機器人就是人和機器對聊，在聊天的時候機器要理解人的意圖，產生比較符合人的想法，以及符合當前上下文的回復，再根據人與機器各自的回復將話題進行下去。微軟小冰就是這樣的一個聊天機器人。基於當前的輸入信息，再加上對話的情感，以及用戶的畫像，經過一個類似於神經機器翻譯的解碼模型生成回復，可以達到上下文相關、領域相關、話題有關，而且是針對用戶特點的個性化的回復。

這樣的技術已經應用到微軟的很多產品里，比如會 5 種語言、擁有 1 億以上用戶的微軟小冰、可以進行自然人機交互的 Cortana、可以在敦煌回答遊客問題的敦煌小冰。

下一個話題是閱讀理解，閱讀理解就是讓電腦看一遍文章，針對這些文章問一些問題，看電腦能不能回答出來。斯坦福大學曾做過一個比較有名的實驗，就是使用維基百科的文章提出 5 個問題，由人把答案做出來，然後把數據分成訓練集和測試集，訓練集是公開的，用來訓練閱讀理解系統，而測試集不公開，個人把訓練結果上傳給斯坦福，斯坦福在其雲端運行，再把結果報在網站上，這也避免了一些人對測試集做手腳。

自 2016 年 9 月發布前後，閱讀理解技術就引起了很多研究單位的關注，大概有二三十家單位都在做這樣的研究，一開始的水平都不是很高，以 100 分為例，人的水平是 82.3 左右，機器的水平只有 74 分，相差甚遠，後來通過類似於開源社區模式的不斷改進，它的性能就得以逐步地提高了。

最近在閱讀理解領域出現的一個備受關注的問題，就是如何才能做到超越人的標註水平。現在微軟、阿里巴巴、科大訊飛和哈工大的系統，都超越了人工的標註水平，這標誌著閱讀理解技術進入了一個新的階段。這幾個系統都來自中國，也體現中國在自然語言處理的進步。

一個閱讀理解的框架首先要得到每個詞的語義表示，再得到每個句子的語義表示，這可以用循環神經網路 RNN 來實現，然後用特定路徑來找出潛在答案，基於這個答案再篩選出最優的答案，最後確定這個答案的邊界。

在做閱讀理解的時候，是用到了外部的知識，可以用大規模的語料來訓練外部的知識，通過外部知識訓練的 RNN 模型，加入到原來端到端的訓練結果中，以此來大幅度地提高閱讀理解的能力。

最後介紹機器創作，機器可以做很多理性的東西，那麼它可以做一些創造性的東西嗎？10 年以前，我們就開始做微軟對聯，在此基礎上，創作絕句、律詩、唐詩宋詞等等，現在進行寫歌譜曲。在微軟對聯里，用戶輸入上聯，系統就可以對出下聯，也可以給出橫批；在字謎遊戲里，用戶給出謎面，讓系統猜出字；或者用戶給出字，系統給出相應的謎面。

我們的編碼解碼技術已經成功用於神經網路機器翻譯、小冰機器人和詞曲創作中。中央電視台《機智過人》節目就曾播過我們的小冰與人類選手進行詞曲創作比拼的環節，結果是小冰險勝人類。這件事說明如果有大數據，那麼機器學習或者深度學習就可以模擬人類的創造智能，創造出一些作品來，也可以與專家合作，幫助專家產生更好的想法，然後兩者配合，產生出美妙的音樂。

這個在以前是難以想像的，做自然語言的人從來沒有想到自然語言還可以延伸到音樂上去，其實音樂也是一種語言，自然語言的所有技術就可以應用到音樂上去，這需要大家的想像力。

今天我快速介紹了自然語言處理在神經機器翻譯、閱讀理解、聊天機器人以及機器創作領域的進展。隨著未來大數據、雲計算和深度學習的發展，模型還會進一步地提升，再加上合適的場景，技術就可以落地，就可以服務於成千上萬的用戶。可以預料，隨著自然語言處理技術的提高與普及，它將會與其他的人工智慧技術一起提升人類的生活水平。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 DeepTech深科技 的精彩文章:

※巴菲特：虛擬貨幣不會有「好下場」
※大疆發布史上最強無人機：性能有多強，體積就有多小！

TAG:DeepTech深科技 |