當前位置:
首頁 > 最新 > 微軟亞研院周明盤點 NLP 重要進展,中國的進步不容小覷

微軟亞研院周明盤點 NLP 重要進展,中國的進步不容小覷

過去的一年,自然語言處理 ( NLP ) 領域碩果連連,無論是頂級會議還是期刊論文,NLP 科學家們都產出了高質量的成果。

而在 1 月 29 日的 EmTech China 峰會上,微軟亞洲研究院副院長周明則給出了自己對於 NLP 近年發展的理解。以下為整理後的演講全文:

人工智慧最重要的分支就是自然語言的理解與處理,即語言智能,通過對詞、句子、篇章進行分析,對內容裡面的人物、時間、地點等進行理解,然後在此基礎上,去支持一系列核心技術,比如跨語言的翻譯、問答系統、閱讀理解、知識圖譜等技術,基於這些技術,又可以把它應用到其它應用領域,比如說搜索引擎、客服、金融、新聞等等領域。

總之,就是通過對語言的理解,實現人跟電腦的直接交流,從而實現人跟人更加有效的交流。自然語言技術不是一個獨立的技術,其受雲計算、大數據、機器學習、知識圖譜等等各個方面的支撐。

圖 | 周明在演講

接下來將從四個方面介紹自然語言的進展,即神經機器翻譯、聊天機器人、閱讀理解及機器創作

神經機器翻譯就是模擬人腦的翻譯過程,人在翻譯的時候,首先是理解這句話,然後在腦海里形成對這句話的語義表示,最後再把這個語義表示轉化到另一種語言。

神經機器翻譯有兩個模塊,一個是編碼模塊,把輸入的源語言變成一個中間的語義表示,用一系列的機器的內部狀態來代表,另一個模塊是解碼模塊,根據語義分析的結果,逐詞生成目標語言。

神經機器翻譯在這幾年發展非常迅速,2017 年的研究熱度更是一發不可收拾,現在神經機器翻譯已經取代了統計機器翻譯,成為機器翻譯的主流技術。

目前有統計數據表明,在一些傳統的統計機器翻譯難以完成的任務上,神經機器翻譯的性能遠遠超過了統計機器翻譯,而且跟人的標準答案非常接近,甚至說是相仿的水平。圍繞著神經機器翻譯,研究者們已做了很多的工作,比如如何提升訓練的效率,如何提升編碼和解碼的能力。

還有一個重要的研究問題就是數據問題,神經機器翻譯依賴於雙語對照的大規模的數據集來訓練,端到端地訓練神經網路參數,這涉及很多語音段和很多的垂直領域,但我們實際上並沒有那麼多的數據,我們只有小量的雙語數據和大量的單語數據

所以,我們就提出了半監督的聯合垂直模型,就是已知一個雙語推導語料,分別對之訓練,從而達到中英翻譯系統與英中翻譯系統的相互促進,比如拿中英翻譯系統去翻中文的語料,形成很多偽的中英對照語料,然後把這個語料去加到英中翻譯裡面去。同樣,用英中翻譯系統去翻譯大量的英文語料,然後把這個語料加到中英翻譯裡面,這樣經過多次迭代之後,翻譯水平大幅度提升。

微軟現在已經全面採用神經機器翻譯,最近還跟華為的 Mate10 手機合作,讓手機端得到了類似於在雲上的效果。

第二個話題是聊天機器人。聊天機器人就是人和機器對聊,在聊天的時候機器要理解人的意圖,產生比較符合人的想法,以及符合當前上下文的回復,再根據人與機器各自的回復將話題進行下去。微軟小冰就是這樣的一個聊天機器人。基於當前的輸入信息,再加上對話的情感,以及用戶的畫像,經過一個類似於神經機器翻譯的解碼模型生成回復,可以達到上下文相關、領域相關、話題有關,而且是針對用戶特點的個性化的回復。

這樣的技術已經應用到微軟的很多產品里,比如會 5 種語言、擁有 1 億以上用戶的微軟小冰、可以進行自然人機交互的 Cortana、可以在敦煌回答遊客問題的敦煌小冰。

下一個話題是閱讀理解,閱讀理解就是讓電腦看一遍文章,針對這些文章問一些問題,看電腦能不能回答出來。斯坦福大學曾做過一個比較有名的實驗,就是使用維基百科的文章提出 5 個問題,由人把答案做出來,然後把數據分成訓練集和測試集,訓練集是公開的,用來訓練閱讀理解系統,而測試集不公開,個人把訓練結果上傳給斯坦福,斯坦福在其雲端運行,再把結果報在網站上,這也避免了一些人對測試集做手腳。

自 2016 年 9 月發布前後,閱讀理解技術就引起了很多研究單位的關注,大概有二三十家單位都在做這樣的研究,一開始的水平都不是很高,以 100 分為例,人的水平是 82.3 左右,機器的水平只有 74 分,相差甚遠,後來通過類似於開源社區模式的不斷改進,它的性能就得以逐步地提高了。

最近在閱讀理解領域出現的一個備受關注的問題,就是如何才能做到超越人的標註水平。現在微軟、阿里巴巴、科大訊飛和哈工大的系統,都超越了人工的標註水平,這標誌著閱讀理解技術進入了一個新的階段。這幾個系統都來自中國,也體現中國在自然語言處理的進步。

一個閱讀理解的框架首先要得到每個詞的語義表示,再得到每個句子的語義表示,這可以用循環神經網路 RNN 來實現,然後用特定路徑來找出潛在答案,基於這個答案再篩選出最優的答案,最後確定這個答案的邊界。

在做閱讀理解的時候,是用到了外部的知識,可以用大規模的語料來訓練外部的知識,通過外部知識訓練的 RNN 模型,加入到原來端到端的訓練結果中,以此來大幅度地提高閱讀理解的能力。

最後介紹機器創作,機器可以做很多理性的東西,那麼它可以做一些創造性的東西嗎?10 年以前,我們就開始做微軟對聯,在此基礎上,創作絕句、律詩、唐詩宋詞等等,現在進行寫歌譜曲。在微軟對聯里,用戶輸入上聯,系統就可以對出下聯,也可以給出橫批;在字謎遊戲里,用戶給出謎面,讓系統猜出字;或者用戶給出字,系統給出相應的謎面。

我們的編碼解碼技術已經成功用於神經網路機器翻譯、小冰機器人和詞曲創作中。中央電視台《機智過人》節目就曾播過我們的小冰與人類選手進行詞曲創作比拼的環節,結果是小冰險勝人類。這件事說明如果有大數據,那麼機器學習或者深度學習就可以模擬人類的創造智能,創造出一些作品來,也可以與專家合作,幫助專家產生更好的想法,然後兩者配合,產生出美妙的音樂。

這個在以前是難以想像的,做自然語言的人從來沒有想到自然語言還可以延伸到音樂上去,其實音樂也是一種語言,自然語言的所有技術就可以應用到音樂上去,這需要大家的想像力。

今天我快速介紹了自然語言處理在神經機器翻譯、閱讀理解、聊天機器人以及機器創作領域的進展。隨著未來大數據、雲計算和深度學習的發展,模型還會進一步地提升,再加上合適的場景,技術就可以落地,就可以服務於成千上萬的用戶。可以預料,隨著自然語言處理技術的提高與普及,它將會與其他的人工智慧技術一起提升人類的生活水平。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 DeepTech深科技 的精彩文章:

巴菲特:虛擬貨幣不會有「好下場」
大疆發布史上最強無人機:性能有多強,體積就有多小!

TAG:DeepTech深科技 |