專欄｜自然語言處理在2017年有哪些值得期待的發展？

新聞 05-17

竹間智能專欄

作者：自然語言與深度學習小組

作為初創企業，竹間智能一直努力讓 AI 更好的理解人類的語言，甚至是語言背後的意圖與情感，從而使 AI 能參與到金融、服務等高價值場景。深度學習的發展讓自然語言處理向前邁出了重要一步，使這一切成為可能。在此也和大家分享一些竹間智能在自然語言處理上取得的一些經驗。在機器之心 GMIS 2017 大會上，竹間智能創始人、CEO 簡仁賢將分享更多有關自然語言處理、人機交互的精彩內容。

演講時間：5 月 28 日，13:50—14:10
演講主題：機器人會改變我們連接世界的方式嗎？

專欄｜自然語言處理在2017年有哪些值得期待的發展？

從符號主義和連接主義的對立走向合作，從靜態分析走向交互，從語法和淺層語義走向深層語義，從功能主義走向認知和情感體驗。

2016 年是深度學習的大潮衝擊 NLP 的一年，果實豐碩。從底層的 pos tagging, word segmentation, NER，到高級的任務比如 semantic analysis, machine translation, machine reading comprehension, QA system, natural language generation。都是全面開花，Deep learning for NLP 的架構越來越成熟。那麼在 2017 年，我們又有什麼樣的期待呢？

我想對於這個問題最有發言權的應該是 Christopher Manning——他在 Computational Linguistics and Deep Learning 中的一些論點到了 2017 年依然成立。（參閱：深度學習在NLP領域成績斐然，計算語言學家該不該驚慌？）

NLP 無疑依然是機器學習有待攻克的下一個重大領域。但是由於語言本身已經是一種高層次的表達，深度學習在 NLP 中取得的成績並不如在視覺領域那樣突出。尤其是在 NLP 的底層任務中，基於深度學習的演算法在正確率上的提升並沒有非常巨大，但是速度卻要慢許多，這對於很多對 NLP 來說堪稱基礎的任務來說，是不太能夠被接受的，比如說分詞。

在一些高級任務中，基於端到端學習的神經網路確實取得了令人矚目的成就，尤其是機器翻譯方面。由於複雜性太高，這樣的高級任務在此前是非常難以攻克的，無論是基於常規的統計學習方法，還是基於規則的方法。深度神經網路強悍的「記憶」能力和複雜特徵提取能力非常適合於這類問題。在完形填空類型的閱讀理解（cloze-style machine reading comprehension）上，基於 attention 的模型也取得了非常巨大的突破（在 SQuAD 數據集上，2016 年 8 月的 Exact Match 最好成績只有 60%，今年 3 月已經接近 77%，半年時間提升了接近 20 個點，這是極其罕見的）。打給硬廣，在這點上竹間智能的自然語言小組也做了很多探索，取得了不錯的成績，未來希望能和大家分享更多細節。

但同時，深度學習的不可解釋的特性和對於數據的需求，也使得它尚未在要求更高的任務上取得突破，比如對話系統（雖然對話在 2016 年隨著 Echo 的成功已經被炒得火熱）。

相比於機器翻譯，對話系統並不是一個簡單的「sequence-to-sequence」的問題（雖然很多 paper 嘗試這樣去做）。對話系統必須要能夠準確地理解問題，並且基於自身的知識系統和對於對話目標的理解，去生成一個回復。這並不是簡單地去尋找「word alignment」就可以做到的。當然更不必說對於上下文和情感的理解。而相比於完形填空類型的機器閱讀理解，對話系統可能的回復是完全開放的，並不是僅限於「答案包含在文本中」這樣的情形。而開放式的閱讀理解，同樣是一個 AI-complete 的難題。

這就要求我們對於交互的過程有更深刻的理解，對於人類在交流的過程中的認知過程和情感變化有更好的模型。而這個方向上，深度學習暫時還沒有更好的辦法。

在這個過程中，就像 Chris Manning 說的一樣，我們需要更好的理解模型的組合（compositionally in models）。

很顯然，從傳統的語言學到我們現在的端到端的靠大量數據的訓練結果，其間還有很大一塊認知過程的坑沒有被填上。有一個有意思的事情是，在大多數端到端的 NLP 應用中，在輸入中包括一些語言學的特徵（例如 pos tag 或 dependency tree）並不會對結果有重大影響。我們的一些粗淺的猜測，是因為目前的 NLP 做的這些特徵，其實對於語義的表示都還比較差，某種程度來說所含信息還不如 word embedding 來的多。對於極其複雜、需要非常深的語義理解的任務來說，這些語言學特徵並沒有太多作用。這並不一定是對的——在結合語言學的規則與深度學習方面，太多實驗等著我們去做了。

所以，我們需要解決的不僅僅是 Semantic Role Labelling，甚至 Semantic Parsing 或是 Abstract Meaning Representation;我們需要知道的是從符號到人類體驗的一種映射——不僅僅是「紅色」可以被翻譯為「Red」——我們想知道人類在看到紅色時的感受，以及紅色所代表的情緒。

我們想要復原的是文字完全無法記錄下來的現場的氣氛，情緒和心跳的感覺（embodied experience）。同樣的文字，在不同的場景，應該有完全不同的表達力。

我們相信，僅僅依賴 word2vec（或其它 distributed representation）或是先進的 memory-augmented networks，或是傳統的 NLP 方法，都還無法解決這些問題。

在情感和體驗的另一個極端，我們又希望語言能夠展示它「如雕塑一樣的美感」（羅素形容數學用語），可以精準地描述概念和邏輯。這要求我們在語言的模糊性上建立出來健壯的知識和推理體系——同樣，現在的深度學習也還不能做到這一點。

只有結合了符號邏輯，神經網路以及認知科學，才有可能讓我們在對語言的理解和處理上更上一層樓。

現在結合一些熱門的領域（任務）來談一談具體的方向。

關於 Dialogue

是的，自然語言對話將會開創一個新的人機交互時代。但是 2016 年流行的 seq2seq 對話框架不會給我們太大的驚喜。雖然理論上，如果能夠給足訓練數據，它是可以表現得很好的。

原因在於，對話不同於翻譯，翻譯的 input 和 output 肯定是一個 domain 的東西，這大大限制了可能的解的空間。更重要的是，對話中有大量的省略和指代，我們必須通過大量的上下文信息才能夠理解對話。這樣的後果就是訓練對話系統對於訓練數據有指數級別上升的要求。

就算我們已經記錄了這個世界上所有人類的對話，明天依然會有人在不同的場景下說出的話，根本沒有在訓練集中出現。

所以，2017 年的對話系統，一定是在限定的場景下發揮作用的。

即便是限定場景下的對話，也存在以下的幾個難點需要攻克。

關於閱讀理解（Open-domain QA）

去年到今年初 MRC 取得的進展大家已經有目共睹了，最高表現的架構基本趨同。估計再刷下去就要達到 super-human performance 了（人類的 baseline 是 82 EM, 91 F1）。比較有意思的是大家基本上都放棄了 multi-hop reasoning 的結構，原因非常簡單：Stanford 的 SQuAD 跟 FB 的 bAbI 不一樣，沒有專門設立這種需要推理的項目（諸如 John went to the hall; John putdown the ball; Where is the ball? 這類問題），大部分的問題主要依賴 Attention 機制就可以抓得很好了。bAbI 這樣的偽推理看來大家也是受夠了。

但是 SQuAD 本身也存在很多問題，拋開細的面不說，cloze-style 本來就有很大的問題。而且最近出現了海量的刷 SQuAD 的文章，品質老實說並不敢恭維。幸好 Stanford 的 Chen Danqi 大神的 Reading Wikipedia to Answer Open-Domain Questions 打開了很多的方向。通過海量閱讀（「machine reading at scale」），這篇文章試圖回答所有在 wikipedia 上出現的 factoid 問題。其中有大量的工程細節，在此不表，僅致敬意。

關於 Unsupervised Learning

在分布式語義表示這個「傳統」深度學習領域（2013 年算是很「傳統」了吧），主要的工作還是向下，向上和向周邊擴展（不小心說了句廢話）。

向下是指 sub-word level。

向上當然就是句子／篇章級別了。

向周邊呢？就是面向任務，譬如知識庫里的 entity-embedding，或者面向 sentiment analysis 的情感-embedding。

關於 NLG

通過 RNN-language model 來做語言生成已經很成熟了，這都已經出 survey paper 了——Survey of the State of the Art in Natural Language Generation: Core tasks, applications and evaluation（https://arxiv.org/pdf/1703.09902.pdf）。

但是通過 GAN／VAE 來生成呢？

當然，做這個方向的人也很多，比如 MSRA 的 Adversarial Neural Machine Translation 和 Li Jiwei 的 Adversarial Learning for Neural Dialogue Generation。

不過認真地說，我們同意 Ian Goodfellow 在 Reddit 里說的：「GANs have not been applied to NLP because GANs are only defined for real-valued data.」

當然，做一些 twist 當然是可以強行讓它 work 的，或者用 VAE——但是目前看來，這些生成模型在自然語言方面並沒有在圖像方面的顯著療效。更重要的是，目前 NLG 的重要課題不是生成的質量，而是要搞清楚想說什麼——類比一下，就如同就算人腦的 Broca 區域沒有問題，可是 Wernicke 區域出現了問題，那麼病人會說一口流利的語言，可是每一句話都毫無意義——這樣的生成當然也是毫無意義的了。

所以這個領域，其實還是任重道遠啊。目前的很多「自然語言生成」或「寫稿機器人」，還是 carefully-crafted 的模版來的多。

總結

通過 2016 年的努力，deep learning 在 NLP 領域已經站穩了腳跟，包括竹間智能在等的海內外團隊都做了不少探索。我們期待 2017 年語言學和機器學習的進一步結合，讓機器更加聰明，更懂你。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※GMIS 2017參會指南：產業明星帶你讀懂人工智慧產業趨勢
※《終極演算法》第三章總結及第四章學習
※矽谷也學好萊塢，AI風投All Turtles打造新孵化模式

TAG:機器之心 |

您可能感興趣

※2018 年，哪些編程語言需求最大、最有錢途？
※這裡有100多部落29種語言
※世界上7000種語言，有一個詞發音全都一樣，至今無人讀錯過！
※世界上約97％的人口用4％的語言說話，超過2000種語言瀕臨消失
※2018 年最值得去學習的編程語言
※這種古老語言消失2000多年，如今被成功復活，有600多萬人使用
※他是教授的教授，留學13年卻沒有一個學位，會22種語言
※唯一同時擁有3個首都的國家，有著11種官方語言，2018最佳旅行國
※都2019年了，PHP還是世界上最好的語言嗎？
※「最好的語言」PHP在2019年：缺點還有，但會變得更好
※在這個App里，我學習了7007種語言
※根據對100，000名開發人員的研究，14種最流行的編程語言！
※現年15歲，顏正腿長，精通3國語言，成2018年最值得期待新星
※2019年了，PHP已不再是當年那個「設計糟糕」的語言
※即使到了 2020 年，編程語言之爭仍未休！
※誰是2016年度最受歡迎編程語言？
※美國40年前發射了「地球問候」，收到55種語言破譯後是什麼？
※高分的偵探故事，縝密的邏輯推理，被譯成了24種語言，暢銷40餘年，1500萬冊的銷量絕不是浪得虛名
※瑪雅人語言的2012世界末日為何沒有實現呢？
※以前18歲vs現在18歲，聊起天來沒有共同語言，網友：有差距