解決自然語言歧義問題，斯坦福教授、IJCAI 卓越研究獎得主提出 SenseBERT 模型

知識 08-20

機器之心原創

作者：Tony Peng

參與：魔王

自然語言理解和生成對於 AI 系統來說是一大難題，語言的複雜性和模糊性對 AI 系統提出了很大挑戰。今天，斯坦福教授、IJCAI 卓越研究獎得主 Yoav Shoham 創辦的公司 AI21 Labs 提出一種能夠顯著提升辭彙消歧能力的新模型，並發布了可控性優於其他前沿文本生成系統的「HAIM」。AI21 Labs 的願景是構建「具備前所未有的優秀自然語言理解和生成能力」的 AI 系統。

給出一個包含同形異義詞（homonym）的句子，如「He is a great bass player who hates eating bass」，人類可以相當自信地理解前一個「bass」是一種樂器貝斯，後一個「bass」是一種淡水魚。而 AI 演算法很可能無法解決如此簡單的文本歧義問題。「威諾格拉德模式」（Winograd Schema，機器需要識別問題中的前指關係，即指出問題中某一代詞的先行詞）也能難倒 AI 系統。經典例子是「The trophy doesn』t fit in the suitcase because it is too big.」。這句話中，AI 系統很難確定「it」指「trophy」還是「suitcase」。

為了教會演算法更好地理解人類語言的歧義現象，以色列研究公司 AI21 Labs 今日發布論文《SenseBERT: Driving Some Sense into BERT》，提出一種能夠顯著提升辭彙消歧能力的新模型，該模型在複雜的 Word in Context (WiC) 語言任務中取得了當前最優結果。

這篇論文的重要創新是，SenseBERT 不僅能夠預測遮蔽辭彙（masked word），還能預測它們在給定語境下的實際含義。AI21 Labs 的研究人員使用英語辭彙資料庫 WordNet 作為標註參照系統，設計了一個網路來預測單詞在語境中的實際含義。然後將該預訓練網路嵌入 BERT。

SenseBERT 論文是 AI21 Labs 的首批研究項目之一，在過去一年半的時間中秘密進行。AI21 Labs 創建於 2017 年，總部位於以色列特拉維夫，創始人為斯坦福大學計算機科學系榮譽退休教授、AI Index 發起人 Yoav Shoham 和以色列軍事情報局 8200 部隊前網路安全團隊負責人 Ori Goshen。

正如位於倫敦的 DeepMind 和位於舊金山的 OpenAI，AI21 Labs 也運行著一家商業化 AI 公司，該公司遵循獨特的研究方向：連接傳統知識表示方法和深度神經網路。知識表示在 1980 年代非常流行，是一種從語言中提取語義預測的機器學習技術。

近年來神經網路顯現出其局限性，因此符號主義和神經方法的結合成為趨勢。儘管神經網路在很多 AI 領域中取得了顯著進展，但它們仍然對語義束手無策。即使最聰明的自然語言理解 (NLU) 系統，在目標語言任務中也會被對抗數據樣本輕易愚弄。2017 年，斯坦福研究人員發現，向 SQuAD 問答數據集添加對抗問題可將 16 個公開模型的平均 F1 分數從 75% 降到 36%（參見論文《Adversarial Examples for Evaluating Reading Comprehension Systems》）。

類似的問題也出現在文本生成系統中。今年早些時候，OpenAI 發布了語言模型 GPT-2，它可以生成逼真的文本段落。然而，斯坦福大學計算機科學系副教授、SQuAD 聯合創建者 Percy Liang 潑了一盆冷水：「GPT-2 語言模型可以像人類一樣寫作，但它並不清楚自己寫的是什麼。」

「AI 仍然缺乏 5 歲孩童就擁有的常識，它們距離人類智能還很遙遠。」Shoham 博士說道。

Shoham 博士因其在知識表示和博弈論領域的巨大貢獻而聞名，他認為神經網路的改進需要知識表示的加持。

上周五，Shoham 博士獲得 IJCAI 2019 卓越研究獎。他在大會現場表示：「我沒有看到，神經網路在子進化時間尺度上學會算術、時空、因果關係、心理狀態、言語行為等的證據。而知識表示準確聚焦於編碼這些難以理解的概念：時間、動作、信念。」

Yoav Shoham

2017 年，Shoham 博士在一個向弱勢群體普及編程技能的以色列非營利項目中結識了 Ori Goshen。他們發現彼此志趣相投，於是決定創辦 AI21 Labs（AI for the 21st century），其願景是構建「具備前所未有的優秀自然語言理解和生成能力」的 AI 系統。

Shoham 博士的朋友 MobileEye CEO Amnon Shashua 是 AI21 Labs 的主要投資人和董事長。AI21 Labs 擁有一支 20 人的團隊，從 Pitango Ventures、8VC 等機構獲得了總計 950 萬美元的投資。

MobileEye CEO Amnon Shashua

和 SenseBERT 一同公開的還有其自研文本生成系統「HAIM」，其可控性優於其他前沿文本生成系統，如 OpenAI 的 GPT-2 和華盛頓大學的 Grover。大多數文本生成器基於人類寫的前提合成文本，但是生成的文本常常會跑題、不連貫，或者與原始語境相悖。HAIM 的工作原理稍有不同：先為模型提供開頭和結尾，然後模型使用切題的生成文本填補中間內容，連接開頭和結尾。輸出結果可以根據長度進行調整。

HAIM 的名字也是自己起的。研究人員輸入開頭「The team needed a name. The best suggestion...」（這個團隊需要一個名字，最佳建議是……）和對應的結尾「...everybody agreed it was a great name for a state-of-the-art natural language generator.」（……每個人都認為這對當前最優的自然語言生成器而言是一個絕佳的名字）。然後模型提出了「HAIM」，研究者對這個縮略詞進行了逆向工程，得到了「Halfway Acceptable Interpolating Machine」。（Shoham 博士稱其為「玩笑式的事後合理化」。）

AI21 Labs 發布了 HAIM-Large 模型的 demo，該模型包含 3.45 億參數，在 40GB OpenWebText 數據集上訓練而成。

HAIM-Large demo 地址：https://www.ai21.com/haim

GPT-2 和 HAIM 的可控性對比。

Shoham 博士此前創立的多家 AI 公司被高價收購，這位 63 歲的連續創業者無疑具備管理公司的能力。然而 AI21 Labs 面臨著不一樣的挑戰：它更技術向，需要大量投資來支持商業化之前的科研活動（像 OpenAI 和 DeepMind 那樣）。最重要的是，它的願景是創建能夠解決最令 AI「頭痛」的問題之一（自然語言理解和生成）的系統。

當被問及 AI21 Labs 在這片未知領域的規劃時，Shoham 博士告訴機器之心：「自然語言理解和生成是一個多方面問題，我們對它可能也只是部分理解。要想取得成功，你不需要全面理解，而是需要從富有成效的角度去理解。我們不認為自己是世界上最聰明的，但是我們也不認為還有什麼人比我們聰明。我們有機會成功，但不必要是唯一的成功者。這不是零和遊戲。」

本文為機器之心原創，轉載請聯繫本公眾號獲得授權。

------------------------------------------------

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※賈佳亞等人3D目標檢測新論文；美國20年AI技術路線圖
※對話阿里副總裁賈揚清：阿里技術體系的開源策略與思路

TAG:機器之心 |