ACL 2018：曼海姆大學：基於三分法的無監督語義框架歸納

科技 03-05

你和「懂AI」之間，只差了一篇論文

很多讀者給芯君後台留言，說看多了相對簡單的AI科普和AI方法論，想看點有深度、有厚度、有眼界……以及重口味的專業論文。

為此，在多位AI領域的專家學者的幫助下，我們解讀翻譯了一組頂會論文。每一篇論文翻譯校對完成，芯君和編輯部的老師們都會一起笑到崩潰，當然有的論文我們看得抱頭痛哭。

同學們現在看不看得懂沒關係，但芯君敢保證，你終有一天會因此愛上一個AI的新世界。

讀芯術讀者論文交流群，請加小編微信號：zhizhizhuji。等你。

這是讀芯術解讀的第127篇論文

ACL 2018 Short Papers

基於三分法的無監督語義框架歸納

Unsupervised Semantic Frame Induction using Triclustering

曼海姆大學

University of Mannheim

本文是曼海姆大學發表於 ACL 2018 的工作，本文將框架歸納問題看作一個三聚類問題，使用從Web語料庫中自動提取的依賴關係三元組來執行無監督的語義框架歸納。實驗結果表明，所提出的基於圖的方法Triframes，在FrameNet衍生數據集上得到了目前最好結果，並且在動詞聚類任務上顯示出不錯的效果。

引言

近年來，隨著大量框架定義以及由FrameNet項目提供的手動注釋文本語料庫的普及，有關框架語義的研究工作越來越多。FrameNet數據促進了基於監督學習的廣覆蓋框架解析器，以及更廣泛的其他任務如問答、文本蘊含等的發展。

然而，由於定義框架、粒度和域的困難，以及需要底層專門知識來構造和注釋任務的複雜性，框架語義資源構建起來會非常昂貴和耗時。因此，這些資源只針對幾種語言存在，甚至英語也缺乏特定領域的基於框架的資源。跨語言語義注釋傳輸器將FrameNet鏈接到其他辭彙語義或本體資源。但是，儘管基於PropBank的語義角色標記這個相對簡單的任務已經被無監督的方法成功地解決了，但是對於完全無監督的框架語義注釋任務，卻顯示出越來越多的挑戰。在本文中，我們的目標是利用無監督的框架歸納技術，通過自動化框架網路構建的過程來克服這些問題。

Triclustering。在本文中，我們將框架歸納問題看作一個三聚類任務，即標準聚類和雙聚類的一般化，目的是同時沿三維聚類對象（參見下表）。首先，使用三聚類可以避免框架歸納方法的連續性，其中需要兩個獨立的聚類。第二，將框架歸納作為相對於依賴三元組的其他方法的三合一的基準，允許從其他因素(例如，輸入語料庫或預處理步驟)抽象出對框架歸納演算法的評估，從而允許對不同歸納模型進行公平比較。

本文的貢獻有三個方面：（1）我們首次將三聚類演算法應用於無監督框架歸納，（2）我們提出了一種新的三聚類演算法，實現了在框架歸納任務中的最好性能，（3）我們提出了一種新的框架歸納評估方法。在本文中，我們著重於使用主-謂-賓（SVO）三元組和兩個角色的最簡單設置，但是我們的評估框架可以擴展到更多的角色。

與Jauhar最近的方法不同，我們的方法在沒有任何監督的情況下歸納語義框架，但只捕獲兩個核心角色：由動詞謂詞觸發的框架的主語和客體。注意，依賴解析器獲得的SVO三元組必須是謂詞的核心參數通常是不正確的。這樣的角色可以是隱式的，即在給定上下文中未表述出得。本文假設從Web語料庫中獲得的三元組充分地覆蓋了大多數核心參數。

模型

本文的框架歸納方法依賴於圖聚類。我們著重於使用兩個角色和SVO三元組，因為框架角色主要由主體和對象表示，使以無監督的方式提取具有高覆蓋率的語義結構成為可能。

輸入數據。作為輸入數據，我們使用由依存解析器提取的SVO三元組。根據我們對超過15萬句的依存分析框架網語料庫的統計，SUBJ和OBJ關係是框架誘發元素（FEEs）與其角色之間最常用的兩條最短路徑，佔在FrameNet數據中出現不少於三次的超過1.1萬不同路徑的heavy-tail分布實例的13.5%。雖然這看起來是一種簡化，但是它沒有以嵌套的方式覆蓋介詞短語和填充其他框架的角色，但我們認為，總體框架清單可以基於這一組受限的構造來歸納，其他路徑和更複雜的實例將在下一步工作中考慮。

為了聚類SVO三元組的最近鄰圖，我們使用WATSET模糊圖聚類演算法。它把輸入圖的頂點T看作SVO三元組，歸納它們的感覺，並構造一個中間感知表示，該表示使用 Chinese Whispers（CW）硬聚類演算法進行聚類。我們之所以選擇WATSET是因為它在相關同義詞集歸納任務上的性能、模糊性質以及自動發現框架的能力。

實驗分析

我們使用來自DepCC數據集的三倍頻率（Common Crawl語料庫的依存解析版本）和在Google新聞語料庫上訓練的標準300維詞嵌入模型。所有評估的演算法都在同一組三元組上執行，消除了不同語料庫或預處理造成的變化。兩個數據集的統計匯總在下表中。

我們採用兩個實驗來評估本文方法：（1）Bauer等人在框架網注釋語料庫上做了一個框架歸納實驗。（2）Korhonen等人在數據集上進行的多義動詞聚類實驗。第一個是基於新引入的框架歸納評價模式。第二個是在先前工作的標準數據集上評價動詞集群的質量。

框架歸納實驗。在下表和下圖中，給出了實驗結果。基於WATSET聚類的Triframes在動詞F1和整體框架F1上都優於其他方法。基於HOSG的聚類被證明是最具競爭力的基線，在所有4個度量指標上都產生了不錯的分數。NOAC方法很好地捕獲了slot填充的框架分組，但是未能建立良好的動詞簇。注意，NOAC和HOSG僅使用句法三元組，而不依賴於預先訓練的單詞嵌入。這說明基於三元圖分布相似性和全局結構的信號高度互補。最後，依賴於硬聚類演算法的更簡單的三元組基線顯示出低性能，類似於LDA-Frames，這證明了細粒度的WATSET方法的合理性。

雖然三元組在直覺上沒有單詞那麼模稜兩可，但是仍然有一些常見的和通用的三元組，比如（she，make，it）可以充當圖中的集線器，使得很難將它分割成語義上合理的集群。Chinese Whispers硬聚類演算法的結果很差，也說明了這一點。由於集線器是模糊的，即，可以屬於多個聚類，所以使用WATSET模糊聚類演算法通過消除集線器的歧義來分割可以得到最好的結果。

動詞聚類實驗。下表給出了在第一數據集上識別出的最佳模型，在第二數據集上的結果。使用我們方法的LDA-Frames取得了最好的結果。本文將基於CW聚類的Triframes演算法性能低下的原因，歸結為它的硬劃分輸出，而且評價數據集包含模糊聚類。不同的排名還表明，框架歸納不能簡單地看作動詞聚類，需要單獨的任務。

總結

本文介紹了無監督框架歸納中三聚類技術的首次應用。我們設計了一個基於FrameNet和SVO三元組的數據集，以實現對框架歸納演算法的公平、獨立於語料庫的評估。我們測試了幾種三聚類基線演算法，並提出了一種新的基於圖的三聚類演算法，產生了最好的結果。在信息抽取和問答等應用中引入歸納框架是今後的一個重點研究方向。

源代碼和數據見https://github.com/uhh-lt/triframes。

論文下載鏈接：

http://aclweb.org/anthology/P18-2010

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 讀芯術 的精彩文章:

※Facebook承認：參與研究間諜軟體有18％是青少年
※機器學習可以管理你的郵件……和諾言！

TAG:讀芯術 |