當前位置:
首頁 > 科技 > 西澳大學:NovelPerspective:人物視角識別

西澳大學:NovelPerspective:人物視角識別

你和「懂AI」之間,只差了一篇論文

很多讀者給芯君後台留言,說看多了相對簡單的AI科普和AI方法論,想看點有深度、有厚度、有眼界……以及重口味的專業論文。

為此,在多位AI領域的專家學者的幫助下,我們解讀翻譯了一組頂會論文。每一篇論文翻譯校對完成,芯君和編輯部的老師們都會一起笑到崩潰,當然有的論文我們看得抱頭痛哭。

同學們現在看不看得懂沒關係,但芯君敢保證,你終有一天會因此愛上一個AI的新世界。

讀芯術讀者論文交流群,請加小編微信號:zhizhizhuji。等你。

這是讀芯術解讀的第133篇論文

ACL 2018 System Demonstrations

NovelPerspective:人物視角識別

NovelPerspective: Identifying Point of View Characters

西澳大學

The University of Western Australia

本文是西澳大學發表於ACL 2018 的文章,基於如何將電子書的內容進行劃分然後提取出用戶感興趣的內容,文章提出了一款名為NovelPerspective的工具,該工具能夠幫助用戶在擁有多個主要人物,多條故事線索的小說中提取出用戶感興趣的那個人物,那條線索的部分(生成一個新的電子書)。而將電子書的內容進行提取的主要困難就在於將小說的內容劃分到對應的人物,換句話說就是找出每一部分的關鍵人物,因此作者在小說主要人物的檢測方法上進行了實驗,作者提出了兩種方法,一是基於啟發式的基線方法,二是基於機器學習的方法。

引言

通常小說每一個部分都是從不同人物觀點去描述的,而讀者只對他感興趣的那個人物的部分感興趣,如何確定小說每一部分的主要人物就成了一個問題。儘管基於命名實體識別技術,這並不是不可能的,但卻沒有一款工具實現了這樣的功能。過去或許這樣的功能可能沒用,但現在是一個信息化的時代,電子書很流行,數量也很龐大,是時候為讀者精簡他們的電子書,讓他們享受只屬於他們的電子書了。

模型

整個工具的流程如下所示:

其中最關鍵的是第3步,在這一步中原始的文本需要添加一些詞性,命名實體標籤,然後對文本進行特徵提取,將人物的名字和提取出來的特徵匹配,再進行評分,得分高的就是我們想要找的那個人物,第3步具體流程如下圖所示。

基線系統

作者開發了兩個確定性基線特徵分類器,雖然在人物分類那一步並沒有使用機器學習的方法,但在數據進行預處理的過程中廣泛使用了基於機器學習的系統。

第一種基線特徵分類器就是基於「首次提及」實體。對於這種方法,特徵提取步驟只是檢索每個名字首次使用的位置,而在角色評分步驟中,越早出現的名字,它的得分越高。

第二種基線特徵分類器就是基於「最多提及」實體,這種方法特徵提取步驟主要是計算一個名字出現的次數,而在角色評分步驟中,出現次數越多的名字,它的得分越高。

機器學習系統

作者指出關於主要人物的確定是一個多類別的分類問題。但與典型的多類別分類問題不同,可能類別的集合因每個被分類的部分而異。因此作者將這個問題重新考慮為一系列的二元預測。而任務就是預測給定的命名實體是否就是關鍵人物。 對於每個可能的人物提取特徵向量,此特徵向量就是二元分類器的輸入,它決定了這個人物是主角的概率。評分步驟實際就是二元分類器的運行,最後的分數就是所有命名實體在二元分類器上標準化的輸出概率。

· 機器學習上的特徵提取

作者提出了兩個特徵集作為基於機器學習的解決方案的輸入。一個是手工設計的「經典」特徵集,另一個是更現代的「單詞嵌入」特徵集。這兩個功能集都提供了有關如何在文本中使用每個命名實體令牌的信息。

「經典」特徵集使用在NLP相關任務中很好地建立的那些特徵。比如說位置特徵(名字實體首次或最後一次出現的索引),出現計數特徵(名字實體出現的次數),相鄰位置計數特徵(46個位置標籤在命名實體之前的單詞上和之後的單詞上的出現的次數)。

「單詞嵌入」特徵集使用了快速文本向量。作者使用在英語維基百科上訓練的預訓練300維嵌入。

· 分類器

二進位分類器是機器學習系統中人物評分步驟的關鍵部分,它可以預測一個命名實體是否是主要人物。從訓練集的每個文本為每個出現的名字實體生成一個訓練樣本。然後,對二進位分類器進行了正常的訓練。人物的分數是分類器的特徵向量用於主角的預測概率。

對於經典的特徵集,採用邏輯回歸方法,對特徵進行0-1比例的預處理。對於文字嵌入特徵集,使用徑向偏置支持向量機,並在預處理過程中進行標準化處理。

實驗分析

作者挑選了三個系列的書籍。喬治R.馬丁的「冰與火之歌」系列的前四本書(以下簡稱ASOIAF);李·巴杜格的「六隻烏鴉」二重奏的兩本書(以下簡稱SOC);羅伯特喬丹的「時光之輪」系列的前9卷(以下簡稱WOT)。

經過預處理後的數據集中章節和人物的總數,如下下表所示。

在評估中,系統被賦予正文,並被要求預測人物名稱。評估時將書中人物的別名/綽號的分數相加。這大致相當於普通用戶在選擇要保留的部分時可以嚮應用程序輸入多個別名的情況。

Scikit-Learn用於機器學習和評估,NLTK用於文本預處理。文本被標記化,並使用NLTK的默認方法用POS和命名實體標記。使用二進位而不是多類命名實體塊是很重要的。

下表是對所有方法的評估結果,其中比較好的結果用粗體表示。

從結果可以看出,首次提及的基線非常薄弱,而最多提及的基線要強得多。在大多數情況下,機器學習方法超出了兩個基線。對ASOIAF和SOC使用機器學習的方法,結果是很強的,而WOT的結果比較弱,儘管它仍然足夠精確,但需要結合手動檢查。

另外使用兩個訓練集的組合併不總是優於單獨使用一個訓練集。對於許多方法而言,僅對一個數據集進行訓練可以獲得更好的結果。

幾乎所有使用機器學習模型的結果都具有類似的高精度。例外情況是在SOC上訓練的基於文字嵌入特徵的模型,對於ASOIAF和WOT測試集來說,這些都表現得更差。這些模型的不良表現可能是訓練數據太少了。

下表顯示了每種機器學習模型的訓練集精度。這是每個測試集上這些模型的可能性能的粗略上界。 WOT界限遠低於其他兩個文本這可能與WOT的撰寫風格有關。

結論

本文提供了一個工具,允許消費者圍繞他們最感興趣的人物重新構建他們的電子書。系統必須發現書中每個部分中存在的命名實體,然後將每個部分分類為角色的視角,該部分從哪個角度敘述。對於命名實體檢測,我們使用標準工具。然而,分類是非常重要的。在這個設計中,我們實現了幾個系統。簡單地選擇最常用的命名字元被證明是成功的基線方法。為了改進這一點,我們開發了幾種基於機器學習的方法,它們的性能非常好。雖然沒有一個分類器是完美的,但它們達到了足夠高的精度,可以使用。我們的應用程序的未來版本將允許用戶提交更正,為我們提供更多的訓練數據。然而,存儲這些信息會帶來版權問題,這些問題尚未得到解決。

論文下載鏈接:

http://aclweb.org/anthology/P18-4002


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 讀芯術 的精彩文章:

NOVA:通過主題建模中的命名實體推廣來提高主題質量
北郵李蕾:關於自動文本摘要的分析與討論

TAG:讀芯術 |