會在精讀和泛讀中自由切換的神經網路

知識 10-24

機器之心專欄

作者：深度好奇研究組（DC-SQUAD）

卷積神經網路採用類似初級視覺皮層的操作方法高效處理圖像數據，而自然語言處理尚未有一種結合認知機制的奠基性模型。在本文中，研究者提出了變焦網路（Zooming Network）的概念，它很好地結合了泛讀與精讀過程，可以更好地對長時依賴特徵進行建模。

論文題目：Zooming Network

論文地址：https://arxiv.org/abs/1810.02114

設計動機

神經網路模型之所以能夠在人工智慧的各個領域大放異彩，除了憑藉強大的擬合能力和各類梯度下降方法之外，還要依靠網路結構基於數據信息分布特徵的針對性設計。比如，多層全連接網路雖然在理論上可以擬合任何函數，實際應用中的效果卻往往差強人意；而另一方面，多層卷積神經網路由於採用了類似大腦初級視覺皮層信息處理方法的卷積操作與參數共享方法，對圖像信息進行高效的特徵提取（充分利用了圖像中的平移不變性、局部信息連續性），可以使用少得多的參數在圖像處理任務上取得非常好的效果。

我們認為自然語言處理領域尚無一種類似卷積網路的在圖像處理領域具有奠基作用的模型。究其原因，是我們尚未充分利用自然語言數據和任務天然具有的特徵進行模型結構的改進。自然語言天然地具有如下特徵：1）自然語言（文本）是由一些基本語言單元（如單詞、字、詞）構成的序列；2）語言單元具有層級特徵，低級語言單元可以構成高級語言單元（如多個字可以組成一句或一段文本）；3）語言單元的劃分不是隨機的，而是包含著語者或作者的信息表達策略；4）不同於圖像數據，基本語言單元不具有像素一樣的局部連續性，而是高度信息符號化的。

為了更好地利用上述文本特徵，我們提出了變焦網路（Zooming Network）的概念。整體上看，變焦網路由三個主要部分組成：層次化編碼模塊、變焦控制器模塊、符號推理模塊，分別完成針對語言單元特點的編碼過程、解碼過程，以及針對自然語言符號化的推理輔助解碼。我們將該網路設計應用到長文本序列標註任務上，取得了非常好的效果（f1 score 超過 bi-LSTM-crf 模型 10% 以上）。

層次化編碼（HIERARCHICAL ENCODER）

人在閱讀文本時既按照時間順序累積信息，又伴隨著不同級別的信息抽象。這對應著人類語言文字共有的兩個重要特徵：時序化和分級化。我們對與編碼模塊的設計就是利用了這兩個特徵：使用雙向長短時記憶層（bi-LSTM）對單一語言單元層級進行順序地讀取、編碼；使用最大池化操作（max-pooling）模仿人腦由低級語言單元抽象高級語言單元信息的過程。通過層次化編碼，我們賦予每一級每一個語言單元一個向量表示（hierarchical distributed memory），並保留其句段劃分的分界信息。

變焦控制解碼（ZOOMING CONTROLLER）

變焦控制器本質上是一個序列決策模型。不同於經典的循環神經網路（RNN）模型：1）變焦控制器每次不是接收單個基本語言單元的信息，而是接收當前位置上的字、句、段三級信息，這樣可以使模型同時掌握細節特徵（detailed local feature）和整體特徵（global feature），以更好地進行狀態更新。2）在每個解碼標籤序列的時刻，變焦控制器可以選擇當前解碼長度，可以選擇輸出任意層級語言單元對應的標籤，而不僅限於基本語言單元（字/字元）。3）在預測標籤之後，讀取位置會自動跳轉到與解碼層級一致的下一語言單元的開頭，而不是直接跳轉到下一個基本語言單元。這種解碼過程使得變焦控制器對文本表徵的閱讀方式更加靈活，在信息分布稀疏的部分可以快速略讀（Zoom out），在信息分布集中的部分可以逐字精讀（Zoom in）。

符號推理（SYMBOLIC REASONING）

在解碼過程中，我們可以通過自然語言文本的一些「寫作習慣」特徵和已經預測出的標籤序列，對下文標籤規則推理出一些建議標籤。例如，在大量的垂直領域文本中，常常出現一些有序列舉過程：「1. …… 2. …… 3. ……」。這些有序符號往往成組出現，而且對應內容是等位並列關係，一般具有相同標籤（或者相同結構標籤）。在實際使用過程中，我們會綜合上個序號內容的處理方式，給出下個序號內容處理的最佳路徑並以稀疏向量的形式輸入到變焦控制器內，使其可以更加高效地處理數據。

實驗情況

我們將該模型應用到兩組數據的序列標註上：

1）集中式的重點信息抽取：在刑事案件的裁判文書中，對犯罪行為的具體描述提供了整個案件的判決依據，有很重要的分析價值。這些描述往往集中出現，但是由於整個裁判文書的長度多變，案件複雜程度不一，對這些描述的高效抽取既需要快速地略過無關信息，又需要在信息出現的段落進行精細的分析。

2）分散式的重點信息抽取：在知識產權糾紛案件的裁判文書中，案件的核心是原被告雙方爭議的焦點。這些信息隨著對糾紛的描述不定位置地出現，出現形式也複雜多變，進一步要求模型對處理路徑的靈活選擇。

我們使用序列標註經典最優模型 bi-LSTM-crf 作為 baseline model 來比較模型的處理性能，實驗結果如下（模型參數數量為同一量級）：

其中，WA 指 word-level 的整體準確率，wlar 指模型使用的逐字讀取行為佔全部處理行為的數量比例。可以看出，變焦網路的性能遠超基線模型，而且具有很高的處理效率（大量地使用句、段級別的標籤預測行為）。具體示例如下：

上例中，藍色部分表示模型使用了句級、段級的預測，紅色部分表示模型使用了字級的預測。可以看出，在信息意義不大的部分，模型選擇了略讀，而在關鍵信息出現的地方，模型採用了精讀的方式處理。另外一個有意思的現象是，模型對於「經審理查明」等帶有指示功能的語句一樣採用了精讀方式處理。

總結

藉助句段結構信息，變焦神經網路很好地結合了泛讀與精讀過程，可以更好地對長時依賴特徵進行建模，引入大跨度動作提高效率，尤其在篇幅很長的文本處理中表現得更為明顯，在關鍵信息的抽取任務上，f1 值較經典序列標註模型（biLSTM+CRF）有 10% 以上的提升。在此基礎上引入神經符號化推理模塊後，其處理效率又有了一個顯著提升。變焦神經網路非常適合應用於各類長文本處理任務當中，其使用的編解碼方式也可結合其他技術推廣到各類自然語言處理任務中，產生新的火花。

本文為機器之心專欄，轉載請聯繫原作者獲得授權。

------------------------------------------------

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※競賽 | 與兩大車企的合作機會+千萬級獎金，大數據AI技術牛人看過來！
※專欄 | 香儂科技獨家對話Facebook人工智慧研究院首席科學家Devi Parikh

TAG:機器之心 |