牛津大學:使用波束搜索在人類腦電圖中查找語法
這是讀芯術解讀的第124篇論文
ACL 2018 Long Papers
使用波束搜索在人類腦電圖中查找語法
Finding syntax in human encephalography with beam search
牛津大學
University of Oxford
本文是牛津大學發表於ACL2018的工作,通過對人腦電波中early peak 現象的分析,發現循環神經網路語法生成模型(RNNGs)與波束搜索的組合,能夠對人腦進行自然語言理解時的語法處理過程進行比較好的建模。這一篇文章屬於自然語言處理與人腦研究的交叉領域的成果,實驗充分,可以將其認作從人腦生物學角度對深度學習方法有效性的肯定。
引言
計算心理語言學是計算語言學領域中目前來看最有可能做出成果的方向,它們提供了一種深入了解人類句子處理機制運作的方法。本文的貢獻在於它結合了概率生成語法(RNNG等)提供了一個解析過程,使用語法管理從一個單詞到下一個單詞的一系列語法派生。通過複雜性度量,這個過程的中間狀態會產生關於語言理解困難的定量預測。將這些預測與人類腦電圖(EEG)的數據並置,我們發現它們可靠地得出了包括p600在內的幾個振幅效應,而p600與句法處理密切相關。
模型
下圖為本文使用的遞歸神經網路語法配置。完整的成分,如[NP the hungry cat],由數字向量表示在堆棧上,這些數字向量是所示的句法組合函數的輸出。
遞歸神經網路是生成樹的概率模型。樹的概率通過鏈式規則根據派生動作概率進行分解,這些動作概率是以以前的動作為條件,即它們是基於歷史的語法。在RNNG中,這些步驟遵循結構樹的深度優先遍歷。
這個生成故事的每一步都取決於堆棧的狀態,這個堆棧被「神經化」,使得每個堆棧條目對應於一個數值向量。在推導的每個階段,以神經序列模型的最終狀態的形式提供匯總整個堆棧的單個向量。這是使用Dyer-等人的堆棧LSTM來實現的。這些堆棧匯總向量,允許RNNG對左上下文敏感,左上下文會被概率上下文無關語法中的獨立性假設所屏蔽,如下表。
在本文中,這些堆棧摘要用作多層感知器的輸入,其輸出通過softmax在三種可能的解析器操作上轉換為分類分布:打開新組件、關閉最新組件或生成單詞。做出艱難的決定,如果選擇第一個或最後一個選項,那麼通過多層感知器再次使用相同的向量值堆棧摘要來決定打開哪個特定的非終端,或者生成哪個特定的單詞。
短語關閉操作觸發一個句法組合函數,如下表,該函數將一系列子樹向量壓縮為單個向量。這是通過對子向量列表應用雙向LSTM來實現的。
在訓練時使用反向傳播自適應地調整所有這些分量的參數,使相對於樹語料庫的交叉熵最小。在測試時,我們使用beam搜索進行增量解析。
波束搜索是解決生成語法中出現的搜索問題的一種方法,即對有時被稱作「強生成」句子的語言的構造性描述。該過程如下圖所示。
為了將計算模型與測量的人體反應聯繫起來,需要一些輔助假設或鏈接規則。在語言領域,這些傳統上被稱為複雜性度量,因為它們量化特定句子「處理複雜性」的方式。當一個度量對每個連續單詞提供預測時,它是一個增量複雜度度量。SURPRISAL度量是在詞束上計算的,即在每個連續單詞上得分最高的部分句法分析。為了獲得一個更可靠的估計,ENTROPY及其第一差值是在nextword本身上計算的,nextword本身的大小不同,但通常比nextword大得多。
腦電圖(EEG)是一種測量頭皮上非常小的電壓波動的實驗技術。有關強調其對計算模型的影響的評論,請參見Murphy等人。我們分析了33名參與者的腦電圖錄音,他們被動地聽了愛麗絲夢遊仙境探險的第一章的口述朗誦。所有參與者在課後8題理解測驗中的得分明顯較高。另外排除了10個數據集,因為不滿足這個行為準則,6個由於過度雜訊,3個由於實驗錯誤。從61個活性電極(阻抗25k)在500Hz下記錄數據,並分成2129個時段,在故事中每個單詞開始時跨越-0.3-1s。使用ICA去除眼部偽影,並排除殘留的過度雜訊。數據從0.5-40Hz進行過濾,基線根據100ms的詞前間隔進行校正,由於感興趣的解析變數與詞類之間的相互作用,數據被分離為內容詞和功能詞的時期。
在RNNG培訓期間,第一章被用作開發集,一直進行到該集上所有解析器操作的單詞困惑達到最小180個。這種性能是通過狀態向量為170單位寬的RNNG獲得的。相應的LSTM語言模型狀態向量有256個單元,達到了90.2的單詞困惑度。當然,RNNG估計了樹和詞的聯合概率,所以這兩個困惑級別不能直接比較。
實驗分析
為了探討RNNG beam搜索組合作為語言處理難度認知模型的適用性,我們針對每個度量對回歸模型進行了擬合。考慮了六個波束尺寸k =.。下表總結了這些目標預測因子達到的結果。
下圖是相對於Maris和Oostenveld(2007)之後的置換測試,繪製的值是暗陰影區域的擬合回歸係數和95%的置換間隔,統計上沒有符號。零點表示口語單詞的開始。插圖顯示具有正負號效應的電極,以及橫跨正負號時間間隔的大平均係數值。該圖表平均了愛麗絲《仙境歷險記》第一章中的所有內容詞。
下圖是感興趣的區域。左邊的第一個區域稱為「N400」,包括發病後300 - 500毫秒時間窗內的中腦後電極。在中間區域,「P600」包括後電極600-700 ms起病後。最右側的「ANT」區域僅由發病後200-400毫秒的前電極組成。
從以上的模型比較可以看出,前期峰值是可歸屬的,而後期峰值是不可歸屬的到RNNG的複合函數。Choe和Charniak的「解析為語言建模」方案可能解釋p600類波,但不能解釋早期峰值。這個較早的峰值是RNNG在SURPRISAL下得到的峰值,但只有當RNNG包含組合機制時才會出現。這種結果模式為整個建模任務提供了一種方法。在這種方法中,語法和處理策略是相同的,而替代的複雜性度量,如SURPRISAL和DISTANCE,可以在大腦的不同時間或不同位置解釋統一的模型。這與Brouwe和Wehbe的方法正好相反,他們使用相同的複雜度度量來解釋同一神經網路的不同層。
下表是似然比檢驗表明,從句法成分的RNNGs推導出的預測因子回歸模型在解釋區域「ANT」的早期峰值方面比退化的模型做得更好。在「P600」區域的類似比較表明,模型得到了改進,但是改進並沒有達到Bonferroni校正(粗體文本)所規定的= 0.002的顯著性閾值。RNNGs缺乏語法成分做改善基線模型(?)包含辭彙預測和LSTM基線。
結論
遞歸神經網路語法確實學習了一些關於自然語言語法的知識,並且他們所學的對應於腦電圖中表現的人類語言處理難度的指標。這種計算模型與人體電生理反應之間的對應關係源於缺乏純基於字元串處理的初始階段的系統。以前的工作是「兩階段」的意義,即生成模型用於從條件模型重新排列建議。如果這個單階段模型在認知上是合理的,那麼它的簡單性就削弱了基於字元串的感知策略的論據,比如名詞-動詞-名詞啟發式。也許,正如菲利普斯所言,這些在適當的認知模型中是不必要的。當然,現在對於在人類句子處理機制內對單個解析操作的順序和時間進行更細粒度的調查是開放的。


※滴滴巨虧109億後,裁員2000人,補償方案已出,員工爭著
TAG:讀芯術 |