當前位置:
首頁 > 科技 > ICLR 2019 | 與膠囊網路異曲同工:Bengio等提出四元數循環神經網路

ICLR 2019 | 與膠囊網路異曲同工:Bengio等提出四元數循環神經網路


選自 openreview


作者:Titouan Parcollet


機器之心編譯


近日,Yoshua Bengio 等人提出了一種新型的循環神經網路,其以四元數來編碼序列輸入,稱為四元循環神經網路。四元數神經網路是流形網路和膠囊網路之外又一種非同構表徵架構,也可以看成是實值、復值 RNN 的擴展。實驗表明,該網路相比傳統的實值 RNN 可以顯著減少參數數量,適用於低資源應用。相關論文已被 ICLR 2019 接收,評審得分為 7、7、8。

在該論文的 ICLR 2019 雙盲評審頁面中,一位評審寫道:


本文通過探索在循環神經網路中使用四元數,朝著開發更加結構化的表徵邁出了一大步。其思想的動機是觀察到在許多情況下,向量元素之間存在的局部關係應該得到明確表徵。這也是膠囊網路背後的思想:讓每個「單元」輸出一個參數向量而不是一個數字。在這裡,作者表明,通過將四元數結合到 RNN 或 LSTM 使用的表徵中,可以使用更少的參數在語音識別任務中實現更好的性能。

引言

由於具備學習高度複雜的輸入到輸出映射的能力,在過去的幾年裡,深度神經網路(DNN)在多個領域取得了廣泛的成功。在各種基於 DNN 的模型中,循環神經網路(RNN)非常適合處理序列數據,它在每個時間步上創建一個向量,用來編碼輸入向量之間的隱藏關係。深度 RNN 近來被用來獲取語音單元序列(Ravanelli et al., 2018a)或文本詞序列(Conneau et al., 2018)的隱藏表徵,在許多語音識別任務中取得了當前最佳性能(Graves et al., 2013a;b; Amodei et al., 2016; Povey et al., 2016; Chiu et al., 2018)。然而,最近的許多基於多維輸入特徵的任務(如圖像的像素、聲學特徵或 3D 模型的方向)需要同時表徵不同實體之間的外部依賴關係和組成每個實體的特徵之間的內部關係。而且,基於 RNN 的演算法通常需要大量參數才能表徵隱藏空間中的序列數據。

四元數是一種包含實數和三個獨立的虛分量的超複數,完全適用於三維和四維特徵向量,如圖像處理和機器人運動學(Sangwine, 1996; Pei & Cheng, 1999; Aspragathos & Dimitros, 1998)。最近的流形網路和膠囊網路也探索了將成組數字創建為獨立實體的想法(Chakraborty et al., 2018; Sabour et al., 2017)。與傳統的同構表徵相反,膠囊網路和四元網路將特徵集捆綁在一起。因此,四元數允許基於神經網路的模型在學習過程中,以比 RNN 更少的參數編碼輸入特徵組之間的潛在依賴關係,利用 Hamilton 乘積代替普通乘積,但這個乘積是四元數之間的。四元數值反向傳播演算法的早期應用(Arena et al., 1994; 1997)有效地解決了四元數函數逼近任務。最近,複數和超複數神經網路受到越來越多的關注(Hirose & Yoshida, 2012; Tygert et al., 2016; Danihelka et al., 2016; Wisdom et al., 2016),一些研究已經在不同的應用中得到了頗有前景的結果。深度四元網路(Parcollet et al., 2016; 2017a;b)、深度四元卷積網路(Gaudet & Maida, 2018; Parcollet et al., 2018)或深度複雜卷積網路(Trabelsi et al., 2017)已經應用於圖像、語言處理等頗具挑戰性的任務。然而,這些應用不包括運算由四元代數決定的循環神經網路。

本文提出將局部譜特徵整合到四元循環神經網路(QRNN)及其門控型擴展即四元長短期記憶網路(QLSTM)中。該模型結合了良好的參數初始化方案而提出,經證實其可以學習多維輸入特徵和參數較少的序列基本元素之間的相互依賴性和內部依賴性,使該方法更適用於低資源應用。QRNN 和 QLSTM 的有效性是在實際的 TIMIT 音素識別任務上進行評估的,結果表明 QRNN 和 QLSTM 都獲得了比 RNN 和 LSTM 更好的性能,且獲得的最佳音素錯誤率(PER)分別為 18.5% 和 15.1%,而 RNN 和 LSTM 分別為 19.0% 和 15.3%。此外,它們在獲得性能提升的情況下,自由參數量減少了 70%。在更大的數據集——Wall Street Journal (WSJ) 上也觀察到類似的結果,其詳細性能參見附錄 6.1.1。

論文:QUATERNION RECURRENT NEURAL NETWORKS



論文鏈接:https://openreview.net/pdf?id=ByMHvs0cFQ

摘要

:循環神經網路是建模序列數據的強大架構,因為它能夠學習序列基本元素之間的長短期依賴。然而,如語音或圖像識別等流行任務都涉及多維輸入特徵,這些特徵的特點在於輸入向量的維度之間具有很強的內部依賴性。本文提出一種新的四元循環神經網路(QRNN)以及相應的四元長短期記憶網路(QLSTM),將四元代數的外部關係和內部架構依賴性皆考慮在內。與膠囊網路類似,四元數允許 QRNN 通過將多維特徵整合和處理為單個實體來編碼內部依賴性,而循環操作建模了組成序列的元素之間的相關性。實驗證明,與 RNN 和 LSTM 相比,QRNN 和 QLSTM 都在自動語音識別的實際應用中達到了更好的性能。最後作者表明,為了獲得更好的結果,與實值 RNN 和 LSTM 相比,QRNN 和 QLSTM 最大限度地減少了所需的自由參數量(減少了 70%),從而使相關信息的表徵更加緊湊。

3 四元循環神經網路


圖 1:基於 Hamilton 乘積(等式 5)的四元權重共享,與標準實值層(左)相比,四元值層(右)的輸入特徵(Qin)潛在關係學習能力圖示。

3.2 四元數表徵

QRNN 是實值和復值 RNN 到超複數的擴展。在一個四元數密集層中,所有的參數都是四元數,包括輸入、輸出、權重和偏置。四元數代數通過操作實值矩陣實現。因此,對於大小為 N 的每個輸入向量和大小為 M 的輸出向量,維度被分離為四個部分:第一個等於 r,第二個等於 x_i,第三個等於 y_j,最後一個等於 z_k,從而構成一個四元數 Q = r1 + xi + yj + zk。全連接層的推斷過程通過一個輸入向量和一個實值 MxN 權重矩陣之間的點積在實值空間中定義。在一個 QRNN 中,這種運算由帶四元數值矩陣的哈密頓乘積取代(即權重矩陣中的每一項都是四元數)。

3.3 學習演算法

QRNN 在每個學習子過程中都不同於實值的 RNN。因此,令 x_t 為 t 時間步的輸入向量,h_t 為隱藏狀態,W_hx、W_hy、W_hh 為輸入、輸出和隱藏狀態權重矩陣。向量 b_h 是隱藏狀態的偏差,p_t、y_t 是輸出以及期望目標向量。

基於實值 RNN 的前向傳播,QRNN 的前向方程擴展如下:





其中α是四元數分離的激活函數,定義為:




f 對應任意標準的激活函數。基於先驗假設、更好的穩定性(即,純四元數激活函數包含奇點)和更簡單的計算,本研究偏向於使用分離方法。輸出向量 p_t 計算如下:



其中β是任意的分離激活函數。最後目標函數是經典 component-wise 的損失函數(例如,均方誤差、負對數似然度)。

反向傳播的梯度計算公式如下:


權重更新公式如下:




4 實驗

這一節詳細描述了聲學特徵提取、實驗設置,以及用 QRNN、QLSTM、RNN 和 LSTM 在 TIMIT 語音識別任務上獲得的結果。表格中粗體標記的結果是使用在驗證集中表現最佳的神經網路配置獲得的。



表 1:QRNN 和 RNN 模型在 TIMIT 數據集的開發集和測試集上的音素誤差率(PER%)。「Params」代表可訓練參數的總數量。




表 2:QLSTM 和 LSTM 模型在 TIMIT 數據集的開發集和測試集上的音素誤差率(PER%)。「Params」代表可訓練參數的總數量。

本文為機器之心編譯,

轉載請聯繫本公眾號獲得授權


?------------------------------------------------


加入機器之心(全職記者 / 實習生):hr@jiqizhixin.com


投稿或尋求報道:

content

@jiqizhixin.com


廣告 & 商務合作:bd@jiqizhixin.com

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

從三大案例,看如何用 CV 模型解決非視覺問題
NeurIPS 2018,最佳論文也許就藏在這30篇oral論文中

TAG:機器之心 |