一顆賽艇!上海交大搞出SRNN,比普通RNN也就快135倍
安妮 編譯整理
量子位 出品 | 公眾號 QbitAI
快了135倍。
近日,上海交大的研究人員提出了切片循環神經網路(Sliced recurrent neural networks,SRNN)的結構,在不改變循環單元的情況下,比RNN結構快135倍。
這種如同腳踩風火輪一般的操作,究竟是怎樣實現的?
在論文《Sliced Recurrent Neural Networks》中,研究人員給出了具體介紹。我們先來看看「全是重點其他免談」的論文重點——
「曲線救國」的SRNN
傳統RNN結構中最流行的循環單元是LSTM和GRU,二者都能在隱藏層中通過門控機制(Gating Mechanism)存儲近期信息,然後決定這些信息將以怎樣的程度和輸入結合。這種結構的缺點也很明顯,RNN很難實現並行化處理。
傳統RNN結構,A代表循環單元 | 每一步都需要等待上一步的輸出結果
因此,很多學者選在在NLP任務中用CNN來代替,但CNN無法有效獲取重要的順序信息,效果並不理想。
SRNN的結構基於RNN結構進行改良,將輸入的序列切成最小的等長子序列。在這種結構中,無需等待上一步的輸出結果,循環單元可在每一層的每一個子序列中同時開工,並且信息可通過多層神經網路進行傳送。
SRNN結構圖,A代表循環單元
最後,研究人員比較了SRNN和RNN在不同序列長度時的訓練時間和與速度。
結果顯示,序列越長,SRNN的優勢越明顯,當序列長度為32768時,SRNN的速度達到了RNN的136倍。
論文摘要
在NLP(自然語言處理)的很多任務中,循環神經網路已經取得了成功。然而這種循環的結構讓並行化變得很困難,所以,訓練RNN的時間通常較長。
在這篇文章中,我們提出了一種切片循環神經網路的結構,能夠將序列切割成很多子序列,從而實現並行。這種結構可以在額外參數較少的情況下,通過神經網路的多個層次獲取高級信息。
我們已經證明,我們可以將標準的RNN結構理解為是SRNN在使用線性激活函數時的特殊情況。
在不改變循環單元的情況下,SRNN能夠比標準RNN快135倍,在訓練長序列時甚至更快。我們也在大型情感分析數據集上用實驗證實,SRNN的表現優於RNN。
論文傳送門
關於這項研究的更具體的細節,可以移步上海交大電氣信息與電氣工程學院的Zeping Yu和Gongshen Liu的論文《Sliced Recurrent Neural Networks》,地址如下——
https://arxiv.org/abs/1807.02291
玩得開心~
—完—
※馬斯克把機器人送回Model 3工廠,組裝自動化率達95%
※這份NLP研究進展匯總請收好,GitHub連續3天最火的都是它
TAG:量子位 |