一顆賽艇！上海交大搞出SRNN，比普通RNN也就快135倍

科技 07-10

安妮編譯整理

量子位出品 | 公眾號 QbitAI

快了135倍。

近日，上海交大的研究人員提出了切片循環神經網路（Sliced recurrent neural networks，SRNN）的結構，在不改變循環單元的情況下，比RNN結構快135倍。

這種如同腳踩風火輪一般的操作，究竟是怎樣實現的？

在論文《Sliced Recurrent Neural Networks》中，研究人員給出了具體介紹。我們先來看看「全是重點其他免談」的論文重點——

「曲線救國」的SRNN

傳統RNN結構中最流行的循環單元是LSTM和GRU，二者都能在隱藏層中通過門控機制（Gating Mechanism）存儲近期信息，然後決定這些信息將以怎樣的程度和輸入結合。這種結構的缺點也很明顯，RNN很難實現並行化處理。

傳統RNN結構，A代表循環單元 | 每一步都需要等待上一步的輸出結果

因此，很多學者選在在NLP任務中用CNN來代替，但CNN無法有效獲取重要的順序信息，效果並不理想。

SRNN的結構基於RNN結構進行改良，將輸入的序列切成最小的等長子序列。在這種結構中，無需等待上一步的輸出結果，循環單元可在每一層的每一個子序列中同時開工，並且信息可通過多層神經網路進行傳送。

SRNN結構圖，A代表循環單元

最後，研究人員比較了SRNN和RNN在不同序列長度時的訓練時間和與速度。

結果顯示，序列越長，SRNN的優勢越明顯，當序列長度為32768時，SRNN的速度達到了RNN的136倍。

論文摘要

在NLP（自然語言處理）的很多任務中，循環神經網路已經取得了成功。然而這種循環的結構讓並行化變得很困難，所以，訓練RNN的時間通常較長。

在這篇文章中，我們提出了一種切片循環神經網路的結構，能夠將序列切割成很多子序列，從而實現並行。這種結構可以在額外參數較少的情況下，通過神經網路的多個層次獲取高級信息。

我們已經證明，我們可以將標準的RNN結構理解為是SRNN在使用線性激活函數時的特殊情況。

在不改變循環單元的情況下，SRNN能夠比標準RNN快135倍，在訓練長序列時甚至更快。我們也在大型情感分析數據集上用實驗證實，SRNN的表現優於RNN。

論文傳送門

關於這項研究的更具體的細節，可以移步上海交大電氣信息與電氣工程學院的Zeping Yu和Gongshen Liu的論文《Sliced Recurrent Neural Networks》，地址如下——

https://arxiv.org/abs/1807.02291

玩得開心~

—完—

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 量子位 的精彩文章: