當前位置:
首頁 > 科技 > 一顆賽艇!上海交大搞出SRNN,比普通RNN也就快135倍

一顆賽艇!上海交大搞出SRNN,比普通RNN也就快135倍

安妮 編譯整理

量子位 出品 | 公眾號 QbitAI

快了135倍。

近日,上海交大的研究人員提出了切片循環神經網路(Sliced recurrent neural networks,SRNN)的結構,在不改變循環單元的情況下,比RNN結構快135倍。

這種如同腳踩風火輪一般的操作,究竟是怎樣實現的?

在論文《Sliced Recurrent Neural Networks》中,研究人員給出了具體介紹。我們先來看看「全是重點其他免談」的論文重點——

「曲線救國」的SRNN

傳統RNN結構中最流行的循環單元是LSTM和GRU,二者都能在隱藏層中通過門控機制(Gating Mechanism)存儲近期信息,然後決定這些信息將以怎樣的程度和輸入結合。這種結構的缺點也很明顯,RNN很難實現並行化處理。

傳統RNN結構,A代表循環單元 | 每一步都需要等待上一步的輸出結果

因此,很多學者選在在NLP任務中用CNN來代替,但CNN無法有效獲取重要的順序信息,效果並不理想。

SRNN的結構基於RNN結構進行改良,將輸入的序列切成最小的等長子序列。在這種結構中,無需等待上一步的輸出結果,循環單元可在每一層的每一個子序列中同時開工,並且信息可通過多層神經網路進行傳送。

SRNN結構圖,A代表循環單元

最後,研究人員比較了SRNN和RNN在不同序列長度時的訓練時間和與速度。

結果顯示,序列越長,SRNN的優勢越明顯,當序列長度為32768時,SRNN的速度達到了RNN的136倍。

論文摘要

在NLP(自然語言處理)的很多任務中,循環神經網路已經取得了成功。然而這種循環的結構讓並行化變得很困難,所以,訓練RNN的時間通常較長。

在這篇文章中,我們提出了一種切片循環神經網路的結構,能夠將序列切割成很多子序列,從而實現並行。這種結構可以在額外參數較少的情況下,通過神經網路的多個層次獲取高級信息。

我們已經證明,我們可以將標準的RNN結構理解為是SRNN在使用線性激活函數時的特殊情況。

在不改變循環單元的情況下,SRNN能夠比標準RNN快135倍,在訓練長序列時甚至更快。我們也在大型情感分析數據集上用實驗證實,SRNN的表現優於RNN。

論文傳送門

關於這項研究的更具體的細節,可以移步上海交大電氣信息與電氣工程學院的Zeping Yu和Gongshen Liu的論文《Sliced Recurrent Neural Networks》,地址如下——

https://arxiv.org/abs/1807.02291

玩得開心~


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 量子位 的精彩文章:

馬斯克把機器人送回Model 3工廠,組裝自動化率達95%
這份NLP研究進展匯總請收好,GitHub連續3天最火的都是它

TAG:量子位 |