ICLR 2017 大會：百度探索循環神經網路中的稀疏性

科技 06-14

循環神經網路（RNN）通過帶負反饋的神經元，能夠處理任意長度的序列，被普遍的應用於解決各種問題。隨著現在數據量和可計算能力的增加，神經網路的規模在不斷擴大。但目前在手機或嵌入式設備的網路中，RNN 參數數量過多, 難以部署，較大的內存需求和評估時長都是 RNN 面臨的挑戰。

在 4 月份閉幕的 ICLR 會議上，百度展示了一篇名為《EXPLORING SPARSITY IN RECURRENT NEURAL NETWORKS》的論文。為了有效創建循環神經網路，科學家們提出一種在網路初始訓練期間降低權重的方法來減少網路中的參數。

循環神經網路是動物大腦中神經元網路及其動作電位的演算法簡化，它通常包含三個部分：「輸入層」、「隱藏層」和「輸出層」，就相當於動物神經元網路中的突觸和神經元。每一個神經元對應一個節點，突觸就是 RNN 的邊緣，在整個神經元網路中，刺激神經元電位發生變化的信號通過突觸從上游神經元傳遞到下游神經元，以離散的方式迭代。每一個節點的參數都是由當前迭代結果以及之前所有迭代結果共同決定的。

用於聲音建模的深層神經網路具有大約 1100 萬個參數，當使用雙向循環網路建模時參數將擴大到 6700 萬個，甚至在語言建模中，這些參數的數量更大。

通常情況下，這個參數的大小由隱藏層的權重決定。如下圖所示，x 表示輸入層的值，s 表示隱藏層的值，o 代表輸出層，而 W 就代表隱藏層的權重矩陣。如果建模任務很複雜，W 的值就會很大。現代攜帶型設備的內存和存儲空間有限，無法滿足循環網路的計算需求，而大型設備往往又需要很長的評估時間。

因此，不得不採取措施降低權重。百度的辦法是，在建模初始化期間，為網路中的每個權重創建一個二進位掩碼，在訓練的迭代過程中採用單調遞增的閾值，將小於閾值的權重設置為零，並更新掩碼。在所有的權重更新完畢之後，將掩碼與權重相乘。這樣一來就可以人為控制權重矩陣的稀疏度，同時，為了保證權重小的參數不變，每一層還設置了不同的閾值函數。目前，通過這種方法科學家們可以以最小的精度損失實現 90%的稀疏度，並將運算速度提高 2-7 倍。

這種方法比較適用與密集型的神經網路模型，除了可以加快運算速度之外，還能夠減小 RNN 運算所需的存儲空間。但這一切是以犧牲性能為代價的，權重矩陣實現 90%的稀疏度其性能就會下降約 20%。所以對小型的神經網路訓練來說，這種方法得不償失。

另外，據百度方面介紹，這種方法完全由經驗推出而缺乏理論支持，如果一定要追溯一種靈感來源，那就是這種通過歸零來實現稀疏度的方法就像是向網路中添加雜訊。但不同的是，添加雜訊有時也會增大權值。

目前，雖然這項技術可以顯著提高密集型 RNN 的運算效率，節省存儲空間和建模成本，但接下來研究人員還是應該考慮如何在實現稀疏性的同時提高精確度。

粹客網是國內首個關注前沿科技領域的科技新媒體和創業服務平台。我們提供最貼近商業化的前沿科技創業報道、最新最全的科技動態資訊以及深刻獨到的行業觀點。堅持挖掘有價值的創新創業項目，致力於成為創新創業者的前沿陣地。

每月精彩評論將有機會獲得神秘禮品，線下活動 or 商業合作請私信微信公眾號（cheekrnews）或發郵件到粹客網官方郵箱。

點擊展開全文

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 粹客網 的精彩文章:

TAG:粹客網 |