當前位置:
首頁 > 科技 > 一文詳解固定深度神經網路中的分類器將帶來怎樣的好處?

一文詳解固定深度神經網路中的分類器將帶來怎樣的好處?

圖:pixabay

原文來源:arxiv

作者:Elad Hoffer、Itay Hubara、Daniel Soudry

「雷克世界」編譯:嗯~是阿童木呀

相信大家都知道,神經網路通常被用作各種任務的分類模型。一般來說,我們將學習仿射變換(affine transformation)放置在這些模型的末尾,以產生用於分類的每個類的值。這個分類器可以有大量的參數,它會隨著可能的類的數量呈現線性增長,因此需要越來越多的資源。

在這項研究中,我們認為這個分類器可以是固定的,可以達到一個全局規模常數,而對於大多數任務來說,精度損失很小或幾乎沒有損失,從而使得在內存和計算方面受益頗多。此外,我們的研究結果表明,通過對具有一個哈達瑪矩陣(Hadamard matrix)的分類器進行初始化,我們可以加快推理的速度。在接下來的內容中,我們將討論目前對神經網路模型理解的含義。

深度神經網路已經成為機器學習中一種廣泛使用的模型,並且在許多任務上取得了當前最先進的成果。這些模型通常用於執行分類的任務中,就像用卷積神經網路(CNN)將圖像分類到語義範疇一樣。目前來說,CNN模型被認為是視覺任務的標準模型,相較於以前的方法,它具有有更好的精確度(Krizhevsky等人於2012年、He等人於2016年、Szegedy 等人於2015年提出)。

訓練神經網路模型並使用它們進行推理需要大量的內存和計算資源,因此,近來科學家們做了大量的研究以減小網路的大小。Han等人於2015年採用權重共享與規範(weight sharing and specification);Micikevicius等人於2017年使用混合精度將神經網路的大小減半。Tai等人於2015年,Jaderberg等人於2014年使用低秩近似(low rank approximations)加速神經網路。

比較固定和學習分類器的訓練和驗證誤差(ResNet56,Cifar10)

而Hubara等人於2016年、Li等人於2016年、Zhou等人於2016年則採用了一種更為積極的方法,其中,權重、激活和梯度被量化以進一步減少訓練期間的計算。雖然對較小的模型進行積極的量化會帶來很大的好處,但是極端的壓縮率將導致精確度的損失。

在過去的研究中,人們注意到,預先定義的、隨機的預測可以與學習仿射變換一起使用,以在若干任務中獲得競爭性結果。而在這項研究中,提出了相反的觀點——在使用常見的神經網路模型的情況下,即使不修改最終的輸出層,它也能夠學習有用的表示,而這些最終的輸出層中往往含有大量隨著類的數量呈現線性增長的參數。

卷積神經網路中的分類器

卷積神經網路(CNN)通常用於解決各種空間和時間任務。CNN通常由一堆卷積參數化層、空間池化層和完全連接層組成,由非線性激活函數分隔。較早的CNN體系結構(LeCun等人於1998年、Krizhevsky等人於2012年提出)在網路後期階段使用了一系列完全連接層,從而可能使得其能夠基於圖像的全局特徵進行分類。Springenberg等人經過研究證明,最終的分類器也可以被一個卷積層替換,其中,這個卷積層的輸出特徵映射與類的數量相匹配。

比較固定與訓練的可變標量α(ResNet56,Cifar10)

儘管這些層添加到模型中的可訓練參數的數量非常多,但是有一點是已知的,即它們對網路的最終性能具有相當的邊際效應(marginal impact)(Zeiler與Fergus於2014年提出),並且當使用諸如矩陣分解和稀疏化等方法對模型進行簡單訓練後,很容易對這些可訓練參數進行壓縮和減少其數量(Han 等人於2015年提出)。此外,現代模型架構選擇的特點是去除了大部分的完全連接層(Lin 等人於2013年、Szegedy等人於2015年、He等人於2016年提出),經研究結果表明,這將會帶來更好的泛化效果、整體的精確度、以及可訓練參數數量的大幅減少。

除此之外,大量的研究表明,CNNs可以通過一種度量學習方式(metric learning regime)進行訓練(Bromley等人於1994年、Schroff等人於201年、Hoffer和Ailon於2015年提出),其中,沒有引入明確的分類層,目標只考慮中間表示層之間的距離度量。所有這些性質都證明了這樣一種觀點,即完全連接層實際上是冗餘的,在學習和泛化過程中起著很小的作用。

儘管它們起著明顯的次要作用,但完全連接層依然被普遍用作分類層,從網路特徵N維度轉換到所需的類別C維度。因此,每個分類模型必須保持N?C數量的可訓練參數,其隨著類數量以一種線性方式增長。如Springenberg等人所示,當完全連接層被卷積分類器所取代時,這個性質仍然成立。

在這項研究中,我們秉持這樣一種觀點,即對於卷積網路的常見用例來說,用於最終分類變換的參數是完全冗餘的,並且可以用預定的線性變換代替。在許多情況下,使用固定的變換可以使模型參數大大減少,並且可能帶來計算收益。我們認為這有助於在具有低計算能力和較小內存容量的設備上部署這些模型。而且,由於我們保持分類器的固定,所以我們只需要更新更少的參數,從而降低了部署在分散式系統中的模型的通信成本。使用不依賴於類數量的固定變換可以使得模型能夠擴展到大量的可能輸出中,而不需要參數數目的線性成本。我們還認為,這些發現可能還揭示了之前的非線性層對於學習和泛化的重要性。

在這項研究中,我們建議從深度神經網路中使用的分類層中去除參數。經過大量的經驗性研究結果表明,保持分類器的固定,將幾乎不會導致在常見平衡數據集(如Cifar和Imagenet)的分類性能下降,同時還能夠使得可訓練參數的明顯減少。我們認為,固定最後一層可以降低訓練中計算的複雜度以及分散式學習中的通信成本。

此外,我們還認為,在實施得當的情況下,使用哈達瑪矩陣作為分類器可能會帶來一些計算收益,並節省內存,否則的話,將花費大量的變換係數。隨著時間的推移,數據集往往會變得更加複雜(例如,Cifar100、ImageNet1K、ImageNet22k、JFT-300M和語言建模),我們認為在訓練期間,資源匱乏的仿射變換應該保持固定,至少部分是這樣的。我們還認為,應該探索新的有效方法以創建預定義的單詞嵌入,因為它們需要大量的參數,而這些參數在學習新任務時應該是可以得以避免的。基於這些研究發現,我們認為未來的研究應該將重點放在神經網路的非線性部分所學習的表示——直到最後的分類器,因為它似乎是高度冗餘的。

等式1

了解神經網路模型中使用的線性分類器在很大程度上是冗餘的,這使得我們能夠在訓練和理解這些模型時考慮新的方法。

最近的研究提出了模型的泛化能力與其權重的各種標準相關量化之間的聯繫。這樣的結果在我們的模型中可能被簡化了,因為我們有一個標量變數(規模),這個變數似乎是模型中唯一的相關參數(因為我們對最後一個隱藏層進行了正則化,固定了最後一個權重層) 。

在二值化神經網路(Binarized Neural Networks)中,固定分類器的使用可能會得到進一步的簡化,其中,在傳播過程中激活和權重被限制在±1。在這種情況下,最後一個隱藏層的標準對於所有樣本都是恆定的(等於隱藏層寬度的平方根)。這個常數可以被規範為比例常數α中,而且不需要像在等式1中那樣對每個樣本進行正則化。

我們還計划進一步探索更有效的學習單詞嵌入的方法,其中分類器權重中類似的冗餘可能表明更為簡單的令牌表示形式——例如低階或稀疏版本,從而像我們所提出的固定變換那樣,帶來巨大的優勢。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷克世界 的精彩文章:

加州大學提出從因果革命七大成就中為機器學習尋求良好的模型指導

TAG:雷克世界 |