當前位置:
首頁 > 科技 > 「反向傳播」被替代!深度學習可使用「離散優化」方法實現

「反向傳播」被替代!深度學習可使用「離散優化」方法實現

圖:pixabay

原文來源:arxiv

作者:Abram L. Friesen 、Pedro Domingos

「雷克世界」編譯:嗯~阿童木呀、多啦A亮

隨著神經網路往更深層次的發展及其更為廣泛的應用,對於網路量化(即可以大大減少時間和能量需求)和深度網路大型集成系統(即可能具有不可微的組件,並且必須避免梯度消失和爆炸以進行高效學習)的創建來說,具有硬閾值激活(hard-threshold activations)的學習網路變得日益重要。然而,由於梯度下降並不適用於硬閾值函數,所以不清楚如何以一種原則式的方式來對其進行學習。通過觀察硬閾值隱藏單元的設置目標,以最大限度地減少損失,這是一個離散優化(discrete optimization)問題,而用它是可以解決上述問題的。離散優化的目的是找到一組target,使得每個單元(包括輸出)都有一個線性可分離的問題要解決。鑒於這些target,網路分解成多個單一的感知器,然後可以用標準的凸方法(convex approaches)進行學習。基於此,我們開發了一種用於學習深度硬閾值網路的遞歸小批量演算法,其中包括用流行但不太合理的直通評估器(straight-through estimator,STE)作為特例。經驗證明,相較於直通評估器,我們的演算法改進了許多設置中的分類精確度,包括ImageNet中的AlexNet和ResNet-18。

介紹

最初的神經分類方法是學習具有硬閾值激活函數的單層模型,就像感知器(Rosenblatt於1958年提出)。然而事實證明,將這些方法擴展到多層是很困難的,因為硬閾值單元幾乎處處都是零階導數,並且在原點處不連續,因此無法通過梯度下降進行訓練。於是,社區轉向具有soft激活函數的多層網路,例如sigmoid激活函數,以及最近常用的ReLU激活函數,其中通過反向傳播可以有效地計算其梯度(Rumelhart等人於1986年提出)。

這種方法取得了顯著的成功,使得研究人員能夠對數百層的網路進行訓練,並能夠在一系列任務中以相較於以往任何方法都要高的準確度對模型進行學習。但是,隨著網路的深度越來越深,寬泛度越來越廣,使用硬閾值激活函數進行量化逐漸變成一種趨勢,它們能夠實現二進位或低精度推理(例如,Hubara等人、 Rastegari等人、Zhou 等人、Lin和Talathi於2016年、Zhu 等人於2017年皆有所提及)和訓練(如Lin等人於2016年、 Li等人、 Tang 等人、Micikevicius等人於2017年皆有所提及),它可以大大降低現代深度網路所需的能量和計算時間。除了量化,硬閾值單元的輸出規模與其輸入規模無關(或不敏感),這可以緩解梯度消失和梯度爆炸的問題,並且應該有助於避免在用反向傳播進行低精度訓練期間發生的一些病理性問題(Li et等人於2017年提出)。盡量避免出現這些問題對於開發大型深度網路系統至關重要,特別是這些系統可用於執行更為複雜的任務。

基於這些原因的考慮,我們非常興趣開發出一種有效的技術,用以學習具有硬閾值單元的深度神經網路。在這項工作中,我們提出了一個學習深度硬閾值網路的框架,該框架源於對硬閾值單元輸出離散值的觀察結果,這表明組合優化可能為訓練這些網路提供了一種原則性方法。通過為每個隱藏層激活指定一組離散目標,該網路可以分解成許多單一的感知器,且其中的每一個都可以在給定其輸入和目標的情況下很容易地得以訓練。因此,學習深度硬閾值網路的困難之處在於設定目標,使得每個已訓練的感知器(包括輸出單元)具有一個要解決的線性可分離問題,從而實現其目標。我們展示了一個網路,其中使用我們的混合凸組合優化框架可以對其進行學習。

在此框架的基礎上,我們開發了一種遞歸演算法——可行性目標傳播(feasible target propagatio,FTPROP),用於學習深度硬閾值網路。由於這是一個離散優化問題,我們基於每層損失函數開發了用於設定目標的啟發式方法。可以使用小批量版本的FTPROP來對所使用的直通評估器進行解釋和證明(Hinton於2012年提出、Bengio等人於2013年提出),現在,可以將其看作是對於每層有損失函數和目標啟發式具有特定選擇的FTPROP的實例。最後,我們開發出一種新穎的位於每層上的損失函數,可以改進對深度硬閾值網路的學習。經驗證明,在將其應用到ImageNet 中 的AlexNet和ResNet-18上時,相較於直通評估器,我們的演算法得到了許多改進。

相關工作

學習深度硬閾值網路的最常見方法是使用具有直通評估器(STE)的反向傳播,它簡單地用恆等函數代替每個硬閾值單元的導數。STE在量化網路文獻中使用,通過量化激活傳播梯度,並用於平面激活的訓練。後來的研究泛化了STE,以用恆等函數替代每個硬閾值單元的導數,包括恆等函數(identity function)的優化版本。然而,雖然STE在實踐中往往工作得很好,但我們並沒有對其工作原理或該如何選擇替代性導數進行嚴格的辯護或分析。除了在這方面不滿意,我們對STE還不太了解,並隨著層數的增加,而可能導致梯度不匹配的錯誤。我們在這裡展示了(優化)STE是我們框架的一個特例,因此為其提供了原則性的理由,並為探索和理解替代方案奠定了基礎。

使用硬閾值單元進行訓練的另一個常見方法是通過隨機神經元或概率訓練方法。這兩者都是為了軟化硬閾值單元。相反的是,我們的目標是學習具有確定性硬閾值單元的網路。

最後,目標傳播是一種明確將target與網路中每個激活輸出相關聯的方法,然後更新每個層的權重,使其激活更加接近target。我們的框架可以被視為使用組合優化來設置離散目標的目標傳播的實例,而先前的方法採用連續優化。MADALINE Rule II(MRII)演算法也可以看作是我們的框架和目標傳播的一個特例,其中一次只設置一個目標。

結論

在這項工作中,我們提出了一個新的混合凸組合優化框架,用於學習具有硬閾值單元的深度神經網路。組合優化用於為硬閾值隱藏單元設置離散目標,使得每個單元僅具有一個要解決的線性可分離問題。然後,網路分解成單個感知器,給定這些目標可以用標準的凸方法學習。基於此,我們開發了一種用於學習深度硬閾值網路的遞歸演算法,我們稱之為可行目標傳播(FTPROP)和一種高效的小批量版本(FTPROP-MB)。我們表明,通常使用但不合理的直通評估器(STE)是FTPROP-MB的特殊情況,這是由於在每層使用優化合頁損失(hinge loss)和我們的目標啟發式引起的。最後,我們定義了軟合頁損失(soft hinge loss),並表明,與STE相比,在每個層上,具有軟合頁損失的FTPROP-MB提高了CIFAR-10和ImageNet上多個模型的分類精度。

在未來的工作中,我們計劃通過研究框架、約束滿足度和可滿足性之間的聯繫來開發新的目標啟發式和層損失函數。我們還打算進一步探索具有硬閾值單元的深度網路的優勢。特別是,雖然最近的研究清楚地表明了它們減少計算和能源需求的能力,但它們也需要減少梯度消失和爆炸所帶來的影響,以及協方差轉變(covariate shift)和對抗樣本所帶來的影響。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷克世界 的精彩文章:

TensorFlow發布「eager」模式,更易操作!
MIT與FAIR提出「mixup」,用數據和標籤的隨機線性插值提高神經網路健壯性
如何一文讀懂「進化策略」?這裡有幾組動圖!
對抗攻擊最新研究:僅修改「一個像素」即可騙過神經網路!
如何使用Keras函數式API進行深度學習?

TAG:雷克世界 |