ICLR 2018接收論文公布:接收率高達42.7%
選自openreview
機器之心編譯
參與:蔣思源
ICLR 作為深度學習頂級會議,今年共接收到了 981 篇有效論文。去年 11 月,ICLR 2018 論文評審結果出爐,今天主辦方正式放出接收論文結果:2.3% 的 oral 論文、31.4% 的 poster 論文、9% 被接收為 workshop track,51% 的論文被拒收、6.2% 的撤回率。而備受關注的論文《Matrix capsules with EM routing》作者也得以揭曉:Geoffrey Hinton 為一作,其他兩位作者為 Sara Sabour、Nicholas Frosst。
論文接收列表:https://openreview.net/group?id=ICLR.cc/2018/Conference
23 篇 Oral 論文都是非常優秀的論文,我們可以預計本次大會的獲獎論文基本上就會在這 23 篇優秀論文中產生。上一次我們報道過的 ICLR 2018 論文雙盲審評分列表前幾名的論文也都在口頭報告中,例如 On the Convergence of Adam and Beyond 和 Certifiable Distributional Robustness with Principled Adversarial Training 等。不過最近評分列表有所更新,排在前面的論文位置有所變動,例如 i-RevNet 的評分由 9;8;7 變為了 9;8;8,不過 i-RevNet 並不在 Oral 論文的列表內。
以下是評分排名較前的一些論文:
在 Oral 論文中,有很多非常有意思的研究主題,包括新型卷積架構、訓練和推斷方式、最優化方法和強化學習策略等。因此下面我們從少量 Oral 論文出發,並簡要介紹這些比較有意思的話題。
論文 Certifiable Distributional Robustness with Principled Adversarial Training 到目前為止仍然獲得了最高的評分(9;9;9),它也接收在 Oral 論文中。該論文的主題是關於對抗樣本的,並希望利用分散式魯棒優化的原則來保證對抗訓練的性能。值得注意的是,最近 Goodfellow 在論文 Adversarial Spheres 也在研究具有良好數學定義的數據流形中的對抗樣本,因此我們可以對模型學到的決策邊界進行定性地描述。Goodfellow 表示,我們可以自然地改變數據流形的維度來研究輸入維度的改變對神經網路泛化誤差的影響。
論文鏈接:https://arxiv.org/pdf/1710.10571.pdf
摘要:神經網路很容易受到對抗樣本的干擾,因此研究人員提出了許多啟發式的攻擊與防禦機制。我們採取了分散式魯棒優化的原則,以保證模型在對抗性擾動輸入的條件下保持性能。我們通過給予 Wasserstein ball 上的潛在數據分布一個擾動來構建 Lagrangian 罰項,並且提供一個訓練過程以加強模型在最壞的訓練數據擾動情況下能持續正確地更新參數。對於平滑的損失函數,我們的過程相對於經驗風險最小化可以證明有適度的魯棒性,且計算成本或統計成本也相對較小。此外,我們的統計保證允許我們高效地證明總體損失的魯棒性。因此,該研究結果至少匹配或超越監督學習和強化學習任務中的啟發式方法。
如下所示,魯棒性的模型在原版的馬爾科夫決策過程(MDP)中要比一般的模型學習更高效:
圖 4:訓練中 Episode 的長度,其中環境設置最大為 400 Episode 的長度。
學習過程在 ICLR 2018 的接收論文中也非常重要,在 Oral 論文 ON THE CONVERGENCE OF ADAM AND BEYOND 中,研究者們重點探討了 Adam 優化方法與 SGD 的收斂性能,並通過反例證明了 Adam 在某些情況下可能會不收斂。正如最近 Sebastian Ruder 總結的 2017 年最優化方法進展,從經驗上來說,適應性學習率方法一般在目標識別、字元級語言建模和句法分析任務中要比帶動量的 SGD 方法所搜索到的極小值差。
一般來說,權重衰減因素可以部分解釋 Adam 方法在一些數據集上比帶動量的 SGD 方法泛化性能更差的原因。而另一個導致 Adam 收斂性不那麼好的原因就是這篇 Oral 論文所表示的指數滑動平均。該論文表示 Adam、RMSprop 和 Adadelta 等方法都是基於使用前面迭代所產生梯度平方的指數滑動平均值,在對該滑動平均值取平方根後用於縮放當前梯度以更新權重。指數均值的貢獻是積極的:這種方法應該防止學習率在學習過程中變得逼近無窮小,這也是 Adagrad 演算法關鍵的缺點。然而,這種梯度的短期記憶能力也成為了其它情況的障礙。
論文鏈接:https://openreview.net/pdf?id=ryQu7f-RZ
摘要:近來提出的幾種隨機優化方法已經成功地應用於深度網路的訓練,如 RMSPROP、ADAM、ADADELTA 和 NADAM 等方法,它們都是基於使用前面迭代所產生梯度平方的指數滑動平均值,在對該滑動平均值取平方根後用於縮放當前梯度以更新權重。根據經驗觀察,這些演算法有時並不能收斂到最優解(或非凸條件下的臨界點)。我們證明了導致這樣問題的一個原因是這些演算法中使用了指數滑動平均(exponential moving average)操作。本論文提供了一個簡單的凸優化案例,其中 ADAM 方法並不能收斂到最優解。此外,我們還描述了過去文獻中分析 ADAM 演算法所存在的精確問題。我們的分析表明,收斂問題可以通過賦予這些演算法對前面梯度的「長期記憶」能力而得到解決。因此本論文提出了一種 ADAM 演算法的新變體,其不僅解決了收斂問題,同時還提升了經驗性能。
圖 2:ADAM 和 AMSGRAD 演算法在 Logistic 回歸、前饋神經網路和 CIFARNET 上的性能對比。
在論文 Wasserstein Auto-Encoders 中,其提出了在變分自編碼器中使用 Wasserstein 距離進行度量,從而讓 VAE 能夠產生與生成對抗網路相媲美的效果。
我們提出了 Wasserstein 自編碼器(WAE)——一個用於構建數據分布的新型生成方法。WAE最小化模型分布與目標分布之間的 Wasserstein 距離的懲罰形式,這導致了與變分自編碼器(VAE)[1] 所使用的不同的正則化器。這個正則化器鼓勵已編碼的訓練分布匹配先驗分布。我們對比了我們的演算法與其他幾種技術,表明它是對抗自編碼器(AAE)的一個推廣形式 [2]。我們的實驗表明,WAE 具有 VAE(穩定訓練、編碼器 - 解碼器架構、良好的潛在流形結構)的許多特性,同時產生質量更好的樣本(測量標準是 FID 得分)。
如上圖所示,VAE 與 WAE 都最小化了兩項:即重構成本和正則化器對 P_z 和編碼器 Q 產生的分布之間差異的懲罰。對於從 P_X 中抽出的所有不同輸入樣本 x,VAE 會迫使 Q(Z|X = x) 匹配 P_z。這展示在圖(a)中,其中每一個紅色的球形區域會被迫與分布 P_z(白色區域)相匹配。因為紅色的區域相互交叉,這將導致重構會存在問題。相反,如圖(b)中的綠色球形區域所示,WAE 會強迫連續混合混合 Q_Z := ∫Q(Z|X)dP_X 與 P_Z 相匹配。因此,不同的樣本將有機會遠離其它,重構也會有更好的性能。
除了 Oral 論文外,更多的接收論文屬於 Poster(31.4%)。在這一部分的接收論文中,比較有意思的是 Hinton 的第二篇 Capsules 論文 Matrix capsules with EM routing 被接收了。而那篇以資訊理論為基礎來分析深度學習的論文 On the Information Bottleneck Theory of Deep Learning 也得到了接收。
最後,該列表還展示了大會所拒收的論文和撤回的論文。在這些被拒的論文中,也有很多如固定 Adam 權重衰減和動量調參等學習演算法。
本文為機器之心編譯,轉載請聯繫本公眾號獲得授權。
?------------------------------------------------


※開放物聯協議,這是阿里AI Labs實現音箱百萬銷量後面對的新挑戰
※我是可微分編程的粉絲,Gary Marcus再回應深度學習批判言論
TAG:機器之心 |