當前位置:
首頁 > 新聞 > 田淵棟等人提出卷積濾波器學習新方法:可用於非高斯輸入分布

田淵棟等人提出卷積濾波器學習新方法:可用於非高斯輸入分布

選自arXiv

機器之心編譯

參與:黃小天、劉曉坤

近日,田淵棟等人在 arXiv 上發表了一篇題為《When is a Convolutional Filter Easy To Learn?》的論文,分析了用於學習帶有 ReLU 激活函數的卷積濾波器的(隨機)梯度下降演算法的收斂,整個過程沒有依賴輸出分布的任何特定形式,論證也只用到了 ReLU 定義,這與先前受限於標準高斯分布的工作相反。同時這一理論也證明了深度神經網路中兩階段的學習率策略。

深度卷積神經網路(CNN)已經在很多應用中展現出了人工智慧的最佳水平,如計算機視覺、自然語言處理和圍棋等複雜遊戲。儘管目標函數具有非常高的非凸性,簡單的一階演算法(如隨機梯度下降及其變體)通常可以成功地訓練這樣的網路。另一方面,卷積神經網路的成功從優化角度來考慮仍然是難以捉摸的。

當輸入分布不受約束時,已有的結果大多數為負,如 3 節點神經網路學習的硬度(Blum & Rivest,1989)或非重疊卷積濾波器(Brutzkus & Globerson,2017)。最近,Shamir 等人表明學習單層全連接神經網路對於某些特定的輸入分布來說是非常困難的。

這些負面結果告訴我們,為了解釋 SGD 學習神經網路的成功,還需要對於輸入分布做出更強假設。最近的一系列研究(Tian,2017;Brutzkus & Globerson,2017;Li & Yuan,2017;Soltanolkotabi,2017;Zhong 等人,2017)假設輸入分布為標準高斯 N(0,I),並展示了(隨機)梯度下降能夠在多項式時間內得到具有 ReLU 激活的神經網路。

田淵棟等人提出卷積濾波器學習新方法:可用於非高斯輸入分布

圖 1.(a)研究人員正在考慮的網路架構。給定輸入 X,我們提取它的補丁 {Zi} 並將其傳遞至共享權重向量 w。隨後輸出會被發送到 ReLU 並加和產生最終的標籤(以及評估)。(b)-(c)上,我們提出了兩個收斂條件。我們希望數據與(b)高度相關,(c)更加集中於真值向量 w*。

這些分析的一個主要問題在於它們依賴於高斯分布的專門分析,因此不能推廣到非高斯情況下(真實世界的分布情況)。對於一般輸入的分布而言,我們需要新的技術。

在卡耐基梅隆大學、南加州大學和 Facebook 共同發表的這篇論文中,研究人員考慮了一種相對簡單的架構:一個卷積層,隨後跟著一個 ReLU 激活參數,然後是平均池化。形式上,以 x ∈ Rd 作為輸入示例。例如,一張圖片,我們從 x 中生成 k 個補丁,每個大小均為 p: Z ∈ R p×k,其中第 i 列是已知函數 Zi = Zi(x) 生成的第 i 個補丁。對於尺寸為 2,步幅 1 的濾波器,Zi(x) 是第 i 個和第 (i + 1) 個像素。因為對於卷積濾波器,我們只需要關注補丁而不是輸入,在下面的定義和定理中,我們將 Z 作為輸入,並將 Z 作為 Z 的分布:(σ(x) = max(x, 0) 是 ReLU 激活函數)。

田淵棟等人提出卷積濾波器學習新方法:可用於非高斯輸入分布

如圖 1(a)所示,很多計算機視覺研究都使用這樣的結構作為網路的第一層 [Lin et al., 2013, Milletari et al., 2016]。研究員僅關注可實現的案例,其中訓練數據由式(1)以及一些 Z 輸入分布的未知參量 w?生成,比如 `2 loss ` (w, Z) = 1/2 (f(w, Z) ? f(w?, Z))2,通過(隨機)梯度下降方法學習,即:

田淵棟等人提出卷積濾波器學習新方法:可用於非高斯輸入分布

其中ηt 是訓練步長,在訓練過程中可能發生變化,g(wt) 是一個隨機函數,它的期望值等於 population gradient E [g(w)] = EZ~Z [?` (w, Z)]。研究員的訓練目標是了解假如 w 經過(隨機)梯度下降優化然後 w → w?的情況下,發生了什麼。

通過這樣的設定,主要成果如下:

濾波器的可學習性:研究員展示了如果輸入補丁之間高度相關(Section 3),即θ (Zi , Zj ) ≤ ρ(一些很小的ρ值,且ρ>0),那麼隨機初始化的梯度下降和隨機梯度下降將在多項式時間內恢復濾波器。此外,強相互作用表明了更快的收斂速度。研究員在 [Tian, 2017] 公開聲稱,這是對非高斯輸入分布的卷積濾波器(甚至是最簡單的單層單神經元網路)的基於梯度的演算法的第一恢復保證。

研究員正式提出了輸入分布的平滑度和濾波器權重恢復的收斂速度之間的聯繫,其中平滑度的定義是活化區域的二次矩的最大和最小的本徵值的比(Section 2)。研究表明,輸入分布越平滑,收斂速度越快,其中高斯分布作為一個特例,收斂到了最緊緻的範圍。這個理論結果同樣證實了由 [He et al., 2016, Szegedy et al., 2017] 提出的步長(隨時間)可變的兩態學習速率策略。

田淵棟等人提出卷積濾波器學習新方法:可用於非高斯輸入分布

圖 3:關於合成與真實數據的實驗。(a)單層單個神經元模型對不同平滑度的輸入分布的隨機梯度下降的收斂率。較大的σ更平滑;(b)隨機梯度下降的收斂率用於學習不同補丁親近度的輸入分布上的卷積濾波器。較大的σ2 更平滑。

田淵棟等人提出卷積濾波器學習新方法:可用於非高斯輸入分布

論文鏈接:https://arxiv.org/abs/1709.06129

摘要:我們分析了用於學習帶有 ReLU 激活函數的卷積濾波器的(隨機)梯度下降演算法的收斂行為,整個過程沒有依賴輸出分布的任何特定形式,我們的論證也只用到了 ReLU 的定義,這與先前受限於標準高斯分布的工作相反。我們表明帶有隨機初始化的(隨機)梯度下降能夠學習多項式時間中的卷積濾波器,收斂速度取決於輸入分布的平滑度和補丁的接近度。據我們所知,這是對非高斯輸入分布的卷積濾波器的基於梯度的演算法的第一恢復保證。我們的理論也證明了深度神經網路中兩階段的學習率策略。儘管我們聚焦於理論,但也展現了論證理論發現的實驗。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

用智能機器人當導購……傳統企業蘇寧的AI布局在於支持自己的6大產業
從語言建模到隱馬爾可夫模型:一文詳述計算語言學

TAG:機器之心 |