當前位置:
首頁 > 最新 > 一周精品論文分享-0325

一周精品論文分享-0325

分享幾篇最近閱讀的論文。經常會有人問我,為什麼簡單粗暴的模型平均(Model Average)方法會比單機或單卡的方法取得更好的泛化效果呢?下面這篇文章很好的解釋了這個問題。

Averaging Weights Leads to Wider Optima and Better Generalization

摘要:深度神經網路通常通過採用帶衰減學習率的隨機梯度下降法(SGD)來最大或最小化模型的損失函數,以此來優化模型參數。結果表明,當學習率為常值或循環變化時,簡單平均SGD尋優軌跡上的多個點,比常規訓練取得更好的泛化能力。我們還表明,這種隨機加權平均(Stochastic Weight Averaging, SWA )方法比SGD方法具有更寬的優化範圍(broader optima),並且與最近提出的單模型Fast Geometric Ensembling( FGE )方法近似。使用SWA,我們在CIFAR - 10、CIFAR - 100和ImageNet上的一系列最優的Residual Network、PyramidNets、DenseNets和Shake-Shake network上的測試精度比常規SGD訓練有顯著提高。總之,SWA非常容易實現,明顯提高了泛化能力,並且幾乎沒有計算開銷。

A Survey of Deep Learning Techniques for Mobile Robot Applications

摘要:近年來,深度學習的發展吸引了人們對深度人工神經網路如何應用於機器人系統的研究。本綜述將對當前的研究成果進行總結,重點介紹移動機器人在深度學習方面取得的成果和存在的問題。

Attention on Attention: Architectures for Visual Question Answering (VQA)

摘要:視覺問答(Visual Question Answering, VQA )是深度學習研究領域中一個越來越熱門的話題,需要將自然語言處理和計算機視覺技術協調成一個統一的體系結構。通過開發13種新的注意機制並引入一個簡化的分類器,我們構建了一個用於解決VQA問題的第一個深度學習模型。我們進行了300個GPU小時的大規模超參數和體系結構搜索,取得了64.78 %的評估分數,優於現有最先進的單模型63.15 %的驗證分數。

Gradient Descent Quantizes ReLU Network Features

摘要:深度神經網路通常在過參數化(Over-parametrized)的狀態下訓練時(即,訓練樣本個數少於參數個數),為什麼訓練收斂於一個泛化的解仍然是一個亟待解決的問題。一些研究結果指出,在訓練過程,小批量隨機梯度下降( SGD )容易導致參數尋優收斂於具有特定性質的局部最優值。然而,即使在採用二維的平面梯度下降( GD )的情況下,在過參數化區域(over-parametrized regime)中尋優得到解也相當好,並且這種現象很難理解。

本文假設採用很小初始值和學習率,分析具有ReLU激活函數的前饋網路的這種行為,揭示了一種量化效應:權值向量趨於收斂於由輸入數據確定的少量方向上。結果表明,對於給定的輸入數據,可以獲得的「簡單」函數數量很有限,與網路規模無關。這使得這些函數類似於線性插值(對於給定的輸入數據,存在有限數量的triangulation,每個triangulation通過線性插值來確定函數)。我們也在思考是否這種類比可以擴展到一般性質,雖然通常與分布無關的泛化性質不成立,但是對於例如具有有界二階導數的平滑函數,近似性質(Approximation property)成立,其可以「解釋」網路(無界大小)到不可見輸入的泛化。

Group Normalization

摘要:Batch Normalization( BN )是深度學習發展中的一項里程碑似的技術,使各種網路能夠快速進行訓練。然而,根據Batch的大小進行歸一化也引入了一些問題,即當Batch Size變小時,由於不準確的batch sampling導致BN的估計誤差迅速增大。這限制了BN用於訓練較大模型和將特徵轉移到計算機視覺任務(包括檢測、分割和視頻)的使用,這些任務由於受內存大小的限制,智能使用較小的batch size。本文提出了一種簡單的Group Normalization(GN),可以看做BN的簡單的變體。GN將channels分成組,並在每個組內計算歸一化的均值和方差。GN的計算與batch size無關,在大批量範圍內精度穩定。在ImageNet訓練的ResNet-50上,當Batch size為2時,GN的誤差比BN低10.6 %;當使用典型batch size時,GN與BN的性能相當好,並且優於其他Normalization的方法。此外,GN可以自然地從預訓練轉移到微調。GN在COCO比賽的目標檢測和分割以及動力學視頻分類方面均優於基於BN的同類演算法,表明GN能夠有效地替代BN。GN在現有的深度學習庫中只需幾行代碼就可以實現。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 深度學習與NLP 的精彩文章:

朋友,千萬不能錯過!13個自然語言處理的深度學習框架

TAG:深度學習與NLP |