漲姿勢！「手動」調試神經網路，可以這樣做

科技 08-23

圖：pixabay

原文來源：hackernoon

作者：AndreyNikishaev

「機器人圈」編譯：嗯~阿童木呀、多啦A亮

在計算機領域，即使是對業界專家來說，調試神經網路也是一項艱巨的任務。數百萬個參數混雜在一起，即使是一個小小的變化卻可以將你所有的努力付之一炬。如果沒有調試和可視化，你的所有行動都只不過是將一個硬幣彈出，卻沒有入罐，更糟糕的是它會浪費你的時間。在本文中我收集了一些方法，以幫助你能夠儘快找到問題所在並將其加以解決。

數據集問題

嘗試用小型數據集對你的模型進行過度擬合

一般來說，神經網路應該在數百次迭代中使你的數據過度擬合。如果在這過程中你的損失沒有降低，那你的問題就更嚴重了。

使用迭代邏輯來解決問題

嘗試構建最簡單的網路，以解決你的主要問題，然後逐步延伸到全局問題。例如，如果你正在創建風格遷移網路，請嘗試首先訓練你的腳本以便在一個圖像上進行風格遷移。如果它表現良好的話，接下來你要做的就是創建可以將風格遷移到任何圖像的模型。

使用適度失真數據集

例如，如果你想訓練網路以對數據進行分類，那麼你的訓練數據應該在每個類中都具有相同數量的輸入。而在其他情況下，就有可能會出現類中過度擬合的問題。神經網路並不是對於所有的失真都是不變的，而你需要基於此專門對它們進行訓練。因此，輸入失真會提高網路的精確度。

網路容量VS數據集大小

你的數據集應該足以讓網路學習。如果你具有小數據集和大網路，那麼它將停止學習（在某些情況下，這將導致大量不同輸入的結果相同）。如果你具有大數據集和小網路，那麼你會看到損失跳躍的情況，導致網路容量不能存儲如此多的信息。

使用平均中心化

這將從你的網路中移除噪音數據，提高訓練效果，並且在某些情況下還有助於解決NaN（無窮與非數值）問題。但請記住，如果你有時間序列數據，那麼你應該使用批處理中心化而不是全局。

神經網路問題

首先嘗試更為簡單的模型

我看到很多種情況，比如有很多人在第一次嘗試使用網路時便使用諸如ResNet-50，VGG19等這樣的標準大型網路，但是到後來發現，其實他們的問題使用僅有幾層的網路便可以解決。所以如果你沒有標準的大問題，你可以首先從小型網路開始。你添加的東西越多，就越難以訓練模型以解決你的問題，所以從小型網路開始也往往會節省很多時間。不過你還應該記住，大型網路會消耗大量內存、增添大量操作。

可視化是必須的

如果你現在使用的是Tensorflow，那麼一定要開始使用Tensorboard。如果沒有的話，請嘗試為你的框架找到一些可視化工具，或者自己動手編寫。因為這將有助於你在早期訓練階段就找到所存在的問題。你應該明確看到的事情包括以下幾種：損失、權重直方圖、變數和梯度。如果你處理的是計算機視覺（CV），那麼你需要始終可視化過濾器以了解網路正在看到的內容。

權重初始化

如果你不正確地設置權重，那麼你的網路很有可能因為零梯度或對所有神經元的類似更新而變得不可訓練。此外，你還應該記住，權重是與學習率相結合的，因此大的學習率和大的權重可能導致NaN問題。

對於小型網路來說，使用一些高斯分布initializer就足夠了。

對於深度網路來說，這些就沒那麼有效了，因為你的權重可能會多次相乘，從而導致產生一個非常小的數字，而這幾乎可以消除反向傳播過程中的梯度。而現在，得益於Ioffe和Szegedy，我們擁有了批量歸一化（，從而減輕了許多不必要的麻煩。

標準問題使用標準網路

有很多預訓練模型（1）（https://github.com/tensorflow/models）（2）（https://github.com/tensorflow/models/tree/master/slim#Pretrained），你可以馬上使用。在某些情況下，你可以立即使用它們，也可以使用微調技術，節省訓練時間。主要思想是，大多數網路容量對於不同的問題是一樣的。例如，如果我們談論的計算機視覺相比第一層網路將包括簡單的過濾器，如線條、點、角度與所有圖像相同，那麼你不需要重新訓練它。

使用學習率衰減

這幾乎總是會給你一個極大的推動力。Tensorflow有很多不同的衰減調度器。

使用Grid Search 、Random Search 或 Config file調整超參數

不要手動檢查所有參數，這是非常耗時且無效的。我通常對所有參數使用全局配置，運行檢查結果後，我將明確在哪個方向再做進一步調查。如果這種方法對你沒有幫助，那麼你可以使用Random Search或 Grid Search。

激活函數