1小時訓練ImageNet：Facebook賈揚清何愷明論文

最新 06-10

在不犧牲生成模型質量的前提下，每秒使用 256 顆 GPU 訓練 40,000 張圖像

新智元編譯

來源：venturebeat.com，research.fb.com

VentureBeat 報道作者：Blair Hanley Frank

譯者：文強、張易

【新智元導讀】Facebook 人工智慧實驗室與應用機器學習團隊合作，提出了一種新的方法，能夠大幅加速機器視覺任務的模型訓練過程，僅需 1 小時就訓練完ImageNet 這樣超大規模的數據集。系統使用 Caffe 2 開源框架訓練，可以拓展到其他框架上。

Facebook 開發了一種新的方式訓練計算機視覺模型，能夠大大加速公司人工智慧工作。使用新技術，Facebook 可以在一小時內訓練圖像分類模型，同時保持其準確性。

在最高性能的情況下，Facebook 今天推出的新系統，在不犧牲生成模型質量的前提下，每秒使用 256 顆 GPU 訓練 40,000 張圖像。這項工作幫助數據科學家更快地測試假說，有助於提高未來研究的質量。

加速機器視覺訓練的時間對於 Facebook 來說十分重要，因為機器視覺是增強現實和機器學習的關鍵，這兩項都是 Facebook 未來業務的關鍵。

論文其中一位作者、FB 應用機器學習團隊的軟體工程師 Pieter Noordhuis 在接受 TechCrunch 採訪時表示，加速模型的生成（creation），意味著公司的數據科學家可以每天運行多個模型排列，而不必花一天時間進行單次測試。

Noordhuis 說，使用新系統，原本需要一周的 6 次試運行一天能夠完成。

Facebook 實現這一加速工作的方法是擴展訓練中處理的圖像小批量的（mini-batch）大小，從而在大量 GPU 運行加速學習的過程。然而，增加小批量的大小也需要增加學習率，這在過去會導致精度的降低。

Facebook 團隊提出的方法是增加一個新的預熱階段（a new warm-up phase），隨著時間的推移逐漸提高學習率和批量大小，從而幫助保持較小的批次的準確性。

確保模型擴展的有效性：上圖顯示了 ImageNet top-1 驗證錯誤率 vs 小批量（minibatch）大小，誤差範圍正/負 2 個標準差。我們提出一種簡單通用的技術，能夠將分布式同步 SGD minibatch 大小最多擴展到 8k 張圖像，同時保持 minibatch 訓練前 Top-1 位的錯誤率不變。對於所有大小的 minibath，我們將學習率設置為 minibatch 的線性函數，並對前幾個訓練時期（epoch）應用一個簡單的預熱（warm-up）。所有其他超參數保持固定。使用這種簡單的方法，我們的模型精度對於 minibatch 尺寸是不變的。這項技術使我們可以在線性拓展 minibatch 大小的情況下，以高達 90％的 efficiency 減少訓練時間，在 1 小時內在 256 顆 GPU 上訓練出了精確的 ResNet-50 模型，minibatch 大小為 8k。來源：論文圖1。

如果剛才那張圖讓你覺得不夠漂亮，那麼再看一下這張。上圖顯示了在訓練 epoch 固定為 90 的情況下，ImageNet-5K top 1 驗證錯誤 vs minibatch 大小。從圖中可見，訓練數據量增加 5 倍對擴展的有效性（efficiency）沒有顯著影響。來源：論文圖6

用這種方法，他們能夠為一個小批量為 8192 張的圖像，保持小批量大小 256 圖像大致相同的錯誤率。

通過不斷更新，使 minibatch 為 8192 與 256 的錯誤率大致相同：上圖顯示了使用不同預熱策略時，miniibatch 大小為 256 張圖像（紅）與 8192 張圖像（藍）的訓練誤差曲線（驗證誤差為 5 次運行的平均值±標準差）。其中，minibatch 大小為 kn，推理學習速率為 η。來源：論文圖2

這項研究的好處並不局限於 Facebook 公司內。所有計算都使用開源 Caffe2 框架在伺服器上運行，使用其他伺服器和其他框架的人也可以根據論文中列出的技術，看到類似的增益。

話雖如此，目前尚不清楚這種技術對於不同的問題會產生什麼結果。Noordhuis 還表示，這項研究的另一大主要優點是，證明了 Facebook 的 AI 研究團隊（FAIR）的價值。

這一工作是由 Facebook 與人工智慧相關的兩個組織合作完成的。FAIR 提出了逐漸擴大批量大小和新增加預熱階段的想法，Facebook 的應用機器學習團隊（AML）則利用其專業知識，將相關係統應用於數據中心工作。

論文- 精確大規模小批量 SGD：1 小時內訓練完 ImageNet 數據集

摘要

深度學習受益於大規模神經網路和大規模數據集的蓬勃發展。然而，較大的網路和更大的數據集會導致更長的訓練時間，阻礙研究與開發進展。分布式同步隨機梯度下降（ SGD）通過在一組並行工作的處理器中劃分 SGD 小批量，為這個問題提供了一個潛在的解決方案。然而，為了使這個方案有效，每次預處理的工作量必須很大，這意味著 SGD 小批量大小會產生顯著的增長。在本文中，我們通過實驗表明，在 ImageNet 數據集上，大型的小批量會引起優化困難，但當這一問題被解決時，訓練過的網路會擁有很好的泛化性能。具體來說，我們展示了使用最高達 8192 張圖像的大規模 minibatch 進行訓練時，不會造成準確性的顯著損失。為了實現這一結果，我們採用線性縮放規則調整學習率，作為 minibatch 的函數，並開發了一種新的預熱方案，在訓練早期克服優化困難。通過這些簡單的技術，我們基於 Caffe2 的系統可以在一小時內訓練在 256 顆 GPU 上運行的 ResNet-50（minibatch 大小為 8192），並使其精確度與小 binibatch 相匹配。使用市售硬體，從 8 顆 GPU 擴展到 256 顆 GPU 時，我們的實現了大約 90％的精度保持。這一系統使我們能夠高效地對互聯網級規模的數據進行視覺識別模型的訓練。

方法：

為了克服 minibatch 過於巨大的問題，我們使用了一個簡單的、可泛化的線性縮放規則來調整學習率。雖然早期研究中已經開始使用這一指導方針，但其在實踐中的局限性並沒有被很好地理解，而起，我們發現它並不為研究界所知。為了成功應用這一規則，我們提出了一個新的預熱策略，即在訓練開始時使用較低學習率的策略[16]，以克服早期的優化困難。重要的是，我們的方法不僅符合基線驗證誤差，而且還產生與了小型 minibatch 基準線匹配的訓練誤差曲線。

實驗：

我們的綜合實驗表明，與最近的一些研究相比，優化困難是大型 minibatch 的主要問題，而不是不好的泛化（至少在 ImageNet 上是這樣）。此外，我們展示了，線性縮放規則和預熱泛化到了更複雜的任務，包括對象檢測和分割等。我們通過最近開發的 Mask R-CNN 證明了這一點。我們注意到，以前的研究中還沒有一個強壯、成功的解決各種 minibatch 的指導方針。

我們的目標是在保持訓練和泛化精度的同時，使用大型的 minibatch 代替小型的 minibatch。這對分布式學習尤其有意義，因為它可以讓我們通過簡單的數據並行來擴展到多個工作者（本文中即為 GPU），也不會減少每個工作者的工作量，而不會犧牲模型的準確性。

正如我們將在綜合實驗中展示的，我們發現以下學習率縮放規則對於大範圍 minibatch 大小上都驚人地有效：