百度開源新一代深度學習硬體測試工具：覆蓋Titan Xp到iPhone7

新聞 06-30

選自Baidu Research

機器之心編譯

今天，百度研究院開源了新一代 DeepBench，一款深度學習基準測試工具，這次升級加入了推理測量等功能。

百度開源新一代深度學習硬體測試工具：覆蓋Titan Xp到iPhone7

1. 介紹

2016 年 9 月，百度推出了第一版 DeepBench，它是一個開源基準測試工具，用於測試訓練深度學習神經網路的基本性能指標，可兼容不同硬體平台上的神經網路庫。

DeepBench GitHub 地址：https://github.com/baidu-research/DeepBench

DeepBench 的主要目的是測試深度學習系統在不同硬體平台上的運行效果，它使用神經網路庫來測試硬體系統的表現，而非深度學習框架或模型訓練時間。下圖展示了百度 DeepBench 如何應用於不同深度學習系統。

百度開源新一代深度學習硬體測試工具：覆蓋Titan Xp到iPhone7

百度表示，構建 DeepBench 的最大目標是測試：「哪一種硬體在訓練深度神經網路時具有最佳性能？」通過測試深度學習任務的運行速度，DeepBench 可以幫助開發人員選擇最優的硬體配置。此外，DeepBench 也是向硬體供應商提供交流機會的平台。

DeepBench 包含五個深度學習訓練基礎模塊：矩陣乘法、卷積、循環運算（vanilla 和「LSTM」）以及它們的簡化版。在實驗中，百度研究人員測試了所有方法的正向和反向運算，並專註於單精度浮點運算的訓練性能。你可以在 DeepBench 的博客中獲得更多信息：https://svail.github.io/DeepBench/

自上次發布以來，百度已經接到了來自業界和學界的大量反饋信息。這次，DeepBench 的測試結果中加入了三種新的英偉達 GPU：TitanXp、1080Ti 和 P100。由於廣受歡迎，DeepBench 正在成為深度學習和新硬體開發的標準之一。

深度學習是一個發展很快的領域，大量新的應用正在不斷出現。在測試內容中，新的 DeepBench 加入了推理的測試功能。

2. 推理

對於在 DeepBench 中加入核推理測試的呼聲一直很高，這是一個非常具有挑戰性的問題，因為大多數深度學習應用都具有其特殊性。為了收集用於基準測試的核，百度研究人員調查了公司內部使用的多種不同應用，選擇了其中最熱門的幾種。此外，新版本中也包含了業內常用的深度學習模型性核如深度殘差網路（Resnet）[5]。

深度學習推理也為深度學習模型帶來了一些約束。例如，在實際應用場景下，語音識別必須是實時的，它對延遲的要求很高。正如在 Deep Speech2[2] 中所提到的，雙向循環模型不適用於實時交互的語音識別應用。因此，百度研究人員使用了前向循環模型。DeepBench 中的推理核均來自已經部署，並在延遲和吞吐量上滿足應用要求的模型。

這些推理核在測試中會進行與訓練集相同的一系列操作，如矩陣乘法、卷積和循環操作。此外還有一些不同之處，下文將對此進行討論。

2.1 部署平台

深度學習的大規模應用，如圖像搜索、機器翻譯和語音識別通常都會部署在數據中心裡。用戶從客戶端嚮應用發出請求，深度學習模型在伺服器中負責處理。遠端伺服器通常是含有多個處理器的強大計算機，足以運行非常複雜的深度神經網路模型。這種方法的缺點也顯而易見：由於網路帶寬等問題的限制，數據傳輸過程中的延遲難以避免——用戶在使用服務時必須連接網路。為了解決這些問題，近年來出現了一些可以部署在移動設備中的模型 [1，11，12]。然而這些模型需要適應移動和可穿戴設備的計算能力、能耗和內存。

在 DeepBench 上，從伺服器到終端設備平台的基準都已包含在內。除了上述新顯卡的支持外，DeepBench 還支持三種 ARM 系統：Raspberry Pi3、iPhone6 和 iPhone7，所有人都可以使用這些基準測試並將結果添加到存儲庫中。

2.2 縮小批量

為了縮小延遲，大多數聯網應用的請求在傳遞到數據中心後並不會被分割成多線程。這樣做有兩個缺點：單獨的處理請求使得操作帶寬隨處理器需要載入網路的權重受到限制，這使得處理器難以有效地利用自身高速緩存；另外，可用來分類一個請求的並行度是有限的，這使得我們難以利用 SIMD 或多核並行運算。在這種情況下，RNN 難以部署，因為 RNN 依賴於矩陣向量乘法，而它難以並行計算。

為了解決這些問題，百度構建了批處理調度程序 Batch Dispatch[2]，它在執行前向傳播之前會將用戶請求封裝為不同批次。這樣，我們就可以通過調整批尺寸來優化效率，改善延遲問題。批尺寸越大，用戶等待的時間就越多。這對批數量造成了限制。

在實踐中，批尺寸 4 或 5 對於數據中心部署的效率較高，而在移動設備部署中，批尺寸被限制為 1。

2.3 推理精度

深度神經網路使用單精度 32 比特浮點數進行訓練。在 3.2 節中將有對訓練精度的詳細討論。推理精度要求明顯低於訓練要求。與浮點模型相比，有幾種不同的模型可以部署 8 位表示用於推理，而它們幾乎沒有精度損失 [4,9,15]。因此，對於推理核，我們分別指定 8 位和 32 位乘法和累加的最小精度。並非所有硬體平台都支持這些最低精度要求。我們將接受任何具有精度支持大於最小指定精度的平台的結果。所有結果將包括用於基準測試的精度。

為了使用 ARM 處理器的 8 位輸入進行基準矩陣乘法，DeepBench 使用 Gemmlowp 庫，來自 ARM Compute Library 的卷積核用於卷積基準測試。ARM Compute 庫僅支持單精度卷積，低精度卷積支持會隨後提供。ARM Compute 庫對 RNN 沒有任何支持。因此，DeepBench 不包括 ARM 設備的 RNN 結果。

對於伺服器部署，DeepBench 使用 CudNN 和 cuBLAS 庫。對於英偉達 GPU 而言，RNN kerenel 僅支持單精度，結果報告同樣給出。有關不同處理器支持哪些操作的更多詳細信息，請參見第 4 節。

2.4 稀疏核

稀疏神經網路是大多數權重為零的神經網路。這些零權重對神經網路的預測沒有貢獻，但它減少了對於內存和計算性能的需求，從而使深度學習模型能夠部署在移動設備上。RNN 的推理性能主要由硬體的內存帶寬支配，因為大多數工作是在每個時間步長中進行參數讀取。稀疏計算會帶來準確性的懲罰，但如果調整得當，稀疏數據需求也能滿足使用。

百度開源新一代深度學習硬體測試工具：覆蓋Titan Xp到iPhone7

在數據中心裡使用的伺服器級處理器可以快速推理以服務於單個用戶，但是在數據中心中，性能/花費比是最重要的。允許模型評估更快的諸如稀疏技術等方法可以讓每塊 GPU 為更多用戶提供服務，從而提高能耗比。

過去幾年來，稀疏神經網路已經過了很大的發展 [4,13]。在 DeepBench 中，稀疏矩陣向量和稀疏矩陣乘法核已被包含在內。百度研究人員了在實驗中了解到，90-95% 稀疏的神經網路可以達到很好的性能。儘管目前的稀疏矩陣乘法應用使用了更高的稀疏（99% 或更高）。通過包含稀疏核，研究人員希望刺激硬體供應商和軟體開發人員構建新庫，為 90-95％的稀疏提供更好的性能。

DeepBench 使用 Eigen 庫來對 ARM 設備上的稀疏操作進行基準測試，對於 GPU 的測試則使用了英偉達的 cuSparse 庫。

2.5 延遲討論

很多推理性應用有著實時延遲的要求。比如，語音界面要求語音識別模型在無延遲的情況下可以恢復一個結果，從而可以被用戶捕捉到。DeepBench 核可以被當做一個起點來使用，從而來測量獨立操作下的最佳延遲情況。然而，在聚焦於基礎操作而不是完整應用的情況下，測量全部系統的延遲是超出 DeepBench 此版本的範圍的。例如，一個在移動設備上運行的完整應用可能需要修改系統啟動時的功率狀態。又比如，一個完整的伺服器應用程序可能有一個重要的延遲部件，它是由用戶和伺服器間的網路連接來決定的。我們可能需要用未來版本的 DeepBench 來解決操作延遲的問題。

3. 訓練更新

在此更新版本中，也包括對訓練核（kernel) 的更新，把百度新應用的核包括在內。此外，我們還看到了在已有應用上的大量新研究。下文中我們將討論兩個主要的訓練升級。

3.1 GRU 支持

在首版 DeepBench 中，我們納入了 Vanilla、LSTM [6] 循環神經網路的核函數。而另一個比較常用的循環架構師是 GRU（門控循環單元）[3]。近期的一項綜合研究顯示，帶有合適初始化門的 GRU 架構表現可媲美於 LSTM[10]。GRU 相比於 LSTM 有更少的參數，在訓練與推理上比 LSTM 更高效。

多種深度學習模型使用 GRU 作為循環單元，因此我們在新版 DeepBench 訓練與推理負載中加入了 GRU 核。GRU 相比 LSTM 單元有非常類似的表現特性。類似於 Vanilla RNN 和 LSTM，GRU 有可能通過對比多個層優化其表現。GRU 固有的非線性對 Reset 門和 Update 門而言應該是 S 型的。輸出門的非線形應該是一個 Relu 函數。

3.2 低精度訓練

雖然訓練深度學習模型時，大部分研究員都是用單個精度浮點數計算所有 kernel。但學術研究演示了減少在有限數據集上訓練的多個不同模型的精度訓練工作 [7、8、14]。根據以往經驗，我們發現 16 位的半精度浮點數足夠在大型數據集上訓練大型的深度學習模型。使用半精度浮點數訓練，能夠讓硬體更好的利用計算能力。此外，權重也只需要整個模型存儲的一半。

有了此版更新，我們規格化了訓練中用到的所有運算的加與乘的精度。其中，乘與加的最小精度分別設定為了 16 位和 32 位。目前，沒有硬體支持 16 位相乘和 32 位相加。我們將能夠接受任何滿足這一最小精度需求的硬體平台的結果。所有的結果都會包含該基準使用的精度。

4. 支持 Ops & 精度

在此部分，我們記錄了對不同處理器所有精度上各種運算的支持。我們儘可能挑選了接近最小需求精度的精度值，其中精度需求如下所示。然而，某些情況下我們需要衡量更高精度運算的基準。下表強調了每個處理器的運算基準。