Think 2018背後：IBM佔據人工智慧訓練的優勢

科技 03-28

至頂網軟體頻道消息：本文重點介紹IBM上周在Think 2018大會上各種公告背後的機器學習(ML)工作，這方面的工作很快將進一步加速Watson和PowerAI的訓練性能。這恰巧突出了IBM與NVIDIA的合作夥伴關係，以及NVIDIA針對GPU的NVLink互連技術。

去年，IBM曾有一篇論文提到了如何在不到一小時的時間內、高達95%的擴展效率以及75%的準確率訓練機器學習圖像分類模型，採用了和Facebook用於訓練一樣的數據集。2017年上半年，IBM使用面向高性能計算系統的基於POWER8的64位Power System S822LC運行了這一訓練基準測試。這些系統中的每一個都有採用4個NVIDIA Tesla P100 SXM2連接的GPU，並使用IBM的PowerAI軟體平台和Distributed Deep Learning (DDL)。

IBM的新論文「Snap Machine Learning」描述了一種新的IBM機器學習庫，可以更有效地利用可用的網路、內存和異構計算資源，進行機器學習訓練任務，也是基於基於一個新的平台——IBM Power Systems AC922伺服器。IBM AC922通過NVIDIA最新的NVLINK 2.0介面，將4個SXM2連接的NVIDIA Tesla V100 GPU連接到雙POWER9處理器。

Think 2018背後：IBM佔據人工智慧訓練的優勢

IBM研究員兼IBM研究院加速認知基礎架構總監Hillery Hunter談到了IBM為Snap Snap ML提高性能所做出的貢獻：

- 更有效地將機器學習訓練演算法映射到大規模並行的GPU微架構

- 更有效地從單一伺服器機箱擴展到一個伺服器集群

- 通過最小化異構處理節點(經典處理器和GPU)與動態內存調度器之間的通信，來改進內存管理，該調度器可將數據從處理器推測性地移動到GPU內存(反之亦然)

- IBM集成了NVIDIA NVLink互連技術，讓IBM POWER9能夠更快地與NVIDIA Tesla V100進行通信，目前這已經在IBM Power Systems AC922中支持了。

最終結果是，原來需要花費數小時的訓練任務，現在在幾秒鐘內就可以完成，而且不會降低準確性。這是有可能實現的，因為Snap可以更有效地分配和加速這些任務。Snap將加速多種邏輯和線性回歸分析，包括深度學習任務。

Think 2018背後：IBM佔據人工智慧訓練的優勢

IBM聲稱使用Criteo Labs在線廣告訓練數據集的機器學習訓練記錄比之前發布的記錄提高了46倍，訓練準確性沒有任何損失。之前的結果是在一年前發布的，但更重要的是，Google使用純處理器的雲虛擬機(VM)實例就實現了該結果。Google可以輕鬆組裝60個工作虛擬機實例和29個參數虛擬機實例(總共89個雲處理器實例)進行訓練。

然而，即使在一年前，Google的結果也是一個暴力擴展處理器資源的示範，還有一個問題「為什麼只用處理器周期進行訓練?」。在Google公布使用Criteo Labs訓練數據集結果的時候，還沒有發出最初的TensorFlow處理單元(TPU)。也許這就是Google為什麼不使用TPU來生成(當時)紀錄結果的原因。

一年後，IBM僅使用4台Power System AC922伺服器，每台伺服器包含2個POWER9處理器和4個NVIDIA Tesla V100 GPU，就擊敗了Google的紀錄。這個結果是將89個雲虛擬機實例與安裝在4個伺服器機箱(8個處理器和16個GPU)中的總計24個計算元件進行比較，速度提高了46倍。

在關於Snap的論文中，IBM還將C9000伺服器與基於英特爾處理器的主流伺服器(使用Criteo Terabyte Click Log子集——前2億個訓練樣例，一個合理大小的子集)進行了直接比較。測試的系統是：

- 雙路Power System AC922伺服器，採用的POWER9處理器通過NVLink 2.0連接至4個NVIDIA Tesla V100 GPU，但僅使用其中一個GPU進行比較

- 採用英特爾至強Gold 6150處理器的雙路槽伺服器，通過PCIe 3.0連至1個NVIDIA Tesla V100 GPU

IBM測量了通過NVLink 2.0連接的AC922系統有效帶寬為68.1GB/s，通過PCIe 3.0連接、基於英特爾處理器的系統有效帶寬為11.8GB / s。對於使用NVLink 2.0的AC922系統來說，這是一個5.8x處理器與GPU互連相比的優勢。

Snap ML可管理處理器和GPU之間的數據移動。由於使用NVLink的數據傳輸速度幾乎快了6倍，所以Snap可以將處理器和GPU之間的數據拷貝時間隱藏在處理器和GPU的數據處理時間之後。

結果是，使用Power Systems AC922伺服器的實際測量訓練時間加速了3.5倍多，每個系統只使用1個GPU。

數據移動嚴重影響了機器學習的性能;測量跨NVLink的單個GPU的性能，與跨PCIe的單個GPU的性能之間的關係，應該擴展到對比使用這些連接的多個GPU。但是，此測試很好地表明，使用由NVLink連接的IBM POWER9處理器，相對4個或更多NVIDIA Tesla GPU集群仍應具有可衡量的優勢。該測試還強調了對標準機器學習基準測試的需求，該基準測試能夠在使用真實應用的伺服器之間進行直接比較。

訓練時間提速3.5倍，這與整體基準測試的性能領先同樣重要。

目前還沒有其他處理器製造商將NVIDIA NVLink互連技術直接集成到處理器套件中，所有競爭的伺服器生態系統都依賴於PCIe互連。直接訪問NVLink和Snap ML軟體架構都有助於加速訓練。

在上周的Think 2018大會，IBM和蘋果公司宣布推出了IBM Watson Services for Core ML。這讓蘋果與IBM近4年的合作夥伴關係邁向了一個新的階段，讓蘋果iOS軟體開發人員能夠使用IBM領先的人工智慧和機器學習開發環境，以及雲訓練支持。雙方將IBM Watson擴展到在蘋果非常成功的消費設備生態系統上運行機器學習推理任務。更快速地培訓機器學習模型，意味著可以為邊緣設備(如基於iOS的智能手機)的推測任務提供更新的模型。

Snap ML將在今年晚些時候作為IBM PowerAI技術預覽組合的一部分問上市。

機器學習的訓練時間提高3.5倍，這與整體基準測試的性能領先同樣重要。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 至頂網 的精彩文章:

※用聲波與消費者來一次親密接觸
※IBM稱旗下的Snap機器學習庫比TensorFlow快46倍

TAG:至頂網 |