IBM發布新型分散式深度學習系統：結合軟硬體實現當前最優性能

新聞 08-10

近日，IBM 發布了一種結合軟體和硬體的新型分散式系統 PowerAI DDL，該系統不僅在 Imagenet 22K 任務上實現了當前最佳的性能，同時還只需要 7 小時就能完成訓練。該軟體庫現已集成到 TensorFlow、Caffe 和 Torch 中。

IBM Research 在 arXiv 發表文章，稱使用新型分散式深度學習軟體可達到幾乎完美的擴展效果，該系統在 64 位 IBM Power system 的 256 個英偉達 GPU 上使用 Caffe 深度學習框架獲得了破紀錄的通信成本，擴展效率高達 95%。之前的最佳擴展效率是 Facebook AI Research 發布的 89%，其在 Caffe2 上訓練運行，通信成本相對較高。IBM Research 還以 50 分鐘的模型訓練時間在時間方面優於 Facebook 的模型。使用該系統，IBM Research 在大型數據集（7.5M 圖像）上利用神經網路達到新的圖像識別準確率——33.8%。微軟之前發布的記錄是 29.8%。

IBM Research 分散式深度學習代碼的技術預覽內容今天即可在該網址查看：https://www.ibm.com/us-en/marketplace/deep-learning-platform。

深度學習是一種廣泛使用的人工智慧方法，它幫助計算機理解人類用來感知世界的圖像和聲音，並從中抽取意義。該方法有望幫助從消費者手機 app 體驗到醫療影像診斷的所有領域中實現突破。但是大規模部署深度學習的準確率和可行性受到技術因素的限制，如訓練基於大型複雜深度學習的 AI 模型，該過程的訓練時間需要用天或周來衡量。

我在 IBM Research 的團隊一直致力於減少在大數據集上訓練大型模型的時間。我們的目標是將深度學習訓練的等待時間從數天或數小時縮減至幾分鐘甚至幾秒，並改善這些 AI 模型的準確率。為了達到該目標，我們在大量伺服器和多個英偉達 GPU 的分散式深度學習中解決了擴展問題這一巨大挑戰。

最流行的深度學習框架可以在一個伺服器的多個 GPU 上擴展，但是無法在具備多個 GPU 的多個伺服器上擴展。具體來說，我們的團隊（Minsik Cho、Uli Finkler、David Kung 以及他們的合作夥伴）寫出的軟體和演算法，能夠在數十個伺服器上的數百個 GPU 加速器之間自動執行和優化大型複雜計算任務的並行化。

IBM發布新型分散式深度學習系統：結合軟硬體實現當前最優性能

IBM 研究員 Hillery Hunter 用前所未有的 GPU 處理速度開發新軟體。

我們的軟體可以完全同步地進行深度學習訓練，並且這種訓練只有非常少的通信成本。因此，當我們將該系統擴展到有 100 多個英偉達 GPU 的大型計算機集群時，它在 ImageNet-22K 數據集上的 7.5M 圖片上識別精度達到了 33.8%，而前面最好的結果是微軟實現的 29.8%，4% 的性能提升已經是十分巨大的進步了，因為以前的精度提升基本上都在 1% 以內。我們所提出的分散式深度學習（DDL）方法不僅能提升性能，還能在 7 小時內訓練一個 101 層的殘差網路，因為它能利用 10 個配備 100 塊英偉達 GPU 的伺服器的計算力。相比之下，微軟可能需要十天的時間來訓練相同的模型。這個成就進一步要求我們創建 DDL 代碼和演算法，以克服擴展到其他強力深度學習框架所遇到的固有問題。

這些結果都是在為測試深度學習演算法和系統而構建的基準上完成的，所以 33.8% 的驗證精度可能看起來不高，但是它要顯著地高於以前的最優結果。給定任意一張圖片，該系統將會在 22000 個選項中給出最佳的選擇（Top-1 accuracy），並且精度還能達到 33.8%。我們的技術將幫助其它 AI 模型在具體的任務上訓練，例如醫療影像中的癌細胞檢測就能變得更加精確，並且訓練或再訓練都只需要數小時。

IBM發布新型分散式深度學習系統：結合軟硬體實現當前最優性能

FAIR（Facebook AI Research）六月份發表的研究論文中描述了這個問題，該論文使用較小的數據集（ImageNet 1k）和較小的神經網路（ResNet 50）解釋了他們傑出的研究成果：

深度學習的興起得益於大型神經網路和數據集。但是，大型網路和數據集導致了較長的訓練時間，這阻礙了研發的前進步伐。

諷刺的是，這個在多伺服器上策劃和優化深度學習的問題隨著 GPU 不斷變快，也變得越發困難了。這一問題在深度學習系統中造成了一種功能差距，驅使著我們創建新型的 DDL 軟體，以使在高性能和高精確度的大規模神經網路和數據集上運行流行的開源代碼（比如 Tensorflow、Caffe、Torch 和 Chainer）成為可能。

「盲人摸象」的說法有助於描述我們正在解決的問題和已經取得的早期成果的背景。根據維基百科：

「……每一個盲人只能感受到大象的一部分，比如大象身體的一側或者象牙。然後他們基於這一片面經驗描述大象，這些描述和大象完全不同。」

現在，儘管存在初始化差異（initial disagreement），但如果這些人有足夠的時間，他們能夠共享信息，並將其組合成相當準確的大象的定義。

相似地，如果你使用多個 GPU 處理深度學習在數天或數周中的並行訓練問題，這也是當前的常見情形，你可以相對輕鬆地將這些學習結果同步化。

但是當 GPU 變得更快，它們的學習也更快；並且它們不得不以一種傳統軟體無法實現的速率與其他 GPU 共享學習。這就為系統網路增加了壓力，並且是一個棘手的技術問題。基本來講，更智能更快的 GPU 需要更好的通信方式，否則它們就無法同步，並花費絕大多數時間等待彼此的結果。因此，你不會從學習更快的 GPU 中獲得加速。

當你查看擴展效率，或者當你添加 GPU 看到如何接近於完美的系統性能擴展時，我們使用（DDL）軟體解決這個功能性差距的能力是顯而易見的。這些測量提供了一個視角來觀察 256 塊 GPU 如何很好地「討論」彼此的知識。

之前，256 塊 GPU 的最佳擴展來自 Facebook 人工智慧研究院（FAIR）的一個團隊。FAIR 使用了一個較小的深度學習模型 ResNet-50，和一個較小的大約 130 萬張圖像的數據集 ImageNet-1K；二者降低了計算複雜度，並使用較大的 8192 的批量大小；最終，通過 Caffe2 在 256 塊英偉達 P100 GPU 加速集群上取得了 89% 的擴展效率。對於一個 ResNet-50 模型和一個與 Facebook 相同的數據集，IBM Research DDL 通過 Caffe 實現了 95% 的效率，如下表所示。這是在 64 台「Minsky」Power S822LC 系統的集群上運行的，每個系統有 4 塊英偉達 P100 GPU。

IBM發布新型分散式深度學習系統：結合軟硬體實現當前最優性能

通過 256 塊 GPU 擴展 IBM DDL 性能

為了從 ImageNet-22K 數據集中的 7.5M 圖像上訓練出更大的 ResNet-101 模型（每個圖像批量大小為 5120），我們實現了 88％的擴展效率。

我們也打破了記錄，取得了 50 分鐘的最快絕對訓練時間，而 Facebook 之前的記錄是 60 分鐘。通過把 DDL 用到 256 塊 GPU 上來擴展 Torch，我們藉助 ImageNet-1K 模型訓練 ResNet-50 模型。Facebook 使用 Caffe2 訓練了一個相似的模型。

對於開發者和數據科學家來說，IBM DDL 軟體展示的 API 每一個深度學習框架皆可使用，並可擴展到多個伺服器。PowerAI 企業深度學習軟體版本 4 中現已提供技術預覽，使得這一集群擴展功能可用於任何使用深度學習訓練 AI 模型的組織。我們期望，通過 DDL 在 AI 社區中的普及，我們將看到更多更高精度的運行，因為其他人在 AI 建模訓練中利用了集群的力量。

PowerAI DDL

IBM發布新型分散式深度學習系統：結合軟硬體實現當前最優性能

論文鏈接：https://arxiv.org/abs/1708.02188

隨著深度神經網路變得越來越複雜，輸入數據集的規模變得越來越大，我們可能需要數天或數周的時間來訓練一個深度神經網路以獲得理想的效果。因此，大規模分散式深度學習就顯得十分重要了，因為它有潛力將訓練時間從數周減少到數小時。在本論文中，我們提出了一種軟硬體聯合優化的分散式深度學習系統，該系統一直到數百塊 GPU 都能實現性能的近線性縮放。該系統的核心演算法是多環通信模式（multi-ring communication pattern），它能提供在延遲和帶寬上的優良權衡，並能適應多種系統配置。該通信演算法以函數庫的形式實現，因此它十分易於使用。該軟體庫已經集成到 TensorFlow、Caffe 和 Torch 中。我們在 Imagenet 22K 上使用 IBM Power8 S822LC 伺服器（256 GPU）訓練 Resnet-101 網路，最終在 7 小時內驗證精度達到了 33.8%。相比之下，微軟的 ADAM 和谷歌的 DistBelief 在 Imagenet 22K 數據集中的驗證精度還不到 30%。相對於 Facebook AI Research 最近使用 256 塊 GPU 訓練 Imagenet 的論文，我們使用了不同的通信演算法，並且結合了軟硬體系統以為 Resnet-50 提供更低的通信成本。PowerAI DDL 能夠令 Torch 訓練 50 層殘差網路，完成 90 個 epoch 而實現 1000 類別的識別任務，該訓練過程使用 64 IBM Power8 S822LC 伺服器（256 GPU）只需要 50 分鐘。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※人工耳蝸如何讓「聽力損失者」擁有「超能力」？
※專訪吳恩達，課程項目Deeplearning.ai正式發布
※專訪吳恩達，課程項目Deeplearning.ai 正式發布
※自動修復Bug正確率達78.3%，北大、微軟等提出ACS技術

TAG:機器之心 |

您可能感興趣

※HPB芯鏈正式發布其測試網路，軟硬體結合突破性能瓶頸
※軟硬結合才是最大優勢，Keep手環體驗分享
※發揮信託優勢踐行產融結合
※小米Mix 2S上手預覽：最新的硬體與MIUI改進的軟體版本相結合
※《醫學混合現實》著作全球首發倡導深度結合人工智慧VR等技術
※SPEX推出首款增強現實頭顯平台結合AR和VR功能
※微酸性條件下高特異性結合Na＋突變DNA酶的體外篩選
※小米官方首曝MIUI 11：軟硬體深度結合定製或最強安卓系統
※軟硬結合AI加持？智能硬體獨角獸的求生之路
※BMW預告結合科技與性能的M系列概念車
※聯發科結合中國合作夥伴，打造 AI 生態系發展
※科學家將CRISPR基因編輯技術同DNA條形碼技術結合有效追蹤癌症進展
※AHB2019聚焦日本智能硬體發展，軟硬體結合應對新挑戰
※大數據與虛擬現實結合推動零售業發展
※基於時變信道和射頻非理想性補償演算法結合的大規模MIMO信道互易性研究
※IBM發布「比鹽小」的微型電腦，未來將結合區塊鏈實現物品溯源
※伊朗製造這款逆天神器，結合現代高新技術，實用性能相當強悍
※科技開發出結合化學計量法和FT-ICR MS快速定量解析混源油的新方法
※HTC將VR和智能手機進行結合賦予團隊更多的資源
※VR技術結合虛幻引擎給電影行業全新體驗