CPU比GPU快兩倍？谷歌雲TF基準實測意外結果

新聞 07-10

【新智元導讀】英特爾與英偉達在數據中心市場激烈競爭：截止 4 月 30 日，英偉達的收入同比增長了 48%，達到 19.4 億美元；但數據表明，英特爾不僅沒有失去數據中心市場，地位反而更加穩固。另一方面，在個人訓練深度學習模型時，也會在雲端 CPU 和 GPU 間做出選擇。前蘋果工程師 Max Woolf 做了測評——由於谷歌雲平台的收費規則，在有些情況下，使用 CPU 比 GPU 在經濟上更划算。

新智元編譯

來源：economictimes；minimaxir.com

作者：Max Woolf

編譯：文強

英特爾和英偉達正在新的市場——蒸蒸日上的數據中心上展開競爭，而其中核心的部分自然是人工智慧（AI）。截止 4 月 30 日，英偉達的收入同比增長了 48%，達到 19.4 億美元。其中，在 GPU 需求的刺激下，數據中心業務收入大幅增長，本財年第一季獲得 4.09 億元收入，同比增長 186％。

英偉達數據中心收入同比增長 186%，但英特爾占 CPU 處理器市場出貨量 95.7%

谷歌、亞馬遜、微軟、Facebook、IBM 和阿里巴巴等大公司都在其數據中心使用英偉達的 Tesla GPU 為其機器學習應用加速，以分析從雲端收集的數據，並從中獲得洞察。「我們見證了 PC 時代，隨後是移動時代，現在是 AI 時代，」英偉達副總裁 Vishal Dhupar 說：「以前只被視為遊戲技術，現在 GPU 開始進入數據中心，推動圍繞機器學習和人工智慧（AI）的各項舉措。」

IDC 企業計算研究副總裁 Rajnish Arora 說：「GPU 的出現有助於重新定義許多高性能應用程序的系統設計概念，無論是在商業還是非商業領域。」

這是否意味著英特爾即將失去數據中心空間的市場份額？

不太可能。

「我們不認為英特爾正在失去伺服器 CPU 市場的份額……這些數據清楚地表明，英特爾已經鞏固了其在伺服器市場的佔有率和市場份額。」Arora說。現在，英特爾 CPU 在全球數據中心都有使用，佔到了 2016 年發貨量的 95.7％，幾近壟斷程度。

英特爾也在 AI 上投入了大量資金，收購初創公司來將 AI 和高性能計算（HPC）能力融入即將推出的晶元中。2015 年，英特爾以 167 億美元的金額收購了 Altera，後者專門製造可針對 AI 和機器學習進行優化的可編程器件。其後，英特爾收購了深度學習初創公司 Nervana Systems，以加強 AI 的具體解決方案。英特爾將在今年晚些時候開始銷售名為「Knights Mill」的新晶元，面向日漸龐大的機器學習市場。英特爾還在開發名為「Knights Crest」的晶元，專門用於加速深度神經網路。

英特爾實驗室研究員 Pradeep Dubey 表示：「競爭一直存在……我們正在優化我們的機器學習和深度學習應用晶元，因為這對我們來說是一個巨大的機會，今年將有 4 個新的處理器發布。這些產品將在數據中心市場上與英偉達 GPU 進行競爭。」

在谷歌雲訓練深度學習模型，價格上 CPU 比 GPU 更划算

數據中心的大戰下，個人使用雲端 CPU 和 GPU 的情況前蘋果軟體工程師 Max Woolf 一直在使用 Keras 和 TensorFlow 做些個人的深度學習項目。他日前發表博文，得出了一個意外的結果：

由於谷歌雲平台的收費規定，做深度學習項目有時候用 CPU 比 GPU 更划算。

Max 在他的文章里寫道，使用亞馬遜 EC2 和 Google Compute Engine 等雲服務訓練深度學習模型都不是免費的，因此關注成本效益十分重要。他在更便宜的 CPU 上做深度學習後發現，訓練速度只降低了一點點。於是，Max 對雲端 CPU 和 GPU 兩種虛擬機的定價機製做了深入分析，看看 CPU 是否更適合他的需求。

Google Compute Engine（GCE）上，GPU 虛擬機的價格是 0.745 美元/小時起步。幾個月前，谷歌宣布了在英特爾 Skylake CPU 架構上的 CPU 虛擬機，最高可達 64 核。這些虛擬機能以許可權很低的方式提供，在 GCE 上最多持續 24 小時（可以隨時終止，但極少發生）。由於 GCE 按時間分享計算資源，虛擬機許可權較低，就可以被物理機器上其他虛擬機給擠掉，之後拿不到計算資源。但也正因如此，這些虛擬機的價格僅是普通虛擬機的 20% 左右。

算起來，這些低許可權 Skylake CPU 虛擬機的價格是 0.509 美元/小時，相當於普通 GPU 虛擬機的 2/3。

如果用這些 CPU 虛擬機訓練模型，速度與 GPU 可比（稍微差一點也行），那麼用 CPU 在經濟上就比用 GPU 更加划算。當然，這個假設成立的前提是 GCE 以 100% 的效率工作；而要是 GCE 沒有達到 100%（這是很可能的情況），省的錢就更多了。而且，同樣配置的 32 核 CPU 虛擬機，價格是 0.254 美元/小時，16 核的是 0.127 美元/小時，以此類推。

Max 提出了問題：現在還沒有用大量 CPU 做深度學習庫的基準，因為大家都直奔 GPU 而去；但是，有沒有可能用 CPU 的經濟效益比 GPU 更高呢？

下面我們就來看一下 Max 測評的結果。

1. 安裝配置

Max Woolf 此前已經寫過基準測試的腳本（參見 https://github.com/minimaxir/deep-learning-cpu-gpu-benchmark）和其他所需的代碼。

此外，按照說明從 pip 安裝 TensorFlow 後，訓練模型時會出現下面的警告：

因此，Max 從源碼編寫了 TensorFlow，做了其他修改，發現警告沒有了，並且訓練時間也有所提升。這種情況用 cmp 表示。

最後，Max 在 GCE 平台測試了以下 3 種使用情況：

Tesla K80 GPU 虛擬機

64 核 Skylake CPU 虛擬機，用 pip 安裝 TensorFlow（還測試了 8/16/32 核）

64 核 Skylake CPU 虛擬機，用 cmp 編寫的 TensorFlow（以及 8/16/32 核的情況）

2. 結果

1）分類任務：使用 MNIST 數據集的手寫數字，用多層感知機（MLP）架構，其中是密集的完全連接層。結果當然是訓練時間更少的更好。水平虛線下方的所有配置均優於 GPU；虛線以上的所有配置都比 GPU 更差。

使用多層感知機（MLP）架構做手寫數字分類的結果。左圖是訓練時間，右圖是訓練成本（下同）。在每張圖片中，最左邊的直方圖是 GPU（紅色），後面依次是 64 vCPU、32 vCPU、16 vCPU 和 8 vCPU（在 CPU 中，靠左邊的是 pip，右邊是 cmp 編譯的）。來源：Max Woolf

在這裡，GPU 訓練速度是所有平台配置中最快的——這並不奇怪。但是，也有其他值得注意的趨勢：32 vCPU（左起第 4、5 直方圖）和 64 vCPU（左起第 2、3 直方圖）之間性能相似，編譯的 TensorFlow 庫訓練速度確實有重大改進，但只有 8 核和 16 核 CPU 如此（pip 和 cmp 之間有明顯差異）。也許，在多核 CPU 之間協商信息的開銷抵消了多核 CPU 的性能優勢，也許是這些開銷與編譯的 TensorFlow 的 CPU 指令不同。

由於不同 vCPU 的訓練速度差異很小，因此減少數量肯定更加划算。對於每個模型架構和配置，Max 計算了相對於 GPU 虛擬機訓練成本的歸一化訓練成本。GCE 虛擬機成本是按比例分攤的（不像 Amazon EC2），可以簡單地將實驗運行的總秒數乘以虛擬機的成本（每秒）。理想情況下，這個值越低越好。結果發現，對於這個分類問題，減少 CPU 數量來說成本效益更高，CPU 數量越少越好。

2）再來看一下相同數據集，使用卷積神經網路（CNN）對數字進行分類的情況：

不出意料，GPU 比其他任何 CPU 都快大約兩倍，但成本結構仍然相同。64 vCPU 在成本效益上表現糟糕，32 vCPU 的訓練速度甚至還比 64 vCPU 快一些。

3）再來看看使用 CIFAR-10 圖像數據集，用類似 VGG-16 的架構（深度 CNN + MLP）圖像分類的結果。

結果與普通的 CNN 類似，其中 cmp 的效果都比 pip 的好。

不過，結果在下面這種情況時出現了不同——

4）用雙向長短時記憶（LSTM）架構處理 IMBb 電影評價

注意這裡，GPU 的訓練時間是 CPU 的兩倍多？！

是的，你沒有看錯。

5）最後，用 LSTM 做文本生成：

雖然結果還是 GPU 的訓練時間更短，但除了 64 vCPU，其他 CPU 的訓練成本更低。

3. 結論

有了上面的測試，Max 得出結論認為，使用 64 vCPU 不利於深度學習，因為當前的軟體/硬體架構無法充分利用所有這些。通常情況下，64 vCPU 與 32 vCPU 性能相差不多（甚至更差）。在平衡訓練速度和成本方面，用 16 核 CPU + 編譯的 TensorFlow 似乎是最佳選擇。編譯的 TensorFlow 庫有 30％-40％的速度提升，這是個驚喜。可惜谷歌官方不提供具有這些 CPU 加速功能的 TensorFlow 預編譯版本。

當然， Max 指出，這裡之所以有成本優勢，只能在谷歌雲特殊的機制下，那就是許可權低的虛擬機用較低的價格提供。Max 認為，在個人使用的情況下，使用谷歌雲 CPU 訓練深度學習模型是值得考慮的。如果不考慮這一點，雲端 CPU 的這種優勢是不會存在的。

編譯來源

http://economictimes.indiatimes.com/tech/software/intel-nvidia-battle-it-out-in-data-centre-market/articleshow/59519131.cms

http://minimaxir.com/2017/07/cpu-or-gpu/

點擊閱讀原文查看新智元招聘信息

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 新智元 的精彩文章:

※全球AI报告：300亿豪赌，美国揽三分之二投资中国仅占17％
※圖像識別和分類競賽，數據增強及優化演算法
※「AI TOP 10」特斯拉市值蒸發真相；十年內實現心靈感應；Waymo撤銷對Uber大部分訴訟
※谷歌投入622000英鎊創建機器人記者，每月挖掘3萬條新聞
※「機器人總統強過特朗普？」技術視角看通用AI能否超越人類領袖

TAG:新智元 |

您可能感興趣

※Ryzen APU單雙通道內存對比：結果方了！
※NVIDIA TITAN V翻車，在科學模擬計算中無法得出可靠結果
※天文學家搜尋Zuma結果發現NASA的「IMAGE」
※CanAm發布PKF審計結果，消除對於EB-5業績記錄的猜測
※不讓AMD獨美，NVIDIA也更新了顯卡驅動：結果卻……
※最強旗艦對決：華為P20 Pro、iPhoneX與三星S9誰更快？結果太意外！
※三星Galaxy S9與索尼Xperia XZ2在MWC大PK，沒想到結果是這樣
※ALL緩解率超80％！NEJM報道CAR-T療法隨訪結果
※銳龍APU平台裝Win7系統後：結果沒想到
※三星S9與iPhone X誰更耐用？看完測試：結果意外了
※科學家報告 CUORE 中微子實驗的首個結果
※科學家報告CUORE中微子實驗的首個結果
※RNG對戰Snake結果實力居然相差這麼大！
※DNF：紅眼玩家打盧克抱怨劍神搶DPS，結果一到BOSS就分出高低了！
※老外票選小米MIX 2S、華為P20 Pro誰更棒：結果有趣
※三星Galaxy S9＋速度測試比拼iPhone X，結果誰敗了？
※KT又遇上SKT，PawN又遇上了Faker，還沒比賽結果就出來了
※BLG對EDG掏出黑科技，結果諾手首次上場就被Clearlove安排了！
※將三星S9＋與iPhoneX泡在高溫熱水結果完全不同
※華為P20 Pro跑分出爐：結果不意外