CPU比GPU快兩倍?谷歌雲TF基準實測意外結果
【新智元導讀】英特爾與英偉達在數據中心市場激烈競爭:截止 4 月 30 日,英偉達的收入同比增長了 48%,達到 19.4 億美元;但數據表明,英特爾不僅沒有失去數據中心市場,地位反而更加穩固。另一方面,在個人訓練深度學習模型時,也會在雲端 CPU 和 GPU 間做出選擇。前蘋果工程師 Max Woolf 做了測評——由於谷歌雲平台的收費規則,在有些情況下,使用 CPU 比 GPU 在經濟上更划算。
新智元編譯
來源:economictimes;minimaxir.com
作者:Max Woolf
編譯:文強
英特爾和英偉達正在新的市場——蒸蒸日上的數據中心上展開競爭,而其中核心的部分自然是人工智慧(AI)。截止 4 月 30 日,英偉達的收入同比增長了 48%,達到 19.4 億美元。其中,在 GPU 需求的刺激下,數據中心業務收入大幅增長,本財年第一季獲得 4.09 億元收入,同比增長 186%。
英偉達數據中心收入同比增長 186%,但英特爾占 CPU 處理器市場出貨量 95.7%
谷歌、亞馬遜、微軟、Facebook、IBM 和阿里巴巴等大公司都在其數據中心使用英偉達的 Tesla GPU 為其機器學習應用加速,以分析從雲端收集的數據,並從中獲得洞察。「我們見證了 PC 時代,隨後是移動時代,現在是 AI 時代,」英偉達副總裁 Vishal Dhupar 說:「以前只被視為遊戲技術,現在 GPU 開始進入數據中心,推動圍繞機器學習和人工智慧(AI)的各項舉措。」
IDC 企業計算研究副總裁 Rajnish Arora 說:「GPU 的出現有助於重新定義許多高性能應用程序的系統設計概念,無論是在商業還是非商業領域。」
這是否意味著英特爾即將失去數據中心空間的市場份額?
不太可能。
「我們不認為英特爾正在失去伺服器 CPU 市場的份額……這些數據清楚地表明,英特爾已經鞏固了其在伺服器市場的佔有率和市場份額。」Arora說。現在,英特爾 CPU 在全球數據中心都有使用,佔到了 2016 年發貨量的 95.7%,幾近壟斷程度。
英特爾也在 AI 上投入了大量資金,收購初創公司來將 AI 和高性能計算(HPC)能力融入即將推出的晶元中。2015 年,英特爾以 167 億美元的金額收購了 Altera,後者專門製造可針對 AI 和機器學習進行優化的可編程器件。其後,英特爾收購了深度學習初創公司 Nervana Systems,以加強 AI 的具體解決方案。英特爾將在今年晚些時候開始銷售名為「Knights Mill」的新晶元,面向日漸龐大的機器學習市場。英特爾還在開發名為「Knights Crest」的晶元,專門用於加速深度神經網路。
英特爾實驗室研究員 Pradeep Dubey 表示:「競爭一直存在……我們正在優化我們的機器學習和深度學習應用晶元,因為這對我們來說是一個巨大的機會,今年將有 4 個新的處理器發布。這些產品將在數據中心市場上與英偉達 GPU 進行競爭。」
在谷歌雲訓練深度學習模型,價格上 CPU 比 GPU 更划算
數據中心的大戰下,個人使用雲端 CPU 和 GPU 的情況前蘋果軟體工程師 Max Woolf 一直在使用 Keras 和 TensorFlow 做些個人的深度學習項目。他日前發表博文,得出了一個意外的結果:
由於谷歌雲平台的收費規定,做深度學習項目有時候用 CPU 比 GPU 更划算。
Max 在他的文章里寫道,使用亞馬遜 EC2 和 Google Compute Engine 等雲服務訓練深度學習模型都不是免費的,因此關注成本效益十分重要。他在更便宜的 CPU 上做深度學習後發現,訓練速度只降低了一點點。於是,Max 對雲端 CPU 和 GPU 兩種虛擬機的定價機製做了深入分析,看看 CPU 是否更適合他的需求。
Google Compute Engine(GCE)上,GPU 虛擬機的價格是 0.745 美元/小時起步。幾個月前,谷歌宣布了在英特爾 Skylake CPU 架構上的 CPU 虛擬機,最高可達 64 核。這些虛擬機能以許可權很低的方式提供,在 GCE 上最多持續 24 小時(可以隨時終止,但極少發生)。由於 GCE 按時間分享計算資源,虛擬機許可權較低,就可以被物理機器上其他虛擬機給擠掉,之後拿不到計算資源。但也正因如此,這些虛擬機的價格僅是普通虛擬機的 20% 左右。
算起來,這些低許可權 Skylake CPU 虛擬機的價格是 0.509 美元/小時,相當於普通 GPU 虛擬機的 2/3。
如果用這些 CPU 虛擬機訓練模型,速度與 GPU 可比(稍微差一點也行),那麼用 CPU 在經濟上就比用 GPU 更加划算。當然,這個假設成立的前提是 GCE 以 100% 的效率工作;而要是 GCE 沒有達到 100%(這是很可能的情況),省的錢就更多了。而且,同樣配置的 32 核 CPU 虛擬機,價格是 0.254 美元/小時,16 核的是 0.127 美元/小時,以此類推。
Max 提出了問題:現在還沒有用大量 CPU 做深度學習庫的基準,因為大家都直奔 GPU 而去;但是,有沒有可能用 CPU 的經濟效益比 GPU 更高呢?
下面我們就來看一下 Max 測評的結果。
1. 安裝配置
Max Woolf 此前已經寫過基準測試的腳本(參見 https://github.com/minimaxir/deep-learning-cpu-gpu-benchmark)和其他所需的代碼。
此外,按照說明從 pip 安裝 TensorFlow 後,訓練模型時會出現下面的警告:
因此,Max 從源碼編寫了 TensorFlow,做了其他修改,發現警告沒有了,並且訓練時間也有所提升。這種情況用 cmp 表示。
最後,Max 在 GCE 平台測試了以下 3 種使用情況:
Tesla K80 GPU 虛擬機
64 核 Skylake CPU 虛擬機,用 pip 安裝 TensorFlow(還測試了 8/16/32 核)
64 核 Skylake CPU 虛擬機,用 cmp 編寫的 TensorFlow(以及 8/16/32 核的情況)
2. 結果
1)分類任務:使用 MNIST 數據集的手寫數字,用多層感知機(MLP)架構,其中是密集的完全連接層。結果當然是訓練時間更少的更好。水平虛線下方的所有配置均優於 GPU;虛線以上的所有配置都比 GPU 更差。
使用多層感知機(MLP)架構做手寫數字分類的結果。左圖是訓練時間,右圖是訓練成本(下同)。在每張圖片中,最左邊的直方圖是 GPU(紅色),後面依次是 64 vCPU、32 vCPU、16 vCPU 和 8 vCPU(在 CPU 中,靠左邊的是 pip,右邊是 cmp 編譯的)。來源:Max Woolf
在這裡,GPU 訓練速度是所有平台配置中最快的——這並不奇怪。但是,也有其他值得注意的趨勢:32 vCPU(左起第 4、5 直方圖)和 64 vCPU(左起第 2、3 直方圖)之間性能相似,編譯的 TensorFlow 庫訓練速度確實有重大改進,但只有 8 核和 16 核 CPU 如此(pip 和 cmp 之間有明顯差異)。也許,在多核 CPU 之間協商信息的開銷抵消了多核 CPU 的性能優勢,也許是這些開銷與編譯的 TensorFlow 的 CPU 指令不同。
由於不同 vCPU 的訓練速度差異很小,因此減少數量肯定更加划算。對於每個模型架構和配置,Max 計算了相對於 GPU 虛擬機訓練成本的歸一化訓練成本。GCE 虛擬機成本是按比例分攤的(不像 Amazon EC2),可以簡單地將實驗運行的總秒數乘以虛擬機的成本(每秒)。理想情況下,這個值越低越好。結果發現,對於這個分類問題,減少 CPU 數量來說成本效益更高,CPU 數量越少越好。
2)再來看一下相同數據集,使用卷積神經網路(CNN)對數字進行分類的情況:
不出意料,GPU 比其他任何 CPU 都快大約兩倍,但成本結構仍然相同。64 vCPU 在成本效益上表現糟糕,32 vCPU 的訓練速度甚至還比 64 vCPU 快一些。
3)再來看看使用 CIFAR-10 圖像數據集,用類似 VGG-16 的架構(深度 CNN + MLP)圖像分類的結果。
結果與普通的 CNN 類似,其中 cmp 的效果都比 pip 的好。
不過,結果在下面這種情況時出現了不同——
4)用雙向長短時記憶(LSTM)架構處理 IMBb 電影評價
注意這裡,GPU 的訓練時間是 CPU 的兩倍多?!
是的,你沒有看錯。
5)最後,用 LSTM 做文本生成:
雖然結果還是 GPU 的訓練時間更短,但除了 64 vCPU,其他 CPU 的訓練成本更低。
3. 結論
有了上面的測試,Max 得出結論認為,使用 64 vCPU 不利於深度學習,因為當前的軟體/硬體架構無法充分利用所有這些。通常情況下,64 vCPU 與 32 vCPU 性能相差不多(甚至更差)。在平衡訓練速度和成本方面,用 16 核 CPU + 編譯的 TensorFlow 似乎是最佳選擇。編譯的 TensorFlow 庫有 30%-40% 的速度提升,這是個驚喜。可惜谷歌官方不提供具有這些 CPU 加速功能的 TensorFlow 預編譯版本。
當然, Max 指出,這裡之所以有成本優勢,只能在谷歌雲特殊的機制下,那就是許可權低的虛擬機用較低的價格提供。Max 認為,在個人使用的情況下,使用谷歌雲 CPU 訓練深度學習模型是值得考慮的。如果不考慮這一點,雲端 CPU 的這種優勢是不會存在的。
編譯來源
http://economictimes.indiatimes.com/tech/software/intel-nvidia-battle-it-out-in-data-centre-market/articleshow/59519131.cms
http://minimaxir.com/2017/07/cpu-or-gpu/
點擊閱讀原文查看新智元招聘信息
※全球AI报告:300亿豪赌,美国揽三分之二投资中国仅占17%
※圖像識別和分類競賽,數據增強及優化演算法
※「AI TOP 10」特斯拉市值蒸發真相;十年內實現心靈感應;Waymo撤銷對Uber大部分訴訟
※谷歌投入622000英鎊創建機器人記者,每月挖掘3萬條新聞
※「機器人總統強過特朗普?」技術視角看通用AI能否超越人類領袖
TAG:新智元 |
※Ryzen APU單雙通道內存對比:結果方了!
※NVIDIA TITAN V翻車,在科學模擬計算中無法得出可靠結果
※天文學家搜尋Zuma結果發現NASA的「IMAGE」
※CanAm發布PKF審計結果,消除對於EB-5業績記錄的猜測
※不讓AMD獨美,NVIDIA也更新了顯卡驅動:結果卻……
※最強旗艦對決:華為P20 Pro、iPhoneX與三星S9誰更快?結果太意外!
※三星Galaxy S9與索尼Xperia XZ2在MWC大PK,沒想到結果是這樣
※ALL緩解率超80%!NEJM報道CAR-T療法隨訪結果
※銳龍APU平台裝Win7系統後:結果沒想到
※三星S9與iPhone X誰更耐用?看完測試:結果意外了
※科學家報告 CUORE 中微子實驗的首個結果
※科學家報告CUORE中微子實驗的首個結果
※RNG對戰Snake結果實力居然相差這麼大!
※DNF:紅眼玩家打盧克抱怨劍神搶DPS,結果一到BOSS就分出高低了!
※老外票選小米MIX 2S、華為P20 Pro誰更棒:結果有趣
※三星Galaxy S9+速度測試比拼iPhone X,結果誰敗了?
※KT又遇上SKT,PawN又遇上了Faker,還沒比賽結果就出來了
※BLG對EDG掏出黑科技,結果諾手首次上場就被Clearlove安排了!
※將三星S9+與iPhoneX泡在高溫熱水 結果完全不同
※華為P20 Pro跑分出爐:結果不意外