當前位置:
首頁 > 新聞 > CPU比GPU快兩倍?谷歌雲TF基準實測意外結果

CPU比GPU快兩倍?谷歌雲TF基準實測意外結果

【新智元導讀】英特爾與英偉達在數據中心市場激烈競爭:截止 4 月 30 日,英偉達的收入同比增長了 48%,達到 19.4 億美元;但數據表明,英特爾不僅沒有失去數據中心市場,地位反而更加穩固。另一方面,在個人訓練深度學習模型時,也會在雲端 CPU 和 GPU 間做出選擇。前蘋果工程師 Max Woolf 做了測評——由於谷歌雲平台的收費規則,在有些情況下,使用 CPU 比 GPU 在經濟上更划算。

新智元編譯

來源:economictimes;minimaxir.com

作者:Max Woolf

編譯:文強

英特爾和英偉達正在新的市場——蒸蒸日上的數據中心上展開競爭,而其中核心的部分自然是人工智慧(AI)。截止 4 月 30 日,英偉達的收入同比增長了 48%,達到 19.4 億美元。其中,在 GPU 需求的刺激下,數據中心業務收入大幅增長,本財年第一季獲得 4.09 億元收入,同比增長 186%。

英偉達數據中心收入同比增長 186%,但英特爾占 CPU 處理器市場出貨量 95.7%

谷歌、亞馬遜、微軟、Facebook、IBM 和阿里巴巴等大公司都在其數據中心使用英偉達的 Tesla GPU 為其機器學習應用加速,以分析從雲端收集的數據,並從中獲得洞察。「我們見證了 PC 時代,隨後是移動時代,現在是 AI 時代,」英偉達副總裁 Vishal Dhupar 說:「以前只被視為遊戲技術,現在 GPU 開始進入數據中心,推動圍繞機器學習和人工智慧(AI)的各項舉措。」

IDC 企業計算研究副總裁 Rajnish Arora 說:「GPU 的出現有助於重新定義許多高性能應用程序的系統設計概念,無論是在商業還是非商業領域。」

這是否意味著英特爾即將失去數據中心空間的市場份額?

不太可能。

「我們不認為英特爾正在失去伺服器 CPU 市場的份額……這些數據清楚地表明,英特爾已經鞏固了其在伺服器市場的佔有率和市場份額。」Arora說。現在,英特爾 CPU 在全球數據中心都有使用,佔到了 2016 年發貨量的 95.7%,幾近壟斷程度。

英特爾也在 AI 上投入了大量資金,收購初創公司來將 AI 和高性能計算(HPC)能力融入即將推出的晶元中。2015 年,英特爾以 167 億美元的金額收購了 Altera,後者專門製造可針對 AI 和機器學習進行優化的可編程器件。其後,英特爾收購了深度學習初創公司 Nervana Systems,以加強 AI 的具體解決方案。英特爾將在今年晚些時候開始銷售名為「Knights Mill」的新晶元,面向日漸龐大的機器學習市場。英特爾還在開發名為「Knights Crest」的晶元,專門用於加速深度神經網路。

英特爾實驗室研究員 Pradeep Dubey 表示:「競爭一直存在……我們正在優化我們的機器學習和深度學習應用晶元,因為這對我們來說是一個巨大的機會,今年將有 4 個新的處理器發布。這些產品將在數據中心市場上與英偉達 GPU 進行競爭。」

在谷歌雲訓練深度學習模型,價格上 CPU 比 GPU 更划算

數據中心的大戰下,個人使用雲端 CPU 和 GPU 的情況前蘋果軟體工程師 Max Woolf 一直在使用 Keras 和 TensorFlow 做些個人的深度學習項目。他日前發表博文,得出了一個意外的結果:

由於谷歌雲平台的收費規定,做深度學習項目有時候用 CPU 比 GPU 更划算。

Max 在他的文章里寫道,使用亞馬遜 EC2 和 Google Compute Engine 等雲服務訓練深度學習模型都不是免費的,因此關注成本效益十分重要。他在更便宜的 CPU 上做深度學習後發現,訓練速度只降低了一點點。於是,Max 對雲端 CPU 和 GPU 兩種虛擬機的定價機製做了深入分析,看看 CPU 是否更適合他的需求。

Google Compute Engine(GCE)上,GPU 虛擬機的價格是 0.745 美元/小時起步。幾個月前,谷歌宣布了在英特爾 Skylake CPU 架構上的 CPU 虛擬機,最高可達 64 核。這些虛擬機能以許可權很低的方式提供,在 GCE 上最多持續 24 小時(可以隨時終止,但極少發生)。由於 GCE 按時間分享計算資源,虛擬機許可權較低,就可以被物理機器上其他虛擬機給擠掉,之後拿不到計算資源。但也正因如此,這些虛擬機的價格僅是普通虛擬機的 20% 左右。

算起來,這些低許可權 Skylake CPU 虛擬機的價格是 0.509 美元/小時,相當於普通 GPU 虛擬機的 2/3。

如果用這些 CPU 虛擬機訓練模型,速度與 GPU 可比(稍微差一點也行),那麼用 CPU 在經濟上就比用 GPU 更加划算。當然,這個假設成立的前提是 GCE 以 100% 的效率工作;而要是 GCE 沒有達到 100%(這是很可能的情況),省的錢就更多了。而且,同樣配置的 32 核 CPU 虛擬機,價格是 0.254 美元/小時,16 核的是 0.127 美元/小時,以此類推。

Max 提出了問題:現在還沒有用大量 CPU 做深度學習庫的基準,因為大家都直奔 GPU 而去;但是,有沒有可能用 CPU 的經濟效益比 GPU 更高呢?

下面我們就來看一下 Max 測評的結果。

1. 安裝配置

Max Woolf 此前已經寫過基準測試的腳本(參見 https://github.com/minimaxir/deep-learning-cpu-gpu-benchmark)和其他所需的代碼。

此外,按照說明從 pip 安裝 TensorFlow 後,訓練模型時會出現下面的警告:

因此,Max 從源碼編寫了 TensorFlow,做了其他修改,發現警告沒有了,並且訓練時間也有所提升。這種情況用 cmp 表示。

最後,Max 在 GCE 平台測試了以下 3 種使用情況:

Tesla K80 GPU 虛擬機

64 核 Skylake CPU 虛擬機,用 pip 安裝 TensorFlow(還測試了 8/16/32 核)

64 核 Skylake CPU 虛擬機,用 cmp 編寫的 TensorFlow(以及 8/16/32 核的情況)

2. 結果

1)分類任務:使用 MNIST 數據集的手寫數字,用多層感知機(MLP)架構,其中是密集的完全連接層。結果當然是訓練時間更少的更好。水平虛線下方的所有配置均優於 GPU;虛線以上的所有配置都比 GPU 更差。

使用多層感知機(MLP)架構做手寫數字分類的結果。左圖是訓練時間,右圖是訓練成本(下同)。在每張圖片中,最左邊的直方圖是 GPU(紅色),後面依次是 64 vCPU、32 vCPU、16 vCPU 和 8 vCPU(在 CPU 中,靠左邊的是 pip,右邊是 cmp 編譯的)。來源:Max Woolf

在這裡,GPU 訓練速度是所有平台配置中最快的——這並不奇怪。但是,也有其他值得注意的趨勢:32 vCPU(左起第 4、5 直方圖)和 64 vCPU(左起第 2、3 直方圖)之間性能相似,編譯的 TensorFlow 庫訓練速度確實有重大改進,但只有 8 核和 16 核 CPU 如此(pip 和 cmp 之間有明顯差異)。也許,在多核 CPU 之間協商信息的開銷抵消了多核 CPU 的性能優勢,也許是這些開銷與編譯的 TensorFlow 的 CPU 指令不同。

由於不同 vCPU 的訓練速度差異很小,因此減少數量肯定更加划算。對於每個模型架構和配置,Max 計算了相對於 GPU 虛擬機訓練成本的歸一化訓練成本。GCE 虛擬機成本是按比例分攤的(不像 Amazon EC2),可以簡單地將實驗運行的總秒數乘以虛擬機的成本(每秒)。理想情況下,這個值越低越好。結果發現,對於這個分類問題,減少 CPU 數量來說成本效益更高,CPU 數量越少越好。

2)再來看一下相同數據集,使用卷積神經網路(CNN)對數字進行分類的情況:

不出意料,GPU 比其他任何 CPU 都快大約兩倍,但成本結構仍然相同。64 vCPU 在成本效益上表現糟糕,32 vCPU 的訓練速度甚至還比 64 vCPU 快一些。

3)再來看看使用 CIFAR-10 圖像數據集,用類似 VGG-16 的架構(深度 CNN + MLP)圖像分類的結果。

結果與普通的 CNN 類似,其中 cmp 的效果都比 pip 的好。

不過,結果在下面這種情況時出現了不同——

4)用雙向長短時記憶(LSTM)架構處理 IMBb 電影評價

注意這裡,GPU 的訓練時間是 CPU 的兩倍多?!

是的,你沒有看錯。

5)最後,用 LSTM 做文本生成:

雖然結果還是 GPU 的訓練時間更短,但除了 64 vCPU,其他 CPU 的訓練成本更低。

3. 結論

有了上面的測試,Max 得出結論認為,使用 64 vCPU 不利於深度學習,因為當前的軟體/硬體架構無法充分利用所有這些。通常情況下,64 vCPU 與 32 vCPU 性能相差不多(甚至更差)。在平衡訓練速度和成本方面,用 16 核 CPU + 編譯的 TensorFlow 似乎是最佳選擇。編譯的 TensorFlow 庫有 30%-40% 的速度提升,這是個驚喜。可惜谷歌官方不提供具有這些 CPU 加速功能的 TensorFlow 預編譯版本。

當然, Max 指出,這裡之所以有成本優勢,只能在谷歌雲特殊的機制下,那就是許可權低的虛擬機用較低的價格提供。Max 認為,在個人使用的情況下,使用谷歌雲 CPU 訓練深度學習模型是值得考慮的。如果不考慮這一點,雲端 CPU 的這種優勢是不會存在的。

編譯來源

http://economictimes.indiatimes.com/tech/software/intel-nvidia-battle-it-out-in-data-centre-market/articleshow/59519131.cms

http://minimaxir.com/2017/07/cpu-or-gpu/

點擊閱讀原文查看新智元招聘信息

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 新智元 的精彩文章:

全球AI报告:300亿豪赌,美国揽三分之二投资中国仅占17%
圖像識別和分類競賽,數據增強及優化演算法
「AI TOP 10」特斯拉市值蒸發真相;十年內實現心靈感應;Waymo撤銷對Uber大部分訴訟
谷歌投入622000英鎊創建機器人記者,每月挖掘3萬條新聞
「機器人總統強過特朗普?」技術視角看通用AI能否超越人類領袖

TAG:新智元 |

您可能感興趣

Ryzen APU單雙通道內存對比:結果方了!
NVIDIA TITAN V翻車,在科學模擬計算中無法得出可靠結果
天文學家搜尋Zuma結果發現NASA的「IMAGE」
CanAm發布PKF審計結果,消除對於EB-5業績記錄的猜測
不讓AMD獨美,NVIDIA也更新了顯卡驅動:結果卻……
最強旗艦對決:華為P20 Pro、iPhoneX與三星S9誰更快?結果太意外!
三星Galaxy S9與索尼Xperia XZ2在MWC大PK,沒想到結果是這樣
ALL緩解率超80%!NEJM報道CAR-T療法隨訪結果
銳龍APU平台裝Win7系統後:結果沒想到
三星S9與iPhone X誰更耐用?看完測試:結果意外了
科學家報告 CUORE 中微子實驗的首個結果
科學家報告CUORE中微子實驗的首個結果
RNG對戰Snake結果實力居然相差這麼大!
DNF:紅眼玩家打盧克抱怨劍神搶DPS,結果一到BOSS就分出高低了!
老外票選小米MIX 2S、華為P20 Pro誰更棒:結果有趣
三星Galaxy S9+速度測試比拼iPhone X,結果誰敗了?
KT又遇上SKT,PawN又遇上了Faker,還沒比賽結果就出來了
BLG對EDG掏出黑科技,結果諾手首次上場就被Clearlove安排了!
將三星S9+與iPhoneX泡在高溫熱水 結果完全不同
華為P20 Pro跑分出爐:結果不意外