「重磅」谷歌發布TPU論文,75位聯合作者,GPU迎來最強勁對手
新智元報道
深度學習應用大量湧現使超級計算機的架構逐漸向深度學習應用優化,從傳統 CPU 為主 GPU 為輔的英特爾處理器變為 GPU 為主 CPU 為輔的結構。不過,未來相當長一段時間內,計算系統仍將保持 CPU + 協處理器的混合架構。但是,在協處理市場,隨著人工智慧尤其是機器學習應用大量湧現,晶元廠商紛紛完善產品、推出新品,都想成為智能時代協處理器的領跑者——但問題是,誰會擔當這個角色呢?
大約在四年前,谷歌開始注意到深度神經網路在各種服務中的真正潛力,由此產生的計算力需求——硬體需求,也就十分清晰。具體說,CPU 和 GPU 把模型訓練好,谷歌需要另外的晶元加速推理(inference),經過這一步,神經網路才能用於產品和服務。
不過,當時的谷歌雖然知道自己需要一種新的硬體架構,但具體的思路還不明確。這也正是谷歌當年硬體大牛 Norman Jouppi 挖過去的原因。Jouppi 是 MIPS 處理器的首席架構師之一,開創了很多內存系統中的新技術,提到微處理器設計,Jouppi 的名字幾乎無人不知。Jouppi 在接受 The Next Platform 採訪時表示,他在三年多以前加入谷歌時手頭實際上有好幾個選擇,但他從來沒有想過最終還是走回了 CISC 設備的道路。
TPU 架構
我們當然在說谷歌的 TPU。這款晶元在去年穀歌 I/O 大會上首次公開亮相,但相關細節一直沒有被透露。就在這周召開的體系結構頂會 ISCA 2017 上面,描述 TPU 的論文被評為最佳論文,我們也終於得以了解 TPU 的技術細節。在論文中,谷歌將 TPU 的性能和效率與 Haswell CPU 和英偉達 Tesla K80 GPU 做了詳盡的比較,從中可以了解 TPU 在推理上性能卓越的原因。
Jouppi 在接受 The Next Platform 採訪時表示,谷歌硬體工程團隊在決定採用定製 ASIC 的方法之前,在項目初期確實考慮過使用 FPGA 的方案解決廉價、高效和高性能推理的問題。Jouppi 告訴 The Next Platform,使用 FPGA 就是看中了 FPGA 的靈活性,「容易改變/調整」,但是由於可編程性和其他障礙,FPGA 與 ASIC 相比在性能和每瓦性能上還是有很大的差異。Jouppi 解釋說:「TPU 跟 CPU 或 GPU 一樣是可編程的。TPU 不是專為某一個神經網路模型設計的;TPU 能在多種網路(卷積網路、LSTM模型和大規模全連接的神經網路模型)上執行 CISC 指令。所以,TPU 是可編程的,但 TPU 使用矩陣作原語(primitive)而不是向量或標量。」
The Next Platform 評論稱,TPU 並不複雜,看上去更像是雷達應用的信號處理引擎,而不是標準的 X86 衍生架構。Jouppi說,雖然 TPU 有很多矩陣乘法單元,但 TPU 比「GPU 在思路上更接近浮點單元協處理器」,TPU 沒有任何存儲程序,僅執行從主機發送的指令。
由於要獲取大量的權重並將這些權重送到矩陣乘法單元,TPU 上的 DRAM 是作為一個獨立的單元並行運行。同時,矩陣乘法單元通過減少統一緩衝區的讀寫降低能耗,也就是進行所謂的「脈動運行」(systolic execution)。
TPU 有兩個內存,還有一個用於存儲模型中參數的外部 DRAM。參數進來以後,從矩陣乘法單元的上層開始載入。同時,可以從左邊載入激活,也就是「神經元」的輸出。這些都以「systolic」脈動的方式進入矩陣單元,然後進行矩陣相乘,每個周期可以做 64,000 次累積。
鑒於大多數使用機器學習的公司(除了Facebook)都使用 CPU 做推理,因此谷歌 TPU 論文將英特爾「Haswell」Xeon E5 v3 處理器和 TPU 做了對比,而且從數據可以看出,後者在多維度推理方面性能遠超前者。The Next Platform 也由此評論,難怪用慣了 X86 處理器集群做機器學習的谷歌要自己研發一款新的晶元做推理。
在谷歌的測試中,使用 64 位浮點數學運算器的 18 核 Haswell Xeon E5-2699 v3 處理器,以 2.3 GHz 運行的情況下每秒能夠處理 1.3 TOPS(每秒萬億次運算),提供 51 GB/秒的內存帶寬,Haswell 晶元的能耗是 145 瓦,系統(包括了 256 GB 的內存)繁忙時耗能 455 瓦特。
相比之下,TPU 使用 8 位整數數學運算器,擁有 256 GB的主機內存和 32 GB的自身內存,片上內存帶寬 34 GB/秒,峰值 92 TOPS,推理吞吐量高了 71 倍,而託管 TPU 的伺服器的熱功率為 384 瓦。
谷歌還對比測試了 CPU、GPU 和 TPU 處理不同批量(batch)大小的每秒推理吞吐量。
在批量很小、數量為 16 的情況下,Haswell CPU 處理完前 99% 的響應時間接近 7 毫秒,每秒推理數為 5,482 次(IPS),相當於最大值(13,194 IPS,批量 64)的 42%,而達到峰值則用了 21.3 毫秒的時間。相比之下,TPU 可以做到在批量大小為 200 的情況下仍然滿足 7 毫秒的上限,並且 IPS 為 225,000 次,達到峰值性能的80%。TPU 在批量大小為 250 的情況下,經過 10 個毫秒就出現了前 99% 的響應。
需要指出,谷歌測試的是一個相對較早的 Haswell Xeon,隨著架構的變化和預計今夏發布的「Skylake」Xeon E5,IPC 還會上升。此外,Skylake 是 28 核(相比 Haswell 是 18 核),Xeon 的總體吞吐量也會加大(The Next Platform 的估計是提高 80%)。但即便如此,CPU 與 TPU 還是有著很大的差距。
有輿論稱,谷歌自己打造晶元,勢必對晶元製造商產生巨大影響。確實,面向機器學習專用的處理器是晶元行業的發展趨勢,而且未來其他大公司也很有可能組建晶元團隊,設計自己專用的晶元。
這後半句話值得商榷。GPU 巨頭、英偉達 CEO 黃仁勛日前告訴《華爾街日報》,兩年前谷歌就意識到 GPU 更適合訓練,而不善於做訓練後的分析決策。由此可知,谷歌打造 TPU 的動機只是想要一款更適合做分析決策的晶元。這一點在谷歌的官方聲明裡也得到了印證:TPU 只在特定機器學習應用中作輔助使用,公司將繼續使用其他廠商製造的 CPU 和 GPU。
需要指出,TPU 是一款推理晶元,因此 TPU 的出現並非是為了取代 GPU——新智元在對英偉達 CEO 黃仁勛的採訪中也提到了這一點。TPU 仍然需要結合 GPU 和 CPU 一起使用,本文在一開始也說明了,訓練神經網路模型,還是離不開 GPU 和 CPU。而對於 CPU 製造商而言,真正的挑戰是提供在考慮到能耗和效率的前提下,具有極高推理性能的晶元。
3月27日,新智元開源·生態AI技術峰會暨新智元2017創業大賽頒獎盛典隆重召開,包括「BAT」在內的中國主流 AI 公司、600多名行業精英齊聚,共同為2017中國人工智慧的發展畫上了濃墨重彩的一筆。
點擊閱讀原文,查閱文字版大會實錄


※《紐約客》深度長文:當人工智慧遇上醫生
※漆遠:小數據學習和模型壓縮存挑戰,場景成為 AI 技術發展關鍵
※微軟CNTK 2.0版本發布,支持結合Azure GPU在雲端使用
※「哈佛商業評論」所有AI公司都面臨的兩難:性能優先還是應用優先?
TAG:新智元 |
※SUPREME迎來秋冬首周發售,BEAMS聯手保鮮袋大廠打造PVC力作
※BAPE與POPEYE進行首次聯名!Supreme 18春夏即將迎來最後一周的發售!
※OPPO A5曝光,A系列將迎來雙攝加持
※LOL:WE康帝宣布回歸 夏季賽的RNG又將迎來一個強勁對手
※「WELLBET APP」意甲-尤文圖斯VS拉齊奧,C羅能否迎來尤文首球?
※NINE PERCENT剛火就迎來勁敵CTO,蔡徐坤即將C位不保?
※LPL夏季賽異組對決即將開啟 RNG主場迎來OMG挑戰
※PGI後迎來世紀大戰,OMG和FaZe將正面對決
※「指南針運動專欄」:我們會迎來至今為止最好買的 OFF-WHITE 聯名?
※GPU Turbo後又將迎來EMUI 8.1,華為Mate 10系列正適合現在入手
※PCPI決賽之前迎來重大更新!4AM戰隊將成為最大受益者?
※BLACKPINK即將迎來第一場首爾演唱會,楊賢碩公開應援!
※OPPO Find X,OPPO終於迎來旗艦機
※LANVIN en Blue x CONVERSE 聯乘鞋款即將迎來發售
※WWDC蘋果開發者大會,iOS12、Watch OS等迎來更新
※兩大主機迎來今年最火RPG,首發中文!
※DOTA2 Ti8:小組賽第二日VG迎來首場勝利,Newbee上演絕處逢生!
※5G投票迎來決戰!6月MMTC、URLLC到來,華為準備迎戰
※VR本周說:英特爾助力VR形式觀看NBA,新PS VR或迎來更好顯示屏
※韓國KT公司與GS零售強強聯合,迎來第二家VR樂園