超能課堂(99)：揭秘AMD Radeon Vega架構新玩意

科技 07-27

AMD在併購ATI以後，需要同時兼顧CPU、GPU兩個事業部，在過去的幾年之中也僅僅是表現平平。不過今年可謂是AMD意氣風發之年，銳龍橫空出世，以多核、性價比打得Intel措手不及，無奈之下Intel只能匆忙地祭出全新Core i9系列處理器。在GPU市場上，雖然年初AMD已經發布了一系列的RX 500，但是在高端顯卡上依舊缺席，等的就是Vega架構顯卡。在歷經多次Vega吹風會、計算卡/專業卡發布會後，RX Vega遊戲卡終於要在7月30日發布。在發布前，我們先來談談AMD Vega架構顯卡背後的一些變革。

按照AMD顯卡發展路線圖，Vega顯卡本應該在今年初就要推出的，但由於某種原因才推遲到Q3季度，中間沒有新品的空檔就讓仍是Polaris架構的RX 500系列頂上，原本RX 500系列顯卡相比RX 400系列只是提升了頻率，人們升級購買的慾望不是太充分。幸好RX 500系列顯卡「生得逢時」，遇上了第二波挖礦熱潮，RX 560以上級別的顯卡一卡難求。

超能課堂(99)：揭秘AMD Radeon Vega架構新玩意

AMD GPU發展路線圖

14nm FinFet製程：

根據AMD之前公布的顯卡路線圖，這一代Vega顯卡核心將會使用14nm FinFET工藝製造，其實和之前Polaris架構核心製程差別不大，代工方依然是AMD親密小夥伴GlobalFoundries格羅方德，而14nm工藝技術轉讓方是韓國三星半導體。

半導體製程工藝對於晶元性能、功耗有著根本性的影響，按照Polaris的14nm工藝官方資料，可以幫助顯卡核心電壓降低了150mV，從而功耗降低了30%，所以Polaris架構使用的14nm工藝相比28工藝能提升70%的每瓦性能比，即便是這樣RX 480/580依然逃不掉「電老虎」的稱號。

超能課堂(99)：揭秘AMD Radeon Vega架構新玩意

新舊兩代顯卡架構對比圖：

超能課堂(99)：揭秘AMD Radeon Vega架構新玩意

Polaris顯卡架構示意圖

超能課堂(99)：揭秘AMD Radeon Vega架構新玩意

Vega顯卡架構示意圖

早前AMD曾經召開過幾次的Vega架構顯卡吹風會，透露了Vega顯卡的四大特性：高帶寬緩存控制器、下一代計算單元NCU、高級像素引擎、新一代幾何渲染引擎。這次我們的內容也會圍繞這四大亮點來解說。

超能課堂(99)：揭秘AMD Radeon Vega架構新玩意

新一代顯存架構：HBM 2+HBCC

雖然AMD在Fiji核心上已經率先採用了HBM顯存，當時Fiji核心一經公布，就引發了業界的一番討論熱潮，原來顯存還能這樣玩，HBM直接和GPU核心集成在同一塊基板上，大大地節省了PCB面積，顯卡能做得非常小（R9 Nano就是例子），而且減少了信號傳輸延遲。不過當時Fiji架構沒有針對HBM研發的，HBM顯存優勢並沒有得到體現，而且只有4GB的容量在當時高性能顯卡中算是比較落後。但Vega核心經歷大改，針對性優化HBM2之後，AMD稱其為世界上最具並行性的GPU顯存架構。

HBM首個完整規範就是AMD聯手SK海力士研發的，因此初期只有AMD顯卡專用，HBM說到底就是一種擁有超高位寬同時超功耗低內存晶元。與目前的快閃記憶體顆粒一樣，也是由若干層高帶寬內存Die垂直堆棧，每一層內存與底層的邏輯控制電路通過TSV硅穿孔、微凸點技術直接互連，再通過同樣的技術，經中介層與GPU直接通信。

第一代HBM頻率最高只有500MHz（等效頻率1000MHz），每顆HBM顯存匯流排位寬高達1024Bit，四顆總位寬就高達4096Bit，總帶寬超過512GB/s，電壓低至1.3V。

經過一年的發展，HBM 2顯存相關技術規範已經準備差不多，同時成為JEDEC標準之一。HBM 2顯存最大提升在於實現了8-hi堆棧，容量可以由每顆粒1GB提升至8GB，工作頻率由1000MHz提升至1890MHz（比預期的稍有縮水），但是VEGA專業卡只用兩顆就能達成16GB容量，遊戲卡只要一顆就能擁有8GB顯存。

超能課堂(99)：揭秘AMD Radeon Vega架構新玩意

距離AMD宣稱2x帶寬提升還差一點點

超能課堂(99)：揭秘AMD Radeon Vega架構新玩意

HBM 2顯存佔用的面積比GDDR5更低，單位面積容量提升8倍

AMD為了展示HBM 2顯存性能，演示了一間起居室的照片級渲染畫面。原本需要花費數小時去渲染的600GB場景，但在Vega架構配合HBM 2加持下，僅僅幾分鐘就渲染完成。最終效果還能實時移動鏡頭去查看房間的角落，細緻的畫面令人感到震驚。

超能課堂(99)：揭秘AMD Radeon Vega架構新玩意

之前AMD放出的Radeon Pro Vega核心渲染圖，下面兩顆就是HBM 2顯存

超能課堂(99)：揭秘AMD Radeon Vega架構新玩意

我們拆解的AMD Radeon Vega Frontier Edition顯卡核顯，與渲染圖一致

超能課堂(99)：揭秘AMD Radeon Vega架構新玩意

如果說HBM 2顯存是Vega顯卡一大特色，那麼HBCC高帶寬高緩存控制器可以說是其殺手鐧。從之前顯卡架構示意圖來看，以往顯卡內存控制器只能控制GDDR5顯存，Vega大改以後HBCC就厲害了，它還可以連接顯卡PCB接入的SSD（Radeon Pro SSG那種）、網路存儲、系統DRAM等不同形式的片外存儲器件。

超能課堂(99)：揭秘AMD Radeon Vega架構新玩意

HBCC高帶寬高緩存控制器

而且AMD表示HBCC的定址能力高達512TB！也就說未來開發者可以把所有的存儲器件都當做顯存來用，只要速度夠快！如此一來Vega顯卡就可以成為一個名副其實的計算卡，看來AMD是為Vega在人工智慧、深度計算上隱藏了一個大招。

超能課堂(99)：揭秘AMD Radeon Vega架構新玩意

自適應、細粒度數據遷移

在《殺出重圍：人類分裂》中，啟用了HBCC（高帶寬緩存控制器）後，GPU的顯存定址效率提升明顯，對應所需的顯存大小需求更小，從而提升了遊戲畫面速度。在幀率優化演示中，啟用了HBCC後，遊戲平均幀數提升了50%，最小幀率提升一倍，遊戲畫面非常流暢。

演示過程中，AMD還將HBCC的顯存定址上限從4GB縮小到2GB，即便如此，在顯卡只能使用一半的顯存依舊能獲得流暢而穩定的遊戲畫面，這個就要歸功於超高帶寬的HBM 2顯存和高效率的HBCC。

超能課堂(99)：揭秘AMD Radeon Vega架構新玩意

新一代NCU單元：

AMD GCN架構改了一代又一代，不過測試下來一看，每一代的性能提升並不大。今年在Vega上，AMD也是痛定思痛，設計了「全新」的NCU（Next-Generation Compute Engine）架構，不僅優化了IPC性能，還提高了運算單元的靈活性。

一般來說我們玩遊戲、3D渲染對於單精度FP32、雙精度FP64要求比較高，而在大規模深度計算中卻對半精度FP16有非常高的需求，在深度計算領域先行一步的NVIDIA早就意識到這個問題，率先加入了對FP16半精度支持，半精度性能幾乎是雙精度的兩倍，在深度計算上性能優勢十分明顯。而AMD在Fiji還是Polaris架構上都慢半拍，沒有周全考慮到，導致其專業卡在市場是不受青睞。

超能課堂(99)：揭秘AMD Radeon Vega架構新玩意

因此Vega GPU中首度引入了緊縮的半精度計算支持，Vega的微架構被稱為「NCU（下一代計算單元）」，每個NCU中擁有64個ALU，它可以靈活地執行緊縮數學操作指令，如每個周期可以進行512個8位數學計算，或者256個16位計算，或者128個32位計算。這不僅充分利用了硬體資源，也大幅度提升Vega在深度學習計算的性能。效果也非常顯著，在之前公布的Radeon Instinct MI25計算卡就是基於Vega架構的，其FP32單精度浮點性能12.5TFLOPS，而半精度FP16性能直接翻倍到25TFLOPS。

超能課堂(99)：揭秘AMD Radeon Vega架構新玩意

現有的GCN單元中每個CU計算單元是64個流處理器，實際上是由4組固定16-Wide的單元組成，而Vega顯卡的NCU單元中流處理器數目更具靈活性，可以根據工作負載來動態調配。

超能課堂(99)：揭秘AMD Radeon Vega架構新玩意

AMD與NVIDIA在單精度與半精度單元使用上如出一轍，都是可以將兩個16bit單元組裝成一個完成的32bit單元使用。

超能課堂(99)：揭秘AMD Radeon Vega架構新玩意

現在AMD強調Vega顯卡為更高的時鐘頻率及IPC性能優化，其實Polaris顯卡的頻率經歷RX 400、RX 500兩代，頻率對比從前已經大有長進，能跑到1500MHz上，不過這也是AMD顯卡的上限了。而老對手NVIDIA Pascal顯卡起步就是1500MHz水平，Boost頻率分分鐘能上2000MHz。

既然AMD說明Vega的NCU已經對更高時鐘頻率作出優化，我們從已經發售的AMD Radeon Vega Frontier Edition專業顯卡就知道，最高頻率可以達到1600MHz，不過依然是不夠出彩，據說RX Vega遊戲卡頻率將會設定在1630MHz。

超能課堂(99)：揭秘AMD Radeon Vega架構新玩意

下一代計算單元NCU中引入了RPM（Rapid Packed Math），專門用於加速FP16的運算速度，新的著色器可以利用RPM，在AMD一直引以為豪的TressFX毛髮渲染中，Radeon RX Vega顯卡每秒能渲染的頭髮數量增加了一倍，因此RPM能夠輔助GPU核心進行更快更強的的物理計算。

超能課堂(99)：揭秘AMD Radeon Vega架構新玩意

新一代幾何渲染可編程引擎:

幾何渲染計算是所有圖形渲染的基礎，它的重要性不言而喻。不過在過往，AMD一直都是採用固定的流水線來處理幾何計算，雖然這種固定的幾何著色引擎具有像DSP那樣的高效、速度快等優勢，但是對於現在的遊戲來說，渲染場景變化非常大，這種固定式流水線顯得不夠靈活。

超能課堂(99)：揭秘AMD Radeon Vega架構新玩意

AMD舉出了一個例子，那就是Benchmark殺手的《殺出重圍：人類分裂》，在這個Benchmark測試場景中，畫面中的物體元素非常複雜，整個場景每個物體共包含2.2億個多邊形需要計算，但是很多物體都是被遮蓋，實際上只要輸出0.02億個多邊形就能完成畫面渲染，其餘的多邊形根本不需要顯示出來，換而言之，多達98%的性能被白白浪費了。

超能課堂(99)：揭秘AMD Radeon Vega架構新玩意

《殺出重圍：人類分裂》Benchmark場景

超能課堂(99)：揭秘AMD Radeon Vega架構新玩意

《殺出重圍：人類分裂》幾何線框渲染圖

因此新一代的幾何渲染可編程引擎誕生了，靈活地運用幾何著色器進行特定的演算法優化，將大量不必要的渲染計算全部忽略掉，只保留我們可視部分，從而達到節省硬體資源和能耗、提高遊戲性能目的，其實這個也是遊戲優化思路之一。

圖像除了經過頂點著色器和幾何著色器常規處理，Vega架構中還引入了一個全新的Primitive Shader（原始著色器），AMD解釋這種新型著色器可以大幅度減少不必要的幾何計算，實現更加快速、精簡的渲染過程。據說引入這個機制的靈感是因為主機開發者對於主機性能更為敏感，總是要各種花式優化遊戲（講到底就是在你看不到的地方砍渲染精細度，這也是沒辦法，主機性能就是這麼多）。

超能課堂(99)：揭秘AMD Radeon Vega架構新玩意

提升幾何計算性能的另一個方法就是讓GPU可以同時控制更多的著色器引起，因此加入了名位「Intelligent Workgroup Dostributor」（智能工作組分發器）的單元，該分發器可以實現對更多的著色器引擎的控制，並且可以根據負載情況智能地在各引擎之間均衡分配幾何計算任務。

超能課堂(99)：揭秘AMD Radeon Vega架構新玩意

最終AMD在Vega架構顯卡上實現了兩倍的每時鐘周期幾何性能提升

新一代像素引擎：

超能課堂(99)：揭秘AMD Radeon Vega架構新玩意

最後一部分的改進就是針對像素著色引擎進行優化，並且將其命名為Draw-streaming binning rasterizer（渲染流分檔光柵器），其工作原理和之前的幾何渲染引擎很相像，也是通過預先識別出無需出現、不必要的被遮掩像素，直接把這部分像素渲染計算剔除掉，以此達到更加高效的像素渲染性能。也能幫助顯卡減少工作量、發熱、耗電量，間接地提升了性能以及能耗比。

超能課堂(99)：揭秘AMD Radeon Vega架構新玩意

翻看前面的PPT，你會發現像素著色引擎通過L1緩存直接與L2緩存相連，後端渲染單元可以直接訪問二級高速緩存，減少了清空緩存後在需要的時候重讀顯存數據，對於延後式渲染技術的性能有不少提升，特別適用於VR渲染應用。不過由於渲染流分檔光柵器不是Vega架構中必須項，遊戲開發者可以按照實際情況來覺得是否採用這個技術，換而言之就是，目前目前已有的遊戲都適用渲染流分檔光柵器，需要遊戲開發者針對性優化，才能體現其威力。

目前AMD所透露的Vega信息全都在這裡了，可以看得出AMD這次在Vega上並沒有打算堆晶體管數目來提高性能，而是另闢蹊徑去提高每一個單元的效率，不做無用功。

那麼現在我們能看到那幾款Vega架構的產品呢？AMD Vega架構顯卡產品線：

Radeon Instinct MI25:

Radeon Instinct MI25屬於高性能計算卡，擁有64組NCU單元，換算過來就是4096個SP流處理器，配合16GB的HBM2顯存，顯存帶寬高達484GB/s，目前推測其基礎頻率約為1500MHz。半精度浮點性能有了很大進步，達到了24.6TFLOP，而單精度也有12.3TFLOPS，雙精度性能為768GFLOPS，在半精度、單精度性能上都完美超越了Tesla P100-16，不過卻比不上NVIDIA新發布的Tesla V100，後者的半精度性能已經飆升至30TFLOPS水平。

超能課堂(99)：揭秘AMD Radeon Vega架構新玩意

適合密集型計算、高性能深度計算上

AMD Radeon Vega Frontier：

Radeon Vega Frontier Edition屬於專業繪圖卡，通用有64組NCU單元，16GB HBM2顯存，顯存帶寬480GB/s，單精度與雙精度性能均好於Radeon Instinct MI25計算卡，FP32單精度浮點性能12.5TFLOPS，FP16半精度浮點性能25TFLOPS。

超能課堂(99)：揭秘AMD Radeon Vega架構新玩意

RX Vega：

RX Vega就是我們零售市場上的遊戲卡，AMD對於Vega遊戲卡信息守口如瓶，目前尚未知道有多少款Vega遊戲卡產品。不過可以確定的是，最高階RX Vega同樣會有64組NCU單元，即4096個流處理器，HBM 2顯存減配至8GB（應該是單顆粒8GB），因此顯存位寬同樣為2048Bit，至於顯存帶寬483GB/s。

超能課堂(99)：揭秘AMD Radeon Vega架構新玩意

距離RX Vega發布也只剩下三天時間了，這一次小超哥微信9501417也將會親赴美國洛杉磯參加AMD Radeon Vega&Ryzen Threadripper Tech Day，第一時間為大家來詳細消息。

總結：

Vega架構上的變革無疑是為使用多年的GCN架構注入了新的血液，AMD也因此有資本與NVIDIA在高端顯卡上一較高下，就目前泄露出來的跑分成績來看，RX Vega至少有GTX 1080的水平，如果價格合適，並且能大量投放到市場中，相信AMD也能重回榮光，努力向銳龍處理器學習吧，大家都等著Vega顯卡呢。

此外，從Vega中的HBCC、加入FP16半精度單元，我們都看到AMD想在Vega上實現遊戲與計算的大一統，技術既能用於遊戲處理上，也能成為專業卡、計算卡，挖掘其深度計算能力。

其實我們很欣慰看到這種創新推進力，畢竟有創新才有進步，有進步競爭對手才有壓力，市場才有有充分的競爭力，最終收益的還是我們這些玩家。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 超能網 的精彩文章:

※三星或推兩款中端晶元Exynos 7885和9610，魅族會用嗎？
※魅族PRO 7 PRO 7 Plus正式發布，售價2880起
※魅族Pro 7作為Helio X30處理器的首秀，性能如何？
※AMD推出ReLiveEdition，功能再增強
※魅族Pro 7作為聯發科Helio X30處理器的首秀，性能如何？

TAG:超能網 |

您可能感興趣

※超能陸戰隊 Big Hero 6 The Series 正式播出
※Super Science Friends-科學家也能有超能力
※超能直播：魅族16s Pro旗艦手機＋Flyme 8新品發布會
※AMD 7nm曝彪悍超能力！甩開Intel幾條街
※ChainMap：將多個字典視為一個，解鎖Python超能力。
※超能小主Rocket Girl
※Alphabet 財報釋出，超能賺的不光是 Google 廣告
※超能周末刊：AMD GCN架構再戰江湖，分析師建議iPhone降價
※Remedy新作《Control》試玩：用超能力粉碎虛妄的「平凡英雄」
※召喚和超能力：Leap Motion演示VR遠距離交互設計
※小身材超能量 ROG Huracan G21CN遊戲主機圖賞
※來BottleDream實習，修鍊你的超能力
※化身007，Oculus獨佔遊戲《Defector》讓你體驗終極間諜的超能力
※解鎖超能「Lee」一秒變身超級英雄——2018年秋冬 Lee x Marvel 限量款合作系列
※輕薄更超能！惠普EliteBook 755 G5商務本評測
※超能課堂：英特爾不再擠牙膏，Sunny Cove遇上3D封裝
※超能周末刊：蘋果推新iPad、Macbook Air，羅永浩否認退出江湖
※超能課堂(180)：TLC/QLC硬碟的死結，SSD為什麼會掉速？
※Armani Junior|不同未來，童樣的「超能力"!
※《超能勇士》系列動畫編劇Larry DiTillio逝世