當前位置:
首頁 > 科技 > 超能課堂(99):揭秘AMD Radeon Vega架構新玩意

超能課堂(99):揭秘AMD Radeon Vega架構新玩意

AMD在併購ATI以後,需要同時兼顧CPU、GPU兩個事業部,在過去的幾年之中也僅僅是表現平平。不過今年可謂是AMD意氣風發之年,銳龍橫空出世,以多核、性價比打得Intel措手不及,無奈之下Intel只能匆忙地祭出全新Core i9系列處理器。在GPU市場上,雖然年初AMD已經發布了一系列的RX 500,但是在高端顯卡上依舊缺席,等的就是Vega架構顯卡。在歷經多次Vega吹風會、計算卡/專業卡發布會後,RX Vega遊戲卡終於要在7月30日發布。在發布前,我們先來談談AMD Vega架構顯卡背後的一些變革。

超能課堂(99):揭秘AMD Radeon Vega架構新玩意

按照AMD顯卡發展路線圖,Vega顯卡本應該在今年初就要推出的,但由於某種原因才推遲到Q3季度,中間沒有新品的空檔就讓仍是Polaris架構的RX 500系列頂上,原本RX 500系列顯卡相比RX 400系列只是提升了頻率,人們升級購買的慾望不是太充分。幸好RX 500系列顯卡「生得逢時」,遇上了第二波挖礦熱潮,RX 560以上級別的顯卡一卡難求。

超能課堂(99):揭秘AMD Radeon Vega架構新玩意

AMD GPU發展路線圖

14nm FinFet製程:

根據AMD之前公布的顯卡路線圖,這一代Vega顯卡核心將會使用14nm FinFET工藝製造,其實和之前Polaris架構核心製程差別不大,代工方依然是AMD親密小夥伴GlobalFoundries格羅方德,而14nm工藝技術轉讓方是韓國三星半導體。

半導體製程工藝對於晶元性能、功耗有著根本性的影響,按照Polaris的14nm工藝官方資料,可以幫助顯卡核心電壓降低了150mV,從而功耗降低了30%,所以Polaris架構使用的14nm工藝相比28工藝能提升70%的每瓦性能比,即便是這樣RX 480/580依然逃不掉「電老虎」的稱號。

超能課堂(99):揭秘AMD Radeon Vega架構新玩意

新舊兩代顯卡架構對比圖:

超能課堂(99):揭秘AMD Radeon Vega架構新玩意

Polaris顯卡架構示意圖

超能課堂(99):揭秘AMD Radeon Vega架構新玩意

Vega顯卡架構示意圖

早前AMD曾經召開過幾次的Vega架構顯卡吹風會,透露了Vega顯卡的四大特性:高帶寬緩存控制器、下一代計算單元NCU、高級像素引擎、新一代幾何渲染引擎。這次我們的內容也會圍繞這四大亮點來解說。

超能課堂(99):揭秘AMD Radeon Vega架構新玩意

新一代顯存架構:HBM 2+HBCC

雖然AMD在Fiji核心上已經率先採用了HBM顯存,當時Fiji核心一經公布,就引發了業界的一番討論熱潮,原來顯存還能這樣玩,HBM直接和GPU核心集成在同一塊基板上,大大地節省了PCB面積,顯卡能做得非常小(R9 Nano就是例子),而且減少了信號傳輸延遲。不過當時Fiji架構沒有針對HBM研發的,HBM顯存優勢並沒有得到體現,而且只有4GB的容量在當時高性能顯卡中算是比較落後。但Vega核心經歷大改,針對性優化HBM2之後,AMD稱其為世界上最具並行性的GPU顯存架構。

HBM首個完整規範就是AMD聯手SK海力士研發的,因此初期只有AMD顯卡專用,HBM說到底就是一種擁有超高位寬同時超功耗低內存晶元。與目前的快閃記憶體顆粒一樣,也是由若干層高帶寬內存Die垂直堆棧,每一層內存與底層的邏輯控制電路通過TSV硅穿孔、微凸點技術直接互連,再通過同樣的技術,經中介層與GPU直接通信。

第一代HBM頻率最高只有500MHz(等效頻率1000MHz),每顆HBM顯存匯流排位寬高達1024Bit,四顆總位寬就高達4096Bit,總帶寬超過512GB/s,電壓低至1.3V。

經過一年的發展,HBM 2顯存相關技術規範已經準備差不多,同時成為JEDEC標準之一。HBM 2顯存最大提升在於實現了8-hi堆棧,容量可以由每顆粒1GB提升至8GB,工作頻率由1000MHz提升至1890MHz(比預期的稍有縮水),但是VEGA專業卡只用兩顆就能達成16GB容量,遊戲卡只要一顆就能擁有8GB顯存。

超能課堂(99):揭秘AMD Radeon Vega架構新玩意

距離AMD宣稱2x帶寬提升還差一點點

超能課堂(99):揭秘AMD Radeon Vega架構新玩意

HBM 2顯存佔用的面積比GDDR5更低,單位面積容量提升8倍

AMD為了展示HBM 2顯存性能,演示了一間起居室的照片級渲染畫面。原本需要花費數小時去渲染的600GB場景,但在Vega架構配合HBM 2加持下,僅僅幾分鐘就渲染完成。最終效果還能實時移動鏡頭去查看房間的角落,細緻的畫面令人感到震驚。

超能課堂(99):揭秘AMD Radeon Vega架構新玩意

之前AMD放出的Radeon Pro Vega核心渲染圖,下面兩顆就是HBM 2顯存

超能課堂(99):揭秘AMD Radeon Vega架構新玩意

我們拆解的AMD Radeon Vega Frontier Edition顯卡核顯,與渲染圖一致

超能課堂(99):揭秘AMD Radeon Vega架構新玩意

如果說HBM 2顯存是Vega顯卡一大特色,那麼HBCC高帶寬高緩存控制器可以說是其殺手鐧。從之前顯卡架構示意圖來看,以往顯卡內存控制器只能控制GDDR5顯存,Vega大改以後HBCC就厲害了,它還可以連接顯卡PCB接入的SSD(Radeon Pro SSG那種)、網路存儲、系統DRAM等不同形式的片外存儲器件。

超能課堂(99):揭秘AMD Radeon Vega架構新玩意

HBCC高帶寬高緩存控制器

而且AMD表示HBCC的定址能力高達512TB!也就說未來開發者可以把所有的存儲器件都當做顯存來用,只要速度夠快!如此一來Vega顯卡就可以成為一個名副其實的計算卡,看來AMD是為Vega在人工智慧、深度計算上隱藏了一個大招。

超能課堂(99):揭秘AMD Radeon Vega架構新玩意

超能課堂(99):揭秘AMD Radeon Vega架構新玩意

自適應、細粒度數據遷移

在《殺出重圍:人類分裂》中,啟用了HBCC(高帶寬緩存控制器)後,GPU的顯存定址效率提升明顯,對應所需的顯存大小需求更小,從而提升了遊戲畫面速度。在幀率優化演示中,啟用了HBCC後,遊戲平均幀數提升了50%,最小幀率提升一倍,遊戲畫面非常流暢。

演示過程中,AMD還將HBCC的顯存定址上限從4GB縮小到2GB,即便如此,在顯卡只能使用一半的顯存依舊能獲得流暢而穩定的遊戲畫面,這個就要歸功於超高帶寬的HBM 2顯存和高效率的HBCC。

超能課堂(99):揭秘AMD Radeon Vega架構新玩意

新一代NCU單元:

AMD GCN架構改了一代又一代,不過測試下來一看,每一代的性能提升並不大。今年在Vega上,AMD也是痛定思痛,設計了「全新」的NCU(Next-Generation Compute Engine)架構,不僅優化了IPC性能,還提高了運算單元的靈活性。

一般來說我們玩遊戲、3D渲染對於單精度FP32、雙精度FP64要求比較高,而在大規模深度計算中卻對半精度FP16有非常高的需求,在深度計算領域先行一步的NVIDIA早就意識到這個問題,率先加入了對FP16半精度支持,半精度性能幾乎是雙精度的兩倍,在深度計算上性能優勢十分明顯。而AMD在Fiji還是Polaris架構上都慢半拍,沒有周全考慮到,導致其專業卡在市場是不受青睞。

超能課堂(99):揭秘AMD Radeon Vega架構新玩意

因此Vega GPU中首度引入了緊縮的半精度計算支持,Vega的微架構被稱為「NCU(下一代計算單元)」,每個NCU中擁有64個ALU,它可以靈活地執行緊縮數學操作指令,如每個周期可以進行512個8位數學計算,或者256個16位計算,或者128個32位計算。這不僅充分利用了硬體資源,也大幅度提升Vega在深度學習計算的性能。效果也非常顯著,在之前公布的Radeon Instinct MI25計算卡就是基於Vega架構的,其FP32單精度浮點性能12.5TFLOPS,而半精度FP16性能直接翻倍到25TFLOPS。

超能課堂(99):揭秘AMD Radeon Vega架構新玩意

現有的GCN單元中每個CU計算單元是64個流處理器,實際上是由4組固定16-Wide的單元組成,而Vega顯卡的NCU單元中流處理器數目更具靈活性,可以根據工作負載來動態調配。

超能課堂(99):揭秘AMD Radeon Vega架構新玩意

AMD與NVIDIA在單精度與半精度單元使用上如出一轍,都是可以將兩個16bit單元組裝成一個完成的32bit單元使用。

超能課堂(99):揭秘AMD Radeon Vega架構新玩意

現在AMD強調Vega顯卡為更高的時鐘頻率及IPC性能優化,其實Polaris顯卡的頻率經歷RX 400、RX 500兩代,頻率對比從前已經大有長進,能跑到1500MHz上,不過這也是AMD顯卡的上限了。而老對手NVIDIA Pascal顯卡起步就是1500MHz水平,Boost頻率分分鐘能上2000MHz。

既然AMD說明Vega的NCU已經對更高時鐘頻率作出優化,我們從已經發售的AMD Radeon Vega Frontier Edition專業顯卡就知道,最高頻率可以達到1600MHz,不過依然是不夠出彩,據說RX Vega遊戲卡頻率將會設定在1630MHz。

超能課堂(99):揭秘AMD Radeon Vega架構新玩意

超能課堂(99):揭秘AMD Radeon Vega架構新玩意

下一代計算單元NCU中引入了RPM(Rapid Packed Math),專門用於加速FP16的運算速度,新的著色器可以利用RPM,在AMD一直引以為豪的TressFX毛髮渲染中,Radeon RX Vega顯卡每秒能渲染的頭髮數量增加了一倍,因此RPM能夠輔助GPU核心進行更快更強的的物理計算。

超能課堂(99):揭秘AMD Radeon Vega架構新玩意

新一代幾何渲染可編程引擎:

幾何渲染計算是所有圖形渲染的基礎,它的重要性不言而喻。不過在過往,AMD一直都是採用固定的流水線來處理幾何計算,雖然這種固定的幾何著色引擎具有像DSP那樣的高效、速度快等優勢,但是對於現在的遊戲來說,渲染場景變化非常大,這種固定式流水線顯得不夠靈活。

超能課堂(99):揭秘AMD Radeon Vega架構新玩意

AMD舉出了一個例子,那就是Benchmark殺手的《殺出重圍:人類分裂》,在這個Benchmark測試場景中,畫面中的物體元素非常複雜,整個場景每個物體共包含2.2億個多邊形需要計算,但是很多物體都是被遮蓋,實際上只要輸出0.02億個多邊形就能完成畫面渲染,其餘的多邊形根本不需要顯示出來,換而言之,多達98%的性能被白白浪費了。

超能課堂(99):揭秘AMD Radeon Vega架構新玩意

《殺出重圍:人類分裂》Benchmark場景

超能課堂(99):揭秘AMD Radeon Vega架構新玩意

《殺出重圍:人類分裂》幾何線框渲染圖

因此新一代的幾何渲染可編程引擎誕生了,靈活地運用幾何著色器進行特定的演算法優化,將大量不必要的渲染計算全部忽略掉,只保留我們可視部分,從而達到節省硬體資源和能耗、提高遊戲性能目的,其實這個也是遊戲優化思路之一。

圖像除了經過頂點著色器和幾何著色器常規處理,Vega架構中還引入了一個全新的Primitive Shader(原始著色器),AMD解釋這種新型著色器可以大幅度減少不必要的幾何計算,實現更加快速、精簡的渲染過程。據說引入這個機制的靈感是因為主機開發者對於主機性能更為敏感,總是要各種花式優化遊戲(講到底就是在你看不到的地方砍渲染精細度,這也是沒辦法,主機性能就是這麼多)。

超能課堂(99):揭秘AMD Radeon Vega架構新玩意

提升幾何計算性能的另一個方法就是讓GPU可以同時控制更多的著色器引起,因此加入了名位「Intelligent Workgroup Dostributor」(智能工作組分發器)的單元,該分發器可以實現對更多的著色器引擎的控制,並且可以根據負載情況智能地在各引擎之間均衡分配幾何計算任務。

超能課堂(99):揭秘AMD Radeon Vega架構新玩意

超能課堂(99):揭秘AMD Radeon Vega架構新玩意

最終AMD在Vega架構顯卡上實現了兩倍的每時鐘周期幾何性能提升

新一代像素引擎:

超能課堂(99):揭秘AMD Radeon Vega架構新玩意

最後一部分的改進就是針對像素著色引擎進行優化,並且將其命名為Draw-streaming binning rasterizer(渲染流分檔光柵器),其工作原理和之前的幾何渲染引擎很相像,也是通過預先識別出無需出現、不必要的被遮掩像素,直接把這部分像素渲染計算剔除掉,以此達到更加高效的像素渲染性能。也能幫助顯卡減少工作量、發熱、耗電量,間接地提升了性能以及能耗比。

超能課堂(99):揭秘AMD Radeon Vega架構新玩意

翻看前面的PPT,你會發現像素著色引擎通過L1緩存直接與L2緩存相連,後端渲染單元可以直接訪問二級高速緩存,減少了清空緩存後在需要的時候重讀顯存數據,對於延後式渲染技術的性能有不少提升,特別適用於VR渲染應用。不過由於渲染流分檔光柵器不是Vega架構中必須項,遊戲開發者可以按照實際情況來覺得是否採用這個技術,換而言之就是,目前目前已有的遊戲都適用渲染流分檔光柵器,需要遊戲開發者針對性優化,才能體現其威力。

目前AMD所透露的Vega信息全都在這裡了,可以看得出AMD這次在Vega上並沒有打算堆晶體管數目來提高性能,而是另闢蹊徑去提高每一個單元的效率,不做無用功。

那麼現在我們能看到那幾款Vega架構的產品呢?AMD Vega架構顯卡產品線:

Radeon Instinct MI25:

Radeon Instinct MI25屬於高性能計算卡,擁有64組NCU單元,換算過來就是4096個SP流處理器,配合16GB的HBM2顯存,顯存帶寬高達484GB/s,目前推測其基礎頻率約為1500MHz。半精度浮點性能有了很大進步,達到了24.6TFLOP,而單精度也有12.3TFLOPS,雙精度性能為768GFLOPS,在半精度、單精度性能上都完美超越了Tesla P100-16,不過卻比不上NVIDIA新發布的Tesla V100,後者的半精度性能已經飆升至30TFLOPS水平。

超能課堂(99):揭秘AMD Radeon Vega架構新玩意

適合密集型計算、高性能深度計算上

AMD Radeon Vega Frontier:

Radeon Vega Frontier Edition屬於專業繪圖卡,通用有64組NCU單元,16GB HBM2顯存,顯存帶寬480GB/s,單精度與雙精度性能均好於Radeon Instinct MI25計算卡,FP32單精度浮點性能12.5TFLOPS,FP16半精度浮點性能25TFLOPS。

超能課堂(99):揭秘AMD Radeon Vega架構新玩意

超能課堂(99):揭秘AMD Radeon Vega架構新玩意

RX Vega:

RX Vega就是我們零售市場上的遊戲卡,AMD對於Vega遊戲卡信息守口如瓶,目前尚未知道有多少款Vega遊戲卡產品。不過可以確定的是,最高階RX Vega同樣會有64組NCU單元,即4096個流處理器,HBM 2顯存減配至8GB(應該是單顆粒8GB),因此顯存位寬同樣為2048Bit,至於顯存帶寬483GB/s。

超能課堂(99):揭秘AMD Radeon Vega架構新玩意

距離RX Vega發布也只剩下三天時間了,這一次小超哥微信9501417也將會親赴美國洛杉磯參加AMD Radeon Vega&Ryzen Threadripper Tech Day,第一時間為大家來詳細消息。

總結:

Vega架構上的變革無疑是為使用多年的GCN架構注入了新的血液,AMD也因此有資本與NVIDIA在高端顯卡上一較高下,就目前泄露出來的跑分成績來看,RX Vega至少有GTX 1080的水平,如果價格合適,並且能大量投放到市場中,相信AMD也能重回榮光,努力向銳龍處理器學習吧,大家都等著Vega顯卡呢。

此外,從Vega中的HBCC、加入FP16半精度單元,我們都看到AMD想在Vega上實現遊戲與計算的大一統,技術既能用於遊戲處理上,也能成為專業卡、計算卡,挖掘其深度計算能力。

其實我們很欣慰看到這種創新推進力,畢竟有創新才有進步,有進步競爭對手才有壓力,市場才有有充分的競爭力,最終收益的還是我們這些玩家。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 超能網 的精彩文章:

三星或推兩款中端晶元Exynos 7885和9610,魅族會用嗎?
魅族PRO 7 PRO 7 Plus正式發布,售價2880起
魅族Pro 7作為Helio X30處理器的首秀,性能如何?
AMD推出ReLiveEdition,功能再增強
魅族Pro 7作為聯發科Helio X30處理器的首秀,性能如何?

TAG:超能網 |

您可能感興趣

超能陸戰隊 Big Hero 6 The Series 正式播出
Super Science Friends-科學家也能有超能力
超能直播:魅族16s Pro旗艦手機+Flyme 8新品發布會
AMD 7nm曝彪悍超能力!甩開Intel幾條街
ChainMap:將多個字典視為一個,解鎖Python超能力。
超能小主Rocket Girl
Alphabet 財報釋出,超能賺的不光是 Google 廣告
超能周末刊:AMD GCN架構再戰江湖,分析師建議iPhone降價
Remedy新作《Control》試玩:用超能力粉碎虛妄的「平凡英雄」
召喚和超能力:Leap Motion演示VR遠距離交互設計
小身材超能量 ROG Huracan G21CN遊戲主機圖賞
來BottleDream實習,修鍊你的超能力
化身007,Oculus獨佔遊戲《Defector》讓你體驗終極間諜的超能力
解鎖超能 「Lee」 一秒變身超級英雄——2018年秋冬 Lee x Marvel 限量款合作系列
輕薄更超能!惠普EliteBook 755 G5商務本評測
超能課堂:英特爾不再擠牙膏,Sunny Cove遇上3D封裝
超能周末刊:蘋果推新iPad、Macbook Air,羅永浩否認退出江湖
超能課堂(180):TLC/QLC硬碟的死結,SSD為什麼會掉速?
Armani Junior|不同未來,童樣的「超能力"!
《超能勇士》系列動畫編劇Larry DiTillio逝世