寫在RTX2080評測之前：老黃想用AI/光線追蹤顛覆顯卡？

科技 09-14

過去兩年的顯卡市場是遊戲玩家不堪回首的記憶，2016年NVIDIA發布Pascla顯卡之後帶來了性能更強、能效更好的GTX 10系列顯卡，但是之後顯卡市場遭遇礦卡從瘋狂到崩盤、顯存大漲價等多方因素影響，導致顯卡市場兩年來都沒新一代更替，直到8月20日的科隆遊戲展上，NVIDIA推出了代號圖靈Turing的新一代GPU架構，並啟用了GeForce RTX品牌，新一代顯卡終於來了。

遊戲玩家這一次的等待時間很長，不過某種方面來說這次的等待也很值得，因為NVIDIA的圖靈顯卡號稱有史以來升級最大的GPU架構，創始人、CEO黃仁勛直接稱之為2006年以來GPU最大的飛躍。

另一方面，全新的GeForce RTX 20系列顯卡的售價也水漲船高，這次發布了GeForce RTX 2080 Ti、RTX 2080及RTX 2070三款顯卡，其中前兩款顯卡率先上市，FE創始人公版RTX 2080 Ti價格達到了9999元，RTX 2080顯卡的FE公版也要6499元，第三方廠商的價格分別是8199、5699元，整體價格比現在的GTX 1080系列高出一截。

目前NVIDIA的GeForce RTX 2080系列顯卡還沒有解禁，因此性能提升幅度還沒有定論，不好比較更高價的RTX 2080系列顯卡是否對得起它的售價。不過今晚NVIDIA解禁了圖靈顯卡的技術細節，我們可以從技術角度來看看圖靈GPU架構到底帶來哪些改變？

▍NVIDIA圖靈架構改進：

1、圖靈CUDA核心大改：性能提升50%

N卡玩家常聽到的一個詞就是CUDA核心，它就是GPU架構中的基本單位——流處理器單元，CUDA核心數越多，顯卡性能越強，同時每個CUDA核心的性能越強，這就類似於CPU中的核心數及單核性能一樣，只有CUDA核心又多又強的情況下顯卡性能提升才會更明顯。

在現在的Pascal顯卡上，GP102大核心的CUDA核心數最多3840個，GTX 1080 Ti是3584個，而圖靈GPU的TU102核心完整版是4608個CUDA核心，不過RTX 2080 Ti現在只使用了4352個，從3584到4352意味著CUDA核心數增加了21%，這個增幅並不算高，因為圖靈這一代的CUDA架構著重於提升性能，NVIDIA宣稱每個CUDA核心的性能提升了50%。

CUDA核心性能大幅增長則受益於SM單元的改變，在Pascal GPU架構中，NVIDIA在GP102、GP104、GP106核心中的SM單元中塞入了128個CUDA核心，配備了48KB L1緩存、96KB共享緩存、256KB寄存器容量，架構如下所示：

GTX1080顯卡的GP104核心SM單元架構

TU102核心的SM單元架構

圖靈GPU架構的SM單元不一樣，NVIDIA減少了SM單元中的CUDA核心數到64個，但增大了SM單元數量，TU102總計72組SM單元，而GP104是20組SM單元，同時又增加了每組SM單元的緩存，新增了L0緩存、L1/共享緩存增加到了96KB，看似減少了，但是分配方式更靈活，需要的時候L1緩存分配到64KB，比Pascal顯卡的48KB提升50%。

此外，圖靈GPU的SM單元還基於常見工作負載做了執行單元的優化，增加了第二條並行單元，在執行整數類型的計算時浮點單元也不會空置了，使得執行單元的效率提升了36%，大幅提升了執行單元的效率及性能。

總的來說，在CUDA及SM單元上，圖靈架構重新分配了緩存系統，優化了執行單元效率，使得CUDA核心性能最多提升50%，在其他不同類型的負載中提升幅度也有50-70%，使得圖靈顯卡在CUDA核心數沒有大幅增長的情況下遊戲性能依然有明顯提升。

圖靈架構的重點之一：保留Tensor單元，顯卡也能玩AI

圖靈顯卡雖然大幅提升了CUDA單元的性能，那為什麼不增加更多的CUDA單元呢？畢竟核心面積以及晶體管規模相比Pascal顯卡大幅增加了，原本該有足夠的空間增加CUDA核心才對。這個問題就要說到NVIDIA在圖靈架構上的野心了，這也是NVIDIA一直強調圖靈顯卡為什麼是有史以來架構變化最大的GPU了，因為它增加了AI運算單元及RT光線追蹤渲染單元。

先說AI單元，實際上叫做Tensor Core（張量核心），這是Volta架構上首次增加的新單元，圖靈架構繼承了Tensor Core設計，每個SM單元中有8個Tensor Core核心，總計576個Tensor單元，不過RTX 2080 Ti實際啟用的是544個。

相比一般的CUDA核心，Tensor Core主要用於執行神經網路、推理訓練等深度學習相關的運算，特點就是對性能要求很高，但對運算精度沒這麼高，因此圖靈架構大砍了FP64雙精度運算，僅為FP32單精度的1/32，反正對遊戲來說FP64單元沒什麼意義，只會增加功耗。

增加專用的Tensor Core核心之後，圖靈顯卡的AI性能大幅提升，以RTX 2080 Ti為例，其FP32浮點性能為13.4TFLOPS，FP16浮點性能翻倍到了26.89TFLOPS，FP16 Accumulate性能高達107.6TFLOPS，INT8、IN4性能更是可以達到215.2TFLOPS、430.4TFLOPS，這是現有Pascal顯卡不支持的運算。

圖靈顯卡增加了Tensor除了可以用於AI加速運算，NVIDIA也在加速推動遊戲支持AI加速的過程，這次還推出了NGX軟體工具，通過它可以在圖靈顯卡上實現DLSS（深度學習超級採樣）抗鋸齒，INPAINTING圖形修補、AI Slow-Mo慢動作、AI Super Rez超級解析度等功能。

以DLSS抗鋸齒技術為例，在RTX 2080顯卡上，DLSS技術不僅能帶來更精細的畫質，基於Tensor Core強大的AI加速能力，RTX 2080實現DLSS的速度比GTX 1080顯卡可以高出一倍之多。

AI加速在遊戲顯卡上的應用還是初級階段，不過它已經顯示出了極具競爭力的前景，後續還需要NVIDIA與遊戲開發商合作推動更多遊戲支持AI加速功能。

圖靈架構的重點之二：新增RT Core，一切為了光線追蹤

如果說圖靈架構增加Tensor Core是把專業技術帶到消費顯卡上來，那麼圖靈架構真正給遊戲市場帶來變化的改進則是RT Core，也就是專門的光線追蹤渲染核心。在8月底的科隆遊戲展發布會上，NVIDIA創始人、CEO黃仁勛提及最多的就是光線追蹤了，他表示圖靈顯卡的RT性能是Pascal顯卡的6倍多，是提升最明顯的。

光線追蹤也是遊戲玩家常聽到但又非常陌生的技術，在電影工業光線追蹤技術已經應用很多年了，但在遊戲卡一直是雷聲大雨點小，在圖靈GPU之前顯卡跑RT運算的性能非常弱，並不足以支撐良好的RT光線追蹤體驗。

為此NVIDAI在圖靈顯卡中改變了RT渲染的工作流程，將其從Shader渲染器中獨立出來，變成了單獨的RT Core，專門用於RT運算，每個SM單元有一個專用的RT Core，RTX 2080 Ti顯卡上總計68組RT Core，帶來了10+ Giga Rays/s的光線追蹤渲染能力，而現在的Pacal顯卡的渲染能力只有1.2 Giga Rays/s，性能提升了10倍，而老黃現場宣布的6倍光線追蹤渲染性能還是很謙虛的了。

從後續公布的RT渲染測試來看，圖靈顯卡的光線追蹤性能確實很強大，GTX 1080 Ti顯卡渲染單光源的延遲可以做到11毫秒，但2-16光源的情況下延遲大幅提升，不具備可行性了，圖靈顯卡在單光源、雙光源乃至8光源下都能將延遲控制在10毫秒內，性能提升了四五倍，這是有史以來首次有遊戲卡能夠達到這樣的光線追蹤渲染性能。

對遊戲玩家來說，RT光線追蹤技術的進入使得遊戲畫質更上一層樓，這個技術多年來一直被視為3D圖形技術的一次革命，將極大地改變遊戲以及電影工業的渲染方式，通過追蹤光線的軌跡來計算物品對光線的反射和折射，更真實地還原物品在現實中的顏色，帶來了更真實的光影效果，從而達到夢寐以求的「以假亂真」效果，讓玩家真正融入到遊戲中。

在圖靈顯卡發布之後，RT光線追蹤技術也成為新一代3A遊戲大作的選擇，包括戰地5、古墓麗影以及國內的逆水寒、劍俠3等11款遊戲都宣布支持光線追蹤技術，這個名單目前來說還不多，但是等到RTX 2080顯卡上市、普及之後，支持RT渲染的遊戲會越來越多。

圖靈顯卡顯存：不只首發GDDR6，還有高效壓縮

隨著GPU計算性能的增加，對帶寬的要求也越來越高，在圖靈架構上NVIDIA也升級了顯存子系統，首發支持了GDDR6顯存，這是7年來GPU架構首次從GDDR5升級到GDDR6，不過圖靈GPU在顯存改進上做的不只是帶寬大幅增加，還改進了內存壓縮技術。

在顯存選擇上，現在的顯卡大部分選擇了GDDR5，這是成熟標準，不過速率很難超過8Gbps，搭配256bit位寬的話，帶寬可達256GB/s，如果最求性能會上HBM 2顯存，4096bit位寬下帶寬可達1024GB/s，但是HBM 2的成本比GDDR5顯存貴太多了，一顆4GB HBM2顯存成本就要80美元，8GB HBM2顯存成本就要160美元了，光這一項就佔了高端顯卡的1/3到1/2價格，實在是用不起。

NVIDIA在去年的Volta架構上就首發了HBM 2顯存，所以技術上使用HBM 2不存在問題，NVIDIA沒用HBM 2顯然還是出於成本控制原因，再加上今年GDDR6顯存也開始商業化了，這次的圖靈GPU就首發了GDDR6顯存。

GDDR6是現有GDDR5內存的繼任者，在保持工藝、規格大部分兼容的情況下進一步提高了顯存速率，通過16bit數據預取、單通道升級雙通道等方式將數據頻率從GDDR5時代的不超過8Gbps提升到了JEDEC標準的12-16Gbps，而三星、美光還在研發速度高達18Gbps及20Gbps的GDDR6顯存。

圖靈顯卡首發的GDDR6顯存頻率為14Gbps，考慮到GDDR6顯存還是首發，這個頻率還是可以的，相比目前8Gbps的GDDR5顯存速率已經提升了75%，同樣在256bit或者384bit位寬下能帶來448GB/s、672GB/s的帶寬，性能非常接近HBM 2顯存了，要知道AMD的RX Vega64顯卡使用的HBM 2帶寬也不過484GB/s，Vega 56甚至只有404GB/s。

全新的內存壓縮演算法

GDDR6內存帶來內存帶寬大幅提升，不過NVIDIA還從源頭進一步降低了對帶寬的消耗，圖靈顯卡支持更先進的內存壓縮演算法，全新的GPU壓縮引擎可以自動匹配最合適的演算法以便在不同的材質上尋找最有效的壓縮方法，與GP102核心的GTX 1080 Ti顯卡相比，RTX 2080 Ti的內存壓縮能夠提升50%的效率，與帶寬更高的GDDR6一起為圖靈架構的SM單元性能提升50%保駕護航。

圖靈顯卡的SLI進化：迎接NVLink時代的到來吧

如果說NVIDIA的圖靈顯卡中最讓人意外的技術升級，那肯定非NVLink莫屬了，因為NVLink原本是NVIDIA聯合IBM開發的高性能匯流排技術，主要用於伺服器市場上，目前已經發展了兩代標準。

相比現在的PCIe 3.0匯流排，NVLink的優勢就是延遲更低、帶寬更高，NVLink 1.0的帶寬就可達160GB/s，NVLink 2.0的帶寬更是高達300GB/s以上，遠遠超過現在的PCIe 3.0 x16匯流排的16-32GB/s帶寬。

正是因為NVLink技術的超高性能，所以原本沒期待消費級的RTX 2080系列顯卡能用上NVLink，不過NVIDIA竟然真的在圖靈顯卡上開放了NVLink技術，不過消費級的NVLink技術帶寬也沒有那麼誇張，TU102核心的RTX 2080 Ti以及專業級的Quadro RTX 8000/6000顯卡的NVLink帶寬100GB/s，RTX 2080顯卡NVLink帶寬50GB/s，RTX 2070顯卡遺憾不能支持NVlink。

由於NVLink的超高帶寬，圖靈顯卡SLI之後可以玩出更多花樣，比如支持5K 75Hzueu，支持4K 144Hz環繞屏模式，還可以支持8K視頻，RTX 2080 Ti更可以做到8K環繞屏模式。

不過NVLink還需要搭配額外的NVLink橋，這個東西也是單獨出售的，有3插槽及4插槽兩種版本，售價79美元，摺合人民幣也要500多塊。

圖靈顯卡視頻及介面改進：支持雙8K，VittualLink對VR更友好

在I/O介面上，圖靈顯卡也帶來了全面的升級，最大的變化就是首發支持了VitualLink介面，它的物理介面為USB Type-C，也就是現在電腦及手機上開始普及的USBC介面，而VitualLink則是NVIDIA、AMD以及微軟、Oculus、Valve等公司聯合制定的VR設備專用介面，有望能簡化這些線纜的需求，提供更簡單、統一的體驗，而不僅僅是性能，據說新的介面還能為更低的延遲時間作出優化。

VitualLink介面將是未來VR設備的統一介面，因此圖靈顯卡對VR設備更加友好，以後用它來玩VR設備更合適，而USBC物理介面還能提供15-27W的供電能力，支持DP視頻及USB 3.1 Gen 2數據傳輸，是個萬能介面。

在視頻介面方面，圖靈顯卡除了支持HDMI 2.0之外，還支持了DP 1.4a標準，支持雙8K 60Hz輸出能力，雖然目前的8K顯示器還是鳳毛麟角，不過圖靈顯卡在技術上已經做好了準備。

最後，圖靈顯卡在還升級了用於視頻編碼解碼的NVENC單元，新增支持H.265 8K 30fps編碼，同時提供H.265格式25%的碼率節省，H.264格式也能節省15%碼率，而解碼性能也更快，支持的格式更多。

總結：

NVIDIA宣稱他們的Turing圖靈架構是一次技術飛躍，儘管其中不乏宣傳的味道，但是從圖靈架構的改變來看，這代顯卡的技術亮點還真不少，等待了兩年多的N飯並沒有白等，CUDA核心性能大增50%、新增RT Core及Tensor Core將原來行業級的技術帶入到了消費級顯卡中，同時首發了GDDR6顯存，增加了USB-C輸出介面，升級幅度要比之前的歷代NVIDIA GPU更為明顯。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 太平洋電腦網 的精彩文章:

※《洛克人ZERO》精神續作《龍之死印》新宣傳片公布
※《光環》美劇確定2019年開拍《猩球崛起》導演執導

TAG:太平洋電腦網 |