NVIDIA RTX 2080/RTX 2080 Ti首發評測:感受12年來GPU最大革命
一、前言:NVIDIA革命性跨越 顯卡又熱鬧起來了
作為GPU顯卡行業的領頭羊,NVIDIA的新產品發布節奏多年來一直非常穩,而且每一代都有極大的創新和提升(完全不知牙膏味兒),產品線布局十分豐富,生態系統合作也是有著厚實的積累相當完備。
在顯卡的江湖裡,NVIDIA雖然說不上呼風喚雨,但始終也都是首屈一指的,GeForce更是幾乎已經成了遊戲卡的代名詞。
2017年5月,我們迎來了Pascal帕斯卡架構的GeForce GTX 10系列,不過當時恐怕誰都不會想到,帕斯卡家族的命會這麼長,而新一代讓我們苦苦等待了這麼久。
最近幾代產品,NVIDIA都會選擇當年的3-6月份春天或春夏之交來發布,一般在3月份的GTC圖形技術大會上首次披露,但今年非常特殊,一直拖到了9月份,比往年晚了幾乎半年。
更令人稱奇的是,NVIDIA這一次保密工作做的極好,直到發布前,我們都不知道新卡的架構是Volta伏特、Ampere安培還是Turing圖靈,也不知道新卡的命名是GTX 10系列還是GTX 20系列,結果最終是RTX 20系列。
出現這種局面,最主要的原因是這一代從架構技術到產品體系都發生了翻天覆地的變化,而研發全新一代架構、完善全新技術特性,都是需要花費無數精力、金錢和時間的(想想AMD Zen憋了多久才出來再想想Intel酷睿老本吃了多少年)。
按照NVIDIA的說法,早在10年前就在設計和研發圖靈架構了(當然當時應該沒這個代號),主要是光線追蹤方面,因為在此之前,光線追蹤只能用於影視渲染,誰也不敢想像它能在遊戲里實時呈現。
最終,NVIDIA創造奇蹟,為PC遊戲帶來了實時光線追蹤(即便是有條件的),也難怪黃仁勛驕傲地宣稱圖靈架構是2006年引入CUDA統一著色核心以來最大的革命。
而另一方面不得不面對的一個現實就是,顯卡市場已經沉悶太久了,尤其是在電競火熱朝的形勢下,顯卡卻遲遲沒有跟上。
作為市面上僅有的兩大GPU巨頭之一,AMD近些年全力投入Zen CPU架構,雖然碩果累累,但也導致GPU方面進展緩慢,Polaris北極星架構的RX 400/500系列只能在中低端市場混,Vega織女星架構的RX Vega系列在高端市場又不具備足夠的競爭力。
這種形勢下,對手很容易懈怠,反正沒什麼壓力,但幸運的是,NVIDIA並沒有任性擠牙膏,反而奉上了一道更美味的大餐:全新架構、實時光線追蹤、AI人工智慧、GDDR6顯存等都讓人激動不已,而且第一次首發就奉上了三款新卡。
長久的等待終於值了,整個顯卡市場也再次熱鬧紛呈起來。
接下來,我們就會探析一下這個革命性的Turing架構,以及全新的RTX 2080 Ti、RTX 2080兩款高端型號到底表現如何。
二、架構解析之全新內核體系
既然是一個全新設計的架構,我們就要好好看一看這個以計算機科學之父、人工智慧之父艾倫·麥席森·圖靈(Alan Mathison Turing)命名的Turing圖靈新架構到底有哪些過人之處,不過硬體架構總是伴隨各種高深晦澀的技術名詞、技術原理,即便專業人士也得好好研究才行,所以這裡我們僅從高級層面,介紹一下新架構的大致設計、技術概況,以及能帶來的實際好處。
在以往,NVIDIA為專業級計算卡、消費級遊戲卡設計的都是統一架構,只是具體內部模塊布局、技術支持、核心大小不同。好處是可以統一開發,降低成本,壞處是缺乏針對性,技術資源要麼浪費要麼不夠。
這一次,NVIDIA選擇了分而治之。針對高性能計算、圖形渲染、人工智慧、深度學習等專業應用的是Volta伏特架構,目前只有一個超大核心GV100,是迄今為止GPU歷史上最大的核心,台積電12nm工藝製造,集成多達210億個晶體管,核心面積達815平方毫米,妥妥的怪物級核彈。
而針對遊戲顯卡的就是Turing圖靈架構,也是台積電12nm(有說法稱最初計劃使用三星10nm),其中最大的核心TU102集成189億個晶體管,核心面積754平方毫米,是僅次於GV100的史上第二大GPU核心。
相比上代Pascal帕斯卡家族的大核心GP102,它的晶體管數量增加了55%,面積則增大了60%,甚至是次級新核心TU104都超越了GF102,擁有136億個晶體管、545平方毫米面積。
新架構核心之所以如此龐大,除了CUDA核心規模繼續增大、升級Shading著色渲染之外,更關鍵的是RT Core光線追蹤核心、Tensor Core人工智慧核心的加入,這也是新架構革命性變化的根本支撐。
擁有全新著色性能的SM CUDA核心陣列、支持高達每秒100億條光線計算的RT光線追蹤核心、為實時遊戲畫面導入AI人工智慧加速的Tensor核心,三者就構成了圖靈架構的三大支柱,各自有不同分工又互相協作,共同實現新的遊戲渲染畫面。
同時,NVIDIA強調新架構的單個CUDA核心著色渲染性能是帕斯卡架構的1.5倍,第一次可以在4K解析度、HDR開啟的情況下,提供流暢的遊戲體驗,真正開啟4K時代。
按照NVIDIA的說法,RTX 2080就能基本實現4K解析度下60FPS的遊戲幀率,RTX 2080 Ti更是能夠達到70-80FPS。當然具體還要看遊戲需求,以及遊戲設置,特別是某些高要求的技術特性,光線追蹤打開後別說4K了,就連1080p就比較吃力。
圖靈架構的基本組成單元之一還是CUDA核心與SM流處理器陣列,這也是2006年的G80以來NVIDIA GPU的基石。
事實上,圖靈架構的SM陣列也融合了伏特架構的不少特性,相比帕斯卡架構差別還是挺大的,比如每一組TPC里的SM陣列由一個增至兩個,同時SM內部的組成方式也截然不同。
帕斯卡架構每個SM陣列集成128個FP32浮點單元,圖靈架構則改成了2個FP64雙精度浮點單元、64個FP32單精度浮點單元、64個INT32整數單元、8個Tensor核心、一個RT核心。支持浮點和整數並發操作,並有新的執行數據路徑,類似伏特架構匯總的獨立線程調度。
按照NVIDIA的統計,每執行100個浮點指令,平均會有36個整數指令,兩種指令可以並發執行。
如此一來,帕斯卡架構的整數和浮點計算就可以分配得更加均衡,並與新的Tensor、RT核心相配合,更合理、高效地完成各種負載。
整體而言,圖靈核心的CUDA陣列可以每秒執行14萬億次FP32浮點操作、14萬億次INT32整數操作。
緩存架構也徹底變化,由兩個載入/存儲單元牽頭,一級緩存和共享緩存整合在一起,而且容量靈活可變,可以是64KB+32KB,也可以是32KB+64KB,大大降低了延遲,帶寬也翻了一番。
二級緩存容量則從3MB翻倍到6MB。
NVIDIA宣稱,新架構每個CUDA核心的著色渲染性能比上代平均提升50%,部分遊戲可達70%左右,VRMark虛擬現實測試成績甚至翻了一番還多。
當然這只是基礎理論上的數字,實際性能還要看其他部分和整體指標。
圖靈架構還首發搭配新一代GDDR6顯存,目前業界最快,等效頻率高達14GHz,搭配352-bit位寬可以帶來616GB/s的驚人帶寬,相比於GTX 1080 Ti在位寬不變的情況下提升了27%,也比用了2048-bit HBM2高帶寬顯存的AMD RX Vega 64高了27%。
而且關鍵是,GDDR6的成本比HBM2低得多。
另外,NVIDIA還對新顯存進行了各種優化,信號竄擾降低了40%,更利於運行穩定和進一步超頻。
三、架構解析之RT核心、光線追蹤
圖靈架構和RTX 20系列的最大亮點和賣點當然是——遊戲實時光線追蹤!
從第一顆GPU NVIDIA GeForce 256誕生至今已經整整19年,GPU規模和技術越來越發達,但是最底層的圖形渲染技術其實幾乎一成不變,始終都是光柵化渲染,通過計算三角形和多邊形來獲得畫面輸出,好處是資源消耗容易控制,壞處就是距離真實畫面相差甚遠,甚至永遠不可能接近。
光線追蹤(Ray Tracing)技術則堪稱圖形界的「聖杯」,簡單地說就是在圖形渲染過程中實時跟蹤物體和環境的光線,準確進行光線反射和折射、全局照明、物理陰影的繪製,可以帶來近乎百分之百真實的渲染畫面,尤其是光影效果。
光線追蹤技術其實並不新鮮,1969年的時候在IBM工作的Arthur Appel就提出了這種概念,當時叫做Ray Casting,距今已經整整半個世紀。
1979年,Turner Whitted研究出了遞歸光線追蹤演算法(Recursive RayTracing Algorithm)。
1984年,Carpenter等人發表了一篇關於分散式光線追蹤的論文《Distributed RayTracing》,影響甚廣。
但是,光線追蹤的演算法非常簡單,稍有計算機圖形只是的人都能理解,關鍵在於如何優化提高效率,因為它需要的計算量太過龐大,想想要實時計算場景中無數光線每時每刻的各種傳播,那是多麼恐怖,以前的GPU根本無力承擔實時計算。
因此直到2006年迪士尼的《汽車總動員》(Cars),影視行業才開始使用光線追蹤渲染,如今大多數的照片級渲染系統多時基於光線追蹤的,但背後都是超大規模的計算機群在吃撐,一幀畫面往往都要渲染幾個小時。
雖然大家都在努力,但就在一個月前,如果說普通顯卡可以在遊戲里實現光線追蹤(儘管是有條件的),相信絕大多數人都不會相信,但是NVIDIA的圖靈做到了。
NVIDIA在圖靈架構中集成了最多72個RT Core核心,每個SM單元一個,專門用來服務光線追蹤運算,等於一個特殊的專用單元,由硬體加速取代軟體模擬,效率自然要比CUDA這種通用單元高很多,就像GPU做並行計算比CPU強得多。
簡單來說,圖靈架構的光線追蹤運算步驟是這樣的:著色器單元首先發出光線探測請求,RT Core核心就開始完全接管下邊的工作,並分為兩個過程,其中包圍盒求交評估單元(Box Intersection Evaluators)進行包圍盒的獲取和解碼,並進行求交測試,得到子包圍盒或者三角形。
如果是子包圍盒,就返回重新執行,重複剛才的步驟。如果是三角形,那就交給三角形求交評估單元(Triangle Intersection Evaluators),做下一步的求交測試,直到得到最終結果並輸出給著色器,進行最終渲染。
看懵了對吧?懵了就對了……
整個光線追蹤計算過程中,運用的主要是BVH演算法,也就是Bounding Volume Hierarchy Traversal,層次包圍盒遍歷的意思。
比如渲染對象是一隻兔子,要幾算一條光線和兔子本身的交互,就把兔子所在空間劃分成N個包圍盒,計算光線和哪一個包圍盒相交,是的話就再把這個包圍盒繼續劃分成N個更小的包圍盒,再次計算相交,如此反覆,一直找到和光線相交的三角形所在的包圍盒,再對這個三角形進行最終的渲染。
BVH演算法可以大大減少計算每一條光線最近相交點所需要遍歷的三角形數量,而且只需要進行一次就能給所有光線使用,大大提高了執行效率。
除了硬體方面的工作,軟體方面既有NVIDIA自己的OptiX光線追蹤引擎、GameWorks SDK光線追蹤模塊,也有微軟的DirectX 12 Ray-Tracing(DXR) API、Windows ML中間件,後者會在即將發布的Windows 10 2018年秋季更新版中正式提供。
性能方面,RTX 2080 Ti在精簡了四個只有68個RT核心的情況下,每秒鐘可以計算超過100億條光線,大約等於100TFlops(每秒1000億次浮點運算)。
而上代GTX 1080 Ti雖然也能執行光線追蹤,但因為沒有專用單元和演算法,效率只有RTX 2080 Ti的大約十分之一,不足以實時用於遊戲。
接下來欣賞欣賞NVIDIA RTX光線追蹤的效果和對比:
官方DEMO
官方DEMO
目前支持NVIDIA光線追蹤技術的遊戲有11款(和首發時相比沒變),分別是:
- 《神力科莎》 (Assetto Corsa Competizione)
- 《原子之心》 (Atomic Heart)
- 《戰地5》 (Battlefield V)
- 《控制》 (Control)
- 《應徵入伍》 (Enlisted)
- 《逆水寒》 (Justice
- 《劍網3》 (JX3)
- 《機甲戰士5:僱傭兵》(MechWarrior 5:Mercenaries)
- 《地鐵:離去》
- 《Project DH》
- 《古墓麗影:暗影》(Shadow of the Tomb Raider)
不過,RTX 20系列上市初期,可以玩的光線追蹤遊戲暫時還是零,比如《古墓麗影:暗影》首發不支持得後期打補丁,《戰地5》則跳票了。
四、架構解析之Tensor核心、AI加速
NVIDIA在伏特架構上引入了全新的專用處理模塊Tensor Core,也就是張量計算核心,重點用來支持深度學習、高性能計算(也是晶體管大戶)。
圖靈架構則是在遊戲卡上引入Tensor Core,同時針對遊戲圖形應用做了大量的調整優化,尤其是浮點精度方面。
Tensor的意思是張量,不同於我們常見的標量(零維)、矢量(一維)、矩陣(三維),擁有三維或者更高維度,簡單地說就是一個數據容器,可以包含多個維度的數據。
現在火熱的深度學習,就運用了超大規模的數據運算,其中就經常會用到矩陣融合乘加(FMA)運算,Tensor核心就是為這種矩陣數學運算專門服務的。
它可以對兩個4×4 FP16浮點矩陣進行相乘操作,然後將結果加入到另一個4×4 FP16/FP32浮點矩陣中,最終輸出新的4×4 FP16/FP32矩陣,這叫做混合精度數學運算,因為輸入矩陣是半精度,結果則可以達到全精度。
每個時鐘周期內,圖靈架構的Tensor核心可以執行64個FMA運算,從而大大加速矩陣運算,可用於新的神經實時圖形渲染、深度學習訓練和推理。
圖靈架構每個SM陣列里有8個Tenor核心,總計576個,完整支持114TFlops FP16浮點運算(每秒114萬億次),同時支持228TOPS INT8、455TOPS INT4整數運算(每秒228億次、455億次),後者是伏特架構里沒有的。
NVIDIA把看起來高深莫測的Tensor核心放到遊戲卡里,顯然不是做專業運算的,其深度學習能力也是為遊戲服務的,結合新的神經圖形框架(Neural Graphics Framework),簡稱NGX,可以在遊戲中實現DLSS深度學習超採樣抗鋸齒、AI Super Rez超級解析度、AI Slow-Mo慢動作、AI InPainting等等。
這些計算繁瑣、資源消耗巨大的操作,在以往也可以實現,但會付出很大的代價,效果也不盡如人意,如今有了新的Tensor核心,就可以建立屬於GPU核心自己的DNN深度神經網路,將AI融入遊戲。
NVIDIA已經向遊戲引擎開放NGX API,將其融入其中,實現底層加速。
另外和很多AI應用類似,NVIDIA GeForce Experience軟體的作用也非常重要,它會自動匹配顯卡型號,從雲端訓練的AI模型哪裡下載相應的NGX軟體包,並定期更新,達到越用越好、甚至是因人而異的效果。
AI Super Rez:有點類似高清視頻中常見的Up Scaling,但是引入了人工智慧和深度學習之後,可以實現近乎「無損放大」,原來的畫面解析度放大2倍、4倍乃至8倍,仍然清晰銳利。
AI Slow-Mo:超級慢動作我們並不陌生,現在不少高端手機都支持240FPS、480FPS乃至是960FPS的慢動作視頻錄製。圖靈架構可以對普通的30FPS視頻進行智能插幀運算,得到240FPS/480FPS的慢動作視頻,也就是說你不需要專門的高幀率攝像頭,就可以獲得很流暢的慢動作視頻。
AI InPainting:可以抹掉畫面中不需要的內容,也可以智能補全缺失的內容,完全超越PS摳圖的存在。它同樣來自現實中大量真實世界圖片的訓練推理。
其實,慢動作和修圖這兩項在之前就曾有相關報道,顯然NVIDIA在硬體、演算法兩個方面都實現了真正的突破。
接下來就是重中之重的DLSS(深度學習超採樣抗鋸齒)。
我們知道,傳統的光柵化圖形渲染畫面會存在各總各樣的鋸齒(狗牙),所以GPU廠商都會在後期處理中加入各種各樣的AA抗鋸齒技術,但傳統抗鋸齒都是由GPU去運算的,效果參差不齊不說,最關鍵的是會消耗大量的GPU資源,開啟之後讓遊戲卡得沒法玩再正常不過了。
DLSS深度採樣超採樣抗鋸齒則和傳統抗鋸齒技術走了一條完全不同的路,它是在NVIDIA超級計算機上進行訓練,而不再消耗GPU本身的資源。
針對每一款遊戲,NVIDIA會在運算建立對應的訓練神經網路,收集大量的64x超採樣數據,對像素點進行64次偏移著色合成輸出,理論上可以獲得近乎完美的抗鋸齒平滑效果,同時還會對比和普通渲染畫面之間的差異,調整網路權重,反覆迭代,最後獲得更合理的抗鋸齒畫面效果,還可以避免傳統TAA時間抗鋸齒的運動模糊等問題。
雲端訓練完成後,NVIDIA會通過GFE軟體將成果分發給玩家,再用到遊戲中,而且隨著遊戲運行得越多,DLSS學習效果就會越來越優化,甚至每個玩家都可以得到屬於自己的不同效果。
當然了,這也意味著NVIDIA需要和每一款遊戲或者每一個遊戲引擎合作,去進行專門的優化,還是相當費時費力的,不過考慮到NVIDIA在遊戲行業廣泛深入的合作關係,這方面倒不必擔心。
尤其是隨著合作優化的深入,NVIDIA完全可以建立起屬於自己的技術壁壘,讓對手望塵莫及,進一步帶動大量玩家忠實地跟隨NVIDIA。
以上是2x DLSS與傳統64x SSAA、TAA的效果對比,大家可以仔細觀察一下畫面細節。
更神奇的是,DLSS因為基本不需要消耗GPU本地資源,因此可以大大釋放GPU性能,讓其專心渲染遊戲,提升性能。
比如根據官方數據,Epic的《滲透者》(Infiltrator)遊戲里,4K解析度下1080 Ti開啟TAA平均幀率還不到40FPS,2080 Ti開啟DLSS則能達到80FPS,提升了整整一倍!
遊戲支持方面也不是啥大事兒,RTX 20系列發布之初就有16款遊戲(PPT上寫錯了),現在產品還沒完全上市就已經增加到25款。
首發名單如下:
- 《方舟:生存進化》 (Ark: Survival Evolved)
- 《原子之心》 (Atomic Heart)
- 《無畏》 (Dauntless)
- 《最終幻想XV》 (Final Fantasy XV)
- 《破碎之地》 (Fractured Lands)
- 《殺手2》 (Hitman 2)
- 《奈恩群島》 (Islands of Nyne)
- 《逆水寒》 (Justice)
- 《劍網3》 (JX3)
- 《機甲戰士5:僱傭兵》 (Mechwarrior 5:Mercenaries)
- 《絕地求生》 (PlayerUnknown』s Battlegrounds)
- 《遺迹:灰燼重生》 (Remnant: From the Ashes)
- 《英雄薩姆4:星球惡棍》 (Serious Sam 4: PlanetBadass)
- 《古墓麗影:暗影》 (Shadow of the Tomb Raider)
- 《鍛造競技場》 (The Forge Arena)
- 《少數幸運兒》 (We Happy Few)
新增名單如下:
- 《暗黑血統3》(Darksiders 3)
- 《飛向月球:財富》(Deliver Us The Moon: Fortuna)
- 《恐懼群狼》(Fear the Wolves)
- 《地獄之刃:塞娜的獻祭》(Hellblade: Senua"s Sacrifice)
- 《KINETIK》
- 《前哨零》(Outpost Zero)
- 《超殺:行屍走肉》(Overkill"s The Walking Dead)
- 《人渣》(SCUM)
- 《風暴奇兵》(Stormdivers)
這其中有5款遊戲同時支持RTX光線追蹤和DLSS抗鋸齒技術,分別是《原子之心》、《逆水寒》、《劍網3》、《機甲戰士5:僱傭兵》、《古墓麗影:暗影》。
五、架構解析之混合渲染、高級渲染
圖靈架構雖然引入了光線追蹤,但以現在的GPU性能和技術演算法,顯然不可能把一切渲染都交給光線追蹤,傳統的光柵化渲染依然離不開。
因此,NVIDIA在圖靈架構中使用了混合渲染流水線(Hybrid Rendering Pipeline),針對不同的工作負載,分別使用CUDA核心的光柵化渲染、RT核心的光線追蹤渲染、Tensor核心的計算渲染的一種或多種組合,獲得渲染效率的最大化。
當然,在典型的混合渲染場景中,也不會同時用到三種渲染方式。
如此一來,如何衡量圖靈架構的實際渲染性能,就不能用以前的演算法了,而要根據三種不同渲染方式的使用程度,綜合衡量。
以上就是在一個典型的渲染場景中,圖靈架構各種渲染方式的組合分配,一般而言80%的時間裡使用著色器FP32浮點運算、28%的時間使用著色器INT32整數運算、40%的時間使用RT核心、20%的時間使用Tensor核心FP16浮點運算。
比如RTX 2080 Ti,結合各個部分的峰值性能,最終的渲染性能就是:
14×80%+14×28%+100×40%+114×20=78T
NVIDIA給這個結果自定義了一個單位RTX-OPS,可以理解為RTX顯卡每秒鐘能執行的操作數,也就是780億次。
與此同時,圖靈架構也引入了多種新的、更高級的Shade著色渲染技術。
比如網格渲染(Mesh Shading):面對複雜、龐大的場景,不再逐一計算每一個物體的所有細節,而是由GPU靈活地計算物體細節等級(LOD),踢出被遮擋的,削弱低細節的,再加上傳統曲面細分技術,更高效地生成真正實際需要的三角形,也能大大減輕CPU負擔。
可變率著色(Variable Rate Shading):按照場景中的複雜度不同,分區域動態調整著色速率和資源分配,目的還是減輕GPU負擔、避免不必要的資源浪費,最終有利於提升渲染效率、遊戲幀率。
可變速率著色渲染有很多應用場景,比如內容適應性著色(CAS)、動作適應性著色(MAS)、注視點選擇性渲染、鏡頭優化。就不一一展開了。
多角度渲染(Multi-View Rendering)、紋理空間共享(Texture-Space Sharing)。
六、架構解析之視頻、輸出、虛擬現實
作為顯卡,除了渲染遊戲畫面,視頻編解碼、輸出顯示也都是基礎工作,而且這一代NVIDIA還特彆強化了對VR虛擬現實的支持。
視頻編解碼方面,圖靈架構已經可以支持到VP9、HEVC(H.265) 10/12-bit HDR解碼,同時支持HEVC 8K30fps HDR實時編碼,可節省最多25%的碼率,H.264格式也能節省最多15%。
根據NVIDIA的數據,圖靈架構顯卡進行視頻直播時,1080p解析度6K碼率、4K解析度40K碼率的CPU佔用率都只需1%,掉幀率也是1%甚至為零,相比之下帕斯卡就有點慘不忍睹了。
顯示輸出方面,圖靈新卡既有標準的HDMI 2.0b、DisplayPort 1.4介面(同時為DP 1.4a標準做好了準備),分別最高支持4K/60fps、8K/60fps輸出,並首次加入了USB Type-C介面,用於支持VirtualLink VR應用,提供三個HBR3 DisplayPort通道,支持USB 3.1 Gen.2 10Gbps速度,可提供最大27W供電能力。
VirtualLink標準由NVIDIA、Oculus、Valve、AMD/微軟牽頭制定,是一種開放的行業標準,可以讓VR頭顯擺脫多條線纜的束縛,只需一根高速USB Type-C數據線,就可以直連顯卡和VR頭顯。
而現在的VR頭顯,比如說HTC Vive,就需要HDMI、USB、電源三條線。
七、架構解析之三大核心與型號
圖靈家族除了架構本身變化巨大,產品體系也和以往明顯不同,首發一口氣就是三款型號RTX 2080 Ti、RTX 2080、RTX 2070,而且分別對應三個不同核心TU102、TU104、TUF106,而以往的x80、x70都是共享一個核心。
具體原因不詳,可能是新一代核心太大,x70直接用大核心閹割成本比較高,還不如再造一個省錢的小核心。
這就是最頂級的TU102核心,186億個晶體管、754平方毫米面積確實不是蓋的。
內有4608個CUDA核心,分為6組GPC、36組TPC、72組SM陣列(每組SM 64個CUDA核心),同時有72個RT核心、576個Tensor核心、288個紋理單元、96個ROP光柵單元,二級緩存容量6MB,寄存器文件18MB,352-bit位寬。
不過,RTX 2080 Ti並未完全使用整個TU102核心,而是有所精簡,僅提供4352個CUDA核心(68組SM陣列),RT核心則減少為68個,Tensor核心544個。
目前只有Quadro RTX 8000用了完整的TUF102,可能是初期良品率不足,優先供給專業市場,也可能是功耗和發熱在遊戲卡上不好控制,還有可能是留一手……
RTX 2080 Ti的核心頻率基礎為1350MHz,加速頻率FE公版做到了1635MHz,非公版則規定是1545MHz,當然大家可以隨意超頻。
顯存搭配11GB GDDR6,等效頻率14GHz,帶寬為616GB/s,整卡功耗260W。
TU104核心,136億個晶體管,545平方毫米,比帕斯卡家族的大核心GP102都要大一圈。
它集成了3072個CUDA核心,劃分為6組GPC、24組TPC、48組SM(每組SM還是64個),同時有192個紋理單元、64個ROP單元、384個Tensor核心、48個RT核心,二級緩存容量4MB,寄存器文件12MB,顯存位寬256-bit。
RTX 2080同樣沒有用滿TU104核心,而是精簡了兩組SM,提供2944個CUDA核心、368個Tensor核心、46個RT核心,完整版還是在專業卡上,Quadro RTX 6000。
RTX 2080核心基礎頻率1515MHz,加速頻率非公版1710MHz,公版直接定在1800MHz,搭配8GB GDDR6顯存,等效頻率14GHz,帶寬448GB/s,功耗225W。
它的渲染性能為60 TRX-OPS,相比於RTX 2080 Ti削弱了23%,光線追蹤性能8 GigaRays/s(每秒80億條光線),削弱了20%。
TU106核心,108億個晶體管,445平方毫米,相比GP102也只是分別差了10%、6%,更可見圖靈家族的龐大。
TU106核心內建2304個CUDA核心,分為3組GPC、18組TPC、36組SM陣列(每組繼續64個),同時有144個紋理單元、64個ROP單元、288個Tensor核心、36個RT核心,二級緩存容量4MB,寄存器文件9MB,顯存位寬還是256-bit。
RTX 2070終於用了完整的TU106核心,核心頻率基礎1410MHz,加速公版1710MHz、非公版1620MHz,繼續搭配8GB 14GHz GDDR6顯存,功耗185W。
渲染性能45 RTX-OPS,相比於RTX 2080 Ti、RTX 2080分別低了25%、42%,光線追蹤性能6 GigaRays/s(每秒60億條光線),分別低了25%、40%。
圖靈家族三大核心與帕斯卡家族大核心GP102對比。
八、圖賞:16相數字供電 售價萬元的雙風扇「煤氣灶」
以下是RTX 2080的圖賞。
RTX 2080包裝盒。
公版RTX 2080顯卡的外觀有了巨大的變化,放棄以往的渦輪散熱,轉而採用開放式雙風扇設計,加上銀色金屬機身,看起來像極了「煤氣灶」。
一塊巨大的全覆銀色金屬背板,背板厚度達到了3mm,具有良好的散熱效果。
8+6PIN的供電輸入,可以提供350W的輸入功率。
拋棄了傳統的SLI介面,採用了第二代NVIDIA NVLink高速互聯方案,能提供100GB/s的雙向帶寬,並且大大降低了延遲。
拆開扇熱器後的PCB本體,RTX 2080採用TU104核心,擁有136億晶體管,幾乎2倍於GTX 1080。顯存採用的美光GDDR6 14000MHz,單顆1GB,一共8顆組成256Bit 8GB,顯存帶寬達到了448GB/s。
供電部分採用了8相核心+2相顯存的供電方案,並且大量採用了高端的鉭電容,供電規模及用料遠遠超過了公版的GTX 1080(6+1相供電)。
散熱器可以完美貼合PCB上每一個發熱的元件,顯卡不會出現某個部分溫度過高的情況。
以下是RTX 2080 Ti的圖賞。
RTX 2080 Ti


※小米股票代碼原來也是網址:內容慶祝上市
※日本火箭公司Interstellar的小型火箭發射失敗
TAG:驅動之家 |