新圖形、新AI!解析Imagination新一代GPU及神經網路加速器
Imagination是圖形業界的老玩家了。說起來最近一次Imagination受到從行業到終端用戶的關注,還是蘋果宣布全面使用自研GPU架構,放棄使用Imagination授權的消息被爆出的時候,彼時Imagination的股票暴跌,大家都對這家企業的未來發展表示擔憂。
不過在經過一些財務運作之後,Imagination找好了新東家,又繼續在產業道路上努力。這一次,Imagination帶來的是全新第九代PowerVR的高端產品系列GPU和第三代神經網路加速器。
Imagination近期又有新品發布了—旗下全新第九代移動GPU架構中的高端產品型號和全新第三代神經網路加速器。從這些產品來看,Imagination很可能通過移動圖形和人工智慧的發展,進一步拓展自身在諸如自動駕駛,智能機器人方面的市場,提高自己產品的競爭力,進一步拓展市場,維繫Imagination的發展和壯大。
Furian架構加持
PowerVR 9系列全面更新
在《微型計算機》2018年2月上的《開啟移動AI大門 解讀PowerVR第九代圖形、神經網路產品》一文中,我們曾詳細介紹過PowerVR 9系列中低端產品,主要是PowerVR 9 XE和XM兩大系列的相關情況。
這兩個系列使用的還是比較老的Rogue架構,而當時PowerVR其實已經有全新的Furian架構了,並且用在了高端的PowerVR 8 XT等GPU產品身上。現在,Imagination終於推出了同樣採用Furian架構的第九代PowerVR GPU,它的型號為PowerVR 9XTP,而9XMP和9XEP兩款雖然依舊是Rogue架構,但是也做出了很多改進。
雖然面向入門級市場和中端市場的9XEP和9XMP沒有更新架構,但還是帶來了大量新的特性。
更寬、更高效、更先進 Furian架構淺析
PowerVR目前廣泛使用的Rogue架構從PowerVR6時代就開始使用了,整體效能和表現相當不錯。但是隨著時間發展,Imagination通過研究發現,Rogue架構還存在比較大的改進空間。於是,Imagination在Rogue架構上通過深入地研究,推出了全新的Furian架構。
Furan架構相比之前的架構,其核心改進之處在於兩個方面,一個方面是架構體系架構進一步優化,整個架構層次更為明確,數據流向和布局更為明晰,可擴展性也做出了加強。另一個重要的改進在計算單元上。Furan的計算單元採用了MAD MUL的方案,不再是之前的雙MAD的方案。
9XTP採用了全新的架構設計
從理論上來說,雙MAD ALU平衡性要更好一些,並且雙MAD的架構理念更為簡潔。問題是MAD單元所佔晶體管數量更多,體積更大且更耗電,並且在一般應用中很難充分給兩個MAD足夠的計算資源。因此Imagination在權衡之後,將其中一個MAD單元更換成了MUL單元,新的MUL單元使用的場合更多,能夠覆蓋更多的應用並且能夠更容易地填滿,在計算中晶體管效率更高。
此外,Furan還擴大了最基本的計算單元的規模,從之前的16提升到了32,也就是一次可以處理32個數據,與此類似的波前陣列也相應擴大至32,這使得相應的程序調配的相關部件的壓力降低,效率得以提高。
功能方面,Furan增加了不少面向新一代計算需求的功能,包括支持多線程多任務數據執行,比如微內核固件控制,比如幀緩衝和幾何無損壓縮,比如新的安全和虛擬化技術等。畢竟Furan面向的是7nm時代的4K、VR等計算需求,Imagination還希望Furan架構能夠打入ADAS、神經網路等新的市場。在新的工藝和技術的加持下,Imagination宣稱Furan架構能夠帶來相比PowerVR 7XT架構大約35%的著色器性能提升和80%的填充率效能提升,綜合性能能夠提升70%~90%。
雖然面向入門級市場和中端市場的9XEP和9XMP沒有更新架構,但還是帶來了大量新的特性。
三大產品上陣
9XTP、9XEP和9XMP現身
從Imagination給出的產品定位來看,PowerVR 9系列目前分為三款產品,分別是9XTP、9XEP和9XMP。它們的定位各有不同,其中定位最頂級的是9XTP採用最新的Furan架構,定位於中端用戶的是9XMP,定位於入門級用戶的則是9XEP。需要注意的是,9XMP和9XEP依舊採用的是上一代Rogue架構。
9系列家族三大產品系列
在這裡,本文需要對9XEP和9XE、9XMP和9XM這兩對產品做一些說明。在之前的文章中,本刊介紹了9XE和9XM這兩款產品,而新的9XEP和9XMP則可以看作是之前兩款產品更進一步的加強版本,因為它們不但加入了一些新的技術,同時還提高了相應的規格與規模。
此外,Imagination還指出,9XEP和9XMP之間的區別在於其面向的市場以及Imagination計劃如何規劃產品在填充率、解析度或者遊戲、計算方面的性能。目前的結果是9XMP在圖形和計算性能上更為出色一些,面向遊戲、計算和AI市場,而9XEP則更傾向於GUI和輕遊戲市場,這些用戶往往不會過分關心重度3D遊戲,主要以普通應用和一般小遊戲為主。
除了市場化分外,Imagination還使用不同的規格和性能來區分不同的市場需求,並給出了詳細的性能指標值。根據Imagination的數據,頂級的9XTP面向頂級遊戲玩家,能夠提供更好的能效比和更高的性能,其填充率至少應該達到8 Pixels/Clock,計算能力應該至少達到192 FP32 Ops/Clock。面向中端主流市場的9XMP以較好的遊戲質量和齊全的規格支持為主,性能方面填充率達到4~8 Pixels/Clock,計算能力為128~256 FP32 Ops/Clock。
9系列家族根據性能和規格面向不同的市場
需要注意的是,9XMP的計算能力甚至超過了最基本配置的9XTP, Imagination解釋這是充分考慮了用戶需求和市場反應才做出的決定,可以根據實際的需求自行配置。入門級的9XEP面向普通用戶和一般輕遊戲用戶。在性能方面,它的填充率達到1~8 Pixels/Clock,計算能力為16~64 FP32 Ops/Clock。
說完了具體產品,再看看架構方面的改進。在採用較老Rouge架構的9XEP和9XMP上,Imagination加入了專用的紋理增強緩存和更大的系統及緩存,以實現更好的性能。9XEP新加入了時序改進的能力,可以實現更高的時鐘頻率從而提升性能。9XMP則大幅度加強了遊戲效能,包括增強的各向異性過濾和陰影採樣能力等。
計算性能方面,這兩款產品的ALU管道都可以進行加倍配置,允許用戶在特定條件下實現32寬度的單集群ALU/TPU配置(前代只允許16寬度),這將大幅度提高計算密度。另外,9XMP還對於包括緩存、原子操作、數據速率等進行了改進,提高了計算效能。Imagination給出一些數據顯示,在手機遊戲《全軍出擊》中,PowerVR 9XMP比華為麒麟970、三星Exynos 9810異性過濾的性能提升2倍,陰影樣本性能提高4倍。
Imagination宣稱9XMP在紋理和陰影上的表現更出色
PowerVR 9系列在中低端產品上進行了改進,在高端產品上就更是改天換地了。除了之前提到的全新架構帶來的增強外,9XTP的每個單元配置40寬度的ALU單元,大大加強了計算密度的同時還在整體設計上對功耗、性能、面積三者進行了優化,使得面積進一步減小。另外,YUV加速也重新改進,性能提升了2~3倍。根據Imagination的數據,9XTP的性能密度提高高達50%,更適合在高端處理器中使用。
除了上述內容外,Imagination還特別提到自己在數據壓縮方面的進步。Imagination之前公布了新的幀緩衝圖像壓縮技術,也就是PVRIC4,目前已經使用在新的9XEP、9XMP和9XTP三款產品上。簡而言之,PVRIC4實現了至少2:1的圖像壓縮,無論是使用有損還是無損壓縮處理管線數據,綜合下來都能夠實現至少50%的壓縮水平甚至更高。這個功能在硬體中控制和執行,對一些需要數據完整性檢查的應用,用戶也可以考慮將其關閉。對於給定的圖像,Imagination聲稱其即使使用有損模式,至少能夠實現視覺無損。
新的壓縮演算法帶來了更高的效能
新壓縮演算法在各類測試中的表現都比較出色
總的來看,本次Imagination的新品在產品競爭力和技術實力方面還是值得肯定的,但是和以往一樣,它的最大的問題還是市場客戶匱乏。實際上人們不太可能在主流手機產品中看到Imagination的GPU。這主要是由於ARM的捆綁策略、蘋果和三星在GPU上的自研導致的,Imagination幾乎在市場上找不到合適的買家。不過好在汽車和智能駕駛技術的興起可能給Imagination帶來了新的機會,目前Furian已經加入了相關汽車優化的內容,再加上下文要講述的3NX,Imagination可能在汽車上能夠找到自己新的生存空間。
進一步拓展AI市場
PowerVR 3NX神經網路加速器
去年9月,在Imagination推出型號為PowerVR 2NX的神經網路加速器之後,這款產品就得到了業內不少用戶的關注,甚至有一些用戶將其用作小型設備的推理模塊使用,而且從結果來看,似乎也還不錯。所以這一次Imagination準備再進一步,推出更強大的PowerVR 3NX,搭配Rogue GPGPU等,實現自己在AI和汽車等市場上的突破。
PowerVR在DNN方面產品日漸豐富
可能Imagination自己也沒有想到,自家的第一代神經網路加速器是和一個不公開身份的客戶合作後才推出的。可能也是這次合作讓Imagination看到了這個市場的機會。
在9個月之後,第二代2NX發布,具有兩種單核心設計。不過顯然的是,僅僅兩種核心選擇並不能覆蓋更多的市場。因此在第三代產品上,Imagination帶來了多達5種單核心設計,4個多核心方案以及3NX-F中的特殊可編程和靈活搭配方案。就性能數字而言,單核心最高的是AX3595可達10TOPS,當擴展到16核心時,可以達到160TOPS之多。
具體到架構方面,目前Imagination沒有給出任何3NX相關架構的公開信息。但是還是有一些技術改進的內容得以披露。
Imagination沒有公布3NX架構的詳細信息,但是給出了一些具體改進情況。
首先要談的就是Imagination引以為傲的數據壓縮部分。3NX採用了一種全新的無損數據壓縮方案,可以在較低的位深度下具有顯著的優勢,這能夠降低神經網路模型的大小,並減少其對帶寬和內存的佔用。
3NX系列加入了新的數據壓縮方法
其次,單個3NX核心的處理性能有所提升。其中單個3NX核心的峰值處理速度可達4096 MAC/Clock,這個數據是2NX 2048 MAC/Clock的兩倍,2NX達到這樣的計算能力是通過256x8位MAC引擎實現的,所以3NX可能內部集成了更多的計算引擎,並提高了頻率。
第三,3NX加入了對TrustZone的支持,這使得數據可靠性更高。用戶可以根據需求自行配置選擇保護神經網路模型或者權重,或者中間數據、或者輸入輸出數據等,非常自由。
3NX的安全模塊得到了加強
總的來看,根據Imagination宣傳數據,3NX性能可在相同的晶元面積上較上一代產品提升40%,性能效率提高近60%,且帶寬需求降低35%,產品也更安全。
3NX家族目前支持多核心配置,性能更強。
在產品的搭配方面,之前Imagination有建議用戶使用PowerVR GPU搭配2NX來進行神經網路加速,所以雖然Imagination現在還沒有公布相關配置,但是3NX相應的GPGPU加速配置的推出只是時間問題。
Imagination公布了相關計算架構的SDK
目前Imagination僅僅發布了基於單核心的PowerVR Series3NX-F的IP配置方案,這一新方案所具備的特點在於帶來了能夠擴展的可編程和浮點支持,它可以充分利用OpenCL/SYCL和Imagination進行API/devkit/Tools等相關的加速合作。接下來一段時間,Imagination還將發布多核心的配置方案,能夠進一步加強性能。
Imagination在AI生態系統建立上開始發力
總的來看,Imagination在AI上的努力,似乎為其整體的發展帶來了新的希望。雖然目前Imagination在汽車、AI上的一系列布局,還沒有為企業帶來轉型和發展的實際收益,但是考慮到汽車智能化產業和人工智慧產業目前高速的發展趨勢,Imagination未必不能找到一片新的天地。
作為在業內有著「悲情過往」的企業之一,其過去在產業布局上的失誤,應該會給這家企業帶來深刻的教訓,而新的AI和智能化市場的開啟,是否真的能助力Imagination重新起飛呢?我們拭目以待。


※12nm、釺焊、5.0GHz、32核心!2018年CPU市場年終盤點
※投票贏購物卡!《微型計算機》2018年度金獎產品票選開始
TAG:微型計算機 |