開啟移動AI大門，解讀PowerVR第九代圖形、神經網路產品

科技 02-22

Imagination最近發布了旗下PowerVR的第九代產品，也就是PowerVR 9XM和PowerVR 9XE兩款產品。值得注意的是，除了在圖形的性能功耗比、功能等指標上進一步提升外，PowerVR還加入了被稱為「2NX NNA」的全新神經網路引擎。那麼，PowerVR第九代產品有什麼特性值得關注，新的神經網路引擎又有哪些獨到之處呢？

Imagination在2017年之前一直是蘋果自研SoC的GPU提供商，不過去年4月蘋果宣布放棄使用PowerVR後，Imagination的股價一天之內就暴跌了70%。對於Imagination這種營收基本靠蘋果的企業來說，被最核心的用戶放棄無異晴天霹靂。隨後在經歷了一段時間的談判後，Imagination被擁有中資背景的資本集團Canyon Bridge以5.5億美元收購。

雖然股權發生變動，但Imagination並沒有在技術路線和研發上受到太多影響，依舊不斷地推出新品。其中最令人關注的就是它在2017年下半年發布的全新第九代PowerVR系列移動GPU。相比上代產品，第九代PowerVR進一步加強了其在移動產品關注的性能功耗比和功能方面的特質，並加入了時下熱門的神經網路計算引擎，希望可以在未來的移動圖形計算市場繼續佔有一席之地，並將市場範圍擴展到移動人工智慧計算市場。接下來，我們就一起來看看PowerVR第九代產品的詳細信息吧。

PowerVR 9——可靈活配置的高效能架構

在本文介紹PowerVR 9系列產品之前，先來看看有關PowerVR 9產品架構的一些內容。

架構：Rogue繼續征戰

在2015年《微型計算機》第一期中，我們曾刊登了名為《全面升級，功能加強—解析Imagination PowerVR 7》的文章。在那篇文章中，我們曾提到Imagination從PowerVR 6系列開始引入了一個新的名為「Rogue」的圖形架構，藉由這個圖形架構，Imagination相繼研發、推出了PowerVR 6和PowerVR 7兩代產品。實際上，由於Rogue架構設計非常優秀，其能耗比和整體性能表現即使在今天來看依舊有可圈可點之處，因此Imagination將其繼續使用在了PowerVR 8和PowerVR 9系列產品上。

需要指出的是，PowerVR 8中的PowerVR 8XE是PowerVR 7XE的小幅升級版本，主要優勢在於同等性能面積減少了25%，並且每平方毫米性能得到了顯著提升。但另一款面向更高端市場的PowerVR 8XT，則採用了全新設計的Furian架構，這個架構主要是為下一代工藝下的高性能移動圖形計算設計，主要優勢在於針對7nm或者更先進的工藝，能夠實現更高的性能功耗比，而目前的Rogue是為28nm以及更新的工藝設計的。

從市場角度來看，PowerVR 8XT更像是Imagination為未來市場的發展埋下的伏筆，而目前真正的市場，還是由Rouge架構來實現。從Rouge架構本身來看，這個架構還是繼承了PowerVR一貫以來的三大優勢，那就是TBDR渲染方式、USC通用著色器群集和高效能的內核架構，在此之上，PowerVR還設計了比較靈活、可配置的架構和獨特的壓縮演算法，用於加強整個架構的市場競爭力和效率。

PowerVR在移動端的優勢在於平鋪演算法的延遲渲染模式，也就是TBDR。

PowerVR 9提供了多種成熟內核可供選擇。

所謂TBDR，是指基於平鋪演算法的延遲渲染模式，PowerVR的平鋪演算法是一種專門為移動設備和高性能功耗比需求的場合設計的演算法，它通過將畫面分成很多個平鋪的區片並送入GPU核心進行並行的計算，由於GPU只需要在任何給定時間處理完成單獨的區片數據，因此大大降低了GPU和存儲系統溝通的壓力，甚至可以將這些區片的數據存儲在GPU中而不需要反覆和外部存儲器溝通。這種設計帶來了極高的性能功耗比，不過由於這種設計在面對大規模和高密度、高性能計算下整體效率表現不佳，因此一直以來沒有在桌面得到很好的應用。

所謂延遲渲染模式，是指渲染完成時間延遲到畫面剔除完成後，畫面剔除會消除那些被遮擋、看不到的信息，GPU只需要對能夠看到的數據進行計算即可，這包括了紋理和著色器計算，因此也提高了效能。在計算模塊方面，PowerVR採用的是USC，也就是通用著色器群集，USC的基本功能類似於英偉達架構的CUAD Core。通過USC這樣的標量處理單元，PowerVR的核心面對幾乎所有的圖形任務都可以以極高的效率進行處理，並且靈活的擴展性和對多線程、多任務的支持也使得USC在面對不同的任務計算時能夠遊刃有餘。

由於PowerVR的產品在基本的計算方法上和傳統的桌面GPU大相徑庭，再加上移動端對性能功耗比的極端要求，因此其整體架構的延續性是比較出色的，比如Rouge架構先後用於PowerVR第6、7、8、9四代產品。

從Rouge架構本身來說，包括曲面細分協處理器、USC設計、架構的幾何處理能力、指令排序能力、計算吞吐量、精簡的指令、雙指令支持、原生支持Android Extension Pack等功能的設計和支持都非常到位，尤其是曲面細分功能採用了固定功能設計，它可以和頂點數據管理單元（Vertex Data Master）配合完成曲面細分操作，都不可編程，雖然這在一棟程度上限制了其靈活性，但是考慮性能功耗比，這樣做還是非常恰當的。

總的來看，Rouge架構雖然延續多代，看起來沒有更革命性的進步，但是每代不斷提升的性能功耗比和計算密度，還是給其帶來了非常不錯的性能提升，堪稱目前移動市場上性能功耗比、性能密度最出色的移動GPU架構之一。

XE和XM系列：瞄準不同用戶精確配置

說完了架構，下面本文正式進入有關PowerVR 9系列的介紹。

PowerVR 9系列目前有兩個產品，分別是PowerVR 9XM和PowerVR 9XE，其中前者面向高性能設備，後者面向對成本敏感的設備，分別用於替換上一代的PowerVR 8XEP和PowerVR 8XE系列。

PowerVR 9分為XM和XE兩個系列。

根據Imagination的資料，PowerVR 9XM系列相比PowerVR 8XEP，在設計靈活性大幅度提升的基礎上，性能密度提高了50%，帶寬佔用降低了25%。PowerVR 9XE對比PowerVR 8XE，內核可以擴展至8PPC，同時性能提高了20%，帶寬佔用也降低了25%。另外，PowerVR 9系列還加入了對10位YUV、36位MMU的支持，能夠實現更好的畫質和更豐富的色彩。

PowerVR 8XE架構圖，9系列相對8系列在架構方面改動不大。

PowerVR 9XM的性能密度更為優秀。

PowerVR 9系列在帶寬方面的優勢。

在功能支持上，PowerVR 9全系列提供了對OpenGL ES 3.2和Vulkan 1.0的支持，另外還能夠實現對RenderScript、OpenVX 1以及OpenCL 1.2EP的支持。其中前者是兩大主流通用標準，後者則是針對通用計算加速的一些規範。

此外，PowerVR 9全系列都支持硬體虛擬化和相應的安全性設計，這使不同的應用程序和系統能夠在一個平台上安全、可靠的運行。在圖形顯示方面，PowerVR 9能夠支持PVRIC3壓縮演算法，PVRIC3是一個由PowerVR提出來的無損影像壓縮演算法，能夠在節省帶寬的情況下實現數據的無損傳輸，提高系統效能。

PowerVR 9系列關鍵特性。

目前Imagination分別推出了4款PowerVR 9XE家族的產品和3款PowerVR 9XM家族的產品，其具體型號分別是PowerVR 9 GE9000、PowerVR 9 GE9100、PowerVR 9 GE9210、PowerVR 9 GE9420以及PowerVR 9 GM9220、PowerVR 9 GM9240、PowerVR 9 GM9440，在表1中，我們列出了這些產品的主要規格。

根據用戶用途差異，PowerVR 9還可以實現不同的搭配。

表1中出現了PPC的概念。所謂PPC是指Pixel per Clock，也就是每個模塊中所擁有的紋理單元數量，而USC引擎中所擁有的是能夠計算FP32浮點的ALU，PowerVR用PPC+USC的方式簡單指代了不同產品型號的基礎規格。比如PowerVR 9 GE9000隻有1個紋理單元，但是搭配了16個USC。PowerVR 9 GM9200則有4個紋理單元搭配64個USC。

單純從數據來看，GM系列要比GE系列的規模大很多，比如紋理單元最大有8個，USC也就是ALU單元最多可配置128個，規模已經相當恐怖了。從這裡也可以看出Imagination對XE和XM兩個產品的性能區分，XE系列除了最低端的GE9000外，其餘產品的紋理單元和USC單元之比要比XM系列高得多，這是因為XE主要面向中低端用戶，保證其最基本的UI界面流暢顯然更為重要，對一些重3D應用則不是這個類型所擅長的。XM系列則面向高端手機、平板等，因此用戶更有可能運行重3D應用，因此該系列必須要保證更多的ALU計算和3D計算能力。

此外，PowerVR 9系列在擴展能力上也堪稱一絕。除了官方公布的七款型號外，終端廠商還可以根據自己的需求來進行更多的搭配。比如它可以使用2個PPC搭配64個USC，或者使用8個PPC搭配32個USC，以組成更多具有差異化的產品來滿足不同消費者對計算密度、計算/填充密度以及填充密度的需求。其中高計算密度的用戶往往來自於中高端手機、平板、遊戲掌機、計算核心等；兩者均衡的用戶主要面向中低端手機和平板、車載電腦等；偏重於填充密度的用戶則面向入門級手機、車載電腦、HDTV、IoT、工業用戶以及部分掌機用戶等。面向不同的用戶，提供精細的顆粒度和極為充分的產品選擇自由，是PowerVR 9系列最重要的特點之一。

在性能方面，PowerVR 9 XE系列主要是保證填充率領先，這也和其架構配置時紋理填充單元數量緊密相關。官方宣稱在4K@60Hz的應用場合，如大尺寸的電視機或高端平板上，8 PPC的配置方案是能夠滿足需求的，比如PowerVR 9 GE9420。性能方面PowerVR 9 XE相比前一代同檔次產品平均領先25%。對PowerVR 9 XM來說，更強的3D計算能力是必要的，Imagination宣稱旗下產品在性能密度方面領先競爭對手70%，並給出了表格展示，不過具體如何比較，暫時沒有更多細節信息。

PowerVR 9XE適合填充率高的場合。

PowerVR 2NX NNA——首次進入人工智慧領域

在此次PowerVR的相關新品中，除了大家耳熟能詳的GPU外，Imagination也重新調整了旗下產品線，將其分為GPU產品線以及AI和視覺處理產品線。其中GPU產品線中包含了三款產品，除了本文介紹的PowerVR 9XE和PowerVR 9XM外，還有全新架構的PowerVR 8XT。新出現的AI和視覺處理產品線目前則包含兩款產品，分別是用於相機和圖形處理的ISP晶元以本次全新發布的PowerVR 2NX NNA神經網路晶元。

2NX NNA神經網路晶元的特性和基本架構。

從市場情況來看，目前人工智慧技術和相關產品已經漸漸從大型企業、學校、科研院所等部門逐漸向個人用戶和家庭用戶滲透，比如華為、蘋果都在其新產品中加入了人工智慧和深度學習的相關加速模塊。從計算角度來看，深度學習這類超大規模並行計算在桌面應用中如果可以用GPU來完成的話，那麼在移動應用中就最好使用專門的加速引擎。

2NX NNA內部數據完全可調，效率表現更出色。

道理也很簡單，對移動應用來說，並不需要這麼高的計算精度，因為移動端往往已經到了模型的推理階段，一些要求不高的應用甚至允許使用INT8進行推理計算。傳統GPU計算精度比較高，耗能也比較大，並且GPU本身在移動端的計算負荷就比較重。綜合考慮下使用專用的神經網路計算晶元就顯得非常有必要了。

Imagination宣稱其推出的神經網路加速器擁有業內領先的出色功耗和性能功耗比，同時在帶寬佔用以及性能表現方面也處於業界前列。根據Imagination的官方建議，一個典型SoC中配置的模塊除了傳統的CPU、內存、緩存、GPU、匯流排、ISP、視頻編解碼器、外部存儲器以及I/O模塊外，還需要加入神經網路加速器和相應的驅動單元，這樣才能夠在移動設備上實現AI計算能力。

計算能力方面，2NX NNA採用可擴展設計，16位計算支持從128到1024MAC/clk，8位支持從256到2048MAC/clk。如果用戶認為這樣的計算能力不夠，還可以使用多核心擴展，支持更複雜的計算。在數據支持上，2NX NNA支持16、12、10、8、7、6、5、4等不同位的計算數據，並且對低精度計算也給出了良好的支持方案，不同計算和判斷的精度、權重等都可以通過軟體對每層進行調節，內部格式數據也採用了完全可變的模式，高低精度的計算都可以根據需要實現。特別是可調精度方案，使得用戶可以在推理的過程中根據需求使用不同精度的計算模型，在不影響結果輸出的情況下實現更出色的性能。

2NX NNA的適用場合主要在「在線」推理方面。

從架構方面，2NX NNA掛接在SoC的系統匯流排上，但是擁有自己獨立的存儲介面，採用DDR方案。內部匯流排控制著權重處理、卷積神經網路計算內核和輸出格式三大部件，卷積神經網路計算引擎又通過累加緩衝、單元引擎、規範化、數據池等和共享緩衝區連接，最終將數據統一輸出至數據輸出格式化介面，再回歸到內部匯流排並交給系統匯流排。整體結構明確而清晰，並且為推斷部分所有的步驟都提供了硬體加速支持，大大解放了CPU處理的負載，並且還可以做到和ISP、GPU以及CPU的數據格式兼容，能夠降低數據格式轉換帶來的能源消耗和性能耗費。

2NX NNA的典型應用場景。

根據PowerVR的性能對比數據來看，2NX NNA在性能方面相比目前其他同類方案，在性能上排名第一，晶元面積則屬於極低佔用。2NX NNA的性能要領先於業內常見的DSP+硬體、DSP、VPU+硬體、神經網路DSP、CPU以及GPU方案，但是面積和DPS方案相當，因此擁有目前業內最高的每平方毫米性能。具體到應用的性能數據上，Imagination舉例，手機上如果有1000張照片需要處理分類，使用傳統的運行神經網路的GPU的話，60秒可以完成1000張照片的識別，但是2NX NNA只需要2秒就可以完成。

在功耗方面，GPU大概使用1%的電池電量處理2400張照片，但是2NX NNA可以使用同樣的電量處理42800張照片，每瓦特神經網路處理能力大概是GPU的200倍。目前Imagination在研發階段使用的2NX NNA模塊的頻率為800MHz，可以提供大約2048MAC/cycle的性能，大約是每秒3.2萬億次推斷處理。

在功耗和性能方面，2NX NNA優勢明顯。

最後再來看看它在軟體和環境支持方面的特質。2NX NNA目前可以支持多種人工智慧模型，比如CNN卷積神經網路、MLP多層感知網路、RNN遞歸神經網路、SSD單次探測器等，在框架方面支持最主流的Caffe和TensorFlow。為了更好地滿足計算需求，Imagination還推出了一套軟體API，被稱為Imagination Deep Neural Network API，這個API允許開發人員選擇自己的框架，並轉化至2NX NNA上運行。另外，2NX NNA目前已經實現了對Android的支持，畢竟這是他們最大的目標市場。

開啟移動AI計算大門

Imagination雖然在去年面臨了多次變故，但是其研發和產品似乎並沒有受到多大影響，無論是靈活可配置的PowerVR 9系列GPU還是全新的PowerVR 2NX NNA神經網路引擎，從其宣稱的性能來看，都屬於業內首屈一指的程度，尤其是全新的2NX NNA神經網路引擎，可算是目前性能、性能面積比都名列前茅的移動端神經網路加速器。

不過，優秀的技術和出色的產品並不意味著市場的成功。目前在ARM、高通、蘋果等主要移動晶元廠商都在全力打造齊全的知識產權鏈的情況下，Imagination的產品究竟賣給誰就變成了很重要的問題。根據Imagination披露的一些信息來看，它的客戶除了MTK外，其餘的大多數都是一些行業客戶，和普通的用戶距離較遠。未來我們究竟會在哪些產品上看到Imagination的創意和技術，還是一個需要觀察的問題。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 微型計算機 的精彩文章:

※低配也能輕鬆「吃雞」！《絕地求生：大逃殺》CPU及內存性能需求測試
※深度學習得靠它！NVIDIA Volta GPU核心架構深層技術

TAG:微型計算機 |