三分鐘看懂「人臉識別」晶元之爭！

導語：高速增長的人臉識別仍面臨無芯可用窘境，其中GPU、ASIC、DSP以及萬能晶元FPGA是最為活躍的4大類型；只是互有優劣勢的它們，誰終將是人臉識別的最佳伴侶？請看機器人文明給您帶來的解讀。

文 | Andy

圖 | 網路

在過去的幾十年間，人工智慧一直在默默地發展，期間出現過數次「指日可待」的破發期，但最終都因為演算法不成熟而反覆沉淪。直到2013-2014年，隨著曠視、商湯（這兩家企業同根同源）的橫空出世，以人臉識別技術為代表的人工智慧瞬間引爆資本市場，隨之而來的就是捷報頻傳的AI應用創新。

發展強勁，牽引AI一路狂奔

據科技部火炬中心發布的《2017年中國獨角獸企業發展報告》顯示，2017年我國164家獨角獸企業中，人工智慧企業數量有6家，佔比3.66%，獨角獸企業數量排名第10位；據報告分析，這6家企業總估值120億美元，在整個獨角獸企業估值中佔比1.91%，位居全行業第11位。

圖表1：2017年人工智慧獨角獸企業情況（數據來源：前瞻產業研究院）

在這一波AI浪潮中，人臉識別作為爆發點，是目前成長最為迅速的AI應用，據前瞻產業研究院發布的《人臉識別行業市場前瞻與投資戰略規劃分析報告》數據顯示，2017年全球人臉識別市場規模約為31.8億美元，預計未來一段時間人臉識別市場規模將保持20%左右的增速，預測到2022年，全球人臉識別市場規模將達75.95億美元。

本土人臉識別企業也隨著這一波浪潮成為了中國「萬眾創新」的一張名片，商湯、曠視、雲從、雲天勵飛、依圖這5家企業，放眼全球，它們的技術水平均處於行業領先地位。

前瞻資料庫公布的數據顯示，我國人臉識別市場規模近幾年年均複合增長率達27%。2016年，我國人臉識別行業市場規模約為17.25億元；2017年其市場規模已超過20億元，預計未來5年增速仍將保持年均25%的高度，至2022年達到65億元以上。

當然，其背後與資本的推助離不開，去年11月，曠視科技(Face++)完成了4.6億美元的C輪融資，本輪融資一舉打破了國際範圍內人工智慧領域融資記錄；而不久後，該記錄即被商湯打破，今年4月9日，商湯獲得6億美元C輪融資；緊接著5月31日，再次獲得6.2億美元C+輪融資，從2014年創立至今，商湯科技的融資總額可能已超過17億美元。

晶元：竟是人臉識別發展的最大絆腳石

神經網路卷積深度學習技術令人臉識別瞬間提升到3D多維演算法領域，人類這才終於從演算法層面解決了人臉識別不精準、實戰難的問題，讓人臉識別技術從此走嚮應用。

不過，問題也隨之而來：即便融資號令全球，但沒有落地，人臉識別就只能飄在天空，落地才是硬道理。於是行業玩家在繼續追逐演算法極致的同時，開始了一輪又一輪的產品硬體化。

經過幾年的實踐檢驗後發現，當下AI三大要素中影響人臉識別推廣應用的關鍵不是演算法、也不是大數據，而是主觀認為早已解決的算力問題——運行人臉識別深度學習演算法的最佳處理器。

人臉識別運算流程主要有4個：視頻採集特徵提取數據比對識別。

由於目前沒有專門用於人臉識別的處理晶元，只能採用通用晶元代為處理。因深度學習演算法對算力資源需求高，一般採取核心處理器，如CPU、ARM晶元進行視頻採集，把視頻中的人臉圖像摳取下來，然後把該人臉圖像發送給下一處理單元進行結構化處理。

結構化處理是人臉識別的關鍵。最初方案是在CPU上做處理，但由於CPU負責邏輯算數的部分並不多，在多任務處理時效率低下，有分析認為，12顆NVIDIA GPU可以提供相當於2000顆CPU的深度學習性能；在圖像處理，CPU的先天劣勢決定了其在人臉識別應用上被棄用的結局，該結論同樣適用於應用於Linux系統的ARM處理器。

圖表2：CPU與GPU結構對比（圖片來源：NVIDIA）

核心數據處理晶元無法執行人臉識別結構化運算，只能將圖像處理的工作交給更合適的專門處理晶元，目前常見的有GPU顯示核心、FPGA現場可編程門陣列、ASIC專用集成電路、DSP數字信號處理。

GPU：當下AI的主導者

GPU的優勢在於解決浮點運算、數據並行計算問題，在大量數據元素並行程序方面具有極高的計算密度。

GPU的應用現已不再局限於3D圖形處理了，而是具備強大計算能力的處理器，其在人工智慧、深度學習高速並行運算的優勢凸顯。

GPU在雲計算、AR/VR、AI中的重要性不斷被產業界和資本市場驗證和認可，其中，全球龍頭NVIDIA是GPU領域的絕對領導者，過去幾年實現了股票的數倍增長；業績方面也是處於高速增長態勢，在整個2018財年，英偉達營收為97.14億美元，與2017財年的69.10億美元相比增長41%；凈利潤為30.47億美元，與2017財年的16.66億美元相比增長83%。

目前全球超級計算機TOP 500上榜的所有超級計算機有96%都使用了配備英偉達GPU的核心加速器，它所佔份額為60%。緊隨其後的是Xeon Phi，所佔份額為21%。

圖表3：英偉達近兩年股票漲勢（數據來源：東方財富網）

無形中，GPU成為了當下人臉識別算力資源的絕對主力，從行業採用情況看，但凡是採用中心集中處理組網架構的人臉識別項目，清一色採用GPU作為人像數據結構化的處理單元，特別是在X86伺服器集群中，GPU更是成為唯一選擇。

雖然GPU優勢凸顯，卻也存在兩個致命硬傷，一是功耗大，需依託X86架構伺服器運行，不適用於更為廣泛的人臉識別產品方案開發；尤其是人臉識別民用化趨勢日漸增強的當下，GPU不適於在小型化項目的採用。二是成本高昂，採用GPU方案，折算單路人臉識別成本在萬元以上，相較其他千元級，甚至是百元級的方案，毫無成本優勢可言，不利於商業平民化推廣。

這兩個致命短板，令眾人臉識別創業公司不得不尋求新的方案；目前在一些中小型項目中，GPU早已被棄選，如道閘、過道等前景同樣廣闊的領域。

FPGA：被賦予厚望的替代品

場效可編程邏輯閘陣列FPGA運用硬體語言描述電路，根據所需要的邏輯功能對電路進行快速燒錄。一個出廠後的成品FPGA的邏輯塊和連接可以按照設計者的需要而改變。

FPGA和GPU內都有大量的計算單元，因此它們的計算能力都很強。不過FPGA的可編程性，讓軟體與終端應用公司能夠提供與其競爭對手不同的解決方案，並且能夠靈活地針對自己所用的演算法修改電路。其中峰值性能、平均性能與功耗能效比就是決定FPGA與GPU誰能在伺服器端佔領高地的重要因素。

同樣是擅長並行計算的FPGA和GPU，兩者性能都較CPU強許多，其中GPU能同時運行成千上萬個核心同時跑在GHz的頻率上，最新的GPU峰值性能甚至可以達到10TFlops以上。

相對而言，FPGA首先設計資源受到很大的限制，例如GPU如果想多加幾個核心只要增加晶元面積就行，但FPGA一旦型號選定了，其邏輯資源上限就確定了。

而且，FPGA裡面的邏輯單元是基於SRAM查找表，其性能會比GPU裡面的標準邏輯單元差很多。

最後，FPGA的布線資源也受限制，因為有些線必須要繞很遠，不像GPU這樣走ASIC flow可以隨意布線，因此，在峰值性能方面，FPGA要遠遜於GPU。

平均性能方面，目前機器學習大多使用SIMD架構，即只需一條指令可以平行處理大量數據，因此用GPU很適合。但是有些應用是MISD，即單一數據需要用許多條指令平行處理，這種情況下用FPGA做一個MISD的架構就會比GPU有優勢。對於平均性能，看的就是FPGA加速器架構上的優勢是否能彌補運行速度上的劣勢。如果FPGA上的架構優化可以帶來相比GPU架構兩到三個數量級的優勢，那麼FPGA在平均性能上會好於GPU。

功耗方面，GPU的功耗遠大於FPGA的功耗，單一比對中，FPGA無疑是分散式部署人臉識別網路的最佳選擇。但如果要比較功耗的同時再比較同等執行效率的功耗，FPGA則沒有優勢。不過在GPU無法改變的當下，FPGA給予了行業無限的希望，如果FPGA的架構優化能做到很好以致於一塊FPGA的平均性能能夠接近一塊GPU，那麼FPGA方案的總功耗遠小於GPU，那麼FPGA取代GPU將成為人臉圖像結構化的不二選擇。

FPGA器件的行業集中度同樣很高，全球前四大產商均來自美國，分別為：Xilinx（賽靈思）、Altera（阿爾特拉）、Lattice（萊迪思）和Microsemi（美高森美），總共佔據了98%以上的市場份額。其中第一的Xilinx佔49%，第二的Altera佔39%，二者合計佔比達88%市場份額，形成了雙寡頭的競爭格局。

圖表4：全球FPGA主要廠商和中國廠商市場份額分布（數據來源：華創證券）

ASIC、DSP：小型項目高性價比選配方案

ASIC、DSP都屬於串列計算。ASIC晶元的優勢是運算能力強、規模量產成本低，但開發周期長、單次流片成本高，主要適用於量大、對運算能力要求較高、開發周期較長的領域，比如大部分消費電子晶元和實驗。

DSP內包括有控制單元、運算單元、各種寄存器以及一定數量的存儲單元等等，在其外圍還可以連接若干存儲器，並可以與一定數量的外部設備互相通信，有軟、硬體的全面功能，本身就是一個微型計算機。它不僅具有可編程性，而且其實時運行速度可達每秒數以千萬條複雜指令程序，遠遠超過通用微處理器，是數字化電子世界中日益重要的電腦晶元。它的強大數據處理能力和高運行速度，是最值得稱道的兩大特色。

由於它運算能力很強、速度很快、體積很小，而且採用軟體編程具有高度的靈活性，因此為從事各種複雜的應用提供了一條有效途徑。當然，與通用微處理器相比，DSP晶元的其他通用功能相對弱些。但到目前為止，DSP 並沒能真正提供任何有用的性能或是可以與 GPU 相匹敵的器件，其主要原因就是核數量，導致不少 DSP 被FPGA取代。

圖表5：FPGA、ASIC、DSP優缺點比較、應用領域（數據來源：華創證券）

圖表6：FPGA VS ASIC（數據來源：機器之心）

相較ASIC、DSP來說，FPGA的功耗仍比較大，成本優勢也不足以支撐高性價比的人臉識別方案設計，因此，目前針對邊緣雲計算的最新應用方案，ASIC、DSP的選用性更強。

而當下人臉識別演算法基本都得到了充分的大數據訓練，演算法成熟度已經較高，其應用也不再一味追求極限，對一些準確率不是極度變態的場合，ASIC、DSP成為了首選，比如監控的AI賦能。

其中，又因DSP更具開發周期優勢，我們已經看到，ARM+DSP的處理方案已經成為人臉識別超低性價比首選，目前的百元級、千元級人臉識別產品正是基於該方案實現；當然，受限於DSP的大量數據處理性能，可在小型化伺服器中同時採用多顆DSP共同組建方案，如一部分資源負責人像分析，另一部分DSP資源用於特徵提取。

目前TI和海思的方案採用最為廣泛。

TI的達芬奇解決方案中，DM644X系統內嵌DSP，可將人臉檢測置於其中便能達到實時處理，適用於DVS解決方案設計，當然，因為該方案系統架構較為複雜，軟體設計困難度要相對高些。

而海思的351X系統為ARM+ASIC結構，編碼演算法運行於ASIC中，其他功能則運行於內嵌的ARM中。這兩個方案中，TI的解決方案處理能力最好，但價格也略高；海思則在系統簡潔化、開發成本上有優勢。

為滿足當下人臉識別等人工智慧的發展需求，行業也推出了各種針對深度學習晶元，如TPU、NPU、DPU、BPU等。

相比GPU，TPU更加類似於DSP，儘管計算能力略有遜色，可其功耗大大降低，當然，TPU的應用還是要受到CPU的控制；

深鑒科技基於Xilinx可重構特性FPGA晶元開發的DPU屬於半定製化的FPGA，作為專用的深度學習處理單元使用；

NPU相比於CPU中採取的存儲與計算相分離的馮諾伊曼結構，NPU通過突觸權重實現存儲和計算一體化，從而大大提高運行效率，其典型代表有國內的寒武紀晶元和IBM的TrueNorth，另外，中星微電子的「星光智能一號」雖說對外號稱是NPU，但其實只是DSP，僅支持網路正向運算，無法支持神經網路訓練；

BPU主要是用來支撐深度神經網路，比如圖像、語音、文字、控制等方面的任務，而不是去做所有的事情，用BPU來實現會比在CPU上用軟體實現要高效，一般來說會提高2-3個數量級，然而，BPU一旦生產，不可再編程，且必須在CPU控制下使用。

此外，演算法企業也在積極與晶元企業合作，加速推出符合需求的人臉識別晶元產品。

而英特爾作為一代晶元巨頭，也在發力GPU以期穩固其龍頭地位，接連收購了Altera、Mobileye等企業，欲在搭載強大CPU核心的多核異構處理器方面大展宏圖，雖然目前該夢想還沒有得到很好實現，不過也被認為是未來解決人工智慧算力瓶頸的有效方案之一。

小結

目前人臉識別的最佳晶元方案仍是GPU，實際落地的小型項目則可以採用DSP等能耗低的高性價比方案；而FPGA的優勢，也讓它具備取代GPU的可能，只是受制於專利牆及技術，更多的希望只能寄託於FPGA四大家族發展進度。

當然，人臉識別的應用萬萬千，場景應用創新也還在持續開發中，概括起來主要有三種場景方案需求。

一是終端一體化集成圖像採集、人臉採集、特徵提取、數據比對、識別全流程，如手機解鎖、移動支付等，該場景主要是1:1識別方式，其對安全性要求最為嚴苛，一般都會通過紅外技術輔助建立3D人像模型以確保真人識別；

二是雲邊應用，此時圖像採集與人臉識別AI應用獨立，對分析處理模塊性能要求較高，一般有1:N、N:N兩種識別方式，而需要紅外輔助建模還是平台虛擬建模，根據場景安全等級抉擇，如人臉道閘以支持真人識別為佳；

三是中心處理，該模式基本不用做圖像採集，主要是識別認證和大數據碰撞研判，動輒百億、千億量級，對處理晶元要求非常高，目前基本可以說只有GPU才是最佳選擇。

三種場景，需求不一樣，方案也將不一樣，以目前的晶元技術水平，還很難下結論說誰是最好的晶元，只有最適合、最容易落地的方案才是王道，人臉識別作為AI創新的引領者，活下去，才能推助性能更優晶元面世。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 芯師爺 的精彩文章:

※中興通訊「復活」：半日成交52億分析師稱股價被低估
※高通失敗了，全球半導體產業走向何方？

TAG:芯師爺 |