當前位置:
首頁 > 新聞 > 英偉達「AI霸權」重壓當前,看挑戰者們如何一戰?| 獨家專訪Intel、深鑒科技、Allone

英偉達「AI霸權」重壓當前,看挑戰者們如何一戰?| 獨家專訪Intel、深鑒科技、Allone

在 9 月底剛剛結束的 NVIDIA 北京 GTC(GPU 技術大會)上,黃仁勛發布了最新的 AI 深度學習方案布局,通過架構的改善,及新版開發工具的推出,除維持過去強勢的學習性能外,更在推理效率超越了所有競爭對手,就連 Google 新推出不久的 TPU 2.0 也要甘拜下風。

圖丨黃仁勛在 2017 北京 GTC 上做主題演講(圖片來源:DT 君)

但作為深度學習的另一熱門方案,也就是近來被視為 GPU 地位最大潛在挑戰者的 FPGA(現場可編程門陣列),是否就這樣被 NVIDIA 的氣勢所壓倒?那也未必。

FPGA 在應用上的彈性,以及本身具備的超低延遲特性,都讓其在多家一線雲端服務大廠的服務系統架構中佔有一席之地,未來通過工藝的演進,以及演算法的改良,都可再壓榨出更大的潛能。

相比之下,NVIDIA 有強勢的架構設計,其所發表的 TensorRT 更是把生態緊緊綁在自家 GPGPU 身上。然而,Intel 的 FPGA 方案反而改走兼容大度的路線,買下 Nervana 之後,其開發工具不只可針對自家 Altera 的 FPGA 支持最優化,甚至也可同步支持 GPU 計算的開發。

雖然從 NVIDIA 的角度來看,他們肯定不希望 FPGA 介入 GPGPU 的 AI 計算生態。但是從 Intel 的策略布局及一線雲服務大廠的做法觀察,考慮到未來計算內涵會越來越多元,若能結合多種計算架構,互相搭配,各自負擔部分擅長的計算工作,並以統一的生態框架來避免開發上的問題,或許才是整個 AI 產業,或相關雲服務廠商真正的長期發展目標。

針對異軍突起的 FPGA 解決方案,DT 君日前分別對該領域最具代表性的三家廠商進行了系列專訪,包括Intel 人工智慧事業部首席技術官 Amir Khosrowshahi、深鑒科技 CEO 姚頌,以及台灣的Allone Solution 公司創始人劉淑敏。以下是本次 FPGA 系列專訪的重點內容:

核心架構:Intel 人工智慧事業部首席技術官 Amir Khosrowshahi

Intel 目前積極在全球布局其 FPGA 生態,10 月 3 日在台北舉辦 AI Day 展示其技術研髮結果,原本在 Nervana 工作的 Amir Khosrowshahi,也隨著 Nervana 被併購進入 Intel,出任人工智慧事業部(AIPG)副總裁兼 CTO。會後 DT 君也對 Amir 進行了專訪。

圖丨Intel 人工智慧事業部首席技術官 Amir Khosrowshahi

針對 Nervana 目前的平台支持狀況,Amir 表示,Nervana 的發展目標就是為了要解決問題,當初 AI 計算以 CUDA 領導的 GPGPU 生態為主,Nervana 理所當然的把 GPU 計算與生態開發當成第一目標。但隨著 Xeon Phi、FPGA 等計算生態也逐漸成熟,Nervana 把發展重心也逐漸轉移到後者,但作為融合不同計算架構的接著劑,過去的技術積累不會輕易放棄,Nervana 同樣能支持各家最新的架構,包含 NVIDIA 的 Volta,以及隨著 Volta 發表的最新一代開發環境 TensorRT 的所有特性。

當然,談到 NVIDA,Amir 也表示其 Volta 架構所集成的 Tensor Core 是個相當有趣的東西,但 Amir 也強調,Tensor Core 的概念其實並不是很新奇的東西,作為輔助的向量加速計算架構,其實早在超級計算器 CRAY 當中出現,也不是 NVIDIA 才有集成這樣的加速架構,未來 Intel 下一代 Xeon Phi 產品,代號 Knights Mill 也將加入了針對向量計算加速的兩大指令,也就是 QFMA 以及 QVNNI,可大幅加速機器學習以及推理能力。

圖丨下一代 Intel Xeon Phi 處理器,代號 Knights Mill

而 Xeon Phi 相較起 GPU 架構,具備更大的內存支持能力,其對於 AI 應用的計算效率表現理論上會更優秀,且可有效避免數據傳輸的瓶頸產生。

Amir 談到 Nervana Engine,也就是集成 FPGA 與 HBM 內存的高效能深度學習架構,特彆強調 FPGA 是個延遲非常低的架構。由於集成龐大的片上內存,學習的數據與產生的模型可以放在本地端內存,不需要做額外的數據遷移動作,可大幅減少對匯流排帶寬的消耗。

但隨著 AI 的發展,其實社會上也出現了不少針對 AI 應用的疑慮,雖然說開發者開發 AI 的原意都是為了要改善社會,不論是增加產能,或者是改善交通安全,但隨之而來的各類型應用,讓人類產生害怕被取代的聲音。

對於這個充滿爭議的問題,Amir 對 DT 君表示,AI 是中立的,為了建構 AI 所學習的數據也是中性的,理論上不存在偏差,而 AI 基本上都是針對性的應用,比如說飛機有飛機的 AI,汽車有汽車的 AI,這些個別 AI 都是設計來輔助人類,並沒有一個 AI 取代所有應用的狀況。當然,部份取代在所難免,但從過去技術的發展軌跡觀察,當新的技術推出後取代了部份人類的工作,也會有相對應的工作機會產生,所以其實對 AI 產業還是可以保持審慎樂觀的態度。

有效減少神經網路核心複雜度:深鑒科技 CEO 姚頌

深鑒科技是近期在人工智慧領域迅速崛起的一家初創公司。深鑒提供的核心服務主要就是一套深度壓縮(deep compression)演算法,通過此演算法,可降低在機器學習後最終產生模型的複雜度,結果就是更加快速的推理過程,以及更加精簡的存儲空間需求。

姚頌也特別跟 DT 君仔細說明了這套演算法的核心邏輯:由於機器學習過程中產生的數值表,其實大部份內容都會是零,透過深鑒發展出來的演算法,可自動剔除這些只是用來填空用的數值,只保留有意義的部份。

圖丨深鑒科技 CEO 姚頌

但姚頌也強調,由於這套演算法非常嚴謹,為了避免誤判,而剔除不該剔除的部份,使用這套演算法通常會延長機器學習所需要的時間,舊版演算法需要人工操作,確認應該剔除的部份,但隨著版本的更新,目前多餘數據的剔除已經可以作到完全自動化。雖然需要的計算時間因為計算複雜度的關係,並不會縮短,但自動化流程可減少人工干預,讓人力可以用在更有意義的工作上。

目前,深鑒也利用 Xilinx 的 FPGA 開發了自有的 DPU 方案 Aristotle(亞里士多德),這個方案基於 Zynq 7020 SoC 架構,支持包含 1x1、3x3 的 CNN(卷積神經網路)操作,這個架構主要針對視頻、圖像的識別,由於架構的可延伸性,此方案也常被應用於包含伺服器或者是像無人機、汽車、安防監控、機器人等應用中。

圖丨深鑒的兩大主力方案,分別針對語音識別以及圖像識別兩大類型應用,也都加入了神經網路壓縮特性,加速最終的推理性能。

另外,Descartes(笛卡爾)方案則是針對語音識別的架構,與 Aristotle 不同的是,此為針對 RNN(循環神經網路)技術,內置了神經網路壓縮技術,可大幅加速語音識別的效率。深鑒科技目前正在與全球一線科技公司合作來推進這套方案的部署,同時,此方案目前也被其他國內廠商所採用。

姚頌表示,由於深鑒的演算法都是自主開發,雖然指令集與編譯程序都屬於非常成熟的階段,但為簡化開發複雜度,目前還是通過 Xilinx 的 FPGA 架構來構建方案。但將來也不排除開發」硬」化的 DPU 架構。

而深鑒也在演算法方面,為合作夥伴提供專業的技術協助。比如說合作夥伴之一聯發科,目前在發展自有的汽車晶元,而在關鍵的圖像辨識演算法方面就在與深鑒科技進行合作,希望利用深鑒在演算法方面的優勢,大幅加速未來基於聯發科汽車晶元的圖像處理能力。

圖丨Kirin970

另外,姚頌還表示,目前也在與合作廠商開發類似 Kirin970 的終端 AI 處理能力,這部份進度和細節目前還不方便透露,但預期計算水平將可和業界主流方案相提並論。

邊緣計算:致力改善 AI 傳輸瓶頸,Allone Solution 公司創始人劉淑敏

Allone 創始人劉淑敏在創辦這家公司之前,曾經在半導體公司從事 CPU 設計的工作,對於相關技術研發工作有著極為豐富的經驗。

圖丨Allone Solution 公司創始人劉淑敏

目前 Allone 主要業務是協助客戶把演算法集成到 FPGA 之中,從而加速應用計算效能,而 Allone 本身也具有技術開發能力,且擁有不少關於存儲的關鍵技術,比如說擁有 SATA Phy 等核心專利,表面上和 AI 產業並沒有太大的關係,但實際上,AI 計算時需要大量的數據流出與流入,這對於網路以及系統匯流排會產生龐大的壓力,事實上,根據劉淑敏的說法,不少 AI 架構都處於因為計算速度太快,導致系統匯流排來不及喂數據的窘況。

Allone 除了協助客戶把演算法硬體化以外,也同時開發基於 FPGA 存儲子系統加速單元,通過高效率的數據壓縮處理技術,可以大幅減低系統匯流排的負擔。

圖丨透過 Allone 所開發的數據加速晶元,可有效減少神經網路學習的數據大小,縮短傳輸時間,增進整體 AI 計算效率。

目前的 AI 生態,從終端收集完數據傳到雲端,再把模型從雲端傳回到終端的過程,延遲太高,使用者的體驗不佳,所以需要建立相當數量的邊緣計算架構,藉以分擔雲端的計算、傳輸負擔,加速整個傳輸過程,讓雲端到終端的延遲削減到最小,甚至在終端或邊緣端就做好計算工作。

不論是物聯網、汽車、零售業等,多數計算都發生在數據產生的地方,如果能在數據發生處就做好神經網路計算,那就可以大幅降低雲端的負載。當然,邊緣計算仍只是雲端計算的補充,即便是未來終端的 AI 應用,也無法完全取代雲端計算。

劉淑敏也向 DT 君表示,中國大陸發展 AI 的速度相當驚人。目前大陸的製造業轉型非常快,不少原本做電器或者消費性電子產品的公司也開始紛紛加入 AI 的行列,這些公司不一定會建自有的計算服務,但多半還是會和特定雲服務結合,隨著產品出貨的增加,以及市場熱度的增溫,產生的數據也越來越多,對存儲以及相關邊緣計算的需求一定會帶起來,而這也是 Allone 瞄準的主要市場目標之一。

從 CPU 到 FPGA,半導體技術將 AI 理論變為現實

AI 的概念發展極早,早在 19 世紀初期就有人提出圖靈測試的概念,假設機器能擁有人類智能,並依此推理設計了相關判斷方法。

圖丨圖靈測試

而在 1950 年代,類神經網路的概念被提出,如果利用數學來對神經元的動作進行模擬計算,理論上能建構出模仿人類觀察、學習、判斷事物的人造對象。當然,這個時期還沒有半導體技術的支撐,所以這些概念只是停留在理論階段。

而我們現在講的機器學習與邏輯判斷的概念,也同樣出現在半導體技術面世之前,Herbert Simon 在 1960 年代提出用演算法對人類推理的過程進行模擬,而這類演算法也成為現今 AI 計算的基礎。

當第一個 CPU 在 1971 年被發明出來,AI 這種很早就被提出來的理論科學卻沒有跟著起飛,最初受惠的反而是科學、商業等應用。這時業界都在討論商用智能或專家系統,離 AI 概念還很遠。

圖丨英特爾在1971年推出的第一個CPU

進入 21 世紀後,網路應用成為主流,計算機成為必備。而後手機等各種智能終端也不斷推陳出新,市場也越來越重視智能這兩個字在產品中所能代表的意義。也因此,從雲到端,我們都可以看到不同計算架構上開始把這些提出已超過半個世紀的 AI 概念整合進去,提供更多元化的服務,甚至,有些 AI 也開始做起人類的工作。

以上是以 AI 本身的發展歷程來解說,但如果是以半導體技術的發展為依歸,可以分為四個大階段,分別為 CPU、GPU、混合式架構、以及包容所有架構的 FPGA。

最早被用來做 AI 相關的計算工作的還是以 CPU 為主,CPU 有其天生限制,比如說其指令集天生缺乏效率,X86 指令集極為古老。把多數複雜操作包成單一指令,雖可節省存儲空間,但效率低,而 RISC 指令集架構則是相對做了許多簡化,為了描述完整的計算內涵,程序複雜度卻也因而提高,增加了對存儲空間的需求。

但後來 X86 引入了管線設計與單一指令多重處理的概念,用以增強效率,RISC 方面除指令集的落差外,發展脈絡也和 X86 架構相似,並導入不少向量加速單元的設計,強化處理特定數學計算的能力。

圖丨數十年前的超級計算機 CRAY 就是個結合龐大向量加速單元的架構。

這些向量加速單元其實功能就如今日的 Tensor Core 或 TPU 單元,概念上一致性相當高。

但數十年前工藝實在太落後,即便晶元設計概念和現在落差不大,但在規模、功耗以及成本方面無法與在相提並論。加上計算機應用在一般消費市場極為冷門等客觀條件限制,除了少部分艱深的科學計算以外,很難普及到一般應用中。

然而 CPU 還有另外一個弱點,那就是循環、分支預測錯誤造成的延遲,雖然可以通過架構的設計來盡量避免,但必須付出相當可觀的成本,也因此後續才有更多 AI 的專用架構推出,畢竟只靠 CPU,是無法滿足 AI 計算所需要的效能。

這個時期的 AI 計算工作雖然已經有學習以及建立模型的概念,甚至也發展出類神經網路技術,但都只是停留在科研的層面,且因半導體技術的落後,無法進行太複雜的計算。

隨後,AI 在學習的規模上藉助 GPGPU 的幫助得以大幅增加,在各種科學計算,以及視覺處理方面,GPGPU 展現出了極高的彈性以及效能表現,但是在推理部分,由於 GPU 能夠處理的數據精度固定,雖對學習的高速計算目的幫助很大,但用於推理就有點殺雞用牛刀的感覺,一來推理不需要用到太高的精度,二來又要兼顧帶寬限制以及存儲需求。

圖丨GPGPU 的概念就是利用 GPU 的海量處理單元同時進行龐大數量的計算工作。

而 GPU 本身仍需針對傳統應用,也就是繪圖功能優化,無法針對 AI 的需求進行完全改造,因此,TPU 這種向量計算架構也應運而生,TPU 本身可針對低精度計算優化,且結合大量的片上內存,模型的存取與計算可直接在本地完成,不需要太多數據遷移,因此有效環節傳輸瓶頸。

TPU 發展到第二代,除了原本一代 TPU 就具備的推理能力,也增加了效率不錯的學習功能,讓 TPU 一躍成為完整的 AI 方案。但是 TPU 是 Google 用來驗證 TensorFlow 的試驗性硬體,並非真的要用來打相關方案市場,反而 Google 會希望業界參考相關做法,可真正設計出為 TensorFlow 優化的計算硬體設計,幫助擴大相關的生態。

圖丨TPU 的目的不是用來進行市場競爭,而是要用來展示 TensorFlow 標準架構所能具備的計算能力。

所以 NVIDIA 在其最新的 Volta 架構中導入了 Tensor Core 設計,而 Google 也在第一時間在其雲端伺服器上導入了 Volta 架構,就可證明,這是 Google 引導市場風向的一貫做法,並非真的要加入直接競爭的局面。

但 Google 的如意算盤雖然打得精,但業界也未必都會選擇 Google 這條路,GPU 目前只有兩家能夠供應,而在 AI 領域基本上就是 NVIDIA 的獨角戲。TPU 架構概念其實很單純,那就是加了龐大片上內存的向量加速單元,架構本身並不特別,現在 NVIDIA 有了 Tensor Core,Intel 則是增加了 QFMA 和 QVNNI 兩種向量加速指令。

最後是 FPGA,其發展其實僅略晚於 CPU,其現身於 1980 年代,由 Xilinx(賽靈思)發明。FPGA 最大的優勢在於其邏輯電路可完全自定義,要用 FPGA 做到 CPU、GPU 功能,甚至專用的數學計算單元,如 DSP 等,基本上都不是問題,只要開發者夠有創意,透過燒寫 FPGA 內部固件程序,就可賦予 FPGA 全然不同的功能。

雖然性能優秀,僅略低於固定功能的 ASIC,且擁有強大的可自定義能力,但是在 AI 領域,FPGA 其實發展的比 GPU 還要晚,就是因為彈性太大,業界缺乏足夠好的開發工具來探索 FPGA 的真正潛力。

業界如果要採用 FPGA,那就是要從頭到尾都自己來,在開發工具完整性不夠的情況下,開發曠日廢時不說,FPGA 晶元成本又高,且相較於其他主流計算架構又更耗電,所以在應用上主要還是針對軍工、醫療等較封閉的應用,消費性應用少之又少,也難打入伺服器架構。即便 AI 議題漸熱,FPGA 仍被閑置在冷宮相當久一段時間。

不過隨著時間過去,各 FPGA 大廠都開始關注 AI 應用在雲端以及終端的潛力,開發工具也終於逐漸完善,並支持各種主流 AI 標準,FPGA 在 AI 應用方面的計算潛力也才真正有了發揮的空間。

不過 FPGA 不僅止於 AI 相關的計算,由於 FPGA 過去擔當各種數據傳輸主要幹道的核心整流工作,面對 AI 所帶來的龐大數據流,不只是輸入,或者輸出,如果沒有一個高效率的管理核心來進行數據的壓縮、導流,那麼就算擔當 AI 計算的核心再怎麼強大,那整體效率還是高不起來。

而這也就是 FPGA 之所以擔任「超強黏著劑」的意義所在。

目前 FPGA 不只能擔當 AI 的計算部分,也可和不同架構協同處理,共同解決 AI 計算中的各種問題,畢竟 CPU、GPU、TPU 等架構主要還是針對計算的部分,數據傳輸還是需要外部組件來處理,FPGA 就可很好的扮演協調數據傳輸的角色,而當有需要時,又能介入處理 AI 計算,可說是進可攻退可守。

目前 FPGA 主要有 Altera、Xilinx、Microsemi、Lattice 等幾家供貨商,而各自專註的市場目標也有不同,但 AI 計算髮展算是其中一個共同的方向。另外,目前高階 FPGA 也都開始走向 SoC 化,比如說 Xilinx 的 UltraScale 系列,Altera 的 Stratix 系列等。

由於前兩大 FPGA 供貨商就佔了全球約九成市場,所以針對這兩大 FPGA 供貨商進行簡單介紹。

Xilinx

FPGA 的發明者,主要針對高端 FPGA 應用發展,其目前主推的開發環境為 Vivado HLS(High-Level Synthesis),可以直接使用 C,C++ 以及 System C 語言規範進行編程,無需手動創建 RTL,從而可加速 IP 創建。

當然,前者是為了那些希望從頭打造自有方案的客戶提供的開發環境,針對主流的 AI 學習方面,Xilinx 也推出 reVISION 堆棧,針對機器視覺、機器學習等應用優化,完整支持了 OpenVX、OpenCL、Caffe 等主要標準,並支持了 AI 所需要的學習以及推理流程,協助客戶快速建構完整的方案。

圖丨Xilinx 推出 reVISION 支持主流 AI 學習標準

Xilinx 就推出集成 ARM 核心的 SoC 產品,從低端的 Zynq-7000 系列,到高端的 Zynq UltraScale 系列 MPSoC/RFSoC,從基本的儲存、馬達控制,到 ADAS 駕駛輔助系統,甚至自動駕駛與基站通訊核心等等應用。

圖丨Xilinx 的 SoC 系列產品(數據源:Xilinx)

Xilinx 目前佔市場超過 53% 以上的份額(以營收比重區分),其完善的開發工具可說功不可沒。過去專註高端方案的推出,也成功確保了獲利。

圖丨各家 FPGA 市場份額(數據源:EE Times)

Altera(Intel)

Altera 過去在 FPGA 市場的經營並不算成功,主要是因為過於集中在中低端市場,導致營收明顯不如競爭對手。

被 Intel 併購之後,其實也有不短的時間找不到方向,原本 Intel 期望藉助 FPGA 之力來對抗 GPGPU,但是在開發生態明顯不如 NVIDIA 的狀況下,只好縮回頭繼續打磨生態,期望有新的應用可以讓 FPGA 重新發光,且最好能夠統整 Intel 自家的主要計算架構,構成足以和 GPGPU 對抗的堅實生態。

圖丨Altera 的 SoC 產品(數據源:Intel)

而併購 Nervana 可以說是 Intel 最重要的一步棋,通過 Nervana 提供的一站到位式套件服務,開發者可以快速開發出針對不同行業應用的方案。

Nervana 過去最令人稱道的,就屬於其針對所有 AI 計算應用支持的廣泛性,由於基於號稱現有計算理論上最快的矩陣操作演算法 Coppersmith–Winograd algorithm,原本矩陣演算法算是 GPU 的長處,但 GPU 針對的是計算器圖學應用設計,並非 AI 優化,理論上,如果有專用架構,使用針對 AI 優化的專用矩陣,那麼效率會比 GPGPU 更高。

當然,這也是 Intel 打的如意算盤之一,通過 Nervana 的演算法,Intel 的硬體,打造出不輸給 NVIDIA 的 CUDA 生態。

圖丨Intel 的 AI 產品布局(數據源:Intel)

繼 2015 年併購 Altera 之後,2016 年併購的 Nervana 為 Intel 帶來更多元的生態支持能力,也具備了支持多種不同 AI 計算架構的基礎,Nervan 允許客戶同時使用 GPGPU、Xeon Phi 甚至 FPGA,但只要通過 Nervana,就可以無縫銜接這些計算能力,達成更高效能,或者更多元化的應用方式。

圖丨通過 Nervana,開發者可在同一個開發體系下,快速支持不同標準,加入不同應用(數據源:Intel)

當然,Intel 的長期目標肯定還是會以自家架構取代競品,但短期之內,Nervana 對於開發者的友善程度,以及高效能的表現,仍可有效協助 Intel 打通過去因為開發工具包不夠友善、支持性不夠廣的關係,改選擇 CUDA 等敵對生態的客戶。

圖丨Intel 所推出的運算晶元 Nervana Engine,代號為 Lake Crest,是專為深度學習的工作負載所設計的,將提供極高的運算密度,大幅超越現行 GPU 的運算能力。

FPGA 已全面融入全球主流雲服務商

目前幾乎所有雲服務企業都已經先後導入 FPGA 架構,協助處理整個雲端 AI 計算的瓶頸。

而各家方案的選擇,微軟使用的是 Altera/Intel 的 FPGA 方案,Amazon、百度、騰訊則是使用 Xilinx 的方案,Google 在硬體的選擇上,則是混合 GPGPU 和 TPU 方案,完全沒有採用 FPGA 架構,主要是因其自用開發方案 TPU 和 GPGPU 都配合 TensorFlow 框架優化,目前 FPGA 還無法完全配合這麼徹底之故。

圖丨Xilinx vs Altera

在深度學習方面,自然語音識別已經成為各家雲服務公司的核心項目之一,Amazon 正試圖通過 FPGA 方案來加速 Alexa 的反應速度,微軟也期望透過 FPGA 在推理的優勢效率,改善其語音秘書 Cortana 的識別正確度與響應速度。

Google 的語音助手是目前最優秀的 AI 語音助手之一,但其並非通過 FPGA 加速,而是採用自家的 TPU 結合 GPGPU 方案,分別從學習與推理的效能著手,配合自家優勢的搜索引擎,改善辨識正確性。

百度與騰訊的語音服務目前綁定的服務要比其他國外雲服務廠商更多,但是在自然語言辨識能力方面還是要稍弱後者,但未來語音助手也會隨著 FPGA 架構的導入而有所優化。

-End-返回搜狐,查看更多

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 intel 的精彩文章:

Intel將推出一大波300系主板,還有雙核Coffee Lake-S
Intel轉型再遭打擊:放棄Recon AR眼鏡
i7 8700K雖然很強,但是完全沒有性價比可言!
Intel關閉AR眼鏡品牌Recon:兩年前收購而來

TAG:intel |