NVIDIA能在競爭激烈的AI晶元市場保持優勢嗎？

新聞 02-04

雷鋒網按，供職於Moor Insights & Strategy的高級分析師Karl Freund以《深度學習的寒武紀爆發》為題分三部分闡述了自己對深度學習晶元的觀察，前兩篇《晶元巨頭們2019年的AI晶元之爭會如何？》《2018年全球最值得關注的AI晶元初創公司》分別解讀了巨頭和初創公司的AI晶元。

本系列的最後一篇文章，作者分別從訓練和推理市場的角度，去解讀NVIDIA如何在競爭更加激烈的市場中保持領先地位。

從Nervana的歷史說起

首先，我們看看英特爾與Nervana之間的故事。在被英特爾收購之前，Nervana聲稱其產品性能將比GPU高至少10倍。然後發生了一件有趣的事，NVIDIA的TensorCores讓所有人感到驚訝，因為TensorCores的性能不是Pascal的2倍，而是5倍。然後NVIDIA用NVSwitch再將其性能翻倍，這使得它能夠實現驚人的高性能（售價40萬美元，非常昂貴）8 GPU DGX-2伺服器，它的性能擊敗了大多數（如果不是全部）競爭對手。

與此同時，NVIDIA CuDNN庫和驅動程序的性能提升了大約一倍。它還構建了基於GPU的雲，讓GPU的使用非常簡單，只需點擊並下載大約30個深度學習和工作負載的優化軟體堆棧容器即可。所以，正如前面文章提到的那樣，英特爾的10倍性能優勢已經消失，Nervana不得不重新設計，英特爾承諾將在2019年底推出新晶元。英偉達基本證明了擁有紮實基礎的10000多名工程師可以超越50名頂級的工程師（雷鋒網注，Nervana被收購時擁有50人的團隊）。對此沒人應該感到驚訝，對吧？

10000名工程師團隊的優勢

進入到2019年，競爭對手再次聲稱他們研發中的晶元有超越英偉達GPU 10甚至100倍的性能優勢。需要注意的是，NVIDIA擁有規模達10000名工程師的團隊，在全球與頂尖研究人員和最終用戶建立協作關係。現在，他們正在為NVIDIA的下一代7nm晶元尋找最佳設計，在我看來，這將是英偉達的產品從「帶有AI的GPU晶元」轉變為「帶有GPU的AI晶元」的轉變。

NVIDIA能在競爭激烈的AI晶元市場保持優勢嗎？

圖1：NVIDIA的DGX-2超級計算機一體機可在NVSwitch上互連的16個V100 GPU上提供2 peta-ops的AI性能

NVIDIA工程師可以為下一代產品增加多少「沙子」（邏輯區域）？雖然以下分析很簡單，但對於尋找關鍵問題的答案是有用的。

讓我們從具有出色性能的ASIC—— 谷歌 TPU開始，我看到有分析師估計每個TPU晶元大約集成了20-25億個晶體管。Volta V100在12nm製造工藝中擁有大約210億個晶體管，它是台積電可以製造的最大晶元。隨著NVIDIA使用的製造工藝從12nm變為7nm，晶元可以包含大約1.96（1.4x1.4）的晶體管。因此，從理論上講，如果NVIDIA沒有添加圖形邏輯單元（不可否認），它將擁有另外200億個晶體管，這大約是TPU邏輯量的十倍。假設邏輯差2倍。在這種情況下，NVIDIA工程師仍然有5倍的邏輯單元用於AI功能。現在，NVIDIA可能全力以赴提升性能，而非降低成本或功耗。

在訓練市場，這就是用戶需要的——更短的訓練時間。關於NVIDIA可能會做哪些改良有很多觀點，包括片上內存或處理器中更多的TensorCores。

我的觀點是，NVIDIA毫無疑問擁有可用於晶元創新的儲備，就像TensorCores一樣。我採訪過許多AI晶元初創公司，但我最尊重的那些人告訴我不要低估NVIDIA，也不要認為NVIDIA被鎖在GPU的思維中。NVIDA DLA和Xavier，這兩個ASIC和SoC，證明了NVIDIA可以構建各種加速器，而不僅僅是GPU。因此，許多這些創業公司的CEO決定不用NVIDIA的方式，而是首先進入推理市場。

我認為NVIDIA在訓練市場的劣勢不會長期存在，它現在的問題可能是晶元成本高，但對於AI訓練，客戶願意付出代價。此外，在推理市場，NVIDIA的Xavier是令人印象深刻的晶元。

深度學習寒武紀爆炸有利於可編程性

讓我們回到寒武紀爆炸的想法。NVIDIA指出我們還處於AI演算法研究的早期階段。比如用於圖像處理的卷積神經網路的ASIC可能（並且幾乎肯定會）對於其它網路比如GAN，RNN或尚未發明的神經網路表現就會非常糟糕。

不過，如果NVIDIA能夠解決急待解決的內存牆問題，GPU的可編程性再加上NVIDIA工程師共同構成的生態系統，GPU應該可以相當快地適應一種新的神經網路處理形式。NVIDIA已經通過NVLINK創建8個GPU和256GB高帶寬（HBM）內存網路，以極高的價格為代價解決內存問題。我們不得不等待下一代GPU，以了解它是否以及如何解決延遲和帶寬問題，這將需要大約10倍HBM性能的內存。

推理戰爭

邊緣和數據中心推理市場需求多樣，並且有望實現快速增長，但我懷疑的是，大眾推理市場是否會成為一個特別具有吸引力的市場。畢竟，隨著越來越多公司關注和搶佔這一市場，產品的最終利潤率可能相當薄弱。

現在，一些推理很簡單，但有些推理卻非常困難。後者的市場將保持較高的利潤率，因為只有配備CPU的複雜SoC（比如Nervana）、GPU、DSP和ASIC等具備並行處理能力的處理器才能為自動駕駛等提供所需的性能。

任職於英特爾的Naveen Rao最近在Twitter上發布的消息透露， Nervana推理處理器可能是基於10nm的 SoC，集成Ice Lake CPU內核。NVIDIA已經引領了這種方法，比如用於自動駕駛的Xavier SOC。 Xilinx 也採用了類似的方法，今年晚些時候，它的Versal將推出。想要用這樣的方式的任何創業公司都需要具備兩個特性：1）非常高的能耗比，2）創新的產品路線圖，這將使他們能取得領先。

結論

總之，我將強調以下內容：

1. 人工智慧的未來需要專用晶元，專用晶元的市場將變得巨大。
2. 世界上最大的晶元公司希望在未來的AI晶元戰爭中獲勝。雖然英特爾正在追趕，但不要低估它能做些什麼。
3. 有很多資金充足的初創公司，其中一些會取得成功。如果你想投資一家，請確保他們不會對NVIDIA的實力不屑一顧。
4. 未來5年，中國將在很大程度上擺脫美國的人工智慧技術。
5. NVIDIA擁有超過10000名工程師，其下一代為AI設計的高端GPU可能會給我們帶來驚喜。
6. 推理晶元市場將快速增長，並且在特定應用領域也有市場空間。FPGA，特別是Xilinx的下一代產品可會在這一領域發揮重要作用。

雷鋒網編譯，via forbes雷鋒網

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷鋒網 的精彩文章:

※Apollo的2018，左手量產，右手安全
※華為CloudEngine 16800首秀如何推動數據中心網路從雲邁入AI時代

TAG:雷鋒網 |