首屆SysML大會，谷歌Nvidia分享AI觀點

最新 02-24

Nvidia首席科學家Bill Dally在首屆SysML大會演講中表示，微處理器設計師需要在專用和通用架構之間取得平衡，才能成功運用深度學習。他否認了在內存計算、模擬計算和神經形態計算等方面的競爭。

Bill Dally表示，帶有針對專業指令和數據類型（如Nvidia Volta）優化了的內存層的處理器，是數據中心的最佳方法。在邊緣位置，SoC需要加速器塊來加速神經網路處理。

Nvidia首席科學家Bill Dally

首屆SysML大會由亞馬遜、谷歌和Facebook等企業組織，發言人呼籲更廣泛地參與到那些迫切需要提高硬體性能的新興技術中，但軟體概念仍在迅速發展。

谷歌大腦團隊成員之一、SysML大會的組織者Jeff Dean表示：

「深度學習正在改變我們設計計算機的方式......但定製機器學習硬體尚處於起步階段，因此在處理器設計方面具有很多創造性，這將是一個激動人心的時刻。」

谷歌軟體工程師Jeff Dean

Dean補充說：

「我們試圖預測哪些原語最有意義，因此有時使用一個小的晶元區域來測試想法是有用的。」

他補充說，代碼和晶元「需要協同發展」。他預測越來越廣泛的軟體將採用機器學習技術。

「我們使用啟發式技術的任何領域，都是考慮機器學習的好地方——編譯器、網路、操作系統、甚至是物理電路設計和測試選擇」

他說，還需要一些基礎性工作來評估機器學習的有效性，以及需要API來平滑集成。

這位Nvidia首席技術官建議說，8位整數和16位浮點默認用於推理和訓練任務。但是對於推理工來說，在某些情況下，使用4位甚至2位數據的情況下神經網路精度仍然很高。

一般來說，「權重應使用儘可能少的位數，」他說。權重本身可以被高度精簡。他說，在許多卷積模型中，有2/3到90%的權重都是不需要的。

Dean表示，4位及以下的工作對於激活都是有效的，研究表明對於精度低於16位浮點的訓練是有潛力的。他說，其他幾個領域的研究可能會影響硬體，比如動態模型路由、批量大小的爭議問題以及優化訓練模型的技術。

機器學習處理器也可以通過控制與典型CPU和內存訪問相關的開銷來進行優化。

Nvidia的Dally補充說：

「與機器學習操作中的一個皮焦耳相比，現代CPU通道消耗100-500皮焦耳」，並且內存讀取可能需要大約5皮焦耳。

讓數據靠近邏輯單元是一個問題，特別是考慮到神經網路模型，通常具有比適用於晶元內部內存更多的層。然而，他在上周的國際固態電路會議（ISSCC）上駁斥了超過六本學術論文中提到的內存中處理器（Processor-In-Memory）陣列的趨勢。

模擬計算是Dally在他稱之為「不起作用的東西」之間的另一種選擇。

「我看過很多演示文稿，而且我仍然很興奮，但是我們運行了spice模擬，事實證明它不起作用。它比數字功率更高，因為[模擬]電路泄漏更多。數字CMOS對於低精度非常有效「

他說。

同樣地，他駁斥了大量所謂神經形態的設計，其中一些使用尖峰頻率進行編碼。「模仿大腦而不理解這並不是一個好主意......它就像試圖設計一個飛舞著翅膀飛上天的飛機，」他開玩笑說。

Nvidia現在在這個領域處於領先地位，它的GPU被默認用於數據中心訓練和一些推理工作。然而，預計今年晚些時候，英特爾的Nervana部門、Graphcore、Cerebras等公司將推出第一批替代產品。

Dean談到了用於加速推理和訓練工作的谷歌TPU。到目前為止，谷歌正在推薦其TPU雲服務用戶使用它的一系列神經網路模型，谷歌已經在系統上對這些模型進行了測試。

Dally否認面對競爭壓力，指出一些新的加速器可能過於專業化，因此受到限制。無論Dally是否正確，或者來自創業公司、網路巨頭或學術機構的新架構是否站穩了腳跟，都有待觀察。

同樣，有些人回擊了Dally關於傳統擴展已經結束的觀點。

「摩爾定律直到2007年左右才停止，現在已經死亡。CPU每年增長10％，而不是像以前那樣增加一倍。」

在ISSCC上，一位英特爾工程師聲稱，英特爾仍在摩爾定律基礎上進行擴展，並開發了採用最新10納米工藝的SRAM。

源自至頂網

不要錯過

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 中國電信雲計算實驗室 的精彩文章: