IBM開發全新的深度學習晶元，旨在極大提高利用率

最新 07-05

AiTechYun

編輯：chux

深度學習領域仍在不斷變化，但有些事情已經開始著手解決。特別是專家們認識到，如果晶元使用低精度數學近似得出答案，神經網路可以用很少的能量完成大量的計算。這在移動和其他功率受限的設備中尤其有用。但是一些任務，特別是訓練神經網路做任務，仍然需要精確。IBM最近在IEEE VLSI Symposia上展示了其最新的解決方案，仍然是原型，一種同樣做得很好的晶元。

訓練神經網路和使網路執行其功能（推理）的需求之間的脫節對於那些設計加速AI功能的晶元的人來說是一個巨大的挑戰。IBM的新型AI加速器晶元能夠滿足公司所謂的伸縮精確度。也就是說，它可以在32位，16位或甚至1位或2位進行訓練和推理。

「你可以為訓練做的最先進的精度是16位，你可以做的最先進的推理是2位，」 Kailash Gopalakrishnan解釋說，他是IBM約克鎮高地研究中心技術人員的傑出成員，他領導了這項工作，「這個晶元可能涵蓋了今天已知的最佳訓練和最好的推理。」

晶元完成所有這些工作的能力源於兩項旨在實現相同結果的創新，即保持所有處理器組件的數據和工作。

「在深度學習方面，傳統晶元架構面臨的挑戰之一是利用率通常非常低，」Gopalakrishnan說。也就是說，即使晶元可能具有非常高的峰值性能，通常只有20％到30％的資源可以用來解決問題。IBM始終將所有任務的目標定為90％。

利用率低通常是由於晶元周圍數據流的瓶頸。為了突破這些信息障礙，Gopalakrishnan的團隊想出了一個「定製」的數據流系統。數據流系統是一種網路方案，可加速數據從一個處理引擎到下一個處理引擎的移動。它根據是處理學習還是推理以及不同的精度來定製。

第二個創新是使用一種特殊設計的，稱為「高速暫存記憶區（scratch pad）」的晶元內存，而不是在CPU或GPU上發現的傳統緩存內存。緩存是為了遵守某些規則而構建的，這些規則對一般計算有意義，但會導致深度學習的延遲。例如，在某些情況下一個緩存將一大塊數據的計算機主存(驅逐)，但是如果這些數據作為神經網路的一部分需要年代推論或學習過程中，該系統將不得不等到它可以從主存儲器中檢索。

高速暫存記憶區不遵循相同的規則。相反，它是為了保持數據流經晶元的處理引擎而構建的，確保數據在恰當的時間處於正確的位置。為了獲得90％的利用率，IBM必須設計具有巨大讀/寫帶寬（每秒192千兆位元組）的高速暫存記憶區。

由此產生的晶元可以執行當今所有三種主要的深度學習AI：卷積神經網路（CNN），多層感知器（MLP）和長短期記憶（LSTM）。Gopalakrishnan解釋說，這些技術共同主導了語言，視覺和自然語言處理。在訓練精度為16位典型的情況下，IBM的新晶元每秒鐘通過1.5萬億次浮點運算，以2位精度最佳推理，每秒12萬億次。

Gopalakrishnan指出，由於晶元是採用先進的硅CMOS工藝（GlobalFoundries的14納米工藝）製造的，因此每秒所有這些操作都包含在一個相當小的區域內。對於推理CNN，該晶元每平方毫米平均可執行1.33萬億次操作。這個數字很重要，因為在很多應用中，成本受到尺寸的限制。

新的架構也證明了IBM研究人員幾年來一直在探索的東西：如果神經網路以更高的精度訓練，那麼真正低精度的推理就無法正常工作。「當你低於8位時，訓練和推理開始直接相互影響，」Gopalakrishnan說。一個訓練為16位但部署為1位系統的神經網路將導致重大錯誤。因此，最好的結果是以與最終執行方式類似精度來訓練網路。

沒有任何關於這項技術何時可能以Watson或其他形式商業化的消息，但Gopalakrishnan的老闆Mukesh Khare，IBM的半導體研究副總裁，表示希望它能夠發展和改進。「這只是冰山一角，我們正在進行更多創新。」

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 ATYUN訂閱號 的精彩文章:

※Airbus和IBM計劃讓機器人CIMON加入國際空間站執行任務
※NVIDIA研究人員利用AI將標準視頻轉換為高質量慢動作鏡頭

TAG:ATYUN訂閱號 |