當前位置:
首頁 > 科技 > IBM:AI晶元採用8位浮點計算的突破性成果

IBM:AI晶元採用8位浮點計算的突破性成果

國際電子設備會議(IEDM)和蒙特利爾神經信息處理系統會議(NeurlPS)在舊金山正式舉行,這對於那些希望了解上人工智慧研發進展的人來說是一個很好的機會。

IBM研究人員在活動上詳細介紹了數字和模擬AI晶元的AI新方法。IBM稱,它的數字AI晶元「首次採用8位浮點數成功訓練了深度神經網路(DNN),同時在一系列深度學習模型和數據集上完全保持了準確性。」

另外,IBM研究人員在IEDM大會上展示了一個模擬AI晶元,該晶元採用了8位精度的內存乘法以及相變內存。IBM副總裁、Research-Almaden實驗室主管Jeffrey Welser說:「我們確實認為我們正在做的所有這些工作——例如試圖降低精度以使性能上升、功率可能下降——對於繼續推進AI非常重要。」

Weiser說,這是至關重要的,因為世界正在從「狹窄的人工智慧」(例如使用人工智慧在互聯網上識別一隻貓)轉變為「更廣義的人工智慧」(例如我們分析醫學圖像,或者我們想要能夠將文本和圖像信息整合在一起以提出解決方案)。」他補充說:「所有這些更廣泛的問題需要更大規模的神經網路、更大的數據集和多模態數據集……為此,我們需要改變架構和硬體來實現這一切。」

Weiser將IBM本周發布的兩篇論文稱為「一系列有趣的進展」,讓該行業走向[更廣義的AI]未來。Linley Gwennap總裁兼首席分析師Linley Gwennap表示:「機器學習繼續迅速發展,現有硬體無法有效地應對研究人員構建的最大神經網路,因此他們正在尋找各種新方法來提高性能和效率。」

Gwennap補充道,這些新發展將給硬體廠商帶來巨大壓力,因為晶元公司「必須靈活、快速地在這個混亂的市場中生存下來」。

人工智慧的GPU時代已經結束

IBM大膽預測,GPU在AI中的主導地位正在結束。Welser說:「GPU能夠為圖形處理進行大量的並行矩陣乘法運算,這種矩陣乘法碰巧與神經網路所需的完全相同。「在他看來,「這有點巧合,但非常重要。因為沒有那些[GPU],我們永遠無法達到我們今天在AI性能方面已經達到的性能水平。」但是,Welser補充說,」隨著我們已經掌握了更關於如何實現人工智慧的知識,我們也在尋找設計出更高效硬體的方法和途徑。」

降低精度、提高效率的一個途徑是降低AI處理所需的精度。Welser解釋說:「幾年前,我們都開始意識到的一個大方向是,雖然我們習慣於非常精確的計算——32位計算浮點是非常標準的,甚至是64位,對於非常精確的計算來說計算浮點要翻一番——但這在AI中卻不一定是很重要的。」

他強調說,在AI中「你對於神經網路只關心當你展示一個圖像或單詞時是否得到了正確的答案。當我們提問這是貓還是狗時,它說這是一隻貓。如果答案正確,你就不會關心這背後所有計算是什麼樣的。」

理想情況下,AI應該模仿人眼。Welser說:「如果你透過一個有霧的窗戶看到有人走在街上,這是一個低位的形象...但經常會說『哦,那是我媽媽來了』。所以,只要你得到正確的答案,視覺精度是否合適就無關緊要了。」這就解釋了人工智慧處理精度逐漸降低的趨勢。

Welser繼續說:「對於32位計算來說,我必須在32位上進行計算。如果我們可以在16位上計算,那基本上是計算能力的一半,或者可能是晶元面積的一半甚至更少。如果你可以降到8位或4位,那就更好了。所以,這是在面積、功率、性能和吞吐量方面的巨大勝利——關乎我們能夠以多快的速度完成這一切。」

然而,Welser承認,「很長一段時間,我們認為我們必須堅持使用32位精度進行AI訓練。這是沒辦法的事情。」2015年,IBM Research公布了對AI模型訓練和推理採用降低精度的方法,在一篇論文中描述了一種針對傳統CMOS技術的新型數據流方法。IBM展示了使用16位精度訓練的模型,與32位訓練模型相比,精度沒有損失。

從那時起,IBM觀察到「精確度降低的方法很快被採納為行業標準,16位訓練和8位推理現在已經司空見慣,這促使初創公司和風險投資大量湧入,投身降低了精度的AI晶元。」儘管這一新興趨勢盛行,但由於人們需要保持模型的高精度,因此,小於16位的「訓練」被認為是幾乎不可能的。

他們是怎麼做到的?

Welser說,IBM研究人員開發了一系列方法用於AI處理,從而讓這變成可能。他說,例如「我們確實有一些部分是用8位做的,有些部分是用16位做的,不同部分運用不同的精度,所以在舍入的時候你不會損失精度,但是你不會有意這麼做。」

換句話說,IBM團隊所做的要比將8位計算應用於整個操作複雜得多。IBM做的是嘗試如何將組合方法運用於這個過程的不同部分。

Welser證實:「是的,完全正確。例如,我們現在對所有權重更新過程採用8位浮點,但對於一些加法和累積過程仍然採用16位浮點。事實證明這非常重要,因為16位加法比16位乘法更容易,實際上以16位浮點的方式執行這個過程是有幫助的。」

正如Welser指出的,IBM工作的關鍵因素是「提出一種數據流架構,讓數據非常順暢地流經晶元達到這些操作,這種方式不會造成瓶頸的出現。」最後,「我們證明,你可以有效地使用8位浮點得到與過去人們一直使用16位或32位所能得到的精度是一樣的。」

8位浮點操作的障礙是什麼?

Linley Group的Gwennap表示,最新推出的GPU和AI晶元支持使用IEEE定義格式的16位浮點(FP16)。然而,他補充說,「儘管如此,大多數開發者仍在使用FP32訓練神經網路。FP8的問題在於沒有標準格式,儘管只有幾種有意義的指數和尾數潛在組合。在有標準(IEEE或某些非正式協議)出來之前,晶元製造商會發現,他們難以在硬體中進行有效的實施。」

我們問Welser,還需要多長時間商業界才會開始使用8位精度進行培訓,他說他也不知道答案,因為「我們現在看到的是,第一次使用16位技術的人們正在增加,但是大部分人仍然只關注32位......」

不過他強調說,他認為降低精度是不存在任何障礙的。「只要我們能夠顯示出相同輸出的結果。」他指出,從用戶的角度來看,「如果晶元更快,耗電更少,價格也更便宜,得到的答案是相同的,那我不在乎用的是什麼。「

當然,在底層修改軟體基礎設施是必須的。Welser證實說:「你必須擁有能夠降低精度的軟體或演算法,以便使其正常運行,」現在所有的軟體架構都是為使用GPU和32位構建的,「所有這一切都必須是修改為接受16位或8位。」業界還會堅持使用他們現在已知的方法,直到用戶能夠使用實際的硬體。

8位精度的內存乘法

IBM還在IEDM大會上展示了所謂的8位精度內存乘法與設計中的相變內存。IBM透露AI晶元採用8位浮點計算的突破性研究成果。在IEDM上,IBM科學家發表了一項關於新型內存計算設備的研究,與當今的商業技術相比,該設備的計算能耗水平要低100-1000倍,非常適合於邊緣AI應用,例如自動駕駛、醫療監控和安全性。(來源:IBM Research)

工程界已經意識到,降低能耗的關鍵是盡量減少計算架構中出現數據必須從內存遷移到處理器用於計算的這一情況發生,因為這樣的遷移需要耗費大量時間和精力。

對更高效AI處理的需求促使許多人致力於研究內存計算,其中AI晶元初創公司Mythic脫穎而出。

在Welser看來,模擬技術「天然適合邊緣的人工智慧」。正如我們從計算歷史發展中所看到的,模擬計算需要低功耗,證明它具有高能效,但卻不準確。「這就是為什麼數字計算最終勝過了模擬計算。」

但Tirias Research首席分析師Kevin Krewell表示,模擬正在回歸,因為「內存計算與模擬計算可以相互配合。內存陣列負責神經網路權重,模擬元件負責求和和觸發。」

Krewell還說:「挑戰在於保持模擬計算的正確校準、過程以及溫度變化的準確性。此外,內存和模擬元件也不像數字元件那樣可以進行擴展。」

權重是內存中阻值

Welser解釋說,同樣地,模擬計算中神經網路所使用的權重是「內存中的阻值」,這些不必移入和移出,都是固定的。「換句話說,對於內存計算架構,「內存單元充當處理器,有效地做了存儲和計算的雙重任務。」

然而,Welser稱挑戰是:「我們要使用的是什麼電阻,這讓我們在做訓練的時候可以設置為多大的阻值?這必須足夠準確才有用。」Welser解釋說,雖然數字AI硬體爭相降低精度,但模擬器一直受到內在精度相對較低的限制,從而影響了模型的精度。

IBM在開發接近8位精度能力的時候使用了相變內存(PCM)。Welser說,PCM此前一直被用於模擬內存中。在這種情況下,「我們使用PCM來回存儲更多不同的阻值。更重要的是,我們正在使用一種新穎的架構。」

IBM的論文詳細介紹了在標量乘法運算中實現8位精度的技術。IBM聲稱,這讓「以前的模擬晶元精度大體上翻了一番,並且比同類精度的數字架構能耗減少了33倍」。

Gwennap承認IBM已經在PCM方面研究有一段時間了,但「僅僅是一個研究項目」。

Gwennap認為,這種採用PCM的方法面臨的最大挑戰就是可製造性。「模擬特性因晶體管和晶體管以及生產線上的晶元而異,這就是為什麼大多數行業都使用不易受這種變化影響的數字電路。」

EE Times向Linley Group和IBM詢問了關於商用AI晶元(例如Mythic)採用內存計算的情況。Gwennap說:「Mythic似乎是最接近於將這項技術投入生產的一款產品,但即使這樣,它仍然至少需要一年的時間。」

IBM承認,「Mythic採用了一種專註於使用內存計算的有趣方法。」但也指出,Mythic晶元「僅適用於推理應用」。據IBM發言人稱,IBM的不同之處是「我們相信完整的AI解決方案需要加速推理和訓練,我們正在開發和逐漸發展成熟可用於推理和訓練的非易失性內存元件。」


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 至頂網 的精彩文章:

節點新趨勢:性能水平尚不完全明確,但Ceph存儲系統的強大無需質疑
友達光電郭振明:專業化+雲化+AI化成就智能製造

TAG:至頂網 |