IBM研究人員開發了一對低功耗，高性能的計算機視覺系統

最新 06-22

機器學習演算法近年來有了突飛猛進的發展。例如，像Facebook這樣的最先進的系統，可以在一小時內訓練圖像分類演算法，而不會犧牲準確性。但是，許多這些系統都是在具有強大GPU的高端機器上進行培訓的，隨著物聯網產業向邊緣計算髮展，對低功耗低成本人工智慧（AI）模型的需求不斷增長。

IBM的有前景的研究奠定了更高效演算法的基礎。在本周召開的2018年計算機視覺和模式識別會議上，來自該公司研究的科學家將發表兩篇關於圖像分類的論文。

BlockDrop

第一個標題為「BlockDrop：殘留網路中的動態干擾路徑」，建立在2015年發布的微軟工作外：剩餘網路。殘留網路（簡稱ResNets）引入神經網路中各層之間的身份連接，使他們能夠在訓練過程中學習增量或殘差表示。

IBM將這一想法向前推進了一步。科學家們引入了一個輕型次級神經網路，在論文中稱為「策略網路」，在預訓練ResNet中動態地丟棄殘餘塊。為了確保性能收益不以精確為代價，策略網路接受了使用最少數量的塊並保持識別準確性的培訓。

IBM的研究經理在接受電話採訪時表示：」一般來說，如果向模型添加更多圖層，您可以提高其準確性，但是會增加計算成本」。今天大多數模型的一個問題是你有一個適用於所有圖像相同的計算適用所有網路。我們的系統更有效地分配資源並準確地識別圖像。

BlockDrop將圖像分類的平均速度提高了20％，在某些情況下高達36％，同時保持76.4％的準確性，與實驗的控制相同。

改善立體視覺

IBM研究人員本周發表的第二篇論文「低功耗，高吞吐量，基於事件的立體聲系統」解決了圖像處理中的另一個問題：立體視覺問題。

正如IBM的研究人員所解釋的那樣，人類的眼睛彼此相距幾厘米，從略微不同的角度看世界。大腦的視覺皮層將它們的圖像無縫融合為一體，使我們能夠感知深度，但是雙攝像機器人系統在調節視差方面有更艱難的時間。在計算機視覺的情況下，相機鏡頭有異常，這會導致噪音並使問題複雜化。

研究人員的解決方案：運行在IBMTrueNorth神經形態晶元上的系統，該系統具有針對機器學習模型進行了優化的高度並行化架構。使用九個處理器的集群，一對基於事件的攝像頭（當它們檢測到運動時只拍攝圖像的攝像頭）以及一台將計算分配給上述晶元的筆記本電腦，演算法捕獲並處理400（最多達2,000）每秒差異圖。

基於事件的攝像機的使用大大減少了帶寬和能源消耗。「立體聲演算法已經存在了30多年，但大多數這些系統......都採用積極的方法來感知世界。我們使用被動方法。「

總體而言，與具有高幀速率照相機的最先進系統相比，該系統在每個視差圖的每像素功率方面表現出200倍的提高。（黑客周刊）

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 華爾街中報 的精彩文章:

※到底是誰發明了計算機密碼？

TAG:華爾街中報 |