當前位置:
首頁 > 最新 > 高通兩位技術大拿談AI部署:下個戰場是高能效硬體

高通兩位技術大拿談AI部署:下個戰場是高能效硬體

編者按:AI英雄第78期對話高通高管,一位是高通技術副總裁、阿姆斯特丹大學機器學習首席教授Max Welling(韋靈思),一位是高通企業研發人工智慧項目負責人侯紀磊,十問十答詳解了高通如何通過硬體、軟體和演算法的來加速終端側人工智慧成為現實。

出品 | 網易智能(公眾號 smartman163)

期號 | 總第78期(2018年5月訪於北京)

作者 | 崔玉賢

在人們還在思考著人工智慧將會給人類帶來什麼挑戰時,人工智慧卻已經深入經濟和產業的每個細分領域,我們每天使用的很多產品已經具備了人工智慧的能力。高通總裁克里斯蒂安諾·阿蒙表示,到2021年人工智慧衍生的商業價值將達3.3萬億美元,人工智慧將成為驅動所有行業變革的關鍵。

事實是,人工智慧要實現規模化,智能必須分布至無線邊緣。高通正在研究加速人工智慧在終端側的創新。但隨著人工智慧的發展,消耗的能源越來越多。從統計數據上看,有數據預測到2025年,全球的數據中心將消耗全球所有可有電力的20%;另外,實現終端側人工智慧還存在散熱的限制,如果手機里運行能耗過高的任務,手機就會變得非常熱。

因此,不管無論是從經濟效益還是熱效率的角度看,我們都必須要降低人工智慧運行的能耗。阿姆斯特丹大學機器學習首席教授Max Welling認為目前深度學習能耗很高,演算法非常低效,如何研發出更節能更高效的硬體,成為人工智慧的下一個戰場。

受人類大腦的啟發,高通十年前就開始了脈衝神經網路的研究,這是實現低功耗計算的一種方法。同樣受到人類大腦的啟發,高通正在考慮利用噪音來實現深度學習方面的低功耗計算,也就是著名的「貝葉斯深度學習」。

「貝葉斯在高壓縮比的情況下尤其展現出了明顯的性能優勢。」Max Welling總結道,「貝葉斯可以將網路規模壓縮得更小、量化程度更高,同時不損失過多的準確性,這是非常好的一個方法。」

雖然在可用的壓縮演算法技術相關學術著作可謂汗牛充棟,但侯紀磊認為,貝葉斯在訓練上難度更高,但取得的效果更深。而Max Welling也認為,在眾多技術流派中,以貝葉斯為主導的壓縮演算法是最有效的。

以下是對韋靈思與侯紀磊的採訪實錄:

圖:侯紀磊(左一)與韋靈思(左二)正在接受採訪

| 問:阿蒙總裁在演講中提到,要把智能分布到無線邊緣,並且在最靠近數據的邊緣設備上完成訓練。我們知道各種人工智慧應用都需要大數據來進行訓練,如果訓練放在終端側完成,我們如何確認終端側訓練的完成?將智能分布到終端側的優勢是什麼?

韋靈思:我們首先談談進行分散式計算的優勢。一方面,當我們將計算任務分布在不同邊緣終端上完成,我們將獲得更多可用的計算力。另一方面,數據也可以分布於邊緣終端上。

至於在不同終端上完成人工智慧模型的訓練,這其實不是零散的過程。分散式訓練的融合是個重要問題,我們正在開發新的演算法,以保證在數據不變的情況下,在不同終端上完成的訓練得以融合。如果數據是持續變化的,那將是持續學習的過程。

侯紀磊:我對韋教授提到的模型訓練補充更多說明。首先,傳統上人工智慧模型的訓練都是線下也就是在雲端上實現。這種傳統方式的一種延伸是,我們可以通過私有雲或邊緣計算來完成訓練。這裡說的邊緣計算不一定是完全在終端側完成,也可以是在企業級網路上開發私有的訓練設備(training facility),甚至在家庭中的一個接入點(AP)上完成。未來,只要我們在網路邊緣擁有足夠的計算力,我們就可以進行模型的訓練,這是完全可行的。

其次,韋教授剛剛提到的分散式學習,這是另一種訓練的方式。這種方式會通過每一個終端節點去採集本地數據,這裡的終端可以是手機、物聯網設備或是其他形式,從每個終端上採集的本地數據量可能都不足以完成模型訓練。但分散式學習可以將訓練分成兩個部分,第一部分包括前面提到的本地數據採集,以及在終端側按照統一格式完成對本地數據的訓練預處理(pre-process training);第二部分則是將經過預處理的訓練數據彙集到一個統一的節點上以完成最終的訓練,這個節點可以是雲,也可以是像私有伺服器這樣的邊緣計算。這就是分散式學習的一種模式。

舉個例子,假設我已經部署了一個自動語音識別系統(ASR),但希望能進一步提高系統性能。我可以讓系統的100萬個用戶都分別向我提供1個小時的數據,這相當於我擁有了100萬個小時的數據可以進行訓練,從而幫助我進一步完善模型。概括一下,這種方式通過分散式的數據採集完成模型的分散式訓練,以持續改善模型。

第三種模型訓練的方式我今天在大會上有介紹,是在終端層面上進行持續學習,並在持續學習的過程中通過終端側訓練的方式,來不斷改善模型。

這就是三種不同的模型訓練方式。第一種完全在線下完成;第二種結合線上和線下,在終端側完成數據採集及初步處理,然後彙集到總的節點去做更新;第三種完全在終端側完成。這三種方式都是可能的。

| 問:對於開發者來說,哪些功能比較適合放在終端側,哪些比較適合放在雲端?

侯紀磊:對開發者而言,無論是在終端側還是雲端完成訓練,都是可行的。

更多是從消費者的角度看,從保護數據私密性考慮,我們認為在終端側完成訓練是很有意義的。舉個例子,消費者可以選擇分散式訓練的方式,也就是在終端側將數據處理到一定階段,甚至把訓練的預處理數據進行加密,然後才把這些數據發送到雲端匯總。這樣的方式充分考慮了信息的私密性。此外,消費者也可以選擇進行個性化訓練,也就是在終端側完成訓練,不把任何數據發送到雲端。這種方式能最好地保護信息的私密性。所以如果我們更多從考慮用戶數據私密性的角度出發的話,將來在終端側做訓練是有很大意義的。

韋靈思:除了紀磊上面提到的私密性外,我認為可靠性也是終端側處理的重要優勢所在。像無人駕駛這樣的用例,對於網路連接的可靠性有非常強的要求,因為連接一旦出現問題,會導致很嚴重的後果。因此,把一部分計算放在終端側完成是很重要的。低時延是終端側處理的另一個優勢,很多用例對時延十分敏感,像是VR用例。最後,個性化也是終端側處理的優勢之一。

| 問:Qualcomm一直強調異構的計算架構,這樣的架構可以為客戶提供更高的彈性。但我們也知道,系統的彈性越高,其複雜性也就相應增加,Qualcomm如何應對計算複雜性的挑戰,以提供更好的開發和使用體驗?

韋靈思:目前我們正在進行一個研究項目,通過開發一個AI agent來實現對人工智慧計算任務的全面自動化管理。這一AI agent可以監測很多工作負載,同時不斷進行學習,將計算任務放在最合適的地方處理。這個AI agent有望為開發者和用戶自動完成複雜性管理。我們目前正在對這個演算法進行持續優化,讓它實現自動化的處理。

侯紀磊:我補充一下。雖然異構計算的靈活性通常會帶來相應的複雜度,但其實異構計算一直是Qualcomm的強項。我們已經將多個引擎通過異構計算統一在同一框架下,並將靈活的集成方案提供給開發者。另外,我們也積極從業界獲得了很多反饋。比如說在智能手機和物聯網領域,根據具體應用性質的不同,業界也已經有一些自然的選擇偏向。像是音頻用例,我們知道它其實更適合於低功耗DSP來處理;如果是視覺用例,那麼採用GPU並行處理會更為合適。所以說,在初期應用的角度,不管是Qualcomm的推薦還是行業的自然選擇,我們已經能看到使用不同異構計算引擎的一些趨勢。同時,我們還可以採取剛剛韋教授提到的方式,將來通過機器學習的演算法來管理機器學習任務,利用對工作負載的分析來自動判斷哪個內核最合適進行處理。所以總體來說,我們一方面可以利用Qualcomm一貫的優勢去管理複雜性,另一方面還可以通過自動映射的方式來進一步完善管理的過程。

| 問:韋靈思教授提到,未來人工智慧演算法將會以每瓦時所提供的智能的多少來衡量。Qualcomm一直利用貝葉斯深度學習來提高能效,有沒有一些具體的數據來說明貝葉斯學習對於降低演算法能耗的效果?

韋靈思:在我的演講當中為大家展示了一個在圖像分類的實際用例中對比不同神經網路壓縮方法的示意圖(如下)。從這個示意圖中可以看到,貝葉斯在高壓縮比的情況下尤其展現出了明顯的性能優勢。至於具體的數字,在不同實際用例中我們會得到不同的數據對比。除了圖像分類外,我們還在其他用例下做了對比實驗。總的來說,貝葉斯可以將網路規模壓縮得更小、量化程度更高,同時不損失過多的準確性,這是非常好的一個方法。

侯紀磊:在韋教授的例子中,貝葉斯通過2%左右的準確度損失來實現了3倍的壓縮比,3倍壓縮比大概可以等同於3倍的能耗降低,你可以以此作為一個參考。當然,3倍的壓縮比提升是在這一具體用例中實現的。在這個用例中,ResNet-18本身已經是一個簡潔的網路了,對這個網路進行更多壓縮的難度很大。在這樣的情況下貝葉斯依然取得了3倍的壓縮比,這充分展現了貝葉斯的強大之處。我想強調的是,具體的壓縮比例與被壓縮網路本身設計的冗餘度、以及具體的應用場景都有聯繫。

| 問:除了貝葉斯演算法外,Qualcomm是否還在開發其他類似的壓縮演算法?在中國業內,像深鑒科技等公司開發的壓縮演算法可以實現超過十倍、二十倍的壓縮比。Qualcomm是不是也有計劃開發壓縮比更高的演算法?

韋靈思:我認為孤立地去看一個演算法的壓縮比是沒有意義的。我曾經在一個神經網路上實現過700倍的壓縮比,而且沒有損失任何準確率;但這個被壓縮的網路本身就是過度冗餘的,它是一種VGG網路,這種網路從設計之初效率就很低,因此700倍的壓縮比其實不能說明什麼。但正如紀磊剛才談到的,貝葉斯在ResNet-18這個本來已經非常緊湊的網路上實現了3倍壓縮比,這充分說明了它的性能。Gary在他的演講中展示過一個對比不同網路的準確率和運算次數之比的示意圖(如下),在這個圖中ResNet-18已經處於準確率/運算次數的最優曲線上,所以說貝葉斯3倍的壓縮比已經很強大。對於像VGG這類遠離最優曲線的冗餘網路來說,完全可以實現非常高的壓縮比。

侯紀磊:我再跟大家解釋一下這張示意圖,因為理解這張圖很重要。橫軸是網路的複雜度,縱軸是準確率。而圖上的這條曲線,指的是從設計網路的角度看,我在任意一個既定的複雜度下能夠實現的最高的準確率。這條曲線實際是條包絡線,所有的網路都在它的右下方。

這張包絡線代表了當前網路設計的最高境界,也代表了在複雜度恆定的情況下可以實現的最高的準確率,或者說是在準確率恆定的情況下可以實現的最低的複雜度。如果我們要談在某個網路上實現了多少倍的壓縮比,首先我們需要先看這個網路離包絡線也就是最佳曲線有多遠。如果這個網路本身遠離了包絡線,那我們討論它能實現多少倍壓縮其實是沒有意義的。

韋靈思:目前其實存在著一系列可用的壓縮演算法,其中一部分由我所在的大學實驗室所開發,與這一系列演算法技術相關的學術著作可謂汗牛充棟。我們對所有這些技術都進行過試驗和測試,結果表明,以貝葉斯為主導的壓縮演算法是最有效的。

侯紀磊:深度剪枝其實是深鑒一位聯合創始人最早提出來的概念,在去年底NIPS大會結束後我們邀請他到Qualcomm做過一次分享,當時韋教授也在,雙方都有比較深的交流。從我們的角度看,我們認為韋教授提出的方法在數學第一原則的角度看是更為深刻的,往往當你從第一原則的角度去設計一個比較複雜的方法時,這個方法的潛力和最終得到的效率會更好。根據我們對數學和對深度學習體驗的了解,我們相信通過貝葉斯方法、從第一原則出發去設計的做法,相對來說它的效果會更好。

| 問:是否可以理解為貝葉斯演算法在普適性和泛用性方面更卓越?

侯紀磊:其實貝葉斯在訓練上的難度更高,但它取得的效果會更深。深鑒的剪枝方法非常有啟發性,大家也很容易理解,然而這不意味著就是最優的方法。我們相信,從數學的角度去接近最優的方法,這是韋教授這套方法的優勢之一。

| 問:我們知道AI的學習和計算需要收集很多數據,包含個人數據和管理數據來進行模型的建立。歐盟近期即將頒布一項名為General Data Protection Regulation(GDPR)的法令,在此法令下,只要你沒有保護好那些有可能可以辨識出特定人物或地點的數據,你就可能遭受嚴重懲罰。你對此有什麼看法?

韋靈思:首先GDPR僅適用於歐盟,在中國和美國都沒有這樣的規定。從我個人的角度,我對GDPR持支持態度,因為我覺得保護隱私非常重要。同時,我相信GDPR這樣的約束將會驅動更多創新。從技術層面看,我們可以通過一些技術解決方案去應對這樣的挑戰,比如說是數據加密,或者在本地資源的範疇內完成模型訓練。假設有兩家醫院,我可以要求他們從數據源上支持模型更新,我們可以創建一個協議,在這個協議之下所有發送給我的信息都是私密的,所有這些信息都無法提取出個人資料。這實際上是一種分散式的思路。對於Qualcomm來說,這思路非常有趣,因為全部模型的更新都不能在中心化的雲上進行,邊緣計算就顯得更為重要了。另一種解決方案是加密模型,我們可以將模型的每次更新進行加密,這樣即使我們在雲上更新了模型,也不能看到更新本身的詳情,更不能從雲上獲取到具體信息。

| 問:高通分享了汽車和自動駕駛方面的規劃,從介紹看來還是以信息娛樂系統設計為主。這是因為Qualcomm在自動駕駛方面還沒有完整規劃嗎?還是與未完成的恩智浦收購案有關?

侯紀磊:一方面,我們今天更多強調的是Qualcomm在車載信息處理和信息娛樂市場取得了非常好的發展勢頭,這也給了我們信心,我們應該繼續在汽車市場上加大投入。我還想要強調的是,在自動駕駛領域,對於如何通過整體的方式來發展面向自動駕駛的人工智慧技術,Qualcomm對此有非常深入的見解和看法。我們在大會上也特彆強調了Qualcomm不僅只是構建一個系統、把demo建起來,我們還更多地從能耗、成本和安全等多個角度來考慮這個事情。在一些具體方面,比如說感測器的研發和感測器融合,包括今天提到的利用攝像頭、雷達等主動式感測器和C-V2X主動通信技術,以幫助駕駛員規避危險、且進一步提高感測器信息融合,在這些方面我們都有很多的投入。

| 問:你在大會上講了很多語音交互方面的內容,請問是基於什麼考慮?此外,目前除了智能音箱,語音交互技術還應用到大量手機甚至PC終端上,你如何看待語音交互在終端側的應用趨勢?

侯紀磊:先回答你的第一個問題。首先,對於手機來說,無論是輸入還是交互,兩個最重要的方式是通過攝像頭和通過音頻。因此,語音交互技術本身非常重要,可以說業界對這種技術存在一些剛需。

其次,阿蒙總裁在大會的演講上談到了推動終端側人工智慧的兩個重要方向,一個是發展高能效的人工智慧,這正是今天韋教授演講的主題,就是如何在終端上用能效最高的方式來運行演算法。第二個方向是發展個性化的人工智慧,這其中有幾個重要特性,包括情景式感知、始終開啟和通過持續學習實現自主適應。這幾個特性有三個共通的重要元素——終端側、低功耗和個性化。這三個元素無論對於語音交互本身還是對於更寬泛的應用而言,在推動終端側人工智慧發展上都是非常重要的。

而語音交互剛好可以把這幾個元素綜合到一起,因此我認為這是展現終端側人工智慧發展趨勢的一個很好的話題。

此外,你剛才也提到了在終端側完成訓練的問題。從模型適應的角度看,語音交互實際上是持續在終端層面上完成模型更新,因此它也是終端側訓練的一個很好的用例。

再回答你關於趨勢的問題。其實我們非常高興看到OEM廠商和其他生態系統成員持續推動和拓展語音交互在不同終端上的應用。我們的目標並不是要構建一個完整的終端側語音交互系統,我在大會的演講中有著重強調,Qualcomm旨在構建一個終端側的解決方案架構。如果OEM廠商或獨立軟體開發商有比較好的解決方案,我認為Qualcomm和他們在生態系統內相互補充會是一件非常好的事情。從另一個角度看,我們認為無關鍵字(keyword-less)、始終開啟的語音交互將會是未來非常重要的一個技術方向。這需要通過真正低功耗的硬體架構作為支撐,在這方面我們還有大量的工作需要完成。

韋靈思:紀磊已經談得十分全面了,我再稍微補充我的看法。這其實可以回到我們的第一個問題去看。計算可以在雲端完成,也可以在邊緣或者說終端側完成,關鍵在於將計算任務分配到最合適的地方進行處理。我相信,我們將會採用組合式的方法來完成,比如將一部分對時延不敏感的計算放在雲端處理,將時延敏感性任務放在終端側。實質上,這還是一個對計算任務進行分配的管理問題。我相信生態系統中的不同部分都會被整合和利用。隨著5G的到來,我們可以更快地接入到雲端,從而能更好地在整個生態系統中去分配計算任務。

| 問:Qualcomm在軟體方面已經有曠視、商湯等合作夥伴,同時Qualcomm也在發展自己的演算法,這是否會與合作夥伴形成競爭?

韋靈思:我們開發自己演算法的最重要原因,是為了確保所有演算法都可以在驍龍平台上高效運行。一方面,我們可以通過開發自己的演算法來對系統進行壓力測試,從而啟發我們對於下一代硬體系統的開發。另一方面,有的客戶會希望我們幫助他們對其網路做壓縮或量化,以適應在驍龍平台上的運行。因為我們已經有了演算法開發的經驗,我們就可以為他們提供很大的幫助。客戶也可以選擇使用我們開發的一些演算法,主要面向的是一些沒有資源和能力做獨立演算法開發的客戶。

侯紀磊:我補充一個方面。當Qualcomm看到一些技術發展的趨勢,我們可以通過自己的一些實現方式,包括開發原型機和技術展示等,去向業界展現這些重要的趨勢,同時影響甚至是引領業界向某些技術趨勢加速發展。我認為這也是我們跟合作夥伴合作的一種方式。(完)


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 網易智能 的精彩文章:

對話程麗麗:AI時代的微軟還會讓人興奮么?
世上首起自動駕駛汽車公共道路致死案 Uber闖禍了附各方回應

TAG:網易智能 |