當前位置:
首頁 > 新聞 > 提升DNN參數準確度:MILA提出貝葉斯超網路

提升DNN參數準確度:MILA提出貝葉斯超網路

選自arXiv

機器之心編譯

參與:蔣思源、李澤南

深度神經網路(DNN)參數中簡單而強大的貝葉斯推理(Bayesian inference)技術有可能大大擴展深度學習技術的應用範圍。在現實世界的應用中,意外錯誤可能會造成危險和財產損失,而預料之內的問題則可以讓智能體尋求人類的指導(以主動學習的形式),或是採取一些安全的默認行為(如關機)來進行規避。近日,來自蒙特利爾 MILA、Element AI 和麥吉爾大學等機構的學者共同提出了「貝葉斯超網路」,使用新方法提升了 DNN 參數的準確性。

通常情況下,DNN 被訓練為尋找可能性最大的那個參數(頻率學派的點估計),但這種方法忽略了實際情況下哪個參數才是最好的(參數不確定性),當可能的參數值置信度很高但與預測相反時,其可能會引發相對的不確定性。與之相反的是,貝葉斯 DNN 模型會對給定數據模型參數的全部後驗分布建模(貝葉斯學派的後驗分布),從而提供更好的校準置信度估算,達到更安全的目的。

貝葉斯 DNN 技術是一個不斷發展的方向。近期大多數技術都集中於變分推理,並將變分後驗(variational posterior)限制在簡單的分布族之內,如高斯階乘。然而,若從安全形度來看,變分似乎傾向於低估不確定性,因為 KL 散度(KL(q||p))更傾向於懲罰 q——當 p 的比重小時 q 的比重大,而 p 的比重大時則不給予比重。這個問題可能會因為使用後驗分布族而加劇;例如,單峰近似後驗只能捕捉單一模型的真實後驗。考慮到這點,我們提出了學習靈活而強大後驗的新方法,由 DNN 中的 h 為參數,它被稱為貝葉斯超網路(Bayesian hypernetwork)。

貝葉斯超網路(BHN)採用服從標準正態 N(0,1) 的隨機雜訊作為輸入,並為另一個 DNN(原網路)輸出從近似後驗概率 q(θ) 所採的樣本。構建該模型的關鍵是使用可逆的超網路,這使得蒙特卡洛可以在變分推斷訓練目標中估計信息熵項 log(θ)。

在該論文中,我們先回顧了貝葉斯 DNN 已有的研究工作,並解釋了我們方法的必要組件。然後我們解釋了如何結合這些技術而構建貝葉斯超網路,以及我們在該項工作所做的設計和為平穩訓練所構建的技術。最後,我們提出了驗證 BHN 表徵力的實驗,並在後文展示了其在多個任務中的強大性能。

3 方法

我們在 3.1 節中描述了變分推斷如何應用到貝葉斯深度網路中,並結合 2.2 節和 2.3 節所描述的內容進一步在 3.2 節中推導出貝葉斯超網路(Bayesian hypernets)。

3.1 變分推斷

在變分推斷中,目標是最大化數據的邊緣似然度(marginal likelihood)下界,即 logp(D)。這涉及到估計統計模型的參數並逼近未觀察到隨機變數的後驗分布(隨機變數本身也可以是參數,例如在貝葉斯深度神經網路中)。令θ為可視為隨機變數的貝葉斯參數,D 為觀察數據的訓練集,q(θ) 為逼近真實後驗分布 p(θ|D) 的可學習分布。又因為 KL 散度總是非負的,那麼對於任意 q(θ),我們有:

提升DNN參數準確度:MILA提出貝葉斯超網路

方程 2 不等號右邊即數據邊緣似然度的下界(ELBO)。計算方程 2 的數學期望在深度神經網路中可能比較困難,但我們可以通過蒙特卡洛採樣進行估計與逼近。

3.2 貝葉斯超網路

貝葉斯超網路(Bayesian hypernets/BHNs)通過使用 DDGN 2.3 靈活地表達 q(θ),其中 h 可以將服從標準正態 N(0,1) 的隨機雜訊轉化為從 q(θ) 抽取的獨立樣本。這使得計算蒙特卡洛估計 q 的期望變得更加簡單,其中還包括 ELBO 及其導數,它們可以通過反向傳播來訓練 h。

這意味著 BHN 可以通過對 q(θ) 的採樣而得到訓練(方程 2)和評估,這令 q(θ) 可以很自然地表達生成模型。然而當 DDGN 方便採樣時,計算 ELBO 的信息熵項(logq(θ))還需要評估生成樣本的似然度,但最流行的 DDGN(如 VAE 和 GAN 等)並不容易做到這一點。通常這些模型可以是多對一映射,並且在計算給定參數值的似然度時需要對潛在雜訊變數進行積分:

提升DNN參數準確度:MILA提出貝葉斯超網路

為了避免這個問題,我們使用了一個可逆的 h 而允許在計算 q(θ) 時使用簡單的換元公式:

提升DNN參數準確度:MILA提出貝葉斯超網路

其中 q_ε為ε的分布。

提升DNN參數準確度:MILA提出貝葉斯超網路

圖 4. 主動學習(Active learning):貝葉斯超網路在充分採集後在熱啟動(左)、隨機採集函數(上/acquisition function)和 BALD 採集函數(下)上均超過了其他方法。相對於隨機重啟參數(右),熱啟動可以提升所有方法的穩定性,但可能會影響其他方法的性能。我們還注意到基線模型(無 dropout)的表現與 MCdropout 相近,且優於 Dropout 基線。

論文鏈接:https://arxiv.org/abs/1710.04759

提升DNN參數準確度:MILA提出貝葉斯超網路

在本論文中,我們提出了貝葉斯超網路:一種在神經網路中做近似貝葉斯推理的框架。貝葉斯超網路 h 是一個學習變換簡單雜訊分布的神經網路,將

提升DNN參數準確度:MILA提出貝葉斯超網路

變換為在參數θ上另一個神經網路(「原神經網路」/primary network)的分布:

提升DNN參數準確度:MILA提出貝葉斯超網路

我們用變分推理訓練 q,使用可逆的 h 來通過採樣來有效地估計後驗 p(θ| D)上的變分下界。與貝葉斯深度學習的大多數方法相反,貝葉斯超網路可以表示複雜的多峰近似後驗(multimodal approximate posterior)與參數之間的相關性,同時輕鬆實現獨立同分布(i.i.d.)的 q(θ) 採樣。我們展示了貝葉斯超網路的多種定性優勢,其中它在一系列任務中實現了具有競爭力的表現(包括主動學習和異常檢測)證明了評估模型不確定性的優勢。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

手把手教你可視化交叉驗證代碼,提高模型預測能力
這位被阿里挖來的亞馬遜最高級別華人科學家,聊了聊AI給新零售帶來的想像空間
這3個85後技術男,代表了中國科技圈的新生力量
伯克利提出強化學習新方法,可讓智能體同時學習多個解決方案
人工智慧如何幫你找到好歌:探秘Spotify神奇的每周歌單

TAG:機器之心 |