當前位置:
首頁 > 科技 > 華為諾亞方舟8篇論文入選,多智能體強化學習成熱點

華為諾亞方舟8篇論文入選,多智能體強化學習成熱點

新智元報道

來源:ICML

編輯:白峰

【新智元導讀】據統計,ICML 2020 共提交 4990 篇論文,最後接收論文 1088 篇,接收率僅為21.8%。與往年相比,接收率逐年走低,而作為華為人工智慧的橋頭堡,諾亞方舟實驗室還是有8篇論文強勢入選,凸顯公司對基礎研究的重視。

華為諾亞方舟實驗室此次有8篇論文被接收,創下ICML歷屆論文接收量新高。研究方向涵蓋多智能體強化學習,神經網路架構搜索,1bit神經網路,圖結構數據上的主動學習,記憶增強學習,理論樣本複雜度分析。下面我們就來看下本次接收的幾篇代表性論文。

Training Binary Neural Networks through Learning with Noisy Supervision

本文從學習的角度對二值神經網路上的二值化運算進行研究。與經典的手工規則(例如Sign函數)將神經元二值化相比,我們提出映射模型(Mapping model)來學習從全精度神經元到二值神經元的映射。這裡,每個權值不是獨立二值化,而是將權值張量作為一個整體來完成二值化,充分考慮權值之間的關聯性。

為了幫助訓練二值化映射模型,我們將傳統Sign函數量化的神經元視為一些輔助監督信號,其雖然有雜訊但仍具有指導意義。因此,我們引入了無偏估計器以減輕雜訊的影響。在基準數據集上的實驗結果表明,所提出的二值化技術具有廣泛的有效性。

多智能體深度強化學習下的Q值路徑分解

許多現實世界中的複雜場景可以建模為多智能體系統,因此多智能體深度強化學習(MARL)作為一種重要的分散式優化技術,已成為一個非常活躍的研究領域。

其中一類重要且普遍的場景為部分可觀察的合作式多智能體環境,在這種環境中,一組智能體根據自己的局部觀察和共享的全局獎勵信號來學習協調其行為,以最大化系統總體收益。

目前主流解決方案是採用集中式訓練、分散式執行範式。其中最核心挑戰問題在於多智能體信度分配:如何為單個智能體的策略分配屬於它自身的貢獻,從而更好地協調以最大化全局獎勵。

在本文中,我們提出了一種Q值路徑分解(QPD)的信度分配機制,可以將系統的全局Q值自動分解為單個智能體的Q值(如圖所示)。和先前工作通過顯示限制單個Q值和全局Q值的表示關係不同,我們首次將累積梯度歸因技術運用到深度MARL中,通過沿軌跡路徑直接分解全局Q值來為智能體進行信度分配,並從理論上證明該分配方式下單個智能體的Q值和等於全局Q值。

我們在具有挑戰性的《星際爭霸II》微觀管理任務上評估了QPD,表明其與現有SOTA的MARL演算法相比,QPD在同質和異質的多智能體場景中均達到了先進的性能。

一種基於行列式點過程的多智能體學習演算法

現有的多智能體演算法在對智能體的centralized joint Q-function做factorization的時候都需要假設每個智能體的Q_i和 Q_joint之間的關係,例如VDN假設相加性,Qmix假設單調性。

本文中,我們設計了一種基於行列式點過程的Q_joint的描述方法,在不需要做任何假設的情況下,Q_joint可以通過行列式點過程所描述的行為多樣性而自動被factorize成各自的Q_i。

給定N個物品(Item)的集合Y,每個物品 i 有自己的特徵向量 wi,這個集合有 2N 個子集,存在一個行列式刻畫任意一個子集被選中的概率。行列式點過程( Determinantal Point Process , DPP ) ,將複雜的概率計算轉換成簡單的行列式計算,通過核矩陣(Kernel Matrix) L 的行列式計算每一個子集的概率。

從直覺上來說,滿足 DPP 的過程一般有一個性質是,相似的兩個元素同時出現的概率是比較小的。基於此,我們提出一個Q-DPP,用作多智能體學習中聯合Q值(Joint Q Value,Q(o, a))的函數估計器(Function Approximator)。

在Q-DPP中,我們可以把每個智能體(Agent)i 的觀測向量(Observation)和動作 (Action)(oi, ai) 看做一個item,每個智能體的所有觀測與動作的集合可以看做一個分區(Partition),給定所有智能體的觀測的情況下,採樣出聯合動作 (Joint Action) 的過程可以看做從每個分區採樣一個 (oi, ai) item的過程。

最後通過採樣的聯合動作計算 log det得到聯合動作的Q值。我們通過將大的核矩陣分解為質量(Quality)和多樣性(Diversity)矩陣, Quality 矩陣是由每個智能體的的獨立Q值構成(Qi (oi, ai)),Diversity矩陣由需要學習的 (oi, ai) 的多樣性特徵向量構成,來綜合考慮智能體各自收益和總體的多樣性。通過這種方式,我們可以自然地將 Q(o, a) 分解為quality和diversity兩部分。

基於圖感知邏輯回歸和搶佔式查詢候選集生成的屬性圖上主動學習策略

左圖: 常規主動學習演算法 vs. 搶佔式主動學習. ? 右圖: GEEM vs PreGEEM 對於下一個打標籤節點risk預估值對比.

對於(含節點屬性)圖網路中的節點分類問題是分類問題中的一項重要任務,但通常獲取節點標籤較為困難或昂貴,在有限可標註數據的預算下通常通過主動學習可以提高分類性能。

在圖網路結構數據中最好的現有方法是基於圖神經網路,但是它們通常表現不佳除非有大量可用的標記節點作為驗證集以選擇一組合適的超參數。在這個工作中特別針對屬性圖中的節點分類任務,我們提出了一種基於圖的主動學習演算法Graph Expected Error Minimization (GEEM)。

我們的演算法在預測階段使用了一種不需要依靠驗證集調整超參的線性化圖卷積神經網路(linear-GCN),並在主動學習查詢標籤階段利用最小化預期誤差的目標函數作為選擇下一目標label節點的標準。

演算法主要包括兩個階段1)在模型預測階段,我們提出使用線性化的GCN模型獲取經驗標籤(預測標籤) 2)在獲取下一label節點過程中,我們提出通過對未標記集合上節點的平均錯誤概率來計算預期誤差並作為風險預估標準,從而選擇增加此節點後經驗風險最小的節點進行label。

為了減少在為候選節點打標籤過程帶來的延遲(在醫療等需要細節domain knowledge的場景,打標籤過程潛在會超過10分鐘),我們推導出了GEEM的搶佔式查詢候選集生成主動學習演算法並稱為PreGEEM,它在查詢/打標籤過程中計算下一個候選打標籤的對象。

同時,我們在論文中提供了關於PreGEEM風險誤差的理論邊界。最後,為了解決從幾乎從沒有標籤數據開始學習的情況,我們提供了一種基於標籤傳播和線性化GCN推理的混合演算法,進行自適應模型平均。

我們在四個公開數據集上進行了實驗驗證,展示出了在各種實驗設定下與SOTA演算法相比的明顯提升,特別是當初始標籤集非常有限時我們的模型明顯優於其他方法。此外該技術在通信網路中具有潛在的實用價值,例如在初始標籤集稀缺時的通信網路中故障鏈路識別場景中。

RNN和LSTM有長期記憶嗎?

為了克服遞歸網路(RNN)學習長期依賴的困難,長短期記憶(LSTM)網路於1997年被提出並後續在應用方面取得了重大進展。

長期記憶這個詞雖然在深度學習領域並沒有嚴格的定義,但是在統計領域早已有之。本文提出了能夠寫成馬爾科夫鏈的遞歸網路不具備長期記憶的充分條件。推理顯示,在無外部變數作為輸入時,RNN和LSTM的輸出一般不具備統計意義上的長期記憶。

本文又將統計學的定義拓展到了深度學習領域。根據新定義,RNN依然不具備長期記憶,而LSTM模型較複雜無法直接分析。若假設LSTM的門不隨時間變化,則LSTM也不具備長期記憶。

根據上述理論成果,我們對RNN和LSTM做出最小程度的修改,使其獲得對長期相關性建模的能力。類似於ARFIMA模型中的結構,我們分別在RNN的輸入和LSTM的狀態單元處添加了一個長期記憶濾波器,得到記憶增強RNN和記憶增強LSTM模型。

實驗表明,MRNN在長期記憶時間序列預測問題上有明顯優勢。而由一層MLSTM單元和一層LSTM單元組成的雙層網路在論文評議數據集的分類任務上的效果遠好於一個兩層LSTM網路。

文章鏈接:

https://arxiv.org/abs/2006.03860

開源代碼:

https://github.com/huawei-noah/noah-research/tree/master/mRNN-mLSTM

【與香港大學聯合研究工作】

Neural Architecture Search in a Proxy Validation Loss Landscape

本文通過最小化驗證損失代理來搜索最佳神經網路結構。現有的神經結構搜索(NAS)方法在給定最新的網路權重的情況下發現基於驗證樣本的最佳神經網路結構。但是,由於在NAS中需要多次重複進行反向傳播,使用大量驗證樣本進行反向傳播可能會非常耗時。

在本文中,我們建議通過學習從神經網路結構到對應的損失的映射來近似驗證損失情況。因此,可以很容易地將最佳神經網路結構識別為該代理驗證損失範圍的最小值。同時,本文進一步提出了一種新的採樣策略,可以有效地近似損失情況。

理論分析表明,與均勻採樣相比,我們的採樣策略可以達到更低的錯誤率和更低的標籤複雜度。在標準數據集上的實驗結果表明,通過本方法進行神經結構搜索可以在較低的搜索時間內搜索到精度很高的網路結構。

Lower Complexity Bounds for Finite-Sum Convex-Concave Minimax Optimization Problems

這個工作主要考慮如下的minimax優化問題:

其中每一個fi是L光滑並且關於x凸,關於y凹的函數,這個優化方程包含了多個流行的機器學習應用問題,例如:regularized empirical risk minimization,AUC maximization,robust optimization 和reinforcement learning。

我們的工作主要針對通常被用來解決這一優化問題的隨機一階方法,即Proximal Incremental First-order Oracle (PIFO)來進行統計分析,目標是要找到一個距離該問題的真實解足夠接近的鞍點(ε-saddle point)。

我們在文章中證明了PIFO演算法至少需要複雜度來找到這個鞍點,這裡需要的條件是fi需要L-smooth以及μ-strongly-convex-μ-strongly-concave,而作為範圍更廣的IFO演算法,有前人證明了它所需要的上界同樣是該值,所以這個下界是精確的最優下界。

同時也說明,加入額外的stochastic proximal操作並不會減少所需要的樣本複雜度。更進一步,我們對非μ-strongly-convex-μ-strongly-concave的另外兩種情況,也給出了相應的複雜度下界。

這些結果都得益於我們提出了一種新的下界分析框架,我們的構造把Nesterov』s classical tridiagonal matrix分解為n個組來促進對IFO和PIFO的理論分析。

【與北京大學聯合研究工作】

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!


請您繼續閱讀更多來自 新智元 的精彩文章:

一個匪夷所思的真相:人類大腦或是高度並行的計算系統,與人工神經網路無本質差別
全球最大的圖像識別資料庫ImageNet不行了?谷歌DeepMind新方法提升精度