當前位置:
首頁 > 最新 > 中科院王飛躍團隊詳解平行增強學習最新理論框架與案例

中科院王飛躍團隊詳解平行增強學習最新理論框架與案例

近日,針對現有基於數據驅動的方法對新目標缺乏泛化能力、數據匱乏和數據的分布和聯繫不明顯等問題,來自中科院自動化所、中國科學院大學和慧拓智能機器有限公司的多位學者聯合發表論文提出了一種平行增強學習的理論框架並展示了多個應用案例。本文對該方法進行了詳細的解讀與介紹,原文將發表於IEEE/CAA Journal of Automatica Sinica2018年第3期。

引用格式:T. Liu, B. Tian, Y. Ai, L. Li, D. Cao, and F-Y. Wang, 「Parallel Reinforcement Learning: A Framework and Case Study,」 IEEE/CAA Journal of Automatics Sinica, 2018.

正文

機器學習,特別是深度增強學習在最近幾年呈現飛速的發展態勢[1],[2]。無論是在傳統的視覺檢測[3]、機器人靈巧的操控[4]、能量效率的提升[5]、目標定位[6]或新穎的Atari遊戲[7],[8]、Leduc撲克[9]、Doom遊戲[10]和基於文本的遊戲[11]等領域,基於數據驅動的學習方法在提升控制效果和精度方面都展現了巨大的潛能。然而,將深度增強學習應於真實複雜系統的控制時,仍然遇到以下幾個難點。

第一個難點是缺乏對新目標的泛化能力[3]。控制器在應對新的目標時,需要收集新的數據和學習新的模型。訓練新的模型的過程十分耗時。因此,我們需要利用有限的數據來獲取控制,去適應不同的環境。

第二個難點是數據匱乏[8]。針對複雜系統,獲取大規模的行動和交互數據十分困難。在沒有指導的前提下,去探索策略也十分不易。因此,需要有效地利用歷史數據,用於新的數據獲取和行動選擇。

最後一個難點是數據的分布和聯繫並不明顯。在實際系統中,數據之間聯繫往往是不確定的,數據的概率分布也經常時變。因此,控制器很難對這樣的數據進行分析,並獲得有效的行動指導。

為了處理上述問題,本文提出針對於複雜系統控制的平行增強學習框架。通過構建與真實系統並行的人工系統,獲得平行系統。通過將轉移學習、預測學習和深度學習與增強學習融合,用於處理數據獲取和行動選擇過程,同時表達獲得的知識。最後,介紹了幾個平行增強學習應用的案例。本文提出的平行增強學習的框架可以看作是平行學習[12]的一個實例。

中科院自動化所王飛躍研究員於2004年提出了平行系統的思想,試圖用一種適合複雜系統的計算理論與方法(ACP方法)解決社會經濟系統中的重要問題[13],[14]。ACP方法是指人工社會(A)用於建模,計算實驗(C)用於分析,平行執行(P)用於控制。人工系統往往通過建模獲得,用於數據獲取和行動選擇。通過實際系統與人工系統相輔相成地運行,控制器能夠變得更高效,同時對數據的依賴度也會減少。ACP方法用於複雜系統中解決不同的領域的問題參見文獻[15]-[17]。

轉移學習強調將解決某一問題的知識轉化並擴展,應用於同類型的其他問題。本文以車輛駕駛工況為例,通過平均驅動力(MTF)組件對它們實現轉化。這樣做可以有效地減緩缺乏泛化能力的問題。預測學習指通過已有的數據和知識構建預測模型,對不同環境中的控制進行預測。本文以需求功率為例,提出模糊編碼預測器對未來的需求功率進行不同步長的預測。可以有效地減輕數據匱乏問題。深度學習定義為學習數據的表現形式,包括多層的非線性處理單元和監督或非監督學習方法去學習每層的特徵表達。增強學習關心控制對象如何從環境中獲取控制來最大化累積回報。

該文章通過將轉移學習、預測學習和深度學習與增強學習融合構建深度增強學習的理論框架,用於處理本文開始提出的幾個難點問題。

1. 平行增強學習框架和平行系統

平行增強學習的框架如圖1所示。數據代表人工系統和真實系統的輸入和參數。知識代表從狀態空間到控制空間的記錄,在真實系統中叫作經驗,在人工系統中叫作策略。經驗用於修正人工模型,策略用於指導真實系統的運行。

最近,信息物理系統越來越受到關注,源於它們處理複雜計算過程的能力。同時,信息物理社會系統加入了人和社會的特性,從而能夠更有效地進行設計和操作[18]。基於ACP的平行系統框架如圖2所示。人工系統和真實系統統稱為平行系統。

圖1平行增強系統框架

圖2基於ACP的平行系統框架

在該平行系統中,物理定義的真實系統與軟體定義的人工系統通過三個模塊耦合。這三個模塊分別是控制和管理、實驗和評估以及學習和訓練。第一個模塊屬於決策與規劃模塊、第二個屬於數據評價模塊、第三個模塊屬於學習控制模塊。

人工系統常通過觀察實際系統的表現,而後通過描述學習構建。它能夠幫助學習控制器存儲更多的計算結果,同時做更有效的行動。針對特定的平行智能系統,計算實驗常通過不同的學習方法來獲得不同的經驗或策略[19]。平行執行則是人工系統和真實系統在平行空間中相輔相成的運行,不斷地修改建模精度和指導實際系統運行[20]。

2. 轉移學習

本文以車輛的行駛工況為例來介紹轉移學習,如圖3所示。本文介紹基於平均驅動力組件的轉移工況方法。該方法能夠將已有的工況數據轉移為與當前環境契合的等效數據。

圖3轉移學慣用於工況轉移

平均驅動力定義為在特定的時間區間[0,T]內,驅動能除以行駛距離:

其中,xT=∫v(t)dt是行駛距離,v是車輛速度。F是縱向驅動力:

其中,Fa是空氣阻力,Fr是滾動阻力,Fm是慣性力。ρa是空氣密度,Mv是車輛質量,Cd是空氣阻力係數,A是迎風面積。g重力加速度,f滾動阻力系統,a是加速度。

車輛的驅動模式可分為驅動,巡航,制動和怠速。根據不同模型下驅動力的不同,時間區間可分為[21]:

其中,Ttr和Tco是驅動模式和巡航模式,Tbr代表車輛制動,Tid是怠速時間集。

對式(3)來說,車輛傳動系統只有在驅動模式下提供正的功率。因此式(1)中的驅動力可以改寫為:

隨後,特定工況下的驅動力組件(α,β,γ)可以定義為[22]:

最終,工況的轉移過程可以定義為非線性規劃問題。其中的代價函數可以表達為:

其中是轉移後的工況,(α′,β′,γ′)是目標驅動力組件,vcoast是巡航速度。gi和hj是特定的約束[21],[22]。

轉移學習的目的是將歷史可用數據轉化為與真實環境契合的等效數據,它可以用於自適應控制,從而解決泛化能力和數據匱乏問題。

3. 預測學習

本文以需求功率為例來介紹預測學習,如圖4所示。本文介紹基於模糊編碼控制器的需求功率預測方法。該方法可以用於獲得不同複雜系統的未來經驗和策略。

需求功率建模為有限的馬爾科夫鏈[23],Pdem={pj|j=1, …,M?X,,需求功率的轉移概率通過極大似然估計求得

其中,πij是從pi到pj的轉移概率。p和p+是當前和下一步的轉移概率。Nij代表從pi到pj的轉移概率的總轉移次數,Ni是起始於pi的總轉移次數。

圖4預測學慣用於預測未來需求功率

所有轉移概率πij組成轉移概率矩陣Π。在模糊編碼方法中,X被分為有限個模糊子集,Φj,j=1, …,M。Φj稱為勒貝格隸屬函數,定義為

其中,μj(p)反應在μj中p∈X的隸屬度。需要注意的是,一個連續狀態p∈X,在模糊編碼方法中,可以擁有對個隸屬函數[24]。

模糊編碼預測器包含兩步:第一步是為每個p∈X分配M維的可能度矢量

第二步稱為成比例的可能到概率的轉移,將可能度矢量轉移為概率矢量:

最後,需求功率的預測公式為:

預測學習的目的是通過存在的數據和實時的觀察來預測未來的情況。生成的數據可以指導真實系統的學習,從而解決數據匱乏和數據分布不確定的問題。

(a)深度神經網路

(b)雙向長短記憶網路[26]

圖5深度神經網路和雙向長短記憶網路

4. 增強學習

在增強學習框架中,環境與被控對象的交互過程可以建模為五維數組(S,A,Π,R,γ),其中s∈S和a∈A稱為狀態變數和控制變數集合,Π是轉移概率矩陣,r∈R是彙報函數,γ∈(0, 1)是折扣因子。

控制值函數Q(s,a)定義為:

強化學習中,Q-learning演算法的迭代公式為[25]:

當控制變數包含多個子控制at時,直接對Q值建模十分困難。在這種情況下,我們控制和狀態變數輸入深度神經網路進行近似,如圖5所示。

最終,經訓練後的控制值函數表達為:

其中,K是子控制變數的個數,Q(st,cit)代表期望的累積回報。

融合平行系統、轉移學習、預測學習、深度學習和增強學習,可以構建如圖1所示的平行增強學習框架,下一節討論幾個平行增強學習應用的應用案例。

5. 平行增強學習典型應用案例介紹

平行增強學習的概念應用到了不同的複雜系統控制領域,比如交通系統[27],[28],視覺系統[29]和其他的社會系統[30]。文獻[27]中主要討論交通流的預測過程,包括構建人工系統(名為棧式自編碼模型)用於學習一般的交通流特性。然後,深度學慣用於訓練人工系統和真實系統提供的綜合數據。最後,預測學慣用於預測未來的交通流,同時指導平行系統。

同時,平行增強學習理論還用於解決視覺感知問題[29]。構建人工視覺系統,其產生數據與真實系統數據融合,用於特徵分析、目標分析和場景分析。衍生的新的視覺感知研究方法稱為平行視覺。

最後,旨在提升車輛能量效率的車輛自主學習系統也可以歸為平行增強學習的範疇[31]。 首先,插電式的混合動力模型用於構建平行系統;隨後,深度神經網路和增強學慣用於處理綜合數據,得到最優的燃油使用控制策略;最後,獲得的策略用於指導實際系統的運行,同時提升控制特性。

綜合車輛的工況轉移方法和增強學習,本文提出混合動力車輛的自適應能量管理策略。它可以解決兩個潛在的困難:首先,大多數能量管理策略無法適應不同的環境;其次,基於模型的能量管理策略常常需要準備的車輛模型,同時對計算能力的要求較高。基於平行增強學習的自適應能量管理策略如圖6所示。

圖6.平行增強學習在混合動力輪式車輛能量管理中應用

圖7.平行增強學習在混合動力履帶車輛

上層主要解決車輛行駛工況的轉移問題,下層主要通過增強學習來求得對應的控制。實驗結果證明基於平行增強學習的能量管理策略在計算速度和控制效果上都遠優於傳統的增強學習方法。

最後,本文還將平行增強學習的理論應用到了混合動力履帶車的節油控制中,如圖7所示。首先,利用預測學習對履帶車輛的需求功率進行預測,然後利用增強學習對最優的節油控制進行計算。比較結果分析顯示,平行增強學習能夠有效地提升燃油經濟性,同時有潛能實現實時控制。將來,平行增強學習的理論還擬用到自動駕駛的各項任務中。包括:決策與規劃、速度規劃和路徑規劃等等。

本文介紹了平行增強學習的理論框架和應用案例。目的在於在平行系統的框架下構建系統的數據與知識的閉環交互系統,用於指導實際系統的操作和提升人工系統的準確性。在轉移學習中,平均驅動力組件用於實現行駛工況的等效變換。在預測學習中,模糊編碼預測器用於預測未來的需求功率。

基於數據驅動的模型常會導致大規模的探索過程和無效的觀測過程。同時,這些模型中的數據常常不大準確,一般的指導性規則也有所缺失。融合平行系統、轉移學習、預測學習、深度學習和增強學習,本文提出了平行增強學習的理論。相信在將來,平行增強學習的理論能夠得到廣泛的應用並推動機器學習的進一步發展。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 德先生 的精彩文章:

OpenPV:中科院研究人員建立開源的平行視覺研究平台

TAG:德先生 |