當前位置:
首頁 > 最新 > Berkeley共享自主研究:人-機組合應用model-free RL,優化無人機實時輔助控制

Berkeley共享自主研究:人-機組合應用model-free RL,優化無人機實時輔助控制

AiTechYun

編輯:chux

圖為Lunar Lander遊戲

左:不清楚攝像頭指向位置的自主智能體飛行員;

中:未達到最佳標準的人類飛行員;

右:人-機組合

想像這樣一個場景,無人機駕駛員遠程操控一架四旋翼飛行器,用機載攝像頭進行導航和著陸。不熟練的飛行動態、陌生的地形和網路延遲都會影響這個系統,使得人很難對其進行控制。解決這個問題的方法之一便是訓練自主智能體,使其在沒有人工干預的情況下,執行巡查和繪圖之類的任務。只有當任務描述明確,且代理能觀察到所有它需要的信息時,這種策略才會有效。

遺憾的是,許多涉及人類用戶的實際應用程序並不滿足這些條件:智能體通常不能完全理解用戶的目的,其中一些隱含的信息智能體無法獲得,另外任務可能會過於複雜,導致用戶無法進行精確定義。例如,飛行員可能想要追蹤一組移動物體(例如一群動物),並在飛行中改變目標的優先順序(比如關注那些意外受傷的個體)。

共享自主通過將用戶輸入與自動化幫助相結合來解決這個問題,換句話說,就是加強而不是取代人類的控制。

背景

在共享控制系統中,將人類與人工智慧相結合的觀點最早可追溯到1949年,Ray Goertz的早期主從式操縱器,另外,1969年Ralph Mosher的Hardiman外骨骼和1980年Marvin Minsky的telepresence技術也都包含這一理念。經過對機器人學、人機交互和人工智慧數十年的研究,人類操縱者和遠程控制機器人的界面聯繫問題仍懸而未決。根據對2015年DARPA機器人挑戰賽的回顧——「提高機器人性能最具成本效益的研究領域是人機交互……在DRC中,對機器人穩定性和性能影響最大的是操作員錯誤。開發避免和克服操作員錯誤的方法對於現實世界的機器人來說是至關重要的。人類操作員在壓力下會犯錯,尤其在現實情況下沒有進行大量訓練和練習更容易出錯。」

主從式機械臂(Goertz, 1949)

神經修復學的腦-機界面(Shenoy & Carmena, 2014)

基於模型的自助共享形式體系(Javdani et al., 2015)

共享自主的一項研究是這樣解決問題的:通過推斷用戶的目標,並用自主行動來實現這些目標。這種方法已經在改善駕駛員輔助、假肢的腦-機界面和輔助遠程操作方面取得了進展,但需要事先了解現實世界的信息。明確來說,這些信息包括:(1)在給定的環境狀態中做出預設動作,能夠預測這一動作的結果的動態模型;(2)用戶潛在的目標集;(3)描述用戶對給定目標做出行為的觀察模型。

有些領域中,可以直接硬編碼或學習知識,基於模型的共享自主演算法非常適合這些領域,但目標定義不明確,用戶行為不可預測,這樣的非結構化的環境中,這一演算法仍有缺陷。我們從不同的角度來處理這個問題——使用深度強化學習來實現model-free共享自主。

深度強化學習利用神經網路功能,解決高維、連續態和行動空間等維度上的問題,最近在訓練自主智能體從零開始玩視頻遊戲、擊敗其中的真人世界冠軍以及控制機器人方面獲得了顯著的成功。對於回答如下問題我們已邁出了一步:深度強化學習是否有助於建立靈活實用的輔助系統?

人為介入的Model-Free強化學習(Model-Free RL with a Human in the Loop

為了在最小限度的前提假設下進行共享控制遠程操作,我們設計了一種model-free深度強化學習演算法,用於共享自主。這一想法的關鍵是,根據環境觀察與用戶輸入的智能體行動,學習其中的端到端映射內容,並將任務獎勵作為唯一的監管形式。

從代理的角度來看,用戶的行為就像可以進行優化調整的預先策略,並用額外的感測器生成觀察結果,智能體可以由此間接解碼用戶的私人信息。從用戶的角度來看,智能體的行為就像一個自適應界面,從用戶命令和行動中學習了個性化的映射,將任務獎勵最大化。

這項工作的核心挑戰之一是,採用標準的深度強化學習技術,利用人類的控制輸入,排除用戶反饋控制迴路產生的顯著干擾,也不會因長時間的訓練使他們感到疲勞。為了解決這些問題,我們使用深度Q-learning來學習一個近似的狀態動作價值函數,在給定當前環境觀察和用戶輸入的情況下,計算動作的預期返回值。有了這個價值函數,輔助智能體就會對用戶的控制輸入執行具有最高價值的行動。用戶給智能體的獎勵功能,是在每一狀態下計算的已知術語組合,最終獎勵則是用戶在任務成功或失敗時提供的。

圖1顯示了這一過程的高級示意圖。

圖1:人為介入的Model-Free強化學習之Q-learning演算法

學習協助

預先的工作已經將共享自主定形為POMDP,在這個過程中,智能體最初並不知道用戶的目標,它必須通過推斷來完成任務。

現有的方法傾向於假定POMDP的以下部分是已知的:(1)環境的動力學,或者狀態轉換分布T;(2)用戶的可能目標,或目標空間G;(3)用戶對給定目標的控制策略,或者用戶模型πh

在研究中,我們放寬了這三個標準假設。引入了一種model-free深度強化學習方法,它能夠在不了解這些知識的情況下提供協助,同時在信息已知的情況下也可以利用用戶模型和目標空間。在我們的問題公式中,轉換分布T,用戶的策略πh,和目標空間G不再是智能體必須知道的信息。獎勵函數取決於用戶私人信息:

這種分解遵循典型存在於共享自主中的結構:在已知的獎勵中有一些術語,比如避免碰撞的需要,是從Rgeneral中捕捉到的。Rfeedback則是用戶生成的反饋,這取決於他們的私人信息。我們並不知道這個函數,只是假設通過用戶提供反饋(例如按下一個按鈕)來通知智能體。在實踐中,用戶可能只是簡單指出智能體在每次試驗中成功與否。

合併用戶輸入

我們的方法是將智能體的環境觀察結果st與來自用戶的信息ut連接嵌入,形式如下:

ut的具體形式取決於可用的信息。正如大多數實驗的情況,當我們不知道可能的目標G或用戶給定目標的策略πh時,我們將ut賦給用戶的行動。當我們已知目標空間G時,我們把它設為推斷目標。特別是對於已知的目標空間和用戶模型的問題,我們發現使用最大熵逆強化學習來推斷會提高其性能。對於目標空間已知,但是用戶模型未知的問題,我們發現在某些條件下,可以通過訓練一個LSTM循環神經網路來提高性能,同時根據無協助用戶首次訓練數據集中的給定用戶輸入序列來預測。

利用用戶控制進行Q-learning

人為介入的model-free強化學習有兩個挑戰:(1)維護包含大量信息的用戶輸入(2)盡量最小化與環境的交互次數。如果用戶輸入是按照建議進行控制,始終忽略建議並採取不同的行動會降低用戶輸入的質量,因為人類依賴於他們的行動反饋來執行實時控制任務。在這種情況下,很難配置像TRPO這樣流行的策略演算法,因為它們不能保證忽略用戶輸入的頻率。所以往往需要大量與環境的交互,而這對於人類用戶來說是不切實際的。由於這兩個標準,我們將目光轉向深度Q-learning。

Q-learning是一種off-policy的演算法,它使我們能夠通過修改用於選擇行動的策略,並且已給定了預期收益和用戶輸入,來解決上文中的問題(1)。最近關於並行自主和外側環路穩定化的研究中,我們從最小化干涉原則的具體化過程中得到了靈感,執行了可行行動中最接近用戶建議的方案,如果它沒有比最佳行動差太多的話,行動就是可行的。公式如下:

f代表行動相似的函數,包含了對負數Q值的比較。常數α∈[0,1]是一個超參數,用來控制系統對於未達到最佳標準的人類建議或協助量的容忍度。

對於問題(2),我們注意到,off-policy的Q-learning往往比策略梯度和Monte Carlo基於價值的方法更具樣本有效性。我們的行為策略結構也加速了用戶在最優狀態下的學習:對於適當大小的α,智能體學會了調整用戶的策略,而不是從頭開始執行任務。實際上,這意味著在學習的早期階段,組成的人機團隊的表現至少和沒有被協助的人一樣好,而不是在表現隨機的水平。

用戶研究

我們將方法應用於兩個實時輔助控制問題:月球登陸者遊戲(Lunar Lander)和一個四旋翼飛行器著陸任務。這兩項任務都是使用離散的動作空間和低維度狀態觀察來控制運動,包括觀察位置、方向和速度信息。在這兩項任務中,人類飛行員持有完成任務所必需的、但智能體無法理解的隱含信息,結果人類飛行員無法獨立完成任務。

月球登陸者遊戲

遊戲目標是使用兩個橫向推進器和一個主引擎在旗幟之間著陸,墜毀或飛出界外即失敗。提供輔助的副駕駛可以觀察著陸器的位置、方向和速度,但看不到旗的位置。人類很少能獨自獲得勝利,但是有了副駕駛,表現就好多了。

GIF

只有人類操縱的情況:人類飛行員無法穩定操控,不斷墜機

GIF

人類飛行員與深化學習副駕駛組合:副駕駛的加入讓人類自由在旗間著陸,穩定性提升

圖2a:30次的平均成功率和墜毀率

圖2b-c:有和沒有副駕駛飛行員的情況分別在遊戲中的運行軌跡。紅色軌跡在墜落或出界後失敗,綠色代表成功,灰色軌跡是兩種情況都不符。停機坪用一顆星星標記出來。為便於說明,只顯示了著陸點在左邊邊界上的數據。

在使用人造實驗模型的模擬實驗中,我們還發現了一個顯著的優勢,那就是可以明確地推斷出目標(如降落點的位置),而不是簡單地將用戶的原始控制輸入添加到智能體的觀察中,這表明在可用的情況下,目標空間和用戶模型都能夠被很好地利用。

分析月球登陸者遊戲是有缺陷的,畢竟遊戲界面和物理現象並不能反映真實世界中,機器人共享自主任務的複雜性和不可預測性。為了在更現實的環境中評估我們的方法,我們為操縱真正的四旋翼飛行器的人類飛行員制定了一項任務。

四旋翼飛行器著陸任務

任務的目標是將Parrot AR-Drone 2降落在一塊小的方形停機坪上,並且著陸點離它起飛的位置有一定距離,無人駕駛機的第一人稱視角攝像頭指向環境中的隨機物體(例如紅色椅子),避免其飛出邊界或超出預定時間。飛行員使用鍵盤來控制速度,並且對他們屏蔽無人機第三人稱視角的圖像,這樣他們只能依靠無人機的第一人稱攝像頭來進行導航和降落。輔助副駕駛觀察到位置、方向和速度,但不知道飛行員要參照的物體是哪個。

單獨的人類飛行員:飛行員的顯示屏上只有無人機的第一人稱視角,所以指示攝像頭很簡單,但很難找出著陸點。

人類飛行員與深化學習副駕駛組合:副駕駛並不知道飛行員要將攝像頭指向哪裡,但它知道著陸點的位置,合作完成了任務。

在時間限制下,在場景中將攝像機對準目標,同時將飛行器導航到一個可行著陸點的精確位置,是非常有挑戰性的。輔助副駕駛在導航和著陸方面幾乎沒什麼困難,但因為它不知道著陸後人類想要觀察的東西,所以它也不知道應該將攝像頭對準什麼位置。而二者合作的話,人類指示攝像頭,副駕駛可以專註於精準著陸。

超過20次測試的成功率和墜機率

圖3b-c:有和沒有副駕駛出現的四旋翼飛行器著陸任務軌跡鳥瞰圖。紅色軌跡在墜落或出界後失敗,綠色代表成功,灰色軌跡是兩種情況都不符。停機坪用一顆星星標記出來。為便於說明,只顯示了著陸點在左邊邊界上的數據。

我們得到的結果顯示出人類駕駛員和機器副駕駛組合顯著勝過兩者分別單獨完成任務。

展望

當然我們的方法也存在缺陷:model-free深度強化學習通常需要大量的訓練數據,這對於操作機器人的人類用戶來說是相當麻煩的。為了減少這一缺陷造成的影響,我們採用了在沒有人類飛行員的情況下,對副駕駛進行預先模擬訓練的方法。但問題是,這對於現實的應用程序並不總是可行的,因為難以構建高保真的模擬器,也不易設計豐富的用戶不可知的獎勵函數Rgeneral。研究者目前正在運用不同的方法來探索這個問題。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 AiTechYun 的精彩文章:

谷歌研究員Francois Chollet:有良知的AI研究人員不應該在Facebook工作
滙豐銀行在AI和數字創新方面投入23億美元的資金

TAG:AiTechYun |