當前位置:
首頁 > 科技 > 伯克利提出通過深度強化學習實現共享自動化,建立靈活和實用的人機系統

伯克利提出通過深度強化學習實現共享自動化,建立靈活和實用的人機系統

圖源:unsplash

原文來源:berkeley

作者:Siddharth Reddy

「雷克世界」編譯:嗯~是阿童木呀、KABUDA

設想一下,一名無人機駕駛員遠程駕駛一架四旋翼飛行器,使用機載相機進行導航和降落。不熟悉的飛行動力學、地形和網路延遲都可能會使人類對這個系統的掌控面臨一定的挑戰。解決這個問題的一個方法是對一個自動智能體進行訓練,從而使其能夠在無需人為干預的情況下執行巡視和製圖等任務。當任務被明確指定,並且智能體可以觀察到成功所需的全部信息時,該策略就可以很好地執行。不幸的是,許多涉及人類用戶的實際應用程序並不能滿足這些條件:用戶的意圖通常是智能體所無法直接訪問的隱私信息,而且任務可能太複雜,以至於用戶無法對其進行精確定義。例如,飛行員可能想要跟蹤一組移動目標(比如一群動物),並且在飛行過程中即時改變目標優先順序(例如,關注那些以外受傷的人)。共享自動化通過將用戶輸入與自動協助相結合以解決此問題,換句話說,這是為了增強人類的控制而不是取代它。

一個盲視的自動駕駛飛行員(左),次優人類飛行員(中)和人機聯合團隊(右)在玩Lunar Lander遊戲

背景

將人類和機器智能結合在共享控制系統中這一想法,可以追溯到1949年Ray Goertz所提出的主從操縱手(Master-Slave Manipulator)、1969年Ralph Mosher所提出的Hardiman外骨骼,和1980年Marvin Minsky所提出的遠程呈現呼叫的初期。在機器人技術、人機交互和人工智慧領域進行了數十年的研究之後,人類操作員和遙控機器人之間的交互仍然是一個挑戰。根據對2015年DARPA機器人挑戰的回顧,「提高機器人性能的最具成本效益的研究領域是人機交互......在DRC中,機器人穩定性和性能的最大敵人是操作失誤。開發出一種能夠避免和克服這種操作錯誤的方法對於實際中的機器人來說是至關重要的。操作人員會在壓力下犯錯誤,特別是在沒有廣泛的訓練和實踐的現實條件下」。

共享自動化的一個研究主旨是通過推理用戶的目標並進行自動化行動來實現它們,從而解決這個問題。Shervin Javdani博士在其論文中談及了對以往研究方法的優秀評論。這些方法已經在更好的駕駛輔助、假肢的腦機介面和輔助遠程操作方面取得了進展,但往往需要事先對世界加以了解:具體地說,(1)動態模型,預測在給定的環境中採取給定操作的結果,(2)用戶可能擁有的目標集,以及(3)觀察模,描述給定目標的用戶的行為。基於模型的共享自動演算法非常適合於這樣一些領域,可以直接對領域中的知識進行硬編碼或學習,但卻面臨著由具有未定義的目標和不可預測的用戶行為的非結構化環境所帶來的挑戰。我們從另一個角度來解決這個問題,使用深度強化學習來實現無模型共享自動化。

深度強化學習使用神經網路函數近似來處理高維度的、連續狀態和動作空間中的維度問題,並且最近在從零開始訓練自動智能體玩視頻遊戲、在圍棋對戰中擊敗人類世界冠軍、控制機器人等方面取得了顯著的成功。我們已經採取了初步措施來回答以下問題:深度強化學習是否有助於建立靈活和實用的輔助系統?

在迴路中具有人類輔助的無模型強行學習

為了在最小的先驗假設下實現共享控制遠程操作,我們設計了一個用於共享自動化的無模型深度強化學習演算法。關鍵理念在於學習從環境觀察和用戶輸入到智能體行為的端到端映射,而任務獎勵是唯一的監督形式。從智能體的角度來看,用戶的行為像一個可以進行微調的先驗策略,以及一個可以生成觀察結果的附加感測器,從而智能體可以隱式地解碼用戶的私人信息。從用戶的角度來看,智能體的行為就像一個自適應界面,可以學習從用戶命令到能夠最大化任務獎勵的操作的個性化映射。

這項研究的核心挑戰之一是採用標準的深度強化學習技術,在不顯著干擾用戶反饋控制迴路,或進行長時間的訓練期間使他們感到疲勞的情況下,利用來自人類的控制輸入。為了解決這些問題,我們使用深度Q-學習來學習一個近似的狀態—行為值函數,該函數計算在給定當前環境中的觀察和用戶輸入的情況下,行為的預期未來返回值。配備該值函數後,輔助智能體將對用戶的控制輸入執行最接近的高值操作。智能體的獎勵函數是用於計算每個狀態的已知術語,和用戶在任務成功或失敗時提供的終端獎勵的組合。請參見下圖以了解此過程的高級示意圖。

無模型共享自動化中,我們的在迴路中具有人類輔助的深度Q學習演算法的概述

學會進行輔助

之前的研究已經將共享自動化形式化為部分可觀察的馬爾可夫決策過程(POMDP),其中用戶的目標對智能體是未知的,並且為了完成任務必須對其進行推理。而現有方法傾向於假設POMDP的以下組成部分是事先已知的:(1)環境動態或狀態轉移分布;(2)用戶的一組可能的目標,或目標空間;(3)對於給定目標的用戶控制策略,或用戶模型。在我們的研究中,我們放寬了這三個標準假設。我們引入了一種無模型的深度強化學習方法,該方法能夠在不知道這些知識的情況下提供幫助,但也可以已知用戶模型和目標空間時對其加以利用。

具有用戶控制的Q-Learning

在迴路中進行無模型強化學習會帶來兩個挑戰:(1)保持信息豐富的用戶輸入和(2)最小化與環境的交互次數。如果用戶輸入是一個建議控制項,一直忽略該建議並採取不同的行為可能會降低用戶輸入的質量,因為人類依靠他們的行為反饋來執行實時控制任務。像TRPO這樣的通用策略演算法很難在這個環境中進行部署,因為它們不能保證忽略用戶輸入的頻率。它們也傾向於需要與環境進行大量的交互,而這對於人類用戶來說是不切實際的。受到這兩個標準的啟發,我們轉向深度Q-學習。

Q-learning是一種off-policy演算法,使我們能夠通過對用於給定預期返回和用戶輸入情況下選擇行為的策略進行修改來解決(1)問題。從最近在並行自動化和外部迴路穩定方面研究中所體現出的最小干預原則得到啟發,我們執行一個最接近用戶建議的可行操作,其中,如果一個操作不比最佳操作差很多,那麼該操作就是可行的。

考慮到(2),我們注意到,相較於政策梯度和基於Monte Carlo值的方法,off-policy Q-learning傾向於具有更高的樣本效率。當用戶近似最優時,我們的行為策略的結構也加快了學習速度:對於適當大的α,智能體學會對用戶的策略進行微調,而不是學習從零開始執行任務。在實踐中,這意味著在學習的早期階段,組合的人機團隊至少能夠和沒有附加輔助的人類執行能力一樣好,而不是在隨機策略的層面上執行。

用戶研究

我們將我們的方法應用於兩個實時輔助控制問題:月球登陸遊戲(Lunar Lander game)和四旋翼著陸任務(Quadrotor Landing Task)。這兩項任務都涉及利用離散動作空間和低維狀態觀測(包括位置、方向和速度信息)來控制運動。在這兩項任務中,人類飛行員都擁有完成任務所必須的私有信息,但他們無法獨自完成任務。

月球登陸遊戲

比賽的目的是通過操控一台主發動機和兩個側向推進器,將飛船降落在旗幟之間,而不發生碰撞或出界。輔助副駕駛可以看到著陸器的位置、方向和速度,但不能看到旗幟的位置。

人類飛行員(單獨操控):人類飛行員無法保持穩定,並不斷失敗

人類飛行員+RL副駕駛:副駕駛提高了穩定性,從而讓駕駛員有足夠的把握降落在旗幟之間

很少有人能夠單獨完成月球登陸遊戲,但在副駕駛參與時,他們往往表現得很好。

圖2.a:30次以上的平均成功率和失敗率

圖2.b-c:前後兩圖分別表示,在月球登陸遊戲中,有副駕駛和無副駕駛兩種情況下的人類飛行員追蹤軌跡。紅色軌跡表示以碰撞或出界告終,綠色表示任務成功完成,其他情況用灰色軌跡表示。中間的星號標記代表著陸平台。為了便於說明,我們只顯示左側邊界的著陸點數據

在選用綜合飛行員模型進行的模擬實驗(此處未展示)中,我們還發現了明確測量目標(即著陸平台的位置)的顯著益處,這表明我們可以而且應該利用目標空間和用戶模型,而不是簡單地將用戶的原始控制輸入添加到智能體的觀測結果中。

經過分析,我們發現月球登陸遊戲的一個缺點是,遊戲界面和物理性不能反映出現實世界中,機器人共享自動任務的複雜性和不可預測性。為了在更加真實的環境中對我們的方法進行評估,我們為駕駛一架真實四旋翼飛行器的人類飛行員定製了一項任務。

四旋翼著陸任務

該任務的目的是讓一架Parrot AR-Drone 2無人機,著陸在距起飛點一定距離的小型、方形著陸平台上,並使無人機的第一人稱視角指向環境中的隨機目標(例如:一把紅色的椅子),而不會飛出邊界或耗盡時間。飛行員使用鍵盤控制飛行速度,並被阻止獲取第三人稱視角,這樣一來,他們就不得不依賴無人機的第一人稱視角來進行導航和著陸。輔助副駕駛觀察無人機的位置、方向和速度,但不知道飛行員想要看向哪個目標。

人類飛行員(單獨操控):飛行員的顯示器只顯示了無人機的第一視角,因此相機的指向很容易把控,但想要找到著陸平台卻很困難

人類飛行員+RL副駕駛:副駕駛不知道飛行員要把攝像頭對準哪裡,但他知道著陸平台在哪裡,因此,飛行員和副駕駛相互配合,共同完成了任務

人們發現,在限制時間的情況下,將攝像頭指向目標場景並精確導航至一個可行的著陸平台,具有挑戰性。輔助副駕駛在著陸平台上進行著陸方面幾乎沒有任何困難,但卻並不知道要將攝像頭對準哪裡,因為它不知道人類在著陸後想觀察什麼。因此,人類飛行員可以將精力用於攝像頭的瞄準,讓副駕駛關注在著陸平台上的精準著陸,從而相互配合,完成任務。

圖3a.超過20次實驗的平均成功率和失敗率

圖3b-c.前後兩圖分別表示,在四旋翼著陸任務中,有副駕駛和無副駕駛兩種情況下,人類飛行員飛行軌跡的鳥瞰圖。紅色軌跡表示以碰撞或出界而告終,綠色軌跡表示任務成功完成,其他情況用灰色軌跡表示。中間的星號標記代表著陸平台

我們的研究結果表明,飛行員和副駕駛相配合的任務完成情況,要顯著優於單個飛行員或單個副駕駛的任務完成情況。

接下來怎麼做?

我們的方法有一個主要的缺點:無模型深度強化學習通常需要大量的訓練數據,這對操縱物理機器人的人類用戶而言是一種負擔。實驗中,我們通過在無人類飛行員干預的情況下,從模擬環境中對副駕駛進行訓練,從而在一定程度上解決了這一問題。遺憾的是,由於構建高保真模擬器和用戶無關的獎勵函數Rgeneral存在一定難度,因此這對於實際應用而言並不總是可行的。目前,我們正在探索解決這一問題的方法。

原文鏈接:http://bair.berkeley.edu/blog/2018/04/18/shared-autonomy/


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷克世界 的精彩文章:

融資1億!「知因」讓產業鏈金融更「智慧」
Google提出新型生成分散式記憶模型,實現以壓縮形式高效存儲信息

TAG:雷克世界 |