當前位置:
首頁 > 知識 > OpenAI發布全新研究:根據人類反饋進行強化學習

OpenAI發布全新研究:根據人類反饋進行強化學習

選自DeepMind

作者:Shane Legg等

機器之心編譯

參與:吳攀、黃小天、李亞洲

DeepMind 和 OpenAI 是現在人工智慧研究界最重要的兩大研究機構,當其聯手時,我們能看到什麼樣的成果誕生呢?近日,一篇題為《Deep reinforcement learning from human preferences》的論文讓我們看到這樣的努力及其成果——提出了一種基於人類反饋的強化學習方法。該論文在 arXiv 發布後,DeepMind 和 OpenAI 各自通過博客對這項重要成果進行了解讀,機器之心在本文中對 DeepMind 的博客及原論文的摘要進行了編譯介紹。

更多詳情請參考以下鏈接:

原論文:https://arxiv.org/abs/1706.03741

DeepMind 博客:https://deepmind.com/blog/learning-through-human-feedback/

OpenAI 博客:https://blog.openai.com/deep-reinforcement-learning-from-human-preferences/

DeepMind 推薦的擴展閱讀:https://arxiv.org/abs/1606.06565

我們相信人工智慧有一天將成為最重要、最裨益人類的科技進步之一,幫助應對人類面臨的最艱難的那些挑戰,比如全球變暖、普惠醫療。但是在實現這一切之前,我們必須負責任地發明人工智慧技術,並考慮到所有潛在的挑戰和危險。

所以,DeepMind 聯合發起了「構建全球人工智慧夥伴關係,造福人類與社會」(Partnership on Artificial Intelligence to Benefit People and Society)等倡議,專門組建了一個團隊研究技術上的人工智慧安全。這一領域的研究需要開放、協作,從而保證最佳的實踐得到最廣泛地採用。這就是為什麼我們與 OpenAI 展開合作,推進人工智慧安全的技術性研究。

人工智慧領域的核心問題之一是人類如何做到告訴一個人工智慧系統我們想要它做什麼——以及更重要的——我們不想要它做什麼。當我們運用機器學習處理的問題變得越發複雜並進入實際應用領域時,這一核心問題的重要性也與日俱增。

通過允許沒有技術經驗的人教授強化學習系統(一個通過試錯進行學習的人工智慧)一個複雜的目標,我們合作的最初結果給出了一個解決方案。這就不再需要人類特意為了演算法的進步去指定一個目標了。這一步很重要,因為在獲取目標方面的微小差錯也可能導致不想要的、甚至是危險的行為。有時,一個非專家僅僅 30 分鐘的反饋就足以訓練我們的系統,包括教授系統全新的複雜行為,比如如何使一個模擬機器人做後空翻。

GIF/1.3M

通過從被稱為「獎勵預測器(reward predictor)」神經網路訓練智能體,而不是讓智能體在探索環境中搜集獎勵,這個系統(我們的論文 Deep reinforcement learning from human preferences 描述了它)擯棄了傳統的強化學習系統。

該系統由三個並行運行的流程組成:

一個強化學習智能體探索環境並與之交互,比如 Atari 遊戲。

一對 1 - 2 秒的行為片段定期地回饋給人類操作員,以供其選擇出完成既定目標的最佳智能體。

人類的選擇被用於訓練獎勵預測器,預測器進一步訓練智能體。智能體不斷學習最大化來自預測器的獎勵,並根據人類表現提升其行為。

這個系統將目標學習從行為學習中分離了出來,以使其能實現該目標。

這種迭代式的學習方法意味著人類可以指出並糾正任何非預期的行為,這是所有安全系統的一個關鍵部分。這個設計也不會給人類操作員增加繁重的負擔,他僅需要回顧該智能體 0.1% 的行為,就能讓該智能體執行他想讓它做的事。但是,這仍然可能意味著需要回顧數百到數千對行為片段(clip);而如果要將其應用到真實世界中,還需要將這一數字繼續減小。

人類操作員需要在兩個行為片段之間做出選擇。在這個 Atari Qbert 遊戲的例子中,右邊的片段表現出了更好的行為(分數更高)。

在 Atari 遊戲 Enduro 中,玩家需要駕駛汽車趕超其它車。通過傳統的強化學習網路的試錯技術,智能體很難學會這種行為;而人類反饋最終讓我們的系統實現了超越人類的結果。在其它遊戲和模擬機器人任務中,它的表現可以和標準的強化學習配置媲美,而在 Qbert 和 Breakout 等幾個遊戲中,它卻完全沒有效果。

但這種類型的系統的最終目標是讓人類可以為智能體指定目標,即使當該智能體不在其需要工作的環境中時。為了對此進行測試,我們教會了智能體多種全新的行為,比如執行一次後空翻、單腿行走或在 Enduro 遊戲中與其它車並駕齊驅(而不是趕超對方以最大化得分)。

Enduro 遊戲的普通目標是儘可能趕超更多的車。但使用我們的系統,我們可以訓練智能體追求不同的目標,比如和其它車並駕齊驅

儘快這些測試顯示出了積極的結果,但也顯示了其缺陷。特別是,如果在訓練中很早就停止了人類反饋,我們的設置容易受到 reward hacking 的影響,即在獎勵函數上胡亂猜測。在此場景中,智能體繼續對環境進行探索,意味著獎勵預測器被迫預測沒有反饋場景的獎勵。這會導致對獎勵的過度預測,誘導智能體學習錯誤的(且往往是陌生的)行為。從以下動圖中的例子也可以看到,智能體發現來回反覆擊球是比得分或失分更好的策略。

該智能體修改調整了它們的獎勵函數,並決定出來回反覆的擊球要比得分或丟分更好

理解這樣的缺陷,對我們避免失敗、建立想要的人工智慧系統而言很重要。

在測試並增強這個系統上,還有許多的工作要做。但在創造由非專業用戶教授的系統上,這是非常重要的第一步,節省了用戶需要向系統給予反饋的數量,且可擴展到各種各樣的問題上。

其他領域的探索包括減少所需要的人類反饋,或賦予人類通過自然語言介面給予反饋的能力。這可能標誌著創造能從複雜的人類行為進行學習的系統的躍階性變化,也是邁向創造與人類協作的人工智慧重要一步。

本研究論文是 DeepMind 的 Jan Leike、Miljan Martic、Shane Legg 以及 OpenAI 的 Paul Christiano、Dario Amodei、 Tom Brown 正在合作開展的一項研究的部分成果,以下是對原論文的摘要介紹:

論文:基於人類偏好的深度強化學習(Deep reinforcement learning from human preferences)

論文地址:https://arxiv.org/abs/1706.03741

要讓複雜的強化學習(RL)系統與真實世界環境進行有用的交互,我們需要與這些系統交流複雜的目標(goal)。在這項工作中,我們探索了根據(非專家)人類在軌跡段對(pairs of trajectory segments)之間的偏好而定義的目標。我們表明這種方法可以在無需訪問獎勵函數的情況下有效地解決複雜的強化學習任務,包括 Atari 遊戲和模擬的機器人運動,同時還能在少於百分之一的我們的智能體與環境的交互上提供反饋。這可以有效地降低人類監管的成本,足以使得其可被實際應用於當前最佳的強化學習系統。為了展示方法的靈活性,我們僅需大約一個小時的人類時間,就可以成功地訓練好複雜的全新行為。這些行為和環境被認為比之前任何從人類反饋習得的都更為複雜。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

OpenAI聯合DeepMind發布全新研究:根據人類反饋進行強化學習
基於神經網路的命名實體識別 NeuroNER
通過流量識別加密視頻內容:以色列學者提出神經網路攻擊模型
Uber 洗牌:創始人可能「被休假」,無人駕駛項目換帥

TAG:機器之心 |

您可能感興趣

谷歌Android Q beta:新反饋和發布功能進入測試
seq2seq強化學習中Human Bandit反饋的可靠性
Uber和Lyft IPO申請獲SEC初步反饋:重提新的申請
微軟研究團隊為HoloLens帶來MRTouch觸覺反饋交互技術
Facebook展示AR/VR交互外設Tasbi力反饋腕帶
Fraunhofer HHI新技術可以讓互動反饋在現實與虛擬之間傳遞
蘋果調整Apple Watch 4錶冠設計:紅圈+震動反饋
Dexta Robotics正式發售企業版力反饋手套
提升力反饋,微軟為VR研究物理連接器Haptic Link
傳未來新款Apple Watch的固定實體鍵均將適配振動反饋
Class Report 課堂反饋
向iPhone看齊,新款Apple Watch也將帶有觸覺反饋的固態按鈕
iOS 新功能曝光:為iPhone XR增加觸覺反饋
VR觸感手套CaptoGlove創新開發XR界面和觸覺反饋
Exiii正在向開發人員免費提供其「EXOS Wrist」觸覺反饋設備
ENSO機制及預估研究-臭氧反饋在ENSO振幅對全球變暖響應中的作用
MIUI10開發版更新 優化用戶反饋App和小米錢包新增功能
支持觸覺反饋,Manus VR推出全新Prime VR手套
取代3DTouch!新款蘋果增添長按觸控新技術 增強反饋系統
坂神新劇《anone》初食用反饋