當前位置:
首頁 > 最新 > 模擬器:應用型深度強化學習的關鍵是訓練環境

模擬器:應用型深度強化學習的關鍵是訓練環境

深度強化學習(DRL)是目前的AI中最激動人心的領域之一。現在還處於早期階段,但有一些服務水平不高的市場已經可以應用今天的技術。不少的企業都想要自動化或優化工業系統和流程的效率(包括製造業、能源、暖通空調、機器人和供應鏈系統)。

但是,構建應用DRL的一個關鍵要素是:模擬環境。在這篇文章中,我們會告訴你模擬器可以做什麼,為什麼需要它們,以及如何使用Bonsai平台+模擬器來解決真正的業務問題。

什麼是模擬?

讓我們從定義模擬這個術語開始,因為它是一個非常抽象的概念。模擬可以從飛行模擬器到模擬整個城市的電氣和機械部件或模型。

「模擬是隨著時間的推移模擬現實世界的過程或系統運行的模擬。」

本質上,有一些系統具有許多輸入,對這些輸入應用一些數學函數,這些數據可以是可視化的形式(如機器人模擬器)或純數據(如能源模擬器,EnergyPlus)。

計算機科學家已經使用了相當長的一段時間,可以追溯到20世紀50年代末。在過去的20年中,計算能力和大量數據的增加使模擬在保真度和價值上有了顯著提高。許多領先的工業模擬幾乎完全匹配物理現實或業務流程。

模擬對數字遊戲產業的發展也產生了巨大的影響。遊戲玩家需要更加身臨其境的體驗,需要虛擬世界中的高保真圖形和更真實的物品行為。遊戲中間件公司在過去30年中開發並提供了強大的3D和2D物理引擎。

工業模擬

通過利用這些軟體產品和各種數學庫,企業能夠模擬具有大量組件的複雜系統,讓主題專家(SME)在現實世界中構建它們之前對系統進行測試和評估。用例包括數字雙胞胎、機器人、調整小型和大型工業機器、多種電氣和物理系統、優化供應鏈等業務流程。

雖然存在大量基於單個模型的定製和非常專業的模擬,但是還有許多模擬器平台能夠運行和模擬基本無限數量的模型。例如MATLAB Simulink(工程和製造),ANSYS(工程),AnyLogic(供應鏈),Gazebo(機器人),TRNSYS(能源)等等。

模擬+深度強化學習

強化學習(RL)被定義為:

「機器學習領域涉及軟體代理應該如何在一個環境中採取行動來最大化累積獎勵」。

換句話說,RL訓練代理學習如何行動的策略,通過在給定的環境中嘗試大量的操作,優化一個確定的獎勵函數。深度強化學習(DRL)遵循相同的方法,使用深度神經網路來表示策略。

強化學習需要大量的「試錯」事件或與環境的相互作用,來學習一個好的策略。因此,模擬器需要以經濟有效的方式取得成果。

想像一下,試著教一個機器人走路,通過觀察一個真實的物理機器人,嘗試過程中,摔倒10萬次,然後才能成功並持續走路。或者訓練一個人工智慧來玩棋盤遊戲,實際上是在成千上萬的遊戲中扮演人類的競爭對手。模擬器允許這些事件在數字世界中發生,訓練AI來充分發揮其潛力,同時節省一些時間和金錢。

一些模擬模型環境,其中一個代理可以採取影響環境狀態的連續性行為;其他模擬模型設置,其中一個離散輸入創建不同的輸出。這兩種類型的模擬都可以用於強化學習。

模擬+深度強化學習+Bonsai

Bonsai是一個人工智慧平台,允許企業將控制程序編入工業系統,也是使用深度強化學習對工業系統進行編程式控制制的一個商用產品。

使用Bonsai平台,企業可以建立一個BRAIN(一個AI模型),連接他們選擇的模擬器,並在該環境中訓練BRAIN以學習所需的行為。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 德鑫之言 的精彩文章:

保羅和哈登雙核接著發力,火箭客場拔掉馬刺
火箭4連客全勝歸來,帶給姚明當年沒有的驚喜,哈登47次40+追阿杜

TAG:德鑫之言 |