OpenAI打造特殊ML量化指標平台，修正過度學習AI難題

科技 12-09

OpenAI近日發布一個特別的訓練環境CoinRun，該平台藉由遊戲設計，能夠提供關鍵的量化指標，讓程序將過去學習到的經驗，轉移到全新環境中，也解決了強化學習長久以來的難題，CoinRun的環境比起傳統的遊戲平台簡單許多，像是音速小子（Sonic the Hedgehog），但是卻保有豐富且廣泛的挑戰，提供給最新的演算法程序來解決。

打造出適用於不同任務的通用模型，對現今的深度強化學習演算法，還是一大難題，雖然受過訓練的程序可以解決複雜的任務，但是換到新的環境時，該程序就會面臨轉移經驗的挑戰，尤其強化學習程序常常會有過度學習（overfittng）的問題，模型學習成果貼近訓練數據，換成別的測試數據效果就會大打折扣，無法學習到通用的技能。

CoinRun模仿音速小子遊戲平台，設計成讓現有的演算法容易被訓練的環境，提供可量化的大量訓練數據，CoinRun每個關卡的目標即是在有障礙物的環境中，收集硬幣，如果程序代理人撞到障礙物，在遊戲中就會死亡，唯一的獎勵機制是收集硬幣，且這項獎勵機制是固定的，若程市代理人死亡、集滿硬幣，或是移動1,000步之後，該遊戲關卡就會結束。

為了評價該模型的通用程度，OpenAI用常見的3層式卷積構架，OpenAI也稱之為Nature-CNN，訓練了9個程序代理人在CoinRun平台玩遊戲，其中8個程序代理人在第100～16,000關卡中訓練，另外一個程序代理人的訓練，則是不限制任何關卡，因此，該程序代理人便不會看見同一個關卡兩次，每個關卡對該代理人而言，都是全新的環境，程序代理人是通過近端策略優化（Proximal Policy Optimization，PPO）演算法來訓練，在固定關卡學習的程序，每個關卡會玩成千上萬次，而不固定訓練關卡的程序，每個關卡只會玩一次。

OpenAI收集了單獨訓練的AI程序表現結果，在少於4,000個關卡的訓練配置中，該程序出現過度學習的問題，超過16,000個關卡，問題依舊存在，接著，OpenAI利用CoinRun固定的500個關卡來訓練AI程序，發現通過多項範式技術，可以改善訓練結果，像是Dropout和L2範式、數據擴張和環境隨機性。

除此之外，OpenAI也開發了另外2個環境來研究過度學習的問題，分別是CoinRun的變化版CoinRun-Platforms和簡單迷宮導航環境RandomMazes，在這些實驗中，研究人員採用原本的IMPALA-CNN構架，通過長短期記憶模型（long short-term memory，LSTM）來進行實驗，在CoinRun-Platforms的環境中，AI程序要在1,000步的時間限制內收集硬幣，硬幣隨機分散在不同的關卡中，因此，程序必須積積極探索。

OpenAI表示，該研究成果提供打造強化學習通用模型更多研究方向，通過CoinRun環境，精準地量化過度學習的問題，有了這項指標後，研究人員可以更準確地評價，要用哪個構架和演算法，OpenAI也提出幾個建議的未來研究方向，像是研究環境複雜度和關卡數的關係、重複的構架對通用型AI是否合適、探索多種範式組合最有效的方法。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 十輪網 的精彩文章:

※Samsung的860 QVO是新一代高容量低價SSD的開端
※微軟首席語音科學家：人工智慧若不能解決語言問題，就是瞎忽悠

TAG:十輪網 |