當前位置:
首頁 > 新聞 > 深度學習與強化學習相結合,谷歌訓練機械臂的長期推理能力

深度學習與強化學習相結合,谷歌訓練機械臂的長期推理能力

雷鋒網 AI 科技評論按:機器人如何能夠學到在多樣且複雜的真實世界物體和環境中能夠廣泛使用的技能呢?如果機器人是設計用來在可控環境下進行高效的重複工作,那麼這個任務就相對來說更加簡單,比如設計一個在流水線上組裝產品的機器人。但要是想要設計能夠觀察周圍環境,根據環境決定最優的行動,同時還能夠對不可預知的環境做出反應的機器人,那難度就

會指數級的增長。目前,有兩個有力的工具能夠幫助機器人從試驗中學習到這些技能,一個是深度學習,一個是強化學習。深度學習非常適合解決非結構化的真實世界場景,而強化學習能夠實現較長期的推理(longer-term reasoning),同時能夠在一系列決策時做出更好更魯棒的決策。將這兩個工具結合到一起,就有可能能夠讓機器人從自身經驗中不斷學習,使得機器人能夠通過數據,而不是人工手動定義的方法來掌握運動感知的技能。

為機器人設計強化學習演算法主要有幾個挑戰:首先真實世界中的物體通常有多樣的視覺和物理特徵,接觸力(觸覺)的細微差異可能導致物體的運動難以預測。於此同時機械臂可能會遮擋住視線而導致難以通過視覺識別的方法預測物體運動。此外,機器人感測器本身充滿雜訊,這也增加了演算法的複雜性。所有這些因素結合到一起,使得設計一個能夠學習到通用解決方案的演算法變得異常困難,除非訓練數據足夠豐富,有足夠多的不同種類的數據,但是這也使得構建數據集的時間成本變得很高。這些難點也激勵著研究者探索能夠復用過去經驗的學習演算法,比如之前 Google 設計的抓取學習演算法,就能夠從大型數據集中獲益。但是該工作存在一個問題,就是機器無法推斷出其行動的長期後果,而這這長期的推理對於學習如何抓取物體是非常重要的。比如,如果多個物體聚集在一起,先將它們中的一個分離出來(稱作「單一化」),在進行抓取時會變得更加容易,但「單一化」這一步驟並不能直接導致抓取成功,而是有一個較為長期的成功率的提升。

「單一化」的例子

為了提高效率,使用離線策略強化學習(off-policy reinforcement learning)是必須的,即能夠從之前幾小時,幾天或者幾周的數據中學習。為了設計一個這樣的能夠從之前的交互中獲得大量不同經驗的離線策略強化學習演算法,谷歌的研究人員將大規模分散式優化與一個新型擬合深度Q學習(new fitted deep Q-learning algorithm)演算法相結合,名為 QT-Opt 。該論文目前可以在arXiv上 查看。

QT-Opt是一種分散式 Q 學習演算法,支持連續行動空間,非常適合於機器人問題。為了使用 QT-Opt,研究人員首先使用之前收集的數據完全離線地訓練了一個模型。這個過程並不需要運行實際的機器人,這點使得該演算法更容易分散式的訓練。之後,將該模型部署到真正的機器人上進行 finetune,這個階段則使用全新的數據進行訓練。在運行 QT-Opt 演算法時,同時也在積累更多的離線數據,使得模型能夠訓練得更好,於是也能夠得到更好的數據,這樣就形成了一個正反饋循環。

為了將該方法應用到機器人抓取任務上,谷歌的研究人員們使用了 7 個真實的機器人,在四個月的時間裡,運行了超過 800 個機器人小時。為了引導數據收集過程,研究人員開始時手動設計了一個抓取策略,大概有 15%-30% 的概率能夠成功完成抓取任務。當演算法學習到的模型的性能比手動設計的策略更好時,就將機器人的抓取策略換成該學習到的模型。該策略使用相機拍攝圖像,之後返回機械臂和抓取器應該如何運動的數據。整個離線訓練數據包含超過 1000 種不同物體的抓取數據。

一些用來訓練抓取的物體

過去的研究表明,跨機器人的經驗分享能夠加速學習過程。研究人員將訓練和數據收集的過程擴展到十塊GPU,七個機器人和許多 CPU 上面,這最終收集並處理了一個超過 580,000 次抓取嘗試的大型數據集。在最後,研究人員成功訓練了一個能夠在真實機器人上運行的抓取策略,它能夠泛化到不同種類的物體的抓取上,即使這些物體並沒有在訓練時遇到過。

(雷鋒網 AI 科技評論往期報道中,谷歌 AI 負責人 Jeff Dean曾經談到過他們用大量機械臂組成了一個「機械臂農場」,專門以大規模訓練的方式解決機器人問題。這也就是一個例子)

七個正在採集數據的機器人

從定量的角度分析,QT-Opt 方法在訓練集沒有遇到過的物體的 700 次抓取嘗試中,有 96% 的成功率。與之前的基於監督學習的抓取方法(成功率78%)相比,該方法將錯誤率降低了五倍以上。

值得注意的是,該抓取策略具有標準機器人抓取系統中不常見的各種閉環反應行為:

面對一組無法一起拾取的互鎖在一起的物體時,該策略會在拾取之前將其中一塊與其他塊分開。

當抓住互相纏繞的雜亂物體時,該抓取策略會先探測不同的物體,直到手指牢牢握住其中一個,然後才抬起手臂

在機器人抓取到一個物體後,如果人故意將物體從夾具中拍打出來以擾亂機器人(訓練時並沒有這種場景),它會自動重新定位夾具,並進行另一次嘗試。

最重要的是,這些行為都不是手動設計的,它們都是通過 QT-Opt 進行自監督訓練而自動學習到的,因為這些行為能夠從長期的角度提高模型抓取的成功率。

此外,研究人員還發現 QT-Opt 使用較少的數據就達到了更高的成功率,儘管可能需要更長時間才能收斂。這點對於機器人來說尤其令人興奮,因為訓練的瓶頸通常是如何收集到眾多真實的機器人數據,而不是訓練時間。將該方法與其他提高數據效率的技術相結合,可能會在機器人技術中開闢一些新的有趣的方向。谷歌的研究人員也正在將 QT-Opt 與最近的學習如何進行自校準(self-calibra)的工作相結合,想要進一步提高模型的泛化能力。

總體而言,QT-Opt 演算法是一種通用的強化學習方法,可以為真實世界的機器人提供良好的性能。除了獎勵函數的定義之外,QT-Opt 的任何內容都沒有針對於機器人抓取做任何設計。這是邁向更通用的機器人學習演算法的重要一步,並且也更期待該演算法能夠應用到什麼其他的機器人任務中。

ViaGoogle Bolg,雷鋒網 AI 科技評論編譯


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

ET城市大腦三項視覺技術論文入選CVPR:不改變攝像頭,提高視頻識別技術
從VP 到代理銷售,他逆向在數據安全上狂奔|訪昂楷科技劉永波

TAG:雷鋒網 |