機器人抓取的前沿到哪了？

最新 08-10

本文轉載自知乎專欄智能單元，作者Flood Sung

前言

一年前我們曾探討過Robot Learning的發展>>梳理 | 機器人學習(Robot Learning)的發展，那麼經過近一年的發展，Robot Learning也有了很多新的進展，特別在Meta Learning上。不過今天我們先來專門探討Robot Learning中的一個具體應用，也就是機器人抓取Robotic Manipulation/Grasping。為什麼專門考慮這個問題？因為這個是體現機器人智能目前最亟待解決的問題之一。

我們可以考慮一下家用機器人需要具備什麼樣的智能？可以說最主要就是要具備兩方面的能力，一個是移動導航能力，另一個就是機械臂的抓取能力。所以像下圖這個Fetch機器人其實就滿足了家用機器人所需的硬體了。我們今天不談移動導航的問題，只來談談機器人抓取這個問題的研究前沿。

對於機器人抓取，其實本身有很多研究的具體問題和方式，比如目前抓取No.1的系統是伯克利的Dex-Net 4.0，有興趣的朋友可以看看這篇報道：Exclusive: This is the most dexterous robot ever created，但是Dex-Net 並不是一個端到端的深度學習系統，它只是用神經網路來對抓取的位置進行估計，然後通過planning的方式來抓取，本質上是一個開環控制系統。這樣的系統對於完全靜態簡單的物體是沒問題，但是如果物體有阻擋，有改變，那這個系統就比較難處理了。所以，鑒於本專欄的偏好是通用人工智慧AGI，我們在這裡只想關注一種解決機器人抓取的方式，那就是：

End-to-End Vision-Based Robotic Manipulation 端到端基於視覺的機器人抓取

我們希望整個機器人抓取過程都是機器人自己學到的！這就非常近似於人類的行為！

那麼有了這個主題，我們就來看看這方面的研究都有誰，基本上可以說就集中在兩個團隊：

1）Google Brain Robotics團隊

2) 伯克利Sergey Levine團隊

除此之外，Deepmind，OpenAI，Stanford的Li Fei-Fei團隊還有CMU的Abhinav Gupta團隊有一些亮眼的研究，但並沒有特別專註在Robotic Manipulation這個問題上。然後實際上Google Brain團隊Sergey Levine也在其中，所以接下來我們看到的paper基本上都出自Sergey Levine之手！

Paper List

[1] Sadeghi, Fereshteh, et al."Sim2real view invariant visual servoing by recurrent control."arXiv preprint arXiv:1712.07642(2017).

[2] Riedmiller, Martin, et al."Learning by Playing-Solving Sparse Reward Tasks from Scratch."arXiv preprint arXiv:1802.10567(2018).

[3] Quillen, Deirdre, et al."Deep Reinforcement Learning for Vision-Based Robotic Grasping: A Simulated Comparative Evaluation of Off-Policy Methods."arXiv preprint arXiv:1802.10264(2018).

[4] Haarnoja, Tuomas, et al."Composable Deep Reinforcement Learning for Robotic Manipulation."arXiv preprint arXiv:1803.06773(2018).

[5] Fang, Kuan, et al."Learning Task-Oriented Grasping for Tool Manipulation from Simulated Self-Supervision."arXiv preprint arXiv:1806.09266(2018).

[6] Kalashnikov, Dmitry, et al."QT-Opt: Scalable Deep Reinforcement Learning for Vision-Based Robotic Manipulation."arXiv preprint arXiv:1806.10293(2018).

[7] Matas, Jan, Stephen James, and Andrew J. Davison."Sim-to-Real Reinforcement Learning for Deformable Object Manipulation."arXiv preprint arXiv:1806.07851(2018).

[8] OpenAI"Learning Dexterous In-Hand Manipulation"(2018).

上面這些paper大致是近一年來比較重要的和robotic manipulation直接相關的paper了，由於本人主要關注Sergey Levine團隊的成果，可能會疏忽掉其他工作，如果有知友有好的相關paper推薦，歡迎在本文下留言，謝謝！

本文不打算具體的分析每一篇paper，而是從整體上對於目前機器人抓取的研究進展做一個整體的分析。

機器人抓取的研究進展整體分析

目前機器人抓取或者整個機器人學習的研究其實核心在於三個方面：

1）演算法層面

2）sim-to-real 從模擬到真實環境的遷移

3）應用層面

首先是演算法層面，我們希望DRL演算法在機器人抓取上能夠有更高的效率，更快的學習速度，以及處理更困難的學習任務。因此在上面的paper list中，[3] 對多種DRL off-policy的演算法進行評估，[6] 則使用其中一個演算法在真實場景中做大規模的實驗 [4] 則基於soft q-learning使得機器人具備更強的exploration能力 [2] 則研究通過auxiliary rewards 來處理複雜機器人學習任務中reward過於稀疏的問題。

接下來是模擬環境到真實環境的遷移問題。由於真實機器人實驗不方便並且實驗成本很高，使得從模擬遷移到真實成為一種幾乎必然的選擇（Google那種機器人農場的方法畢竟不是每個人都能幹的），因此很多研究的重點都在於模擬到真實的遷移，比如[1] 通過多視角來研究sim2real [7] 則在模擬環境中研究非剛體的物體操作 [3] 提出來一個面向機器人抓取的模擬benchmark，對於機器人抓取的研究能夠起到很大的促進作用。

最後是應用層面，大家不僅僅關注簡單的普通的機器人抓取問題，也考慮更複雜的manipulation問題，也因此，有了[8] OpenAI 剛剛出爐的機器手玩方塊的成果， [5][7]研究更複雜機器人抓取問題。

那麼對於這三方面，到底有什麼重要的研究進展呢？我們先來單獨分析一下OpenAI這個最新成果.

3 Learning Dexterous In-Hand Manipulation

這兩天OpenAI剛出來的成果，使用DRL實現機械手靈巧操作方塊，雖然這個工作面向的不是抓取，但是方法論上是完全相同的，這篇文章對於機器人抓取問題具有很強的借鑒意義。

1）這篇文章的成果：通過DRL演算法PPO完全在模擬環境中訓練機械手玩方塊，將訓練好的模型直接遷移到真實場景中取得成功，並且整個訓練不帶人類的演示demo，完全根據reward自學完成，而最後的實現效果竟然和人類的行為非常接近，很像人的操作。

2）取得如此成功的原因：（1）高度模擬的系統，和真實環境非常接近，reality gap比較小（2）使用模擬環境隨機化這個技巧來大幅度拓展模擬環境的範圍，使得神經網路學習後能夠適應各種場景，當然就包括真實場景了。這種隨機化包含比如不同的摩擦力，不同的演示，不同的攝像頭角度等等（3）大規模分散式並行訓練，使用了幾百台機器6144個cpu來運行分散式模擬環境收集數據，然後用一台8GPU的V100來訓練模型，就像標題說的，等價於訓練了100年.

3）啟發：（1）DRL能夠通過學習學到傳統非學習演算法根本做不到的效果，端到端神經網路化必須是機器人的未來！（2）模擬環境超級重要，隨著技術的發展，模擬肯定可以做的越來越好，這就意味的未來的機器人必然會是在模擬中進行訓練的，成本低，速度快，何樂而不為。（3）大規模的計算能夠直接彌補DRL sample inefficiency的問題，反正只要有足夠的設備，一天訓他原來要1年的東西，數據堆上去，就能做出來。

進一步分析

上一小節我們簡單的分析了一下OpenAI這個很酷的工作，但是我們能得到的結論就是：這更多的是工程上的勝利，而非演算法上的勝利。演算法依然是PPO，並沒有實質性的變化。

同樣的，之前Google在機器人抓取的重要進展[6]QT-Opt 將端到端機器人抓取的效果提升了一大截，但是我們具體分析它裡面的演算法就會發現演算法上只是Q-Learning的一個變種，相比於DDPG，不使用Actor Network，而通過進化演算法CEM來獲取actor，能夠使訓練更穩定，並且方便於做大規模分散式訓練。

對於[6]和[8]，其實我們都發現大規模分散式學習對於性能提升的重要性，這當然也完全符合深度學習的情況，只要有數據和高性能計算，就能把性能堆出來。由於深度增強學習存在比監督學習大的多的sample inefficiency問題，所以實際上深度增強學習要能work，需要的數據量會比監督學習如imagenet還要大的多。也因此，我們看到AlphaGo，OpenAI的機器手，OpenAI的Dota，都動用了巨量的計算資源。一個小小的機器手，卻使用了6144個CPU和8個V100 GPU來訓練，這也是非常空前的事情。

下一步呢？

有兩點是非常容易預測的：

1）未來必然會出來更多更好的模擬環境。這一年來的研究可以說就是比較明確的肯定模擬直接遷移到真實環境的可行性，那麼就沒有理由更進一步的去開發更真實的模擬環境。

2）更快更強的分散式學習系統。這個就更不必說了，這是推動機器人學習進展的燃料。

有了上面這兩點，即使保持現有的演算法不變，我相信都可以訓練出比現在更強或者更複雜的機器人學習成果，端到端基於視覺的機器人抓取直接推到99%以上的準確率是完全可能的，這就趨於商用了。

那麼演算法層面又該如何發展呢？

我們需要更複雜任務Task的牽引。比如我們需要雙機械臂的協作抓取，這就涉及到multi-agent robot learning。比如我們需要機器人能夠完成一個更長的任務系列，這需要Hierarchical Reinforcement Learning的研究。比如我們需要機器人能夠同時完成多個任務，那這就需要multi task learning。比如我們希望機器人的generalization能夠更強，能夠處理沒看過的物體，那麼這就需要Meta Learning的研究，那麼這塊現在特別火了。比如我們需要機器人能夠快速的學習新任務，這就需要Continual Learning，Meta Learning，如果是要求通過模仿學習來實現，那就需要imitation learning。

這裡我推薦大家可以閱讀第一屆CoRL整理出來的問題，從這裡我們反而會覺得現在的Robot Learning真的是剛剛開始，現在研究的問題也太過於簡單了。

https://docs.google.com/document/d/1biE0Jmh_5nq-6Giyf2sWZAAQz23uyxhTob2Uz4BjR_w/edit

現在到了2018年才有了一個機器人抓取的benchmark，未來相信會有更多的benchmark出現來推動這個領域的發展。

https://docs.google.com/document/d/1biE0Jmh_5nq-6Giyf2sWZAAQz23uyxhTob2Uz4BjR_w/edit

最後小結

本文沒有詳細的分析每一篇paper的具體idea，而是比較寬泛的分析機器人抓取及機器人學習的整體研究進展。總的來說，對於機器人抓取這個具體問題，從工業應用上看將可以很快看到落地，要在模擬系統研發上推，在大規模分散式學習上推，核心確實在於工程實現上。而對於學術研究，最關鍵的是去定義新的task，新的benchmark，從而在新task的基礎上去推動演算法層面和應用層面的發展。

-The End-

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 將門創投 的精彩文章:

※「保障美國未來能源」組織報告：自動駕駛汽車搶走你的飯碗

TAG:將門創投 |