有沒有將深度學習融入機器人領域的嘗試？有哪些難點？

新聞 04-04

雷鋒網按：本文作者qqfly，上海交通大學機器人所博士生，本科畢業於清華大學機械工程系，主要研究方向機器視覺與運動規劃，會寫一些好玩的內容在微信公眾號：Nao(ID：qRobotics)。本文整理自知乎回答：有沒有將深度學習融入機器人領域的嘗試？有哪些難點？

現在深度學習這麼火，大家都會想著看看能不能用到自己的研究領域裡。所以，將深度學習融入到機器人領域的嘗試也是有的。我就自己了解的兩個方面（視覺與規劃）來簡單介紹一下吧。

物體識別

這個其實是最容易想到的方向了，比較DL就是因為圖像識別上的成果而開始火起來的。

這裡可以直接把原來 CNN 的那幾套網路搬過來用，具體工作就不說了，我之前在另一個回答amazon picking challenge（APC）2016中識別和運動規劃的主流演算法是什麼？下有提到，2016年的『亞馬遜抓取大賽』中，很多隊伍都採用了DL作為物體識別演算法。

物體定位

當然，機器視覺跟計算機視覺有點區別。機器人領域的視覺除了物體識別還包括物體定位（為了要操作物體，需要知道物體的位姿）。

2016年APC中，雖然很多人採用DL進行物體識別，但在物體定位方面都還是使用比較簡單、或者傳統的演算法。似乎並未廣泛採用DL。

當然，這一塊也不是沒人在做。我們實驗室的張博士也是在做這方面嘗試。我這裡簡單介紹一下張博士之前調研的一偏論文的工作。

Doumanoglou, Andreas, et al. "Recovering 6d object pose and predicting next-best-view in the crowd."Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016.

有沒有將深度學習融入機器人領域的嘗試？有哪些難點？

這個工作大概是這樣的：對於一個物體，取很多小塊RGB-D數據；每小塊有一個坐標（相對於物體坐標系）；然後，首先用一個自編碼器對數據進行降維；之後，用將降維後的特徵用於訓練Hough Forest。

這樣，在實際物體檢測的時候，我就可以通過在物體表面採樣RGB-D數據，之後，估計出一個位姿。

抓取姿態生成

這個之前在另一個問題（傳統的RCNN可以大致框出定位物體在圖片中的位置，但是如何將這個圖片中的位置轉化為物理世界的位置？）下有介紹過，放兩個圖

有沒有將深度學習融入機器人領域的嘗試？有哪些難點？

↑ Using Geometry to Detect Grasp Poses in 3DPoint Clouds

有沒有將深度學習融入機器人領域的嘗試？有哪些難點？

↑ High precision grasp pose detection in dense clutter

控制/規劃

這一塊是我現在感興趣的地方。

簡單地說，我們知道強化學習可以用來做移動機器人的路徑規劃。所以，理論上將，結合DL的Function Approximation 與 Policy Gradient，是有可能用來做控制或規劃的。當然，現在的幾個工作離取代原來的傳統方法還有很長的距離要走，但是也是很有趣的嘗試。

放幾個工作，具體可以看他們的paper。

1.Learning monocular reactive uav control in cluttered natural environments

有沒有將深度學習融入機器人領域的嘗試？有哪些難點？

↑ CMU 無人機穿越森林

2. From Perception to Decision: A Data-driven Approach to End-to-end Motion Planning for Autonomous Ground Robots

有沒有將深度學習融入機器人領域的嘗試？有哪些難點？

↑ ETH 室內導航

3.Learning Hand-Eye Coordination for Robotic Grasping with Deep Learning and Large-Scale Data Collection

有沒有將深度學習融入機器人領域的嘗試？有哪些難點？

↑ DeepMind 物體抓取

4. End-to-end training of deep visuomotor policies

有沒有將深度學習融入機器人領域的嘗試？有哪些難點？

↑ Berkeley 擰瓶蓋等任務

有哪些難點

1、在視覺領域，除了物體識別、還需要進行物體定位。這是一個 regression 問題，但是目前來看， regression 的精度還沒辦法直接用於物體操作，（可能是數據量還不夠，或者說現在還沒找到合適的網路結構），所以一般還需要採用ICP等演算法進行最後一步匹配迭代。

2、機器人規劃/控制等方面，可能存在的問題就比較多了。我之前在雷鋒網『硬創公開課』直播（運動規劃 | 視頻篇）的時候有提到我碰到的一些問題，這裡簡單列在下面：

可觀性問題

簡單地說，我們這些不做DL理論的人，都是先默認DL的收斂、泛化能力是足夠的。我們應該關心的是，要給DL喂什麼數據。也就是說，在DL能力足夠強的前提下，哪些數據才能讓我需要解決的問題變得可觀。

當然，目前的幾個工作都沒有提到這點，Berkeley的那個論文里是直接做了一個強假設：在給定數據（當前圖像、機器人關節狀態）下，狀態是可觀的。

實際機器人操作中，系統狀態可能跟環境有關（例如物體性質），所以這一個問題應該是未來DL用在機器人上所不能繞過的一個問題。

數據量

有沒有將深度學習融入機器人領域的嘗試？有哪些難點？

一方面，我們不了解需要多少數據才能讓問題收斂。另一方面，實際機器人進行一次操作需要耗費時間、可能會造成損害、會破壞實驗條件（需要人工恢復）等，採集數據會比圖像識別、語音識別難度大很多。

是否可解決

有沒有將深度學習融入機器人領域的嘗試？有哪些難點？

直播的時候我舉了個例子，黑色障礙物位置從左到右連續變化的時候，規劃演算法輸出的最短路徑會發生突變。（具體看視頻可能會比較清楚）

這對應於DL中，就是網路輸入連續變化、但輸出則會在某一瞬間突變。而且，最短路徑可能存在多解等問題。

DL的 Function Approximattion 是否能很好地處理這一狀況？

是吧，這幾件事想想都很有趣，大家跟我一起入坑吧~

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷鋒網 的精彩文章:

※轉型轉了許多年，英特爾的下一步將圍繞「數據洪流」展開
※螞蟻金服收購MoneyGram受阻，美方稱危害"國家安全"
※阿里推出多智能體雙向協調網路BicNet，玩《星際爭霸》堪比人類
※「東南亞版滴滴」Grab第一次重大併購：收購Kudo打造自己的支付平台

TAG:雷鋒網 |

您可能感興趣

※人類製造的最不可思議的機器有哪些？
※聽上去有些科幻，但機器真能聞出你有沒有得病
※哈佛和MIT都在研究的柔性機器人，還有哪些技術難點有待突破？
※機器學習沒有想像中的那麼難
※盤點那些最想擁有的動漫機器！
※靠屍體生存，有思想，這些恐怖機器人真的不是科幻片中的想像！
※未來機器人會有多「可怕」，這些技術已經有所體現
※只要有了這個「觸手」，機器人也能有觸覺
※機器人的人工智有點可怕在什麼地方？
※能得心臟病能吐血這個機器人病的有點重
※未來，這台機器能聞出你有沒有得病
※機器人中的逗逼們！盤點那些看起來無用但有趣的機器人
※機器人可能很快就能夠有痛的感覺
※機器人進入職場後有多少人的飯碗難保？最先失業的恐是教師
※引領我們走向未來科技的杭州，目前有哪些智能機器人？
※有了AI的加入每個人都能有定製的機器外骨骼
※我不再是一個獲得高分的機器，我是一個有血有肉的人！
※有圖有真相！老司機揭秘，日本銷售最好的掃地機器人有哪些？
※有了這個機器人再也不用害怕了機票已買好