當前位置:
首頁 > 新聞 > CMU和谷歌聯手研製左右互搏的對抗性機器人

CMU和谷歌聯手研製左右互搏的對抗性機器人

選自IEEE Spectrum

機器之心編譯

作者:Evan Ackerman

參與:蔣思源、Smith


CMU 和谷歌研究者正在使用基於博弈論和深度學習的對抗性訓練策略來提升操作性任務,如抓取物體。對抗者(adversary)可以是一個機器人,其會嘗試破壞另一個機器人抓取物體(如下圖所示),同時對抗者也可以是雙臂機器人中的單臂,其嘗試干擾另一隻單臂抓取物體。

CMU和谷歌聯手研製左右互搏的對抗性機器人

因為教導機器人學會抓取一大堆不同種類的物體是極其枯燥的過程,因此現在有許多機器人學家轉向採用人工智慧策略,如自監督學習(self-supervised learning)等方法,而不是讓機器人一遍又一遍地採用不同的技術來弄清楚怎樣抓取一件物體。因為即使我們有一大堆的機器人,這仍然需要很長的時間(至少需要數千機器人小時/robot-hours),當然這也許能得到一個很好的通用抓取框架,但是這個框架並沒有標準來判斷什麼是優秀的抓取。

因此這樣做的問題是,這些技術使用非常基礎的感測器以二元類型的方式測量抓取(成功抓取或丟失):那麼是否撿起了物體就不算丟失?但真實世界的抓取並不完全是這樣的,因為大多數人都可以證明:我們拾起一個物體並不讓它掉下來,這並不能說明我們拾起的方式就是最好的,或者說這樣的抓取方法是特別有效的。因為感測器並不能判斷是不是穩定,而越是不穩定的抓取方式意味著丟失物體的概率越大,尤其是在不可預見的情況下,機器的人表現通常要比實驗室中的情況差得多。

考慮到這一點,卡耐基梅隆大學和谷歌決定將博弈論和深度學習結合起來令抓取更加穩定。他們的想法是引入一個對抗者(adversary)作為學習過程的一部分,因此一個「邪惡的機器人」會儘可能地令其它不太穩定的抓取失敗。

這也是機器人的長處之一,我們可以將對抗性自我改變(adversarial alter-egos)編程入機器人當中,因此它們就能雙手左右互搏,也就是一隻手晃動並嘗試抓穩物體,而另一隻手則更直接地干擾第一隻手,並嘗試搶走物體。

對抗性抓取(adversarial grasping)的概念十分簡單:即在對抗者嘗試破壞的情況下,機器人唯一的目標就是努力抓穩物體。

該對抗性抓取的研究者 Lerrel Pinto、James Davidson 和 Abhinav Gupta 在上周 ICRA 展示了他們的工作,即將他們的對抗性方法形式化為兩個參與者的零和重複博弈(博弈論中十分流行的技術)。在他們的模型中,每一個博弈參與者都是一個卷積神經網路,其中一個 CNN 嘗試準確地抓取物體,而另一個則希望破壞第一個的抓取行為。

像重力、慣性和摩擦力(或者去掉摩擦力)等都是抓取機器人必須實時解決的基本問題,但機器人可以在抓取物體後通過搖晃而令抓取更加困難以優化這樣的問題。這也是機器人的長處之一,我們可以將對抗性自我改變(adversarial alter-egos)用程序編入機器人當中,因此它們就能雙手左右互搏,也就是一隻手晃動並嘗試抓穩物體,而另一隻手則更直接地干擾第一隻手,並嘗試搶走物體。

如果對抗者成功了,那麼就意味著緊握的方式並不是很好,抓取方也將從失敗中吸取教訓。同時,對抗者也將從成功的搶奪中學習到經驗。這樣機械臂就出現了一種不斷升級的競爭,因此抓取者抓取地越來越穩,對抗者擾亂地越來越強烈。這也就是為什麼研究人員認為這樣的機器人可以應用在現實世界中。對於一個可靠的機器人,它們需要在時時刻刻都會面臨挑戰的環境中運行。

CMU和谷歌聯手研製左右互搏的對抗性機器人

機器人抓取臂和對抗臂:該 Baxter 雙臂機器人其中一臂努力抓取物體,而另一臂嘗試拉拽物體而破壞平衡性。

研究者證明他們的對抗性策略能加速訓練過程併產生一個更具魯棒性的系統。他們同樣展示這一系統是怎樣工作的,該訓練過程要比簡單地採用大量抓取而沒有對抗性訓練好的多:

經過三次「搖動對抗」(shaking adversary)的迭代訓練,我們的抓取率增從 43% 增長到了 58%。值得注意的是當我們的基準網路沒有經過對抗訓練時,抓取率只有 47%。這清晰地表明了在用對抗性智能體進行額外監督時比那些僅僅收集抓取數據的方法更為有效。

有趣的的是,6 千次對抗性樣本可以產生 52% 的抓取率(迭代 1 次),而 1 萬 6 千次額外的抓取樣本僅僅只會產生 47% 的抓取率。這很顯然地展示了在多機器人的情況下,通過對抗性設定訓練是更優的策略。

整體效果在抓取新型物體的境況下有顯著的提升:整體抓取成功率上升到 82%(沒有對抗訓練的情況下成功率僅為 68%)。更誇張的是,如果我們通過減小力的最大值和接觸摩擦來對抓取動作進行阻礙,對抗性訓練方法也可以達到 65% 的成功率(同等條件下沒有對抗訓練時僅為 47%)。

這個方法的一部分是通過選擇一種具有挑戰性的行為使對抗者變得實用。你可以通過觀察一個不受干擾的抓取機器人是怎樣失敗的來實施這種策略,然後針對這種失敗模式對對抗者進行編碼。在發生抓取混亂的情況時,「搖動」和「搶奪」往往是有效的,因為它們可以拿住物體但是不太穩定。所以那些學會怎樣打敗這些對抗者的機器人往往更會抓取。取決於想抓取什麼類型的物體和抓取到什麼位置,我們也可以設想出其他類型的有效對抗者。

論文:Supervision via Competition: Robot Adversaries for Learning Tasks(通過競爭進行監督:有助學習任務的機器人對抗者)

論文鏈接:https://arxiv.org/abs/1610.01685

CMU和谷歌聯手研製左右互搏的對抗性機器人

最近機器人科學界有一個範式轉移的趨勢,那就是用數據驅動學習(data-driven learning)的方法去進行規劃和控制。由於大量的經驗都需要訓練來產生,因此大多數方法都採用了一種自監督範式(self-supervised paradigm):即用感測器去感知成功或失敗。然而,在大多數情況下,這些感測器也不過是僅僅提供了「弱監督」(weak supervision)。在本實驗中,我們提出了一個對抗學習架構(adversarial learning framework)作為機器人的對抗者進行學習。為了打敗對抗者,原始機器人要學會更加穩健地處理任務,這樣一來整體性能將會得到改善。這個對抗性架構會迫使機器人去學習更好的抓取模式,從而戰勝對抗者。在沒有對抗者的情況下物體的抓取率是 68%,反之則可以達到 82%,這足以說明為機器人設置對抗者的實用性。我們還通過實驗證明了與多機器人協同作業相比,使用對抗性機器人可能是一種更好的學習方法。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

如何使用Swift在iOS 11中加入原生機器學習視覺模型
神經網路目標計數概述:F R-CNN實現當前最佳的目標計數
FB新研究:大批量SGD準確訓練ImageNet僅需1小時
如何用進化方法優化大規模圖像分類神經網路?

TAG:機器之心 |

您可能感興趣

雙持互搏不是夢 技術大牛打造單手操控的PS4手柄
新城控股的「左右互搏術」
水滴沈鵬的左右互搏術:向上加碼團隊建設,向下深耕C端服務
手機大廠的屏幕比拼,三星仍在左右互搏
紀念金庸!彩虹無人機全球首創一站雙控,堪比周伯通左右互搏神技
入選MIT2018十大突破性技術的AI版「雙手互搏」有多牛
奧斯卡的政治正確與左右互搏
邱志傑的創新方法論:讓傳統與當代「雙手互搏」
除了「左右互搏」,AI 又學會打「睡拳」了?
【聚焦】左右翼互搏!開姆尼茨大混戰,難民和極端主義的修羅場
交叉火力開啟左右互搏術 實力強悍參展參賽兩不誤
爐石PWN卡牌設計大賽S8E16:左右互搏
Hacking升級,AI互搏,你的安全系統還在坐以待斃么?
2大對手互搏,火箭喜迎「三角互懟」,衝擊西部前3迎來轉機!
雙手互搏,勝負已分
左右互搏之術?海外達人玩《街頭霸王》一人分飾兩角
郭靖創了一門武學被忽略,比左右互搏術更厲害,吊打黯然銷魂掌
老頑童一項隱藏的武功,比左右互搏和空明拳還厲害!
左暉的「左右互搏」逼得姚勁波「進退失踞」?
說一說周伯通的左右手互搏之術是如何自創的?