當前位置:
首頁 > 知識 > 增強學習對於機器人運動控制的六字真言

增強學習對於機器人運動控制的六字真言

AI 研習社按:本文來自英特爾中國研究院,雷鋒網 AI 研習社已獲授權。

五月末的人機大戰讓世人大開眼界,頂級圍棋手柯潔落下的眼淚、微博的嘆息,都是對AlphaGo這顆強勁「大腦」的讚歎。然而,讓人工智慧走出娛樂和遊戲,真正進入人類的實際生活,通過實現機器人的自主運動來為人類提供服務同樣是我們長久以來的夢想。

但是,機器人的自主運動該如何實現?隨著深度學習部分解決了機器人的視聽識別問題,增強學習技術有望成為突破機器人自主運動難題的一把利劍。

增強學習實際上是「試錯法」這一在生活中廣泛使用的技巧的理論抽象,即為了達到理想目標而不斷試驗,並在實際嘗試中修正方案,從而逐步提高成功率。

比如在圍棋程序中,盤面情況稱為「狀態」,落子選擇稱為「行為」;根據狀態選擇行為的方法就稱為「策略」,根據當前狀態和行為對輸贏的預測就稱為「價值」,而當前一步的輸贏結果稱為「回報」。增強學習就是修正策略從而實現價值最大化的過程。

在2017年《麻省理工科技評論》全球十大突破性技術榜單中,增強學習技術高居榜首,並已在棋類運動和電腦遊戲領域獲得突破性進展,如AlphaGo使用增強學習技術擊敗世界圍棋冠軍柯潔,基於增強學習的電腦程序在一系列Atari遊戲中超過人類水平等。

那麼,針對機器人的運動控制問題,增強學習技術的運用存在哪些難點?我們又可以採取哪些有效的解決方法?今天,我們為大家奉上六字真言:

三個難點

與棋類運動和電腦遊戲不同,在機器人運動控制領域運用增強學習方法主要有以下三個難點:

」,即狀態和行為維數高。比如讓機器人為我們端杯水,需要增強學習演算法提供如下的最優運動控制策略:憑藉具有深度、魚眼和普通圖像拍攝功能的實感TM攝像頭獲得圖像,分析出人和杯子的方向、距離、姿態以及人的表情,並通過聽覺獲得人發出命令的方位和急促程度,從而控制機器人(機械腿或底盤)走到人的面前;藉助機器人手獲得重量、溫度、滑動信息,依據人手的方位控制機器人手臂和手指各關節的實時角度。這個過程所涉及的狀態和行為的維數以百萬計,而對每個狀態行為進行價值(如人的滿意度)計算也非常困難。

機器人模型

」,即狀態信息誤差大。棋類運動中的狀態(盤面)信息完全準確,但機器人所面對的狀態信息,大多存在明顯誤差。如在遞水這個場景中,我們所獲得的人和杯子的方向、距離、姿態以及人的表情、動作信息都存在誤差。誤差可能是由機械振動或機器人運動等因素造成,也可能是因為感測器精度不夠高,存在雜訊,亦或是由於演算法不夠精確。這些誤差都增加了增強學習的難度。

」,即樣本量少。不同於人臉等圖像識別任務中動輒百萬的訓練樣本,機器人增強學習可獲得的樣本數量少、成本高,主要原因是:機器人在運動過程中可能出現疲勞和損壞,還可能會對目標物或環境造成破壞;機器人的參數在運動中會發生改變;機器人運動需要一定的時間;很多機器人學習任務需要人的參與配合(如上述遞水場景中需要有人接水)。這些都使得獲得大量訓練樣本十分困難。

三種解決方法

面對上述困難,我們難道就無計可施了嗎?當然不是,科學家們提出了一整套解決問題的思路,主要有如下三點:

一個融合了「虛、先、近」三種策略的機器人運動控制增強學習框架

」,即採用虛實結合的技術。我們可以通過程序虛擬出環境讓機器人進行預訓練,以克服實際採樣過程中可能出現的種種難題。虛擬軟體不但能模擬機器人的完整運動特性,如有幾個關節、每個關節能如何運動等,還能模擬機器人和環境作用的物理模型,如重力、壓力、摩擦力等。機器人可以在虛擬環境中先進行增強學習的訓練,直到訓練基本成功再在實際環境中進一步學習。虛實結合的增強學習主要面臨兩個挑戰。一個是如何保證虛擬環境中的學習結果在實際中仍然有效。面對這一難題,我們可以對虛擬環境與實際環境中的差別進行隨機性的建模,在虛擬環境中訓練時引入一些雜訊。另一個挑戰是如何實時獲得外部環境和目標的虛擬模型,最新的深度攝像頭可以幫助我們解決這個問題。

」,即先驗知識。引入先驗知識可以大幅降低增強學習優化的難度。先驗知識有很多種,但對於機器人而言,獲得先驗知識比較有效的途徑是「學徒學習」,即讓機器人模仿人的示教動作,再在應用中通過增強學習優化。由於機器人運動所面臨的狀態維數極高,通過手工輸入知識非常困難,而人做示範則較為方便,還降低了先驗知識引入的門檻,不太了解機器人技術的人也可以進行。示教主要有三類方法:一是由人拖動機器手做動作;二是使用專門的運動捕捉設備獲得人的動作;三是直接使用深度攝像頭獲取人的動作。從長遠看,第三種方法會成為以後的發展趨勢。

」,即近似。由於機器人運動控制的狀態維數高、樣本少且存在誤差,所以將維數高的狀態近似為不丟失主要信息又能增加可訓練性的函數就成為一項重要的選擇。使用近似方法提高增強學習演算法性能的一大熱點就是將深度學習技術與增強學習相結合所形成的深度增強學習技術,此技術直接將機器人的狀態(如感測器和關節狀態輸入)通過高層的卷積神經網路映射為機器人的動作輸出,大大提高了機器人基於增強學習進行運動控制的性能。該技術在近兩年來取得了突破性的進展。

上述解決方法為增強學習在機器人動作控制領域的應用打開了大門,成為機器人研究的重要方向之一,但目前還存在許多實際難題亟待解決。科研人員正在對深度增強學習、學徒學習(模仿學習)和虛實結合學習方面進行一系列探索。

點擊展開全文

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 唯物 的精彩文章:

英偉達深度學習學院 DLI 究竟什麼水平?
史上最詳盡的感知機教程:從原理到實踐
英偉達內訓的深度學習是什麼樣?AI 開發者有必要親身體驗
用卷積神經網路處理 「圖」 結構數據應該怎麼辦?這篇文章告訴你答案

TAG:唯物 |

您可能感興趣

線下培訓 以足式機器人為藍本,學習動力學、運動學和控制技術
機器學習之自適應增強
運用機器學習和智能演算法,這家公司可增強乳腺癌篩查的可靠性
機器人動力學參數辨識與控制專業培訓
一文覽盡協作機器人,水下機器人,倉儲機器人及工業外骨骼研究動態
機器人單關節的力矩控制
自動控制系統:機器是如何進化成機器人的?
高精度交叉導軌對自動化機器人的重要性
人工智慧之機器學習篇——強化學習
具有多種運動模式的小型軟體機器人
哈佛大學研發出可感知運動、壓力和溫度的3D列印柔性機器人
手術機器人發展升溫,產學研政合力攻堅
美國研究人員為柔性機器人研製出可模仿生物肌肉運動的柔性自愈裝置
機器學習帶來的運維進步
當前的深度學習框架不會改變機器學習的能力增長
人工智慧和機器學習加速醫療向數字化轉型
能隨意轉動六面體的機器人系統,讓機器人手臂更具人類靈活性
更高效的機器學習將顛覆AI現有的模式
讓機器學習如虎添翼:存儲廠商爭相利用GPU增強系統性能
人工智慧和機器學習帶來的巨變