技術分享|DeepMind提出新型神經網路架構,用無監督方法從視頻中提取關鍵點|論文
提取關鍵點此前被視為需要大量數據才能完成的工作,但DeepMind的一項最新研究可不這麼認為。
DeepMind的新模型Transporter從原始視頻幀中學習以物體為中心的抽象表示,並能用簡單的演算法生成控制策略和探索程序。
也就是說,用無監督的方法和寥寥數據,就能提取出關鍵點,在沒有獎勵的情況下,還能進行有效操控。
效果如下:
軟體工程師@AwokeKnowing表示,DeepMind最後還嚴謹地討論了研究的局限性,但這項在無監督、沒有硬工程特徵(hard-engineered features)環境下的研究,確實是一項開創性的研究。
新型Transporter架構
在論文Unsupervised Learning of Object Keypoints for Perception and Control中,研究人員提出了一種名為Transporter的新型神經網路架構,可跨各種常用的強化學習環境學習物體關鍵點的狀態。
Transporter的架構如下:
研究人員在論文中表示,這個模型通過利用物體的運動來發現關鍵點,將原視頻幀(xt)轉換成另一個目標幀(xt』)。
這個學習過程分為三個階段。
在訓練期間,空間特徵圖Φ(xt)和Φ(xt』 )以及關鍵點坐標Ψ(xt) 和Ψ(xt』) 利用卷積神經網路和斯坦福此前提出的PointNet進行幀的預測,再次過程中,關鍵點的坐標被轉換成高斯熱力圖(Gaussian heatmaps) HΨ(xt) 和HΨ(xt』)。
在transport期間,這個網路執行兩種操作:
一是原幀的特徵在HΨ(xt)和HΨ(xt』)中被設置成了0,二是在源目標圖像中的特徵位置HΨ(xt』)被替換成了HΨ(xt)。
在最後的改進階段,研究人員又完成了兩個任務,分別是在原位置繪製缺失的特徵,和清理目標位置附近的圖像。
研究人員將這些提取的關鍵點進行了可視化,並與T. Jakab和Y. Zhang等人此前的最先進關鍵點提取方法進行了效果對比:
T. Jakab等人研究:Unsupervised learning of object landmarks through conditional image generation.
地址:http://sina.lt/guuH
Y. Zhang等人研究:Unsupervised discovery of object landmarks as structural representations
地址:https://arxiv.org/abs/1804.04412
研究人員發現,Transporter學習了更多的空間對齊關鍵點,對不同數量、大小和運動的物體都有很強的魯棒性。
使用學習的關鍵點作為狀態輸入,可在幾種雅達利環境中實現比最先進的強化學習方法更好的策略,但只需要100k的環境交互。
DeepMind團隊
這項研究來自DeepMind的Tejas Kulkarni, Ankush Gupta, Catalin Ionescu, Sebastian Borgeaud, Malcolm Reynolds,Andrew Zisserman和Volodymyr Mnih。
一作Tejas Kulkarni目前是DeepMind的高級研究科學家,此前在MIT攻讀博士,主要研究視覺運動、深度強化學習代理、以及智能體的語言。
多篇論文被CVPR 17、NIPS 17、ICML 18等頂會收錄。
傳送門
Unsupervised Learning of Object Keypoints for Perception and Control
https://arxiv.org/abs/1906.11883
https://twitter.com/deepmindai/status/1145677732115898368?s=21
—END—
標星 置頂美亞柏科
一秒找到美美
※新德匯又一波榮譽收入囊中!這份榮譽想和你分享
※美亞柏科成立全資子公司美亞秦安 促進區域拓展
TAG:美亞柏科 |