技術分享｜DeepMind提出新型神經網路架構，用無監督方法從視頻中提取關鍵點｜論文

最新 07-12

提取關鍵點此前被視為需要大量數據才能完成的工作，但DeepMind的一項最新研究可不這麼認為。

DeepMind的新模型Transporter從原始視頻幀中學習以物體為中心的抽象表示，並能用簡單的演算法生成控制策略和探索程序。

也就是說，用無監督的方法和寥寥數據，就能提取出關鍵點，在沒有獎勵的情況下，還能進行有效操控。

效果如下：

軟體工程師@AwokeKnowing表示，DeepMind最後還嚴謹地討論了研究的局限性，但這項在無監督、沒有硬工程特徵（hard-engineered features）環境下的研究，確實是一項開創性的研究。

新型Transporter架構

在論文Unsupervised Learning of Object Keypoints for Perception and Control中，研究人員提出了一種名為Transporter的新型神經網路架構，可跨各種常用的強化學習環境學習物體關鍵點的狀態。

Transporter的架構如下：

研究人員在論文中表示，這個模型通過利用物體的運動來發現關鍵點，將原視頻幀（xt）轉換成另一個目標幀（xt』）。

這個學習過程分為三個階段。

在訓練期間，空間特徵圖Φ(xt)和Φ(xt』 )以及關鍵點坐標Ψ(xt) 和Ψ(xt』) 利用卷積神經網路和斯坦福此前提出的PointNet進行幀的預測，再次過程中，關鍵點的坐標被轉換成高斯熱力圖（Gaussian heatmaps） HΨ(xt) 和HΨ(xt』)。

在transport期間，這個網路執行兩種操作：

一是原幀的特徵在HΨ(xt)和HΨ(xt』)中被設置成了0，二是在源目標圖像中的特徵位置HΨ(xt』)被替換成了HΨ(xt)。

在最後的改進階段，研究人員又完成了兩個任務，分別是在原位置繪製缺失的特徵，和清理目標位置附近的圖像。

研究人員將這些提取的關鍵點進行了可視化，並與T. Jakab和Y. Zhang等人此前的最先進關鍵點提取方法進行了效果對比：

T. Jakab等人研究：Unsupervised learning of object landmarks through conditional image generation.

地址：http://sina.lt/guuH

Y. Zhang等人研究:Unsupervised discovery of object landmarks as structural representations

地址：https://arxiv.org/abs/1804.04412

研究人員發現，Transporter學習了更多的空間對齊關鍵點，對不同數量、大小和運動的物體都有很強的魯棒性。

使用學習的關鍵點作為狀態輸入，可在幾種雅達利環境中實現比最先進的強化學習方法更好的策略，但只需要100k的環境交互。

DeepMind團隊

這項研究來自DeepMind的Tejas Kulkarni, Ankush Gupta, Catalin Ionescu, Sebastian Borgeaud, Malcolm Reynolds,Andrew Zisserman和Volodymyr Mnih。

一作Tejas Kulkarni目前是DeepMind的高級研究科學家，此前在MIT攻讀博士，主要研究視覺運動、深度強化學習代理、以及智能體的語言。

多篇論文被CVPR 17、NIPS 17、ICML 18等頂會收錄。

傳送門

Unsupervised Learning of Object Keypoints for Perception and Control

https://arxiv.org/abs/1906.11883

https://twitter.com/deepmindai/status/1145677732115898368?s=21

—END—

標星置頂美亞柏科

一秒找到美美

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 美亞柏科 的精彩文章: