谷歌大腦提出TCN,能讓機器人邊看視頻邊模仿
?谷歌大腦Time-Contrastive Networks(TCN)論文解讀視頻
翻譯 | Laura 校對 | 吳璇 整理 | 凡江
雷鋒網按:在「Time-Contrastive Networks: Self-Supervised Learning from Multi-View Observation」這篇論文中,谷歌的研究者提出了一種從觀察中學習世界的新方法。雷鋒網本期譯制視頻多角度展示了機器人僅僅通過觀看視頻,就能在無人監督的情況下,模擬視頻動作的全過程。
除了視頻演示之外,谷歌大腦並未對機器人系統提供監督學習。他們將這種方法運用於各種不同的任務,以此來訓練真實和虛擬機器人。例如,倒水任務,放碟任務,和姿勢模仿任務。
第一步
通過視頻的分解鏡頭來學習,將時間作為監督信號,發現視頻的不同屬性。這組嵌入向量經由一組非結構化和未標記的視頻訓練,裡面含有和任務相關的有效動作,也有一些隨機行為,來體現真實世界中的各種可能狀態。
模型使用triplet loss誤差函數,基於同一幀的多視角觀察數據來訓練多視角下同時出現的幀,在嵌入空間中互相關聯。當然也可以考慮一個時間對比模型,只根據單一視角來訓練。這一次,有效幀在錨點的一定範圍內隨機選定,根據有效範圍計算邊際範圍。無效範圍是在邊際範圍外隨機選定。模型和之前一樣進行訓練。
第二步
通過強化學習來學習規則。基於TCN嵌入,根據第三方的真人示範來構造獎勵函數。機械臂起初嘗試一些隨機動作,然後學會反覆進行這些動作,就可以產生最高獎勵的控制步驟,最後達成重現視頻任務的效果。
模型在僅僅經歷了9次迭代後就成功收斂,大約相當於現實世界15分鐘的訓練。同樣地,在移碟任務中,機器人最初嘗試隨機運動,然後學會成功拿起和移動一個盤子。
雷鋒網提供論文原址:https://sermanet.github.io/tcn/
雷鋒網推薦相關閱讀:看一遍人類動作就能模仿,能理解語義的谷歌機器人登上無監督學習的新高度


※AI 賦能 AR 眼鏡,亮亮視野是怎麼做的?
※2017區塊鏈十大人物(下):「籍籍無名」的第一名
TAG:雷鋒網 |