DeepMind論文三連發：如何在模擬環境中生成靈活行為

新聞 07-11

選自DeepMind

機器之心編譯

參與：smith、黃小天、路雪

一隻猴子在樹林之間敏捷而靈活地跳躍穿梭，或者一名足球運動員快速帶球過人、勁射得分，這些表現皆令人驚嘆。掌握這種精密複雜的運動控制是物理智能（physical intelligence）成熟的標誌，同時也是人工智慧研究中的關鍵一環。

真正的運動智能需要學習控制和協調身體的靈活性從而完成複雜環境之中的任務。控制物理模擬類人身體的嘗試來自多個領域，包括計算機動畫和生物力學（biomechanics）。存在一種使用手工對象（有時帶有動作捕捉數據）生成特定行為的趨勢。然而，這可能需要相當多的工程學努力，且會產生受限的行為，或難以泛化到其他新任務的行為。

在這三篇論文中（論文摘要見後文），我們尋找了產生靈活和自然行為的新方法，它們可被再利用，解決新任務。

論文一：富環境中移動行為的出現

對於一些人工智慧問題，比如玩 Atari 或下圍棋，其目標易於定義，即獲勝。但是你如何描述定義一個後空翻動作，或者跳躍。當教授人工系統學習運動技能時，精確描述複雜行為的困難是普遍存在的。在這一工作中，僅通過使用高水平的對象（比如向前移動而不摔倒），我們探索了如何通過身體與環境的交互從頭創建精密的行為。尤其地，我們使帶有不同模擬身體的智能體穿過不同的地形（這需要跳躍、轉向、蹲伏），從而完成其訓練。結果表明智能體在沒有特殊指示的情況下發展出了複雜技能，這一方法可被應用於訓練系統中多個不同的模擬身體。下面的動圖展示了該技術如何帶來高質量動作和持久力。

DeepMind論文三連發：如何在模擬環境中生成靈活行為

一個模擬的「平面」行走者（"planar" walker）反覆嘗試翻過一堵牆。

DeepMind論文三連發：如何在模擬環境中生成靈活行為

一個模擬的「螞蟻」行走者（"ant" walker）學習在木板間進行準確跳躍的動作。

論文二：通過對抗式模仿從動態捕捉中學習人類行為

上文提到的突發行為極具魯棒性，但是由於這些動作必須從頭開始，它們往往與人類動作並不相似。在第二篇論文中，我們展示了如何訓練一個策略網路（policy network），它可以模仿人類行為的動態捕捉數據，以對行走、起立、跑步、轉彎等特定動作進行預學習。一旦輸出的動作更接近人類，我們就可以調整並重新利用這些動作來解決其他任務，如爬樓梯、在密封走廊內行走等。

此處可查看下列動圖（https://youtu.be/hx_bgoTF7bs）。

DeepMind論文三連發：如何在模擬環境中生成靈活行為

類人步行者生成與人類相似的行走行為。

DeepMind論文三連發：如何在模擬環境中生成靈活行為

模擬類人步行者摔倒以後成功地站了起來。

論文三：多行為的魯棒性模仿

第三篇論文提出了一個神經網路結構，它基於最新的生成模型，這種結構能夠學習不同行為之間的關係，並模仿一些特定動作。訓練之後，我們的系統可以對一個被觀察的單一動作進行編碼，並且在其示範的基礎上創建一個全新的動作。它也可以在不同種類的行為間進行切換，即便之前從來沒有見過它們之間的轉換，例如行走方式之間的轉變。

DeepMind論文三連發：如何在模擬環境中生成靈活行為

左端和中間的這兩個模型展示了兩個示範行為。右邊的智能體模型根據這些行為生成了一個全新的轉化（transition）。

DeepMind論文三連發：如何在模擬環境中生成靈活行為

左邊的模型，平面行走者（planar walker）演示了一個特定的行走方式。右邊的模型中，我們的智能體使用一種單一的策略網路（policy network）來模仿此種行走方式。

靈活且適應性地控制模擬體是人工智慧相關研究的一個關鍵因素。我們的工作旨在開發一種靈活的系統，可以對相關技能進行學習和自適應，以解決運動控制問題，在減少所需的手動工程量的同時完成目標。未來的工作可能會把這些方法延伸到更複雜的情況下，從而能夠對更大範圍的行為動作進行協調。

論文一：富環境中移動行為的出現（Emergence of Locomotion Behaviours in Rich Environments）

DeepMind論文三連發：如何在模擬環境中生成靈活行為

論文地址：https://arxiv.org/abs/1707.02286

摘要：強化學習範式原則上允許從簡單的獎勵信號中直接學習複雜行為。然而實際上，小心地手動設計獎勵函數以鼓勵一個特定方案，或者從演示數據中獲取是慣常情況。這篇論文探索了富環境如何幫助提升複雜行為的學習。尤其是，我們在不同的環境語境中訓練智能體，並發現這鼓勵了在一系列任務中表現良好的魯棒行為的出現。我們為移動演示了這一原則——已知的行為是出於其對獎勵選擇的敏感性。通過使用基於前向進程的一個簡單的獎勵函數，我們在一系列不同的充滿挑戰的地形和障礙中訓練若干個模擬身體。通過一個策略梯度強化學習的全新可擴展變體，我們的智能體學習奔跑、跳躍、蹲伏和轉向，而無需來自環境的明確獎勵指示。這一學習性行為的亮點的可視化描述可參見$href{this https URL (https://goo.gl/8rTx2F)}{video}$。

論文二：通過對抗式模仿學習利用動態捕捉學習人類行為（Learning human behaviors from motion capture by adversarial imitation）

DeepMind論文三連發：如何在模擬環境中生成靈活行為

論文地址：https://arxiv.org/abs/1707.02201

摘要：深度強化學習領域的快速發展增加了為高維類人體訓練控制器的可行性。然而，強化學習僅具備簡單的獎勵函數，使用這種方法生成的動作往往非常僵硬，且不像人類動作。我們將在本論文中論述如何使用生成對抗模仿學習（generative adversarial imitation learning）訓練通用神經網路策略，從而根據有限的示例生成與人類相似的動作模式，這些示例僅包括部分觀察到的狀態特徵，不包含具體動作，甚至它們的發出體具備不同、未知的物理參數。我們使用該方法，利用動態捕捉數據建立多個子技能策略網路（sub-skill policy），並證明這些策略網路可重複利用，以解決來自更高級別控制器的任務。

論文三：多行為的魯棒性模擬（Robust Imitation of Diverse Behaviors）

DeepMind論文三連發：如何在模擬環境中生成靈活行為

論文地址：https://deepmind.com/documents/95/diverse_arxiv.pdf

摘要：深度生成模型最近已經在運動控制的模仿性學習方面展現示出了很大的潛力。在給定足夠數據的情況下，即使是監督方法也可以進行一次性模擬學習（one-shot imitation learning）；然而，當智能體軌跡與示例偏離時，它們很容易受到連鎖故障的困擾。與純監督方法相比較，生成對抗模仿學習（GAIL）可以從更少的示例中進行更魯棒的控制學習，但是從根本上來講它需要進行模式搜索，並且難以訓練。在本論文中，我們展示了如何將這兩種方法的有利方面進行結合。我們的模型基礎是一種新型的用於示例軌跡的變數自編碼器，可以對語義策略嵌入進行學習。我們展示了這些嵌入式可以在 9 DoF Jaco 機械臂上被學習，然後順利地內插進一個預期動作的結果平滑插值（resulting smooth interpolation）。利用策略表徵，我們開發了一種新版本的 GAIL（1）比純監督式調節器更具有魯棒性，尤其是在示例較少的情況下，（2）避免了模式崩潰（mode collapse），當 GAIL 依據其自身的時候就不再捕捉更多不同的行為。我們展示了我們的方法可以從一個 2D 二足模型和一個 MuJoCo 物理環境中的 62 DoF 3D 類人模型的相關示範中對不同的步態進行學習。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※雲CPU上的TensorFlow基準測試：優於雲GPU
※雲CPU上的TensorFlow基準測試：優於雲GPU的深度學習

TAG:機器之心 |

您可能感興趣