AI變身記：不光能有人的智能，還要像狗一樣「思考」

最新 04-17

譯者 | 林椿眄

編輯 | Just

【人工智慧頭條導讀】通常，我們的人工智慧系統都是以人的視角去構造的，這些系統已經用於自動駕駛、人臉識別、操作重型機器，甚至檢測疾病。那麼，我們可以從動物的角度構建一個智能系統嗎？比如讓 AI 去模擬狗的行為。

華盛頓大學與 Allen 人工智慧研究所的研究人員最新的論文公開了他們開發的一種深度學習系統，該系統可以訓練並模擬狗的行為特徵。研究人員表示訓練智能機器的目標是使其能夠充當一個智能視覺體的角色。不過，讓智能機器充當狗的角色這個想法是非常具有挑戰性的任務。

我們研究了如何直接構建一個視覺智能體（visually intelligent agent）。通常，計算機視覺技術專註於解決與視覺智能相關的各種子任務。但我們的研究不同於這種標準的計算機視覺方法。相反，我們嘗試直接構建一個視覺智能體，我們的模型將視覺信息作為輸入，並直接預測智能體在未來的行為。

此外，我們引入了 DECADE 數據集，這是一個以狗的視角所搜集的狗的行為數據集。利用這些數據，我們可以模擬狗的行為和動作規劃方式。在多種度量方法下，對於給定的視覺輸入，我們成功地構建了一個視覺智能體，它能夠準確預測並模擬狗的行為。不僅如此，與圖像分類任務學到的特徵表徵相比，我們的智能體學習到的特徵能夠編碼不同的信息，也可以推廣到其他領域。尤其需要指出的是，通過將這種狗的建模任務作為表示學習，我們在可行走區域預測和場景分類任務中取得非常卓越的結果。

為了訓練，研究人員使用了一個叫做 Kelp 的阿拉斯加雪橇犬，並在其腿部配備了 GoPro 相機，尾部和後備箱上配備六個慣性測量感測器，一個麥克風以及一個把這些數據綁在一起的 Arduino 開發板。研究人員在超過 50 個不同的地點，在長達數小時的時間內，記錄了 Kelp 的活動數據，如步行、追蹤、抓取，與其他狗互動以及跟蹤物體等。利用英偉達提供的 GeForce GTX 1080 GPU，TITAN X GPU 以及 cuDNN 加速的深度學習框架，研究人員用所獲得的視覺和感官信息來訓練神經網路。

在這裡，研究人員解決了三個問題：

像狗一樣行動：根據一系列先前看到的圖像,神經網路的目標是預測狗未來的運動軌跡；

像狗一樣規劃：目標是找到一系列動作，讓狗在給定的一對圖像的位置之間移動。

從狗身上學習：我們將學習的表現用於第三項任務（如可行走的表面評估（Walkable surface estimation），預測狗的可行走區域）。

這些任務需要一些相當複雜的數據：例如，就像真的狗一樣，我們的 AI 系統必須知道，當它需要從一個地點移動到另一地點的時候，可行走區域的位置有哪些。它不能在樹上或汽車上行走，也不能在沙發上行走（這也取決於房子）。因此，我們的模型也要學會這一點，它可以作為一個獨立的計算機視覺模型，在一張給定圖像中找出一個寵物（或一個有足機器人）所能夠到達的位置。下面我們將逐一介紹這三個任務所用到的模型結構。

這是用於模擬狗的行為的模型結構。這個模型是一個編碼-解碼器結構的神經網路，編碼器接收成對的圖片流作為輸入，而解碼器輸出每個節點未來的行動決策。在編碼器和解碼器之間有一個全連接層（FC），它能夠更好地捕捉區域內的行為變化。在解碼器中，每個時步輸出的行動概率將被用於下一個時步（timestep）。我們在兩個 ResNet 中共享模型的權重參數。