用航拍和地面觀測數據，谷歌DeepMind AI可在陌生區域導航

新聞 06-18

【獵雲網（微信號：ilieyun）】6月18日報道（編譯：檸萌）

如果有足夠的訓練數據，街道導航人工智慧是否能夠了解之前沒看過的街區？這就是谷歌母公司Alphabet旗下DeepMind的科學家們在預印本伺服器Arxiv.org上發表的一篇新論文《街道導航的跨視圖策略學習》中所做的研究。在論文中，他們描述了一個過程：藉助自上向下的視覺信息，將一個經過地面視圖語料庫訓練的人工智慧策略轉移到城市的目標區域。他們表示，這種方法可以產生更好的泛化效果。

該論文的合著者說，這項研究的靈感來自於他們的觀察結果，那就是人類可以通過閱讀地圖快速適應一個新城市。

「對一個陌生環境進行視覺觀察，並從中獲得導航的能力是智能代理的核心組件，也是一個持續的挑戰。到目前為止，如果街道導航代理沒有經過廣泛的再訓練，就無法轉移到沒看過的區域，而且依賴於模擬並不是一個可擴展的解決方案，」他們寫道。「我們的核心理念是將地面視角與空中視角結合起來，學習一種可以在不同視角之間轉換的聯合策略。」

研究人員首先收集了區域航拍地圖，並根據相應的地理坐標與街道水平的視圖進行配對。接下來，他們開始了一項由三部分組成的遷移學習任務，第一步是對源區域數據進行訓練，第二步使用空中視圖目標區域觀測進行適應，最後一步是使用地面視圖觀測向目標區域進行遷移。

該團隊的機器學習系統由三個模塊組成，包括負責視覺感知的卷積模塊、捕捉特定位置特徵的長短時記憶（LSTM）模塊和生成動作分布的策略遞歸神經模塊。該系統部署在StreetAir上，這是一個建立在StreetLearn之上的多視角戶外街道環境。StreetLearn是一個互動的第一人稱集合，收集了來自谷歌街景和谷歌地圖的全景街景照片。在StreetAir和StreetLearn中，航拍圖片覆蓋紐約（紐約市中心和紐約中城）和匹茲堡（阿勒格尼和卡內基梅隆大學的校園）。航拍圖像的排列方式是這樣的：在每個經緯度坐標上，返回一個84x84的航拍圖像，其大小與以該位置為中心的地面視圖圖像相同。

人工智慧系統一旦接受訓練，就會學習如何定位自己，以及如何在給定目標目的地經緯度坐標的全景圖中導航。每邊2-5公里範圍內的全景圖間隔約10米，AI導航代理每轉一圈可以有五種動作：向前移動，向左或向右轉22.5度，向左或向右轉67.5度。當到達距離目標100至200米的地方時，這些代理會得到獎勵，以加強那些能夠快速準確穿越目標的行為。

在實驗中，利用航拍圖像來適應新環境的代理在達到1億步時獲得了190個獎勵指標，在2億步時獲得了280個獎勵指標，這兩種都明顯高於只使用地面視圖數據的代理（在1億步時獎勵50個指標，在2億步時獎勵200個)。研究人員表示，這表明他們的方法顯著提高了代理獲取目標城市區域信息的能力。

研究小組寫道：「我們的研究結果表明，與單視圖（地面視圖）代理相比，我們提出的方法將代理轉移到了未見過的區域，這些區域具有更高的零達標獎勵（在空載的地面視圖環境中不進行訓練的轉移）和更好的整體性能（在轉移過程中不斷訓練）。」

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 獵雲網 的精彩文章:

※昕瑞再生獲中科創星領投千萬元天使輪投資，致力再生新葯研發
※馳偉電器再懟拼多多：比縱容假貨更無恥的是迫害和謊言

TAG:獵雲網 |