不用地圖如何導航?DeepMind提出新型雙路徑強化學習「智能體」架構
原文來源:deepmind、arXiv
作者:Piotr Mirowski、Matthew Koichi Grimes、Mateusz Malinowski、Karl Moritz Hermann、Keith Anderson、Denis Teplyashin、Karen Simonyan、Koray Kavukcuoglu、Andrew Zisserman、Raia Hadsell
「雷克世界」編譯:嗯~是阿童木呀、KABUDA、EVA
一直以來,導航都是一項重要的認知任務,它使人類和動物在一個複雜的世界裡,在沒有地圖的情況下,能夠穿越遙遠的距離。可以這樣說,能夠在非結構化環境中導航是智能生物的基本能力,因此這對於人工智慧的研究和開發具有根本性的作用。最近,DeepMind提出了一種全新的、雙路徑智能體結構,該結構採用端到端的強化學習進行訓練,可處理城市級規模的真實視覺導航任務。
在你童年生活中,你是如何學會對你所在的社區進行導航的?你是如何導航去你的朋友家、去學校或者去雜貨店的?可能沒有地圖,只要記住街道的視覺外觀,就可以沿著路轉彎。當你逐漸探索了你所在的社區之時,你變得更加自信了,掌握了自己的去向,並學習了新的、越來越複雜的路徑。你可能短暫地迷失過方向,但又因為地標的出現,或者甚至可能是通過看太陽找到一個即時指南針,從而再次找到了你的路線。
導航是一項重要的認知任務,它使人類和動物在一個複雜的世界裡,在沒有地圖的情況下,能夠穿越遙遠的距離。這樣的遠程導航可以同時支持自我定位(「我在這裡」)和目標表徵(「我要去那裡」)。
在《學習在不使用地圖的情況下在城市中進行導航》這篇論文中,我們呈現了一種交互的導航環境,它使用了來自谷歌街景 (Google Street View)的第一人稱視角照片,並將該環境進行遊戲化以訓練人工智慧。根據街景圖片的標準,人臉和車輛牌照都被模糊了且無法辨認。我們建立了一個基於神經網路的人工智慧體,它可以利用視覺信息(來自街景圖像的像素)來學習如何在多個城市中進行導航。請注意,這項研究是關於廣義的導航的,而不是駕駛;我們沒有使用交通信息,也沒有試圖對車輛控制進行建模。
我們的智能體在不訪問該環境地圖的情況下,在外觀上多樣化的環境中進行導航
當智能體到達目標目的地(例如,特定的一對緯度和經度坐標)時,它就會得到獎勵。它就像一個快遞員,有著無止境的交付任務,但它沒有地圖。隨著時間的推移,人工智慧體學會以這種方式跨越整個城市。我們還證明了,我們的智能體可以在多個城市中學習這項任務,然後魯棒性地適應一個新的城市。
在巴黎進行訓練的智能體的定格拍攝。這些圖像與城市的地圖疊加在一起,顯示出目標位置(紅色)以及智能體位置和視野(綠色)。注意,智能體並沒有看到地圖,只有目標位置的經緯度坐標。
學習在不需要構建地圖的情況下進行導航
我們背離了那種依賴於顯式測繪和探索的傳統方法(就像試圖將自己定位並同時繪製地圖的那種製圖師)。與此相反,我們的方法是學習人類過去常常使用的那種方法進行導航——沒有地圖、GPS定位或者其他的輔助手段,只使用視覺觀察。我們構建了一個神經網路智能體,它輸入從環境中觀察到的圖像,並預測在該環境中它應該採取的下一步行動。我們使用深度強化學習來對它進行端到端的訓練,類似於最近的一些關於學習如何在複雜的3D迷宮中進行導航的研究,以及在玩遊戲中使用引入了無監督輔助任務的強化學習的研究。與那些在小規模模擬迷宮環境中進行的研究不同,我們利用了城市規模的真實世界數據,包括複雜的十字路口、人行道、隧道,以及橫跨倫敦、巴黎和紐約的各種拓撲結構。此外,我們使用的方法還支持特定城市的學習和優化,以及泛化的、可遷移的導航行為。
可以遷移到新城市的模塊化神經網路架構
我們的智能體中的神經網路在由三部分組成:1)一個能夠處理圖像並提取視覺特徵的卷積網路;2)一個特定於地區的循環神經網路,它隱式任務是負責記憶環境以及學習「這裡」(智能體的當前位置)和「那裡」(目標的位置)的表徵;3) 不因地區改變的循環網路,它生產出智能體行為的導航策略。特定於地區的模塊被設計為可互換的,正如其名稱所示,這個模塊對於智能體所導航的每個城市來說都是獨一無二的,但視覺模塊和策略模塊是可以不因地區改變的。
將城市導航(CityNav)架構(a)、多城市導航(MultiCityNav)架構與每個城市的特定地區路徑(b)作比較,以及對將智能體調整到新城市時的訓練和遷移過程(c)作出說明。
就像在谷歌街景界面中一樣,智能體可以在適當的位置進行旋轉,或者在可能的情況下前進到下一個全景圖。與谷歌地圖和街景環境不同的是,該智能體沒有看到小箭頭、局部地圖或全局地圖,也沒有看到著名的小黃人(Pegman):它需要學習區分開放的道路和人行道。在現實世界中,目標目的地可能在幾公里之外,並需要智能體跨過數百幅全景圖才能到達目的地。
我們證明了,我們所提出的方法可以提供一種將知識遷移到新城市的機制。和人類一樣,當我們的智能體訪問一個新城市時,我們希望它必須學習一套新的地標,但不需要重新學習它的視覺表徵或它的行為(例如,沿著街道向前走,或者在十字路口轉彎)。因此,我們使用了多城市(MultiCity)架構,首先在許多城市進行了訓練,然後我們凍結了策略網路和視覺的卷積網路,並且在一個新城市中只有一條特定於地區的路徑。這種方法使智能體能夠獲得新的知識,而不會忘記它已經學過的知識,這與漸進式神經網路架構(progressive neural networks architecture.)類似。
在該研究中所使用的曼哈頓的五個區域
研究導航是研究和發展人工智慧的基礎,嘗試在人工智慧體中複製導航也能幫助科學家了解其生物學基礎。
論文簡述
可以這樣說,能夠在非結構化環境中導航是智能生物的基本能力,因此這對於人工智慧的研究和開發具有根本性的作用。遠程導航是一項複雜的認知任務,它依賴於開發一個空間的內部表徵,以可識別的地標和具有魯棒性的視覺處理為基礎,可同時支持連續的自我定位(「我在這裡」)和目標表示(「我將去那裡」)。基於最近進行的將深度強化學習應用於迷宮導航問題的研究,我們提出了一種可應用於城市規模的端到端深度強化學習方法。認識到成功的導航依賴於通用策略與特定於地區的知識的集成,我們提出了一種雙路徑體系架構,可以將特定地區的特徵封裝起來,同時仍然能夠遷移到多個城市。我們展示了一個互動式導航環境,它使用Google StreetView作為其照片內容和全球範圍性的覆蓋範圍,並且證明我們的學習方法使得智能體能夠學習在多個城市進行導航,並且能夠穿過可能在數公里之外的目標目的地。點擊鏈接可以觀看視頻,裡面概述了我們的研究,以及在不同城市環境和遷移任務中經過訓練的智能體,鏈接地址:https://goo.gl/ESUfho。
一直以來,關於導航這一主題吸引了各種研究學科和技術領域科學家們的關注,從希望破解網格代碼和位置細胞(place cells)的神經科學家角度來看,它一度成為研究的主題;同時對於希望構建可以到達特定目的地的移動機器人研究來說,它也是機器人研究的一個基本方面。大多數演算法都涉及在探索階段構建顯式映射,然後通過該表徵進行規劃和行動。在這項研究中,我們試圖通過提出一種新方法並展示其在大規模實際環境中的性能,從而挑戰端到端深度強化學習的導航極限。正如人類可以不依賴地圖、GPS定位或其他輔助工具而學習在城市中進行導航一樣,我們的目標是證明神經網路智能體可以僅通過使用視覺觀察便可橫穿整個城市。為了實現這一目標,我們設計了一個互動式環境,使用Google StreetView中的圖像和基本連接信息,並提出了一種可在環境中導航的雙路徑智能體體系結構(見下圖)。
我們的環境根據StreetView的實際場所構建的。該圖顯示了紐約市(時代廣場、中央公園)和倫敦(聖保羅大教堂)的不同景觀和相應的局部地圖。綠色圓錐表示智能體的位置和方向。
通過使用可以從任務獎勵中進行學習的深度強化學習方法(例如,導航到目的地),在某些領域內,學習直接通過視覺輸入進行導航已被證明是可能的。最近的研究已經證明,強化學習智能體可以學習對家庭場景(Zhu等人於2017年、Wu等人於2018年提出)、迷宮(Mirowski等人於2016年提出)和3D遊戲(例如Lample和Chaplot於2017年提出)進行導航。儘管取得了成功,但眾所周知,深度強化學習方法數據低效且對環境干擾異常敏感,並且在遊戲和模擬環境中的成功要遠遠高於其在實際環境中的應用。因此,它們不可以用於基於真實圖像的大規模視覺導航,從而它也是我們此次研究的主題。
我們的貢獻
本文的主要貢獻是提出了一種全新的、雙路徑智能體結構,該結構採用端到端的強化學習進行訓練,可處理城市級規模的真實視覺導航任務。我們提出的智能體展示了目標依賴性學習,這意味著策略和價值函數必須學會適應一系列作為輸入而給定的目標。此外,該方法具有一種循環神經結構,即支持特定語言環境的學習,也支持通用的、可遷移的導航行為。平衡這兩項能力是通過將循環神經路徑從智能體的通用導航策略中分離出來實現的。該路徑解決了兩點需求。首先,它接收並解釋了環境給出的當前目標。其次,其次,它封裝並記憶了單個城市地區的特徵和結構。因此,我們不使用地圖或外部存儲器,而是提出了具有兩條循環路徑的體系架構,這可以有效解決單個城市中具有挑戰性的導航任務,並僅通過訓練新的特定語言環境路徑即可遷移到新的城市或地區。
我們在一個新的強化學習交互環境中演示了所提出的智能體架構,該環境將現實世界的圖像作為智能體觀測,具有全球規模性和多樣性,以及聚於建立在Google StreetView之上的現實世界的基礎內容。在該環境中,我們研發了一項遍歷任務,要求智能體在倫敦、巴黎和紐約市內完成從一點到另一點的導航。我們任務的現實世界類比是,在一個給定的城市中,信使從一點A出發(該點是任意選定的),到指定的地點B,這一過程中沒有給出該區域的地圖,也沒有給出從A到B的路線,更沒有給出各點的具體方位。
導航是一項重要的認知任務,它使人類和動物能夠在沒有地圖的情況下穿越複雜的世界。我們提出了一種解決城市級現實環境中任務的深度強化學習導航方法,引入並分析了一項新的信使任務,同時,我們還提出了一個多城市神經網路智能體架構,演示了該如何將其遷移到新的新環境。
論文https://arxiv.org/pdf/1804.00168.pdf


※DeepMind提出圖形的深度生成式模型,可實現任意圖形的生成
※紐約大學聯合谷歌大腦提出「COG」數據集,可提高系統的「視覺推理」能力
TAG:雷克世界 |