斯坦福公布3D街景數據集：2500萬張圖像，8個城市模型

最新 10-17

近日，斯坦福大學的研究人員公布了一個數據集，其中包含帶有相機姿態的街景數據、8個城市的3D模型和拓展的元數據。這個數據集數據量龐大，街景數據集就包含2500萬張圖像和1.18億個匹配的圖像對。

數據集可用於學習6DOF相機姿態估計/視覺運動、圖像匹配及各種三維估計。比如下面的這個例子：

GIF/1K

為了得到這個數據集，斯坦福的研究人員開發了一個系統，整合來自谷歌街景圖像和地理元數據的城市間地理信息系統，這其中並不需要人工標註。

城市3D模型

這個數據集涵蓋了紐約、芝加哥、華盛頓、拉斯維加斯、佛羅倫薩、阿姆斯特丹、舊金山和巴黎市中心及周邊地區。研究人員正逐步放出這些城市的3D模型、街景圖片和元數據。模型是通過本身的地理標註和加工生成的生成的，下面是一些3D模型的示例快照。

8個城市中6個城市的覆蓋範圍如下：

數據集細節

數據集由2500萬谷歌街景圖像形成的1.18億數據對組成。研究人員在上述城市的特定區域收集圖像，根據城市的3D模型，對外立面密集採樣和射線追蹤，找到所有街景在無遮擋情況下相同的目標點的全景圖。

研究人員掌握了每張圖像街景相機的地理位置和目標點的位置。得益於谷歌街景的360度全景圖，研究人員計算出鏡頭方向和俯仰角度，捕捉到一個640x640的全景圖像，顯示了中心各處的目標點。

如果兩張圖像顯示同一個物理目標點，則配成一對。通常來說，每個目標點通常被2至7個對應的街景圖像觀察到。一個圖像由一個640x640的jpg和命名相同的txt給出，其中包含元數據，例如相機和目標點的地理位置，距離目標的距離或相機角度。因為圖像的文件名是街道視圖位置和目標點編碼的唯一ID，因此能夠容易地識別出相應圖像。最後，圖像被壓縮成多個zip文件。

相關論文

這個數據集的相關研究還得追溯到去年。

在2016年歐洲計算機視覺會議（ECCV 2016）上，斯坦福大學的研究人員發表了一篇名為《GENERIC 3D REPRESENTATION VIA POSE ESTIMATION AND MATCHING》論文。

在這篇論文中，研究人員通過解決一組基本的代理3D任務學習通用的3D表示，即以對象為中心的相機姿態估計和寬基線特徵匹配。

經過一年多的探索，迄今為止，研究人員已經開發出獨立的語義和3D表示，他們在項目網頁上表示，研究整合它們的具體技術是一個值得研究的未來方向。

資料下載

GitHub數據集地址：

https://github.com/amir32002/3D_Street_View

斯坦福官方項目介紹：

論文地址：

http://cvgl.stanford.edu/papers/zamir_eccv16.pdf

城市3D街景示例：