斯坦福公布3D街景數據集:2500萬張圖像,8個城市模型
近日,斯坦福大學的研究人員公布了一個數據集,其中包含帶有相機姿態的街景數據、8個城市的3D模型和拓展的元數據。這個數據集數據量龐大,街景數據集就包含2500萬張圖像和1.18億個匹配的圖像對。
數據集可用於學習6DOF相機姿態估計/視覺運動、圖像匹配及各種三維估計。比如下面的這個例子:
GIF/1K
為了得到這個數據集,斯坦福的研究人員開發了一個系統,整合來自谷歌街景圖像和地理元數據的城市間地理信息系統,這其中並不需要人工標註。
城市3D模型
這個數據集涵蓋了紐約、芝加哥、華盛頓、拉斯維加斯、佛羅倫薩、阿姆斯特丹、舊金山和巴黎市中心及周邊地區。研究人員正逐步放出這些城市的3D模型、街景圖片和元數據。模型是通過本身的地理標註和加工生成的生成的,下面是一些3D模型的示例快照。
8個城市中6個城市的覆蓋範圍如下:
數據集細節
數據集由2500萬谷歌街景圖像形成的1.18億數據對組成。研究人員在上述城市的特定區域收集圖像,根據城市的3D模型,對外立面密集採樣和射線追蹤,找到所有街景在無遮擋情況下相同的目標點的全景圖。
研究人員掌握了每張圖像街景相機的地理位置和目標點的位置。得益於谷歌街景的360度全景圖,研究人員計算出鏡頭方向和俯仰角度,捕捉到一個640x640的全景圖像,顯示了中心各處的目標點。
如果兩張圖像顯示同一個物理目標點,則配成一對。通常來說,每個目標點通常被2至7個對應的街景圖像觀察到。一個圖像由一個640x640的jpg和命名相同的txt給出,其中包含元數據,例如相機和目標點的地理位置,距離目標的距離或相機角度。因為圖像的文件名是街道視圖位置和目標點編碼的唯一ID,因此能夠容易地識別出相應圖像。最後,圖像被壓縮成多個zip文件。
相關論文
這個數據集的相關研究還得追溯到去年。
在2016年歐洲計算機視覺會議(ECCV 2016)上,斯坦福大學的研究人員發表了一篇名為《GENERIC 3D REPRESENTATION VIA POSE ESTIMATION AND MATCHING》論文。
在這篇論文中,研究人員通過解決一組基本的代理3D任務學習通用的3D表示,即以對象為中心的相機姿態估計和寬基線特徵匹配。
經過一年多的探索,迄今為止,研究人員已經開發出獨立的語義和3D表示,他們在項目網頁上表示,研究整合它們的具體技術是一個值得研究的未來方向。
資料下載
GitHub數據集地址:
https://github.com/amir32002/3D_Street_View
斯坦福官方項目介紹:
論文地址:
http://cvgl.stanford.edu/papers/zamir_eccv16.pdf
城市3D街景示例:
https://github.com/amir32002/3D_Street_View/tree/master/3D_cities_snapshots
祝你在3D世界玩得開心~
— 完 —
加入社群
此外,量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募,面向正在從事相關領域的工程師及研究人員。
誠摯招聘
量子位 QbitAI
?"?" ? 追蹤AI技術和產品新動態


※從情侶夢幻之地到隱世富豪小島,我把夏威夷最有故事的酒店睡了一遍
※數據科學相關速查表合集下載
※斯坦福發布3D街景數據集:8個3D城市模型+2500萬圖像+1.18億圖像配對
※這一次,我要染一個奶奶灰
※時髦精都有一雙紅靴子!
TAG:輕芒 |