當前位置:
首頁 > 最新 > 斯坦福公布3D街景數據集:2500萬張圖像,8個城市模型

斯坦福公布3D街景數據集:2500萬張圖像,8個城市模型

近日,斯坦福大學的研究人員公布了一個數據集,其中包含帶有相機姿態的街景數據、8個城市的3D模型和拓展的元數據。這個數據集數據量龐大,街景數據集就包含2500萬張圖像和1.18億個匹配的圖像對。

數據集可用於學習6DOF相機姿態估計/視覺運動、圖像匹配及各種三維估計。比如下面的這個例子:

GIF/1K

為了得到這個數據集,斯坦福的研究人員開發了一個系統,整合來自谷歌街景圖像和地理元數據的城市間地理信息系統,這其中並不需要人工標註。

城市3D模型

這個數據集涵蓋了紐約、芝加哥、華盛頓、拉斯維加斯、佛羅倫薩、阿姆斯特丹、舊金山和巴黎市中心及周邊地區。研究人員正逐步放出這些城市的3D模型、街景圖片和元數據。模型是通過本身的地理標註和加工生成的生成的,下面是一些3D模型的示例快照。

8個城市中6個城市的覆蓋範圍如下:

數據集細節

數據集由2500萬谷歌街景圖像形成的1.18億數據對組成。研究人員在上述城市的特定區域收集圖像,根據城市的3D模型,對外立面密集採樣和射線追蹤,找到所有街景在無遮擋情況下相同的目標點的全景圖。

研究人員掌握了每張圖像街景相機的地理位置和目標點的位置。得益於谷歌街景的360度全景圖,研究人員計算出鏡頭方向和俯仰角度,捕捉到一個640x640的全景圖像,顯示了中心各處的目標點。

如果兩張圖像顯示同一個物理目標點,則配成一對。通常來說,每個目標點通常被2至7個對應的街景圖像觀察到。一個圖像由一個640x640的jpg和命名相同的txt給出,其中包含元數據,例如相機和目標點的地理位置,距離目標的距離或相機角度。因為圖像的文件名是街道視圖位置和目標點編碼的唯一ID,因此能夠容易地識別出相應圖像。最後,圖像被壓縮成多個zip文件。

相關論文

這個數據集的相關研究還得追溯到去年。

在2016年歐洲計算機視覺會議(ECCV 2016)上,斯坦福大學的研究人員發表了一篇名為《GENERIC 3D REPRESENTATION VIA POSE ESTIMATION AND MATCHING》論文。

在這篇論文中,研究人員通過解決一組基本的代理3D任務學習通用的3D表示,即以對象為中心的相機姿態估計和寬基線特徵匹配。

經過一年多的探索,迄今為止,研究人員已經開發出獨立的語義和3D表示,他們在項目網頁上表示,研究整合它們的具體技術是一個值得研究的未來方向。

資料下載

GitHub數據集地址:

https://github.com/amir32002/3D_Street_View

斯坦福官方項目介紹:

論文地址:

http://cvgl.stanford.edu/papers/zamir_eccv16.pdf

城市3D街景示例:

https://github.com/amir32002/3D_Street_View/tree/master/3D_cities_snapshots

祝你在3D世界玩得開心~

— 完 —

加入社群

此外,量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募,面向正在從事相關領域的工程師及研究人員。

誠摯招聘

量子位 QbitAI

?"?" ? 追蹤AI技術和產品新動態


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 輕芒 的精彩文章:

從情侶夢幻之地到隱世富豪小島,我把夏威夷最有故事的酒店睡了一遍
數據科學相關速查表合集下載
斯坦福發布3D街景數據集:8個3D城市模型+2500萬圖像+1.18億圖像配對
這一次,我要染一個奶奶灰
時髦精都有一雙紅靴子!

TAG:輕芒 |