資源｜伯克利發布BDD100K：目前最大規模開放駕駛視頻數據集

新聞 06-01

近日，UC Berkeley 發布了迄今為止規模最大、最多樣化的開放駕駛視頻數據集——BDD100K。該數據集共包含 10 萬個視頻，BAIR 研究者在視頻上採樣關鍵幀，並為這些關鍵幀提供注釋。此外，BAIR 還將在 CVPR 2018 自動駕駛 Workshop 上基於其數據舉辦三項挑戰賽。

大規模、多樣化、駕駛、視頻：四合一

自動駕駛將改變每個社區的生活。然而，最近的事件表明，在自動駕駛系統部署到現實世界中後，人造感知系統如何避免錯誤（甚至看似明顯的錯誤）還不得而知。BAIR 的計算機視覺研究者有興趣探索自動駕駛感知演算法的前沿，以使其更加安全。為了設計和測試潛在的演算法，研究者想利用真實駕駛平台收集數據中的所有信息。這種數據有四個主要特點：大規模、多樣化、在街上採集、具有時間信息。數據多樣性對於測試感知演算法的魯棒性尤為重要。但是，當前的開放數據集只能覆蓋上述屬性的一部分。因此，在 Nexar 的幫助下，BAIR 將發布 BDD100K 資料庫，這是迄今為止用於計算機視覺研究的最大、最多樣化的開放駕駛視頻數據集。該項目由伯克利 DeepDrive 產業聯盟組織和贊助，該聯盟研究計算機視覺和機器學習在汽車應用上的最新技術。

資源｜伯克利發布BDD100K：目前最大規模開放駕駛視頻數據集

隨機視頻子集的位置。

顧名思義，該數據集共包含 10 萬個視頻。每個視頻大約 40 秒長、720 p、30 fps，還附有手機記錄的 GPS/IMU 信息，以顯示大概的駕駛軌跡。這些視頻是從美國各地收集的，如上圖所示。資料庫涵蓋了不同的天氣條件，包括晴天、陰天和雨天，以及白天和晚上的不同時間。下表總結了與以前數據集的對比結果，表明 BAIR 的數據集更大、更多樣化。

資源｜伯克利發布BDD100K：目前最大規模開放駕駛視頻數據集

與其他街道場景數據集的對比結果。很難在數據集之間公平地比較 # images，但在此將其列出作為粗略參考。

正如 2017 年的 CVPR 論文（https://arxiv.org/abs/1612.01079）中提到的一樣，這些視頻和它們的軌跡對於模仿學習駕駛規則是有用的。為了促進研究者在 BDD100K 這一大規模數據集上進行計算機視覺研究，BAIR 還提供了視頻關鍵幀的基本注釋，詳見下一節。

數據和注釋下載地址：http://bdd-data.berkeley.edu

注釋

BAIR 研究者在每個視頻的第 10 秒採樣關鍵幀，並為這些關鍵幀提供注釋。它們被標記為幾個級別：圖像標記、道路對象邊界框、可駕駛區域、車道標記線和全幀實例分割。這些注釋有助於理解不同場景中數據和對象統計的多樣性。BAIR 將在另一篇博文中討論標註過程。有關注釋的更多信息，請參見 BAIR 的 arXiv 報告：https://arxiv.org/abs/1805.04687。

資源｜伯克利發布BDD100K：目前最大規模開放駕駛視頻數據集

注釋概覽

道路目標檢測

為了解對象的分布及其位置，BAIR 研究者為所有 10 萬個關鍵幀中常出現在道路上的對象標記了對象邊界框。下面的條形圖顯示對象計數。在注釋中還有其他處理統計數據的方法。例如，我們可以比較不同天氣條件下或不同場景中的對象數量。此圖還顯示了數據集中出現的各種對象集，以及數據集的規模——超過 100 萬輛汽車。這裡應該提醒讀者，這些是具有不同外觀和語境的不同對象。

資源｜伯克利發布BDD100K：目前最大規模開放駕駛視頻數據集

不同類型對象的數據。

該數據集也適用於研究某些特定的領域。例如，如果你對檢測和避開街道上的行人感興趣，可以考慮研究該數據集，因為它包含的行人實例比以前的專門數據集還要多，如下表所示：

資源｜伯克利發布BDD100K：目前最大規模開放駕駛視頻數據集

與其他行人數據集的訓練集規模對比結果。

車道線

車道線對於人類司機而言是重要的道路指示。它們也是駕駛方向的重要線索，以及在 GPS 或地圖沒有準確覆蓋全球時，幫助自動駕駛系統準確定位。BAIR 研究者根據車道線對車輛的指示作用將車道線分成兩種類型。垂直車道線（下圖紅色標記）表示車輛駕駛方向，平行車道線（下圖藍色標記）表示車輛在此車道要停下。BAIR 研究者還為車道線提供屬性，如實線 vs. 虛線、雙線 vs. 單線。

資源｜伯克利發布BDD100K：目前最大規模開放駕駛視頻數據集

如果你準備好試用自己的車道線預測演算法，那麼開始吧。下面是現有車道線數據集的對比結果：

資源｜伯克利發布BDD100K：目前最大規模開放駕駛視頻數據集

可駕駛區域

我們能否在某條路上駕駛取決於車道線、交通設備，以及與道路上其他對象的複雜互動。總之，理解哪塊區域適合駕駛非常重要。為了研究該問題，BAIR 提供了可駕駛區域的分割注釋，如下圖所示。BAIR 根據 ego vehicle 將可駕駛區域分割成兩個類別：直接可駕駛和替代可駕駛。直接可駕駛（標記為紅色）即 ego vehicle 具備道路優先權，可以在該區域駕駛。替代可駕駛（標記為藍色）即 ego vehicle 可在該區域駕駛，但是必須小心，因為這段路的優先權屬於其他車輛。

資源｜伯克利發布BDD100K：目前最大規模開放駕駛視頻數據集

全幀分割

研究者已經證明在 Cityscapes 數據集上，全幀實例分割可以大大促進密集預測和目標檢測方面的研究，而這二者是計算機視覺應用中的重要部分。由於 BAIR 的視頻是不同的領域，因此 BAIR 也提供實例分割注釋，以對比不同數據集上的域變換（domain shift）。獲取全像素級別的分割結果成本高，且耗費大量勞動。幸運的是，使用 BAIR 的標註工具後，標註成本可以減少 50%。最後，BAIR 給包含一萬張圖像的數據子集進行了全幀實例分割。標註集與 Cityscapes 數據集中的訓練注釋是兼容的，這樣便於研究兩個數據集之間的域變換。

資源｜伯克利發布BDD100K：目前最大規模開放駕駛視頻數據集

自動駕駛挑戰賽

BAIR 將在 CVPR 2018 自動駕駛 Workshop 上基於其數據舉辦三項挑戰賽：道路目標檢測、可駕駛區域預測和語義分割域適應。檢測任務要求演算法找出 BAIR 測試圖像上的所有目標對象。可駕駛區域預測要求分割出汽車可以駕駛的區域。域適應中的測試數據是從中國收集的，因此系統必須使在美國數據中訓練的模型在中國北京的擁擠街道上仍然能夠運行。查看工具包（https://github.com/ucbdrive/bdd-data），趕快參與吧！

未來工作展望

自動駕駛感知系統絕不僅僅關於單目視頻。它還可能包括全景視頻和立體視頻，以及其他類型的感知器，如 LiDAR 和雷達。BAIR 希望能在不久的未來提供和研究多模態感知器數據。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※CMU&谷歌大腦新型問答模型：僅卷積和自注意力，性能大大優於RNN
※阿里巴巴論文：基於交替方向法的循環神經網路多比特量化

TAG:機器之心 |