DARPA 挑戰賽親歷者 Adrian Kaehler:自動駕駛時代的計算機視覺
雷鋒網 · 新智駕按:1 月 16 日,由雷鋒網 · 新智駕主辦的 GAIR 矽谷智能駕駛峰會在美國加州 Palo Alto 如期落地。18 位中美頂尖自動駕駛行業嘉賓到場, 7 場主題演講,2 大圓桌論壇,幾乎覆蓋了自動駕駛相關的各個話題。從今天起,我們將陸續放出嘉賓演講與論壇的精華部分,並將在後續的《GAIR矽谷智能駕駛峰會》特輯中送上整場峰會的全部內容。該系列的第一篇,來自 DARPA 挑戰賽親歷者、Silicon Valley Deep Learning Group CEO Adrian Kaehler。
作為自動駕駛領域絕對的老兵, Adrian Kaehler 的職業生涯介紹理所自然更長一些,他是 Giant.AI 和非營利組織 Silicon Valley Deep Learning Group 的創始人兼 CEO,擔任 Applied Minds 副總裁和機器人與機器學習負責人 8 年,並曾在伊朗和阿富汗戰爭期間為 JIEDDO 開發自動駕駛車輛。 2005 年,斯坦福大學的車隊奪得 DARPA 挑戰賽冠軍,Adrian 便在其中負責計算機視覺系統的開發。
Adrian 的演講基本以 DARPA 挑戰賽為間隔,前半部分,他主要介紹了自動駕駛技術發展的幾個重要節點與表現,包括 2005 年和 2007 年的 DARPA 挑戰賽,計算機視覺、深度神經網路的發展,之後,Adrian 則重點談了後 DARPA 時期自動駕駛的發展。
DARPA 之前的自動駕駛
關於自動駕駛的發展起源,Adrian 直接追溯到了 15 世紀。1478 年,達·芬奇(Leonardo Da Vinci)設計出了預編程發條馬車的草圖,如果研發成功,這輛車就可由一個大型螺旋型發條彈簧驅動,按照預定路線實現車輛的自動駕駛。
90 年代,斯坦福的人工智慧實驗車(Stanford Cart)率先使用人工智慧和機器視覺進行了陌生環境的導航。當時,激光雷達非常昂貴,並沒有在自動駕駛中發揮突出作用。多數研究者還是傾向於依靠攝像頭和計算機視覺方案完成車輛的自動駕駛,而自動駕駛的應用也主要集中在軍事領域。
轉折點出現在 DARPA 挑戰賽之後。
斯坦福大學的參賽車「Stanley」通過視覺進行道路識別,通過激光雷達檢測短距離內的道路,並以此預測前方更遠距離的路況。當時,一些其它車隊也在使用視覺方案,Oshkosh Defense 的「TerraMax 」就用了激光雷達和立體視覺進行障礙物識別。
2007 年 DARPA 城市挑戰賽中,車輛需要展示停車、路徑跟蹤和車輛交互等功能,車輛視覺變得更為重要,也更廣泛地出現在參賽車輛中。
我們都知道,成立於 1999 年的 Mobileye 主要聚焦於 ADAS 系統的視覺開發。他們的技術被用在了 DARPA 城市挑戰賽卡耐基梅隆大學的參賽車上,並且取得了非常好的成績。Mobileye 的早期系統可以提供車道線檢測、車道偏離預警、障礙物識別和車距檢測功能。2007 年,他們的產品已經用在很多商用車輛上,包括凱迪拉克的 STS 和 DTS。
自動駕駛的第二階段
2009 年,谷歌開始了自動駕駛研發,他們招攬了 DARPA 挑戰賽的很多重要參與者,包括斯坦福的大量人才,而後者不依賴視覺的傳統也在谷歌的自動駕駛汽車上得到了延續。不過,在很多任務執行中,攝像頭仍是不可或缺的因素。
現在,激光雷達已經成為自動駕駛技術的主流,不過,仍然可以看到很多玩家使用計算機視覺方案。這之中,高昂的成本是很多人對激光雷達望而卻步的重要原因。
高校的技術研究已經有了很大發展。DARPA 挑戰賽之後這些年,很多研究者整合比賽中的經驗,將其中的技術轉化成更堅實的理論基礎。在計算機視覺方面,類似 Dalal 和 Triggs 「HOG」行人檢測的重要演算法得到改善,新技術發展,車輛識別自行車或其它物體的可靠性也在增加。
重要的數據集也在發展。2012 年,KITTI 數據集發布,它涵蓋了 GPS RTK 慣性導航系統、立體攝像頭、激光雷達的探測數據。慣性導航系統和激光雷達可以建立一個地面實況數據集,評估視覺演算法的表現。專業的標註者則標定出重要物體(車輛、行人、自行車等)的邊界框和目標物等級。這些技術都是發展立體系統、光流、三維重構、三維物體檢測、三維目標追蹤的重要基礎。
KITTI 這類數據集的出現推動新演算法更快發展,幫助其進行更高效的比對,現在很多從業者就在努力解決這方面的問題。
2012 年,「AlexNet」在一項重要的計算機視覺基準任務上戰勝了其它方法,讓神經網路重新回歸自動駕駛的版圖。並且,深度神經網路幾乎打開了解決各種問題的大門,在依賴計算機視覺的年代,這些問題都被認為在幾十年之內很難找到解決方案。同時,視覺方案的經濟性也開始得到前所未有的重視。一個攝像頭最低只要 1 美元,但一個 64 線的激光雷達卻要 7 萬美金。
計算機視覺和機器學習迅速探索著這項技術的邊界,並不斷得到新的突破,很多原本認為應該在很多年後才能取得的成果開始定期出現。
下一個主題是 SegNet 分割和 Remapping。原始的 SegNet 主要被用於分割,深度神經網路從場景中學習,之後再對其進行解釋。
YOLO 演算法目標識別也是非常重要的技術,可以識別圖像中的目標,在分類的同時預測邊界框。它應用了深度神經網路與傳統的概率統計技術,最新版本 YOLO-9k 可以識別 9000 種不同目標物。
視覺的探索沒有終點。深度神經網路為很多問題提供了解決方法,Mask R-CNN 的先進演算法也在提升,它將對象查找與每個對象的像素標記結合在一起,還可用於人體姿態的評估。
最後,Adrian 表示,雖然自動駕駛的問題很難在短時間內全部克服,但許多重要環節已經得到很好的解決,而這些已足夠支撐這項技術投入市場。在其一直關注的計算機視覺方面,他也給出了自己的多項建議,這些建議,以及Adrian 的 40 分鐘演講全文,雷鋒網 · 新智駕都將在後續的《GAIR矽谷智能駕駛峰會》特輯中完整送上。


TAG:雷鋒網 |