當前位置:
首頁 > 知識 > CV 界學術明星肖建雄創業了,他想讓自動駕駛像電腦一樣普及 專訪

CV 界學術明星肖建雄創業了,他想讓自動駕駛像電腦一樣普及 專訪

撰文 | 彭君韜( Tony )

編輯 | 劉燕

從副教授到企業家,肖建雄對新身份適應得很快。

33 歲的肖建雄以企業家身份入選今年 MIT Tech Review —— 35 Innovators Under 35 ,這是由美國科技媒體 MIT Tech Review(麻省理工大學科技評論,創辦於 1899 年)自 1998 年創立的一項年度科技人物評選,旨在表彰全球 35 歲以內最傑出的 35 位創新人士。

相比於其他入選者,例如美國一流轉基因公司 Caribou Biosciences 創始人 Rachel Haurwitz ,亦或是市值超過 30 億美元的柔宇科技創始人劉自鴻,肖建雄還是個商界新人,2016 年 10 月,他正式創辦了研究自動駕駛技術的企業 AutoX。

今年 2 月,在一場由丹華資本和斯坦福華人創業者協會主辦的斯坦福 AI 活動中,肖建雄介紹了他的自動駕駛公司 AutoX。

在隨後的半年時間裡,AutoX 獲得了加州自動駕駛牌照,其無人車已經能在矽谷的車水馬龍間穿梭自如。在今年三月披露的首款測試視頻中,AutoX 摒棄了市面上的主流感測設備,僅依靠低成本的攝像頭,實現了無人車在不同天氣情況下的路面行駛。

這也是 MIT Tech Review 看好肖建雄的重要原因。其科技主編 Will Knight 認識肖建雄已久,他認為:「肖建雄希望將無人車變得和計算機一樣普及」。

在成為企業家之前,肖建雄擁有璀璨的學術生涯―― 2012 年世界頂尖計算機視覺大會 ECCV 最佳學生論文獎獲得者;2012 年 Google Research 最佳論文獎獲得者;普林斯頓計算機視覺和機器人實驗室創始人;兩度獲得 Google Faculty Awards ;美國國家自然基金委員會研究獎……

不過,入選 35 Innovators Under 35 對肖建雄有著不同的意義,「這是我第一次在商業上得到認可。」

拓荒三維深度學習

肖建雄熱愛計算機科學,聊到人工智慧( AI )時,他整個人都興奮了起來,「人類能造車、造機械,什麼都有,但最缺智能化,AI 是很神奇的。」

同時,他又是一個很直觀、喜歡視覺的人。個人喜好引領他在十多年前就讀本科期間選擇了計算機視覺――一種數學和工程學的結合體。肖建雄在讀博士之前就讀於香港科技大學,學習三維視覺重建,師從該校計算機科學與工程學的終生教授權龍,他是三維視覺的學術權威。

在港科大分別完成本科和碩士學位後,肖建雄進入麻省理工大學(MIT)。他在 2012 年獲得的 ECCV 最佳學生論文獎,是在谷歌實習期間的作品《重建世界上的博物館》(Reconstruct the world』s museum)。這是一篇有關室內場景重現的經典論文――用 Google 街景相機,在博物館內部拍照,繼而重現博物館的內部三維構造。

在 MIT 的 4 年,肖建雄已經開始琢磨如何將深度學習和三維視覺結合在一起。當時,深度學習之父 Geoffrey Hinton 和他的學生 A Krizhevsky 在 NIPS(神經信息處理系統進展大會)遞交的那篇經典論文《ImageNet Classification with Deep Convolutional Neural Networks》,讓卷積神經網路大放異彩,深度學習也迅速地在計算機視覺領域普及,這對肖建雄的影響很大。

畢業後,肖建雄加入普林斯頓大學視覺研發團隊,開始著手研究一個新領域――三維深度學習。深度學習被證明在一維(語音)和二維(圖像)上有著顯著的效果,但將深度學習模型應用在三維數據(點雲、深度圖像、網格)的深度特徵表示,是在最近幾年才開始慢慢流行起來。

近三年,肖建雄發起或參與了幾乎所有關於三維深度學習的研究——參與發布目前最大的公共三維數據集(三維數據里的 ImageNet )ModelNet 和 ShapeNet ;創建了研究三維深度學習的基礎網路框架 Marvin,為後來者做了鋪墊;推出 3D 卷積網路 Deep Sliding Shapes ,在 RGD-D 圖像中研究三維物體的特徵……值得一提的是,Marvin 的所有權如今屬於 AutoX。

「這個領域是我們創建的。」提起三維深度學習,肖建雄毫不掩飾內心的驕傲。

由於該領域技術在自動駕駛中有可觀的應用前景,原本相對獨立的三個領域——計算機視覺、深度學習和機器人找到了應用的結合點。這種趨勢在近幾年愈發明顯,今年,機器人學術圈正在籌辦一個大會,取名「機器人學習大會」,以此推廣機器人和機器學習的相關研究。肖建雄受邀成為第一屆大會的領域主席。

不難理解,當肖建雄在 2016 年離開普林斯頓大學後,一條知乎評論寫道,「肖教授走了,普林斯頓視覺豈不是又沒人扛把子了。」

入局自動駕駛

「我覺得這個(企業家)可能更適合我。」對肖建雄來說,創業和做學術更像是一個數學問題。「做創業,90%會失敗;做學術,90%會成功。」

初見肖建雄,一如照片上的樣子:白襯衫,深藍色的西裝褲,棕色的尖頭皮鞋,梳著整齊的飛機頭,戴著一副眼鏡,文質彬彬。他出生在廣東潮州,和馬化騰、李嘉誠是老鄉。他的家裡人,包括爺爺奶奶、父母、姐姐,都是商人。

早在 2013 年,肖建雄就有了創業的念頭,但沒有邁出那一步。在他看來,剛剛從 MIT 畢業,花 4 年時間讀完計算機科學的博士學位,在技術層面還達不到通透的程度。此外,當時也沒有多少人真正相信無人車的前景。

學術圈有比較完整的體系和硬體支持。對計算機科學家而言,創新點往往在演算法上,許多流程可以按部就班地進行。肖建雄之前在學術界從事過四五十個項目,對做學術稍有些倦怠。每個學術項目的周期都很短,如同經歷一個又一個小的循環,成就感自然不如自己開公司。

三年後,情況扭轉。肖建雄從普林斯頓大學辭職,離開美國東海岸的新澤西州來到矽谷。知乎有人評價肖建雄創業,是典型的「學而優則商」。但真正踏出那一步,說服自己的內心,需要勇氣。肖建雄是一個願意冒險的人,「這項創業是我一輩子做到現在最大的一件事情,也是最激動的事情。」

事實上,2016 年也是一個入局的好時間。此前,肖建雄一手創辦了普林斯頓大學的計算機視覺和機器人實驗室,掌握了自動駕駛的核心視覺技術。

另一方面,自動駕駛市場也日趨成熟,成為如今人工智慧在應用領域裡最炙手可熱的一塊蛋糕,傳統車廠和互聯網新貴都在全面押注自動駕駛。就在上周,三星也獲得了加州道路上測試自動駕駛汽車的許可,正式進入這片群雄逐鹿的戰場。

自動駕駛分 5 個等級區分,這是由 SAE International(美國國際汽車工程師協會)制定的行業標準(美國交通部下屬的國家高速路安全管理局也制定了一套劃分,從 2016 年 9 月統一使用 SAE International的分類標準),這 5 個等級從最初級的 L1 輔助駕駛出發,到 L5 已經是完全智能化駕駛的水平。

目前,主流的自動駕駛解決方案將目標定在 L3(高度自動駕駛,由人類負責激烈的駕駛情況)和 L4(超高度自動駕駛,由系統負責激烈的駕駛情況)。在 2020―2023 年間,自動駕駛車輛能夠在特定的路段,比如城市街道、高速公路上行駛。至於 L5 什麼時候來臨,有業內人士預計是 2030 年,持悲觀態度的人甚至認為 L5 可能永遠不會到來。

「實現完全無人駕駛沒有這麼快,有些初創公司完全押寶在完全無人駕駛,我覺得非常危險,我不清楚接下來五年他們怎麼生存。」肖建雄說,但他仍然希望儘快普及無人車,AutoX 宣傳口號也是 Democratizing Autonomy(普及無人車),而他準備從攝像頭入手。

挖掘攝像頭的潛力

作為重要的自動駕駛感測器,攝像頭主要是用於目標識別和對象跟蹤任務,如車道檢測、交通信號燈檢測、行人檢測等。

完全基於攝像頭的自動駕駛解決方案在市面上並不多見。Mobileye 算是自成一派,這家創立於 1999 年的公司致力於研究基於視覺的輔助駕駛科技,目前主要面向 L1/L2 等輔助駕駛;特斯拉也曾是 Mobileye 的用戶,但因為一場事故,兩家分道揚鑣,現在正獨立研發基於攝像頭、前向雷達、超聲波雷達和 GPS 數據的全自動駕駛方案。

主流市場常常質疑攝像頭的安全性問題。相比之下,汽車廠商們更青睞於能夠主動探測的激光雷達,後者不會受到視線的限制,通過反射光波測量反射時間來確定和物體之間距離,精度高。

肖建雄並不排斥激光雷達,但他始終認為,在目前這個階段,攝像頭應該扮演感測器中的主角。從今年三月公布的首支無人車測試視頻來看,他們使用改造自林肯 MKZ 的原型車,裝載 7 個單目攝像頭,成功地在晴天、小雨、晚間、晚間多雲這四種天氣情況下行駛無人車。在肖建雄看來,「攝像頭的潛力被低估了,理論上,攝像頭可以做到比人眼還厲害。」

AutoX無人車的測試視頻截圖

AutoX 種子輪投資方丹華資本的董事總經理萬卉,在年初體驗了最早的 Demo。她告訴記者,在創立 2 個多月的時間裡,AutoX 成功讓僅有兩個低端攝像頭的無人車在城市街道行駛,「 這種強大執行能力給人留下深刻印象。」

萬卉看好攝像頭為主、感測器融合為輔的自動駕駛解決方案,「基於高端激光雷達與三維高清地圖的解決方案始於 13 年前的 DARPA(美國國防部高級研究計劃局)挑戰賽,該架構有其歷史包袱與局限性。人類不會發射激光,也不需要提前記錄下道路上每一個細節,我們可能會迷路,但仍能安全駕駛。」

為了提高攝像頭的安全性,AutoX 下了很大功夫。硬體上,裝在 AutoX 無人車上的 7 個單目攝像頭,是從 AutoX 團隊購買的 300 多種攝像頭中所甄選出來的,但依然沒有完全符合要求。肖建雄列舉了一長串攝像頭標準,包括符合車規硬體標準、自動化、高動態範圍成像、夜視以及演算法需求等。

但這不會造成太大的麻煩,伴隨手機市場過去 10 年的發展,攝像頭工藝也跟著突飛猛進,廠商有能力製造出滿足需求的攝像頭。「我們知道需要什麼,我們可以讓廠商提供定製。不是他們做不出來,是從來沒有人和他們提過。」 肖建雄說。

軟體上,基於攝像頭的解決方案對演算法的魯棒性要求很高。這是 AutoX 的優勢,除了肖建雄外,公司 20 多人都來自高等院校或谷歌、Facebook。

除了技術層面,成本也是一個重要的考量因素。到 2019 年,AutoX 將提供基於攝像頭的 L2.5/L3 自動駕駛軟體解決方案。作為創業者,肖建雄需要盤算自動駕駛在商業上的可行性。動輒上萬美元的激光雷達,直逼一輛乘用車的市場價,相比之下,幾十美元的攝像頭就變得無足輕重了。

「我們現在主要是以攝像頭為主,然後把攝像頭的軟體模塊提供給感興趣的汽車廠商。」肖建雄沒有披露更具體的應用場景,但提到了兩種適合 AutoX 的落地方式:第一種是特殊場景,比如運輸卡車、機場巴士等在限定路線和區域內的完全無人駕駛;第二種是半自動化駕駛,即在乘用車上實現 L2/L2.5/L3 的水平。

肖建雄從內心覺得,這是一件正在改變社會的事情。正如他人盡皆知的外號 Professor X 所代表的另一個人物——查爾斯教授(Charles Francis Xavier ,漫威漫畫 X 戰警里的重要角色),「不是因為這個角色有什麼超能力(才厲害),而是能集結社會中的能人異士去做一件很難但對社會有貢獻的事情。」

以下是肖建雄和我們探討關於無人車技術的內容:

AutoX 具體使用的是哪款攝像頭?

具體的攝像頭我們沒有定,我們大概買了 300 種攝像頭。單目雙目都有用,雙目的其實就是兩個單目的同步起來。RGB-D 沒有看到一個特別好的,因為 RGB-D 用不了就得靠 Lidar。傳統的 Kinect 和紅外線不能看太遠,會受到陽光的影響,白天開車陽光照射,有很大的干擾。所以基本上沒有太多選擇,我們就用單目相機。

你認為可以通過攝像頭解決一切安全問題嗎?

如果說不計成本快速實現無人車,當然什麼感測器都上,科學上,你加多一點感測器肯定好過沒有,就算它再差,但最起碼多一層保險總好過沒有,但這是科學上的。實際商業上,不可實現。因為你加很多感測器,價格非常昂貴,最後沒有任何經濟價值。無人車比雇幾個全職駕駛員還貴的話,就沒有意義了。

另外,硬體也沒有準備好。更多東西,就有更多風險,比如說有了不同的東西,每一個都可能失敗,一個失敗就不穩定。做實驗的時候,因為工程師檢測半天可能不會有什麼問題,但現在如果是真正商用,把車交給用戶,什麼千奇百怪的事情都可能發生。如果質量不好,任何一個感測器失效,都會出事。

汽車行業這麼多年一直在測試穩定性,它們做的東西其實就是剎車油門方向盤,但為了這麼簡單的機械工藝,它們還進化了上百年才能把將它提升到一個很高的安全係數上。今天的方向盤已經安全很多,像 Abs(防抱死)提升整個系統的安全性能,也是迭代很多年才進化到今天這個地步。系統里如果加入了越多的東西,不完美的可能性就越高。

怎麼克服攝像頭中的弊端?比如說過度曝光,比如弱光環境,咱們只是在演算法上做一些調整嗎?

對攝像頭也有一定的要求,不全是演算法。當然演算法要非常好,非常魯棒,這是必須的,這是我們的技術優勢。攝像頭方面,一是強曝光的 High Dynamic Range(高動態範圍成像),HDR 的要求非常高;其次就是夜視。其實,理論上,相機可以做到比人眼更厲害,但因為現在沒有這種需求,沒有人用它,自然就沒有生產。

攝像頭對處理器的帶寬要求很高嗎?

帶寬要求挺高的。一般來說,現在的技術都已經承受了,比方說 USB 是很糟糕,但 USB 已經非常快。比方說在工業界,大家用 VMSL 來,這個是符合車規級的一個連接。現在很多特別新的電動汽車廠,他們一直在推 automotive ethernet(汽車乙太網),我覺得這也非常好,因為自動化,以前就是用 Canvas ,這是個非常老的、非常糟糕的 protocol bandwidth(協議帶寬)。

深度學習在 AutoX 整個決策過程中扮演什麼角色?

我覺得深度學習非常重要,我們在各個方面、各個角落都用到深度學習。很多公司整天把深度學習當回事,把它當廣告詞。但我覺得深度學習有點像 C++,非常底層,不是說它不好,而是說它非常好,好到一定程度被普及,就變成了常識。

AutoX 的解決方案會是端到端的嗎?就是把攝像頭的數據直接輸入到一個模型里,然後來做決策?還是會分權?

我們在 ICCV (由 IEEE 主辦的國際計算機視覺大會)發表過一篇文章,裡面有詳細比較過,說端到端的效果不是很好。你可以想像一下這對數據要求非常高,就比如同一條路的車都不一樣,那麼多輛車,排比組合都不一樣的話,每一個都得要訓練數據。下次再換條路開,我覺得可變性太大,導致端到端需要用作訓練的數據量非常大,可能是整個人類開車一兩千年的數據量。

AutoX 會用哪種處理器?會用 GPU 來大量處理這些數據?

現在還沒有定下來,因為沒有一款成熟的處理器可以用。我們和各大廠商都有接觸,和英特爾、NVIDEA、Media Tech、MTK 有緊密關係。我覺得問題就是目前這四個廠商都沒有任何一個真正能可靠的、能用的處理器。

你覺得晶元定製化會是自動駕駛的一個方向嗎?

不一定是定製。比如說像卷積神經網路,基本操作就是卷積。不管使用 GPU、 FPGA 還是更定製化的晶元,都是為了實現卷積。如果有晶元 ACIS 或者 FPGA 出來就是卷積,會有更好的效果,用通用晶元我認為是一種資源的浪費。關於卷積在自動駕駛中的作用,一開始大家不清楚是不是卷積,逐漸達成共識後,甚至晶元都可以定製化到卷積。

不同汽車之間,數據可以互相通用嗎?比如說卡車上的視覺數據也能用在訓練一個小汽車上面。

可以,但那不是完全通用。但是 90%可以。

但是,拍攝的角度包括攝像頭的位置都會有很大不同。

所以我就說 90%可以(通用),為什麼?你的演算法要夠魯棒,設計時還要多加一些變化,萬一攝像頭稍微動了一下,怎麼辦?這些數據可以增強它們的魯棒性、獨創性,但之後在某一款車型上你還是需要大量定製,所以我覺得需要通用和定製的結合。這也是我們的策略。我們未來的產品可能會有各種形式,然後有一個 centralized(集中)的 dataset(數據集),圈好之後,為每個廠商的每個產品進行定製,確保用戶體驗在那個環境里是最優的。既不是 one fix everything,也不是說完全不共享。

攝像頭怎麼和這種 HD Map(高清地圖)來一起工作?Lidar(激光雷達)和 HD Map 合作的比較多,攝像頭這種有哪些優勢或者缺點?

優勢很明顯,就是能夠快速落地產品化,因為價格便宜,然後硬體製造也容易實現。我覺得稱不上缺點,大家沒做過 ,像 Mobileye 做過,其他很多廠商做得都比較少。事實上,我們內部發明了許多基於攝像頭的定位技術。沒人做只能說,難度比較大。還有就是盲目崇拜 Lidar 。其實, Lidar 在定位方面也有局限性,比如說一個最極端的狀況,試想在一個很大的操場,Lidar 只能看一百米,因為操場很大,超過一百米的半徑,你的車在中心的時候,周圍一圈掃起來都是平面,什麼都沒有,沒有樹也沒有房子,這時候科學上就是不可能做到精確定位。很多人沒意識到這個極端狀況,國內的很多地方是十條道,還有交叉路,這就很像廣場,什麼都沒看到,這樣就很難定位。我覺得美國這些居民小區、旁邊有樓的還可以操作。

另外,高清地圖每兩個月掃一下,但像山間、林間小路里,樹會長大、會落葉,比如說在 MIT,東部一到秋天葉子兩星期內全部落完了,然後高清地圖上次掃的是有葉子,這種情況下,如何對齊就不是很清楚。我覺得高清三維地圖是個很好的設想,怎麼落地還有很多現實挑戰。比如說在波士頓,下雪風吹,每個小時雪都是不一樣的,怎麼定位?我覺得用 Lidar 很難定位,長得太不像了,Lidar 是靠形狀,形狀都不一樣就沒辦法定位,解析度非常有限。大家覺得用 Lidar 就一定好,我覺得不一定。如果 Lidar 降價或者真正量產,我們會馬上使用 Lidar,我以前發表過很多文章做 Lidar ,只是用 Lidar 需要現實一些,就算用 Lidar ,軟體也要做到非常好。

感測器是怎麼樣的一個配置?AutoX 是以攝像頭優先的一個解決方案,加上一些其他的感測器嗎?

我們現在以攝像頭為主,然後將攝像頭模塊,比如說各大汽車廠感興趣,我們可以把攝像頭軟體模塊提供給他們。像特斯拉、 Mobileye ,現在真正落地的產品都是靠攝像頭,奧迪 A8 也是基本靠攝像頭,前面的四線 Lidar 基本上是最後一層防線掃障礙物。(機器之心海外分析師 Alex Chen 對本文亦有貢獻)

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

受夠了碎片信息和大眾搜索?機器之心新上線的「AI商用垂直搜索」
受夠了碎片信息和大眾搜索?機器之心新上線的AI商用垂直搜索
向手機端神經網路進發:MobileNet壓縮指南
2 億條視頻,Google Brain 如何讓 YouTube 煥發生機
三問 Christopher Manning:超越模型存在的語言之美

TAG:機器之心 |