CV 界學術明星肖建雄創業了，他想讓自動駕駛像電腦一樣普及專訪

知識 09-05

撰文 | 彭君韜（ Tony ）

編輯 | 劉燕

從副教授到企業家，肖建雄對新身份適應得很快。

33 歲的肖建雄以企業家身份入選今年 MIT Tech Review —— 35 Innovators Under 35 ，這是由美國科技媒體 MIT Tech Review（麻省理工大學科技評論，創辦於 1899 年）自 1998 年創立的一項年度科技人物評選，旨在表彰全球 35 歲以內最傑出的 35 位創新人士。

相比於其他入選者，例如美國一流轉基因公司 Caribou Biosciences 創始人 Rachel Haurwitz ，亦或是市值超過 30 億美元的柔宇科技創始人劉自鴻，肖建雄還是個商界新人，2016 年 10 月，他正式創辦了研究自動駕駛技術的企業 AutoX。

今年 2 月，在一場由丹華資本和斯坦福華人創業者協會主辦的斯坦福 AI 活動中，肖建雄介紹了他的自動駕駛公司 AutoX。

在隨後的半年時間裡，AutoX 獲得了加州自動駕駛牌照，其無人車已經能在矽谷的車水馬龍間穿梭自如。在今年三月披露的首款測試視頻中，AutoX 摒棄了市面上的主流感測設備，僅依靠低成本的攝像頭，實現了無人車在不同天氣情況下的路面行駛。

這也是 MIT Tech Review 看好肖建雄的重要原因。其科技主編 Will Knight 認識肖建雄已久，他認為：「肖建雄希望將無人車變得和計算機一樣普及」。

在成為企業家之前，肖建雄擁有璀璨的學術生涯―― 2012 年世界頂尖計算機視覺大會 ECCV 最佳學生論文獎獲得者；2012 年 Google Research 最佳論文獎獲得者；普林斯頓計算機視覺和機器人實驗室創始人；兩度獲得 Google Faculty Awards ；美國國家自然基金委員會研究獎……

不過，入選 35 Innovators Under 35 對肖建雄有著不同的意義，「這是我第一次在商業上得到認可。」

拓荒三維深度學習

肖建雄熱愛計算機科學，聊到人工智慧（ AI ）時，他整個人都興奮了起來，「人類能造車、造機械，什麼都有，但最缺智能化，AI 是很神奇的。」

同時，他又是一個很直觀、喜歡視覺的人。個人喜好引領他在十多年前就讀本科期間選擇了計算機視覺――一種數學和工程學的結合體。肖建雄在讀博士之前就讀於香港科技大學，學習三維視覺重建，師從該校計算機科學與工程學的終生教授權龍，他是三維視覺的學術權威。

在港科大分別完成本科和碩士學位後，肖建雄進入麻省理工大學（MIT）。他在 2012 年獲得的 ECCV 最佳學生論文獎，是在谷歌實習期間的作品《重建世界上的博物館》（Reconstruct the world』s museum)。這是一篇有關室內場景重現的經典論文――用 Google 街景相機，在博物館內部拍照，繼而重現博物館的內部三維構造。

在 MIT 的 4 年，肖建雄已經開始琢磨如何將深度學習和三維視覺結合在一起。當時，深度學習之父 Geoffrey Hinton 和他的學生 A Krizhevsky 在 NIPS（神經信息處理系統進展大會）遞交的那篇經典論文《ImageNet Classification with Deep Convolutional Neural Networks》，讓卷積神經網路大放異彩，深度學習也迅速地在計算機視覺領域普及，這對肖建雄的影響很大。

畢業後，肖建雄加入普林斯頓大學視覺研發團隊，開始著手研究一個新領域――三維深度學習。深度學習被證明在一維（語音）和二維（圖像）上有著顯著的效果，但將深度學習模型應用在三維數據（點雲、深度圖像、網格）的深度特徵表示，是在最近幾年才開始慢慢流行起來。

近三年，肖建雄發起或參與了幾乎所有關於三維深度學習的研究——參與發布目前最大的公共三維數據集（三維數據里的 ImageNet ）ModelNet 和 ShapeNet ；創建了研究三維深度學習的基礎網路框架 Marvin，為後來者做了鋪墊；推出 3D 卷積網路 Deep Sliding Shapes ，在 RGD-D 圖像中研究三維物體的特徵……值得一提的是，Marvin 的所有權如今屬於 AutoX。

「這個領域是我們創建的。」提起三維深度學習，肖建雄毫不掩飾內心的驕傲。

由於該領域技術在自動駕駛中有可觀的應用前景，原本相對獨立的三個領域——計算機視覺、深度學習和機器人找到了應用的結合點。這種趨勢在近幾年愈發明顯，今年，機器人學術圈正在籌辦一個大會，取名「機器人學習大會」，以此推廣機器人和機器學習的相關研究。肖建雄受邀成為第一屆大會的領域主席。

不難理解，當肖建雄在 2016 年離開普林斯頓大學後，一條知乎評論寫道，「肖教授走了，普林斯頓視覺豈不是又沒人扛把子了。」

入局自動駕駛

「我覺得這個（企業家）可能更適合我。」對肖建雄來說，創業和做學術更像是一個數學問題。「做創業，90%會失敗；做學術，90%會成功。」

初見肖建雄，一如照片上的樣子：白襯衫，深藍色的西裝褲，棕色的尖頭皮鞋，梳著整齊的飛機頭，戴著一副眼鏡，文質彬彬。他出生在廣東潮州，和馬化騰、李嘉誠是老鄉。他的家裡人，包括爺爺奶奶、父母、姐姐，都是商人。

早在 2013 年，肖建雄就有了創業的念頭，但沒有邁出那一步。在他看來，剛剛從 MIT 畢業，花 4 年時間讀完計算機科學的博士學位，在技術層面還達不到通透的程度。此外，當時也沒有多少人真正相信無人車的前景。

學術圈有比較完整的體系和硬體支持。對計算機科學家而言，創新點往往在演算法上，許多流程可以按部就班地進行。肖建雄之前在學術界從事過四五十個項目，對做學術稍有些倦怠。每個學術項目的周期都很短，如同經歷一個又一個小的循環，成就感自然不如自己開公司。

三年後，情況扭轉。肖建雄從普林斯頓大學辭職，離開美國東海岸的新澤西州來到矽谷。知乎有人評價肖建雄創業，是典型的「學而優則商」。但真正踏出那一步，說服自己的內心，需要勇氣。肖建雄是一個願意冒險的人，「這項創業是我一輩子做到現在最大的一件事情，也是最激動的事情。」

事實上，2016 年也是一個入局的好時間。此前，肖建雄一手創辦了普林斯頓大學的計算機視覺和機器人實驗室，掌握了自動駕駛的核心視覺技術。

另一方面，自動駕駛市場也日趨成熟，成為如今人工智慧在應用領域裡最炙手可熱的一塊蛋糕，傳統車廠和互聯網新貴都在全面押注自動駕駛。就在上周，三星也獲得了加州道路上測試自動駕駛汽車的許可，正式進入這片群雄逐鹿的戰場。

自動駕駛分 5 個等級區分，這是由 SAE International（美國國際汽車工程師協會）制定的行業標準（美國交通部下屬的國家高速路安全管理局也制定了一套劃分，從 2016 年 9 月統一使用 SAE International的分類標準），這 5 個等級從最初級的 L1 輔助駕駛出發，到 L5 已經是完全智能化駕駛的水平。

目前，主流的自動駕駛解決方案將目標定在 L3（高度自動駕駛，由人類負責激烈的駕駛情況）和 L4（超高度自動駕駛，由系統負責激烈的駕駛情況）。在 2020―2023 年間，自動駕駛車輛能夠在特定的路段，比如城市街道、高速公路上行駛。至於 L5 什麼時候來臨，有業內人士預計是 2030 年，持悲觀態度的人甚至認為 L5 可能永遠不會到來。

「實現完全無人駕駛沒有這麼快，有些初創公司完全押寶在完全無人駕駛，我覺得非常危險，我不清楚接下來五年他們怎麼生存。」肖建雄說，但他仍然希望儘快普及無人車，AutoX 宣傳口號也是 Democratizing Autonomy（普及無人車），而他準備從攝像頭入手。

挖掘攝像頭的潛力

作為重要的自動駕駛感測器，攝像頭主要是用於目標識別和對象跟蹤任務，如車道檢測、交通信號燈檢測、行人檢測等。

完全基於攝像頭的自動駕駛解決方案在市面上並不多見。Mobileye 算是自成一派，這家創立於 1999 年的公司致力於研究基於視覺的輔助駕駛科技，目前主要面向 L1/L2 等輔助駕駛；特斯拉也曾是 Mobileye 的用戶，但因為一場事故，兩家分道揚鑣，現在正獨立研發基於攝像頭、前向雷達、超聲波雷達和 GPS 數據的全自動駕駛方案。

主流市場常常質疑攝像頭的安全性問題。相比之下，汽車廠商們更青睞於能夠主動探測的激光雷達，後者不會受到視線的限制，通過反射光波測量反射時間來確定和物體之間距離，精度高。

肖建雄並不排斥激光雷達，但他始終認為，在目前這個階段，攝像頭應該扮演感測器中的主角。從今年三月公布的首支無人車測試視頻來看，他們使用改造自林肯 MKZ 的原型車，裝載 7 個單目攝像頭，成功地在晴天、小雨、晚間、晚間多雲這四種天氣情況下行駛無人車。在肖建雄看來，「攝像頭的潛力被低估了，理論上，攝像頭可以做到比人眼還厲害。」

AutoX無人車的測試視頻截圖

AutoX 種子輪投資方丹華資本的董事總經理萬卉，在年初體驗了最早的 Demo。她告訴記者，在創立 2 個多月的時間裡，AutoX 成功讓僅有兩個低端攝像頭的無人車在城市街道行駛，「這種強大執行能力給人留下深刻印象。」

萬卉看好攝像頭為主、感測器融合為輔的自動駕駛解決方案，「基於高端激光雷達與三維高清地圖的解決方案始於 13 年前的 DARPA（美國國防部高級研究計劃局）挑戰賽，該架構有其歷史包袱與局限性。人類不會發射激光，也不需要提前記錄下道路上每一個細節，我們可能會迷路，但仍能安全駕駛。」

為了提高攝像頭的安全性，AutoX 下了很大功夫。硬體上，裝在 AutoX 無人車上的 7 個單目攝像頭，是從 AutoX 團隊購買的 300 多種攝像頭中所甄選出來的，但依然沒有完全符合要求。肖建雄列舉了一長串攝像頭標準，包括符合車規硬體標準、自動化、高動態範圍成像、夜視以及演算法需求等。

但這不會造成太大的麻煩，伴隨手機市場過去 10 年的發展，攝像頭工藝也跟著突飛猛進，廠商有能力製造出滿足需求的攝像頭。「我們知道需要什麼，我們可以讓廠商提供定製。不是他們做不出來，是從來沒有人和他們提過。」肖建雄說。

軟體上，基於攝像頭的解決方案對演算法的魯棒性要求很高。這是 AutoX 的優勢，除了肖建雄外，公司 20 多人都來自高等院校或谷歌、Facebook。

除了技術層面，成本也是一個重要的考量因素。到 2019 年，AutoX 將提供基於攝像頭的 L2.5/L3 自動駕駛軟體解決方案。作為創業者，肖建雄需要盤算自動駕駛在商業上的可行性。動輒上萬美元的激光雷達，直逼一輛乘用車的市場價，相比之下，幾十美元的攝像頭就變得無足輕重了。

「我們現在主要是以攝像頭為主，然後把攝像頭的軟體模塊提供給感興趣的汽車廠商。」肖建雄沒有披露更具體的應用場景，但提到了兩種適合 AutoX 的落地方式：第一種是特殊場景，比如運輸卡車、機場巴士等在限定路線和區域內的完全無人駕駛；第二種是半自動化駕駛，即在乘用車上實現 L2/L2.5/L3 的水平。

肖建雄從內心覺得，這是一件正在改變社會的事情。正如他人盡皆知的外號 Professor X 所代表的另一個人物——查爾斯教授（Charles Francis Xavier ，漫威漫畫 X 戰警里的重要角色），「不是因為這個角色有什麼超能力（才厲害），而是能集結社會中的能人異士去做一件很難但對社會有貢獻的事情。」

以下是肖建雄和我們探討關於無人車技術的內容：

AutoX 具體使用的是哪款攝像頭？

具體的攝像頭我們沒有定，我們大概買了 300 種攝像頭。單目雙目都有用，雙目的其實就是兩個單目的同步起來。RGB-D 沒有看到一個特別好的，因為 RGB-D 用不了就得靠 Lidar。傳統的 Kinect 和紅外線不能看太遠，會受到陽光的影響，白天開車陽光照射，有很大的干擾。所以基本上沒有太多選擇，我們就用單目相機。

你認為可以通過攝像頭解決一切安全問題嗎？

如果說不計成本快速實現無人車，當然什麼感測器都上，科學上，你加多一點感測器肯定好過沒有，就算它再差，但最起碼多一層保險總好過沒有，但這是科學上的。實際商業上，不可實現。因為你加很多感測器，價格非常昂貴，最後沒有任何經濟價值。無人車比雇幾個全職駕駛員還貴的話，就沒有意義了。

另外，硬體也沒有準備好。更多東西，就有更多風險，比如說有了不同的東西，每一個都可能失敗，一個失敗就不穩定。做實驗的時候，因為工程師檢測半天可能不會有什麼問題，但現在如果是真正商用，把車交給用戶，什麼千奇百怪的事情都可能發生。如果質量不好，任何一個感測器失效，都會出事。

汽車行業這麼多年一直在測試穩定性，它們做的東西其實就是剎車油門方向盤，但為了這麼簡單的機械工藝，它們還進化了上百年才能把將它提升到一個很高的安全係數上。今天的方向盤已經安全很多，像 Abs（防抱死）提升整個系統的安全性能，也是迭代很多年才進化到今天這個地步。系統里如果加入了越多的東西，不完美的可能性就越高。

怎麼克服攝像頭中的弊端？比如說過度曝光，比如弱光環境，咱們只是在演算法上做一些調整嗎？

對攝像頭也有一定的要求，不全是演算法。當然演算法要非常好，非常魯棒，這是必須的，這是我們的技術優勢。攝像頭方面，一是強曝光的 High Dynamic Range（高動態範圍成像），HDR 的要求非常高；其次就是夜視。其實，理論上，相機可以做到比人眼更厲害，但因為現在沒有這種需求，沒有人用它，自然就沒有生產。

攝像頭對處理器的帶寬要求很高嗎？

帶寬要求挺高的。一般來說，現在的技術都已經承受了，比方說 USB 是很糟糕，但 USB 已經非常快。比方說在工業界，大家用 VMSL 來，這個是符合車規級的一個連接。現在很多特別新的電動汽車廠，他們一直在推 automotive ethernet（汽車乙太網），我覺得這也非常好，因為自動化，以前就是用 Canvas ，這是個非常老的、非常糟糕的 protocol bandwidth（協議帶寬）。

深度學習在 AutoX 整個決策過程中扮演什麼角色？

我覺得深度學習非常重要，我們在各個方面、各個角落都用到深度學習。很多公司整天把深度學習當回事，把它當廣告詞。但我覺得深度學習有點像 C++，非常底層，不是說它不好，而是說它非常好，好到一定程度被普及，就變成了常識。

AutoX 的解決方案會是端到端的嗎？就是把攝像頭的數據直接輸入到一個模型里，然後來做決策？還是會分權？

我們在 ICCV （由 IEEE 主辦的國際計算機視覺大會）發表過一篇文章，裡面有詳細比較過，說端到端的效果不是很好。你可以想像一下這對數據要求非常高，就比如同一條路的車都不一樣，那麼多輛車，排比組合都不一樣的話，每一個都得要訓練數據。下次再換條路開，我覺得可變性太大，導致端到端需要用作訓練的數據量非常大，可能是整個人類開車一兩千年的數據量。

AutoX 會用哪種處理器？會用 GPU 來大量處理這些數據？

現在還沒有定下來，因為沒有一款成熟的處理器可以用。我們和各大廠商都有接觸，和英特爾、NVIDEA、Media Tech、MTK 有緊密關係。我覺得問題就是目前這四個廠商都沒有任何一個真正能可靠的、能用的處理器。

你覺得晶元定製化會是自動駕駛的一個方向嗎？

不一定是定製。比如說像卷積神經網路，基本操作就是卷積。不管使用 GPU、 FPGA 還是更定製化的晶元，都是為了實現卷積。如果有晶元 ACIS 或者 FPGA 出來就是卷積，會有更好的效果，用通用晶元我認為是一種資源的浪費。關於卷積在自動駕駛中的作用，一開始大家不清楚是不是卷積，逐漸達成共識後，甚至晶元都可以定製化到卷積。

不同汽車之間，數據可以互相通用嗎？比如說卡車上的視覺數據也能用在訓練一個小汽車上面。

可以，但那不是完全通用。但是 90%可以。

但是，拍攝的角度包括攝像頭的位置都會有很大不同。

所以我就說 90%可以（通用），為什麼？你的演算法要夠魯棒，設計時還要多加一些變化，萬一攝像頭稍微動了一下，怎麼辦？這些數據可以增強它們的魯棒性、獨創性，但之後在某一款車型上你還是需要大量定製，所以我覺得需要通用和定製的結合。這也是我們的策略。我們未來的產品可能會有各種形式，然後有一個 centralized（集中）的 dataset（數據集），圈好之後，為每個廠商的每個產品進行定製，確保用戶體驗在那個環境里是最優的。既不是 one fix everything，也不是說完全不共享。

攝像頭怎麼和這種 HD Map（高清地圖）來一起工作？Lidar（激光雷達）和 HD Map 合作的比較多，攝像頭這種有哪些優勢或者缺點？

優勢很明顯，就是能夠快速落地產品化，因為價格便宜，然後硬體製造也容易實現。我覺得稱不上缺點，大家沒做過，像 Mobileye 做過，其他很多廠商做得都比較少。事實上，我們內部發明了許多基於攝像頭的定位技術。沒人做只能說，難度比較大。還有就是盲目崇拜 Lidar 。其實， Lidar 在定位方面也有局限性，比如說一個最極端的狀況，試想在一個很大的操場，Lidar 只能看一百米，因為操場很大，超過一百米的半徑，你的車在中心的時候，周圍一圈掃起來都是平面，什麼都沒有，沒有樹也沒有房子，這時候科學上就是不可能做到精確定位。很多人沒意識到這個極端狀況，國內的很多地方是十條道，還有交叉路，這就很像廣場，什麼都沒看到，這樣就很難定位。我覺得美國這些居民小區、旁邊有樓的還可以操作。

另外，高清地圖每兩個月掃一下，但像山間、林間小路里，樹會長大、會落葉，比如說在 MIT，東部一到秋天葉子兩星期內全部落完了，然後高清地圖上次掃的是有葉子，這種情況下，如何對齊就不是很清楚。我覺得高清三維地圖是個很好的設想，怎麼落地還有很多現實挑戰。比如說在波士頓，下雪風吹，每個小時雪都是不一樣的，怎麼定位？我覺得用 Lidar 很難定位，長得太不像了，Lidar 是靠形狀，形狀都不一樣就沒辦法定位，解析度非常有限。大家覺得用 Lidar 就一定好，我覺得不一定。如果 Lidar 降價或者真正量產，我們會馬上使用 Lidar，我以前發表過很多文章做 Lidar ，只是用 Lidar 需要現實一些，就算用 Lidar ，軟體也要做到非常好。

感測器是怎麼樣的一個配置？AutoX 是以攝像頭優先的一個解決方案，加上一些其他的感測器嗎？

我們現在以攝像頭為主，然後將攝像頭模塊，比如說各大汽車廠感興趣，我們可以把攝像頭軟體模塊提供給他們。像特斯拉、 Mobileye ，現在真正落地的產品都是靠攝像頭，奧迪 A8 也是基本靠攝像頭，前面的四線 Lidar 基本上是最後一層防線掃障礙物。（機器之心海外分析師 Alex Chen 對本文亦有貢獻）

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※受夠了碎片信息和大眾搜索？機器之心新上線的「AI商用垂直搜索」
※受夠了碎片信息和大眾搜索？機器之心新上線的AI商用垂直搜索
※向手機端神經網路進發：MobileNet壓縮指南
※2 億條視頻，Google Brain 如何讓 YouTube 煥發生機
※三問 Christopher Manning：超越模型存在的語言之美

TAG:機器之心 |

CV 界學術明星肖建雄創業了，他想讓自動駕駛像電腦一樣普及 專訪

CV 界學術明星肖建雄創業了，他想讓自動駕駛像電腦一樣普及專訪