宣傳稿靠邊站！我們從技術角度告訴你特斯拉Autopilot V9為何這麼強

新聞 10-20

雷鋒網新智駕（微信：AI-Drive）按：今年 10 月，跳票已久的 Autopilot V9 版本終於落地，Musk 吹過的牛也在一步步實現。媒體上關於 Autopilot V9 的溢美之詞不絕於耳，但卻沒人能從技術角度說說這次的 V9 到底牛在哪裡。好在民間有大神，在特斯拉論壇上，就有一位神經網路從業者對 V9 進行了深入剖析。看完他的分析，你對 Musk 的崇拜恐怕要再多幾分。

雷鋒網新智駕對神經網路工程師 jimmy-d 的論壇發言進行了整理和編譯，各位讀者可千萬別錯過這份營養滿滿的技術大餐。

統一的攝像頭網路讓 8 顆攝像頭火力全開

與前一個版本的 V8 類似，我認為 V9 的神經網路中也用到了「攝像頭網路」，它能直接處理來自攝像頭的輸出。當然這還不夠，特斯拉還準備了一套「後置處理網路」，它能將「攝像頭網路」生成的數據變成更高級別的抽象，而且已經擁有了可操作性。與 V8 相比，V9 有了巨大的躍升。

這個「攝像頭網路」到底強大到什麼地步呢？

它能一次控制 8 顆攝像頭。需要注意的是，V9 上所有攝像頭採集的圖片和視頻權重都是一樣的（V8 有所不同，不同攝像頭採集的數據重要程度不同）。

具體來說特斯拉這 8 顆攝像頭：

前置的 3 顆與後置的 1 顆處理解析度均為 1280x960（釋放了攝像頭的最高解析度）；

剩下的 4 顆攝像頭則用了 640x480 的處理解析度（其實這 4 顆攝像頭與前後那 4 顆最高解析度相同，但在這裡只用到了其解析度的四分之一）。

*註：特斯拉的 8 顆攝像頭包括 3 顆前置攝像頭，它們中有一顆是窄視角攝像頭，覆蓋範圍可達 250 米，一顆是中程攝像頭（主攝像頭），能看 150 米遠，另一顆則是廣角攝像頭，但覆蓋範圍僅 60 米。另外車尾還有 1 顆攝像頭，剩下 4 顆則對稱安裝在車輛轉向燈下放和 B 柱上。

除此之外，這 8 顆攝像頭均升級到了 3 條色彩通道（紅綠藍 3 條色彩通道），且用上了雙層架構設計。與其相比，V8 上的 2 條色彩通道（紅綠 2 條色彩通道）+單層架構設計就寒酸多了。而且別忘了，V8 的攝像頭解析度只有 640x416，且只有主攝像頭和窄視角攝像頭有這「待遇」。

傳聞稱 V8 的多個版本也給那 4 顆比較「閑」的攝像頭配備了神經網路，但它到底派沒派上用場恐怕只有特斯拉內部人員才知道。

可以肯定的是，V8 時代 Autopilot 駕駛時只用到了主攝像頭和窄視角攝像頭，而那顆前置廣角攝像頭是用來感應雨水的。不過在 V9 上，這 8 顆攝像頭確實是火力全開。

除了擺脫攝像頭「閑置」的罵名，V9 的神經網路處理能力還大幅提升。拿主攝像頭來說，1280x960 的解析度與 3 條色彩通道和雙層架構設計疊加，每幀文件大小就能達到 1280x960x3x2 位元組，換算過來就是 7.3 M。反觀 V8 的主攝像頭，每幀輸入只有 0.5 M，數據量是 V9 的1/13。

與谷歌的 Inception V1 神經網路相比（兩者用了類似的底層架構概念），V9 的攝像頭網路規模要大上 10 倍，算力更是提升了 200 倍。

雖然側方的 4 顆攝像頭解析度只有主攝像頭的1/4，但 8 顆攝像頭火力全開，13 倍的數據輸入量雖然加大了 ECU 的壓力，但也能提供更為精細的物體細節。

更為有趣的是，攝像頭介面發生了改變，V9 上每一幀都是成對處理。不過，這些成對處理得畫面還是有時間偏差的，延遲大致在 10-100 毫秒，這樣才能呈現出動作，而動作能提供深度信息並將物體從背景中分離出來，幫助車輛識別並預測物體軌跡（包括車輛自己的軌跡）。

對系統的基礎感知來說，這個升級至關重要。

圖像處理網路效率大躍升

在 V8 上，主攝像頭和窄視角攝像頭用了相同的架構，但權重有差異。

這點並無問題，畢竟兩顆攝像頭有完全不同的視場。分別訓練兩顆攝像頭會大大降低物體識別的難度，同時神經網路的規模和訓練量也會有所下降。不過這也意味著你必須打造兩個不同的訓練數據集並分別對它們進行評估，而且在運行時兩個不同的神經網路還要交替上線。

在 V9 上，特斯拉則用上了獨立的圖像處理網路（Camera Agnostic，意為獨立於攝像頭），它能在相同權重下處理任何攝像頭的輸出數據。同時也能解決 V8 上神經網路的問題並提升其穩定性。

這種解決方案也意味著神經網路必須更了解物體到底長什麼樣，無論鏡頭畸變有何不同（畸變無法用物理方式修復）。此外，獨立的圖像處理網路很燒錢，因為它需要大量的訓練、海量的資料庫和一個規模龐大的神經網路。

當然，特斯拉選擇這樣一個解決方案也不是為了給自己找麻煩。這套獨立的圖像處理網路在計算效率上有了較大提升。當它只需要依照一個權重時，就不用頻繁在 GPU 中寫入各種數據。更重要的是，你可以在一個數據集的框架下大批量處理各種攝像頭採集的圖像了。這樣一來，同等的硬體就能獲得性能加成。

我從來沒想過有廠商願意搞這種獨立的圖像處理網路，特斯拉真給力！

怪物級別的神經網路

如果要用一個詞形容 V9 的神經網路，恐怕你腦海里第一個蹦出來的詞是怪物，但事實上它比怪物還要強悍。當你將神經網路里的一個權重乘以 5，就會發現你得到的不只是 5 倍的能力提升。

在表達能力上，神經網路的提升服務更是幾何級的。打個比方，如果 V8 的表達能力是 10，那麼 V9 就是 100000，絕對是爆炸性的性能飛躍。不過，想用好這個性能飛躍，就需要訓練數據也配合著增加，你「餵給」神經網路的數據量可能是原來的數百萬倍。

（*註：其實數據方面特斯拉並不擔心，畢竟和 Waymo 相比，它們奔跑在路上的車輛要多得多。數據顯示，2016 年年底特斯拉售出車型的行駛里程已經高達 35 億英里，隨著大量 Model 3 入役，想必 Musk 的資料庫都快塞不下這些數據了，而時不時就實現一個里程碑的 Waymo 才累積了 1000 萬英里的路測歷程。）

簡單來說，這套神經網路比我見過的任何視覺神經網路都要龐大，只是想想它需要的學習數據我都感覺不可思議。為了萬無一失我甚至算了很多遍，但最終我驚奇的發現，限制我的並非計算方法，而是我的想像力。

V9 神經網路上的變化讓車輛有能力識別任何方向上的每個物體，其探測距離甚至能達到數百米。同時，它還能抓住這些物體的瞬間動作。如果考慮到攝像頭視場的重疊，每出現一個物體，至少會被兩顆攝像頭髮現，這就大大提升了車輛安全性。

在 V9 上，特斯拉是不是用了半監督學習？特斯拉使用的數據肯定有一部分不帶標籤，畢竟誰能找來這麼多人給天量的數據加標籤？

在我看來，特斯拉的模擬測試設計師們肯定打造了一台專門生成數據標籤的機器，不過即使這樣恐怕加了標籤的數據也不夠用。而且，特斯拉去哪找這麼狂暴的數據中心來訓練神經網路呢？難道 Musk 是谷歌背後的神秘人，能從 Larry Page 那弄來一整個倉庫的 TPU？

也許 Musk 又在醞釀什麼神秘的殺手鐧了。

總而言之，在 V9 上我看到了特斯拉的能力和野心。

特斯拉總是能實現業內專家都無法想像的進步，這種通過改進「放大」計算能力、訓練數據和產業資源的能力是特斯拉的核心競爭力之一，同時也降低了未來研發路上的不確定性。

從這個角度來看，特斯拉的「視覺優先/全神經網路」模式確實前程遠大。作為一名神經網路界的從業人員，我為特斯拉感到驕傲。

雷鋒網推薦閱讀：

軟體吞噬世界：特斯拉與破壞性創新

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！