當前位置:
首頁 > 最新 > 基於CNN閉環反饋的自動駕駛車輛端到端轉向控制器

基於CNN閉環反饋的自動駕駛車輛端到端轉向控制器

摘要:過去幾十年的許多重要研究成果表明,卷積神經網路( CNNs )能夠控制方向盤,這是自動駕駛車輛的基本和必要的操作動作。與傳統的基於CNN的方法相比,我們提出了一種具有基於CNN的閉環反饋的用於自動駕駛車輛的端到端轉向控制器,該控制器提高了駕駛性能。本文證明了所提出的神經網路DAVE - 2SKY能夠通過初始監督預訓練和隨後的強化閉環後訓練,利用安裝在車輛上的攝像機的圖像來學習推斷方向盤角度,用於自動駕駛車輛的橫向控制。我們使用PreScan模擬器和Caffe深度學習框架在環境軟體(SIL)模擬環境中進行多種環境下的訓練。我們使用DRIVE PX2計算機來實現一輛自動駕駛汽車對所提議的端到端控制器進行的實驗驗證。模擬和道路試驗也研究了該系統的性能。這項工作表明,基於CNN的端到端控制器即使在部分可觀察的道路條件下也能執行強大的轉向控制,這表明由基於CNN的端到端轉向控制器控制完全自動駕駛車輛的可能性。

作者:Junekyo Jhung1, Il Bae1, Jaeyoung Moon1,Taewoo Kim1, Jincheol Kim2, and Shiho Kim1

I.介紹

在過去幾十年中,在工業機構包括汽車原始設備製造商( OEMs )、相關公司、研究機構和大學的不斷努力下,自動駕駛技術取得了顯著成就。此外,機器學習的重大進步使得使用深層神經網路的自動駕駛車輛創新方法成為可能。

特別是,卷積神經網路(CNN)[1]已經被證明具有實現方向盤控制的端到端學習的潛力,這是自動駕駛車輛的基本和必要的操作基礎。為了構建一個完全自我優化的學習系統,以最大限度地提高軌跡跟蹤和駕駛安全性能,而不是使用基於模型的中間控制標準,從一個面向前方的車載攝像頭學習方向盤的角度,我們開發了一個加強的閉環反饋訓練和推理架構。

1989年,卡內基梅隆大學開發了一種名為自主陸地車輛神經網路(ALVINN)的自動駕駛汽車[2],該車首次展示了基於攝像頭的自動駕駛汽車端對端轉向控制的可能性。自ALVINN以來,其他值得關注的研究工作包括已經研究了神經網路(NNs)和國防高級研究項目局(DARPA)的挑戰,這些挑戰促進了神經網路的發展。

2004年,DARPA自主車輛( DAVE ) [ 3 ]項目演示了如何對一輛無線電控制( RC )汽車進行訓練,使其掌握由左、右攝像機拍攝的幾小時人類駕駛數據,並在越野環境中駕駛。雖然DAVE無法展示複雜駕駛環境的完整解決方案,但它激發了一個名為DAVE-2的高級版本[4]。

在自動駕駛車輛中,包括車輛轉向在內的橫向控制是一項基本功能。車道保持是橫向控制的代表性操作,在自動駕駛時可將車輛保持在車道的中心。雖然轉向控制是自動駕駛車輛的基本功能,但基於CNN的端到端控制器仍然難以在自動駕駛車輛中實現轉向[5]。

我們的目標是克服傳統的基於CNN的端到端控制方法的局限性,為自主車輛的轉向控制器提供一種前沿方法。我們提出了DAVE - 2SKY ( SK Telecom & Yonsei University修改的DAVE - 2 ),這是一種端到端轉向控制器,具有基於CNN的閉環反饋體系結構。網路沒有被明確教導,並且學習轉向控制在跟蹤前方車輛時保持車道所需的整個處理流水線。學習過程由兩個訓練步驟組成:監督的預訓練強化的閉環反饋後訓練。因此,DAVE - 2SKY從相機圖像數據中產生適當的方向盤角度,用於自動駕駛車輛的穩定和完全橫向控制。與DAVE-2 [4]的傳統反向傳播訓練方法相比,所提出的系統能夠在更短的訓練時間內學習駕駛任務,並具有穩健的、可改進的性能。

本文的其餘部分結構如下:在第Ⅱ節,我們提供了所提出的系統DAVE - 2SKY的概述和細節。在第V節中的實驗結果之前,第III節和第IV節介紹了使用模擬器實施SIL的環境和結果。在第VI節中,我們討論了該系統模擬中的結果,最後,我們在第VII節中總結了本文。

Ⅱ.我們所提出的系統

A.網路架構

我們的網路有一個源自DAVE - 2 [ 4 ]的架構,該架構利用安裝在自主車輛上的輸入相機的圖像來訓練NNs,以計算方向盤角度來進行橫向控制。圖2中顯示的DAVE-2SKY是使用Caffe深度學習框架[6]實現的。歐幾里德損失模型用於計算地面實況和預測方向盤角度之間的平方誤差之和,如[7]。

NN由10層組成,包括5個卷積層,3個歸一化層和2個完全連接的層,如圖1所示。如表I所示,前三個卷積層各有一個5×5內核和一個2×2跨距,接下來的兩個卷積層各有一個2×2內核和一個1×1跨距。在每個卷積層中都使用了整流線性單元(ReLU)激活。輸入圖像被分成RGB平面,然後傳送到網路。卷積層被設計為特徵提取器,完全連接層是用於操縱車輛的控制器。在卷積層2、3和4之前添加歸一化層,以避免梯度消失/爆炸問題,並通過穩定訓練過程來提高訓練速度[ 8 ]。

圖1.所提出的DAVE-2SKY CNN架構。

B.加強閉環反饋後訓練系統

基於DAVE - 2 [ 4 ]的DAVE - 2SKY系統可以在強化反饋迴路中推斷轉向控制指令。DAVE - 2SKY可以通過兩個步驟進行訓練,包括監督的預培訓和強化的閉環反饋後培訓。下面解釋兩個訓練步驟結合的原因。

監督的預訓練是圖2 ( a )所示架構的第一步。我們實現了類似於傳統訓練系統的SIL配置,PreScan模擬器在PC上運行,基於Caffe深度學習框架的CNN訓練架構在DevBox計算機上運行。來自攝像機的圖像被饋送到DAVE-2SKY以產生方向盤角度,該方向盤角度將與記錄的可行方向盤角度進行比較,以使用反向傳播機制來調整卷積網路的濾波器的權重。我們在受監督的預訓練步驟中訓練DAVE-2SKY進行有限次數的迭代,在本研究中少於80,000個周期。兩台獨立的計算機,用於模擬器的PC和DevBox,通過用戶數據報協議( UDP )網路進行通信

在預訓練步驟之後,DAVE-2SKY在加強的訓練後步驟中接受訓練。為了反饋迴路,我們形成了一個獨特的SIL閉環體系結構,由運行在PC上的PreScan模擬器和MATLAB Simulink以及運行在DevBox計算機上的Caffe深度學習框架組成,如圖2 ( b )所示。

圖2.訓練神經網路的框圖,DAVE - 2SKY :( a )有監督的預訓練;( b )強化閉環反饋後培訓。

在PreScan模擬中,我們使用了一輛帶有前置攝像頭的虛擬車輛。通過使用MATLAB Simulink的一個內置插件,我們在模擬過程中獲取了車輛的內部狀態和攝像機的圖像數據。這些狀態數據表示車輛的當前狀態,例如速度、位置、航向和橫擺角速度。車輛狀態被送入預覽驅動模型 (PDM),這是由模擬器配置的內置控制器模型,用於產生所需的方向盤角 (dd),方法是使用作者團隊 [9.10] 提供的演算法。在本研究中,PDM預測的轉向輸出被用作基本事實。使用方向盤上的介面設備,如Logitech G27,可以用人工駕駛代替PDM。這種靈活性使我們能夠將訓練有素的DAVE - 2SKY轉移到一輛真正的自動駕駛汽車上進行道路試驗。

與常規監督訓練相比,所提出的兩個訓練步驟可提高學習效率和車輛操縱性能,原因可解釋如下。從前置攝像頭獲取NN的圖像數據並發送到DevBox。除了常規深層神經網路訓練程序的正常反向傳播機制之外,DAVE - 2SKY還在閉環反饋架構中以強化的方式接受訓練。與典型的CNN類似,DAVE-2SKY將獲取的像素映射到方向盤角度(δC)。反向傳播機制[1]調整網路的CNN濾波器的權重,以最小化δD和δC之間的誤差。然後,修正了方向盤角度(δD"),由CNN網路根據調整後的重量,作為控制輸入被輸入到車輛。因此,在所提出的訓練後配置中嵌入了強化學習常式。

如前所述,訓練有素的NN DAVE-2SKY是自動駕駛車輛的控制器。傳統的簡單監督預訓練步驟可能不足以學習機動車輛所需的仿人端到端視覺智能。涉及閉環反饋的訓練後步驟允許在SIL環境中加強學習。如果我們用駕駛模擬器中的人類駕駛員代替PDM,DAVE - 2SKY可以學習啟發式駕駛體驗。

III.模擬環境

PreScan模擬器允許構建具有真實配置的虛擬驗證環境,以使用虛擬車輛模型獲取豐富的信息。使用Simulink和PreScan的插件收集訓練數據集。在模擬中使用具有默認物理模型和動態配置的虛擬車輛(奧迪A6)。如圖3所示,單個虛擬前置攝像頭安裝在虛擬車輛上。車輛的可控方向盤角度範圍為-500°至+ 500°。方向盤角度的符號表示方向盤的方向為順時針為負,逆時針為正,並且車輛的轉向比[11]設定為20:1。如圖4所示,行駛軌道長度為1492米,由兩條車道( 4米寬)組成。車道被黃色實線隔開,道路兩側都有人行道(高2m )。在模擬自動巡航控制和車道保持機動的過程中,我們將車輛速度設定為5m / s ( 18 km / h )的恆定速度。

圖3.安裝在虛擬車輛上的前置攝像頭感測器。

A.數據收集和預處理

我們的目的是訓練系統來評估橫向控制能力;因此,只需要車輛的圖像和方向盤角度數據。當車輛在軌道上逆時針行駛時(圖4 ),數據以10hz的頻率提取。車輛狀態數據與幀號同步0.1s。用160×90像素幀捕獲圖像數據,然後裁剪到160×40像素,以消除不必要的上層像素信息,如天空、樹木或遠離道路的建築物。方向盤角度數據是從內置的PDM演算法獲得的,該演算法被用作車輛控制器模型,以獲得精確的方向盤角度控制數據。因為PDM根據道路環境和車輛狀態產生精確的實時值,我們應該擴展它以獲得更廣泛的學習範圍。我們有意在PDM的方向盤角度輸出中添加範圍從–50到+ 50的隨機干擾。隨機干擾的目的是確定所提出的訓練迴路對駕駛過程中可能出現的隨機干擾的魯棒性。

B.訓練

我們使用NVIDIA DevBox進行訓練,收集的圖像和方向盤角度數據是幀同步的。如第Ⅱ節所述,NN分兩個階段進行訓練。監督預訓練方法用80,000次迭代的數據訓練網路。通過實驗找到迭代次數,以確定允許強化閉環反饋後訓練同時正確訓練和模擬的最少迭代次數。在預訓練之後,DAVE-2SKY模型經歷了訓練後的迭代。在訓練周期中,我們可以監控所有狀態數據,也可以可視化訓練和模擬環境,如圖5所示。

圖4.用於訓練和試駕模擬的軌道概述。

圖5.可視化模擬環境的截圖。

IV.模擬結果

通過模擬,我們打算通過允許自動駕駛車輛在SIL環境中的不同情況下巡航來研究所提出的端到端控制器的性能和能力。測試期間,車輛以順時針方向行駛,與訓練方向相反。通過在訓練和測試模擬過程中交替路線,我們可以輕鬆地為DAVE-2SKY網路提供不同的體驗。

我們通過擾亂攝像機前方道路的視野範圍來調查端到端控制器的操作極限:我們在完全可觀察和部分可觀察的情況下模擬了轉向性能。需要各種駕駛條件,包括由擾亂完全觀察彎道的障礙物引起的完全以及部分可觀察的情況,以評估所提出的具有加強反饋迴路的CNN模型如何能夠在車道保持操縱期間執行橫向控制。

完全可觀察的情況如圖6(b)所示實施,車輛獨自在軌道上行駛。對於部分可觀察的情況,如圖6(c)和6(d)所示,在距自我自動駕駛車輛不同距離處添加前方車輛。參數d定義為車輛後輪中心之間的距離,如圖6(a)所示。距離是確定前置攝像頭可觀測範圍的關鍵因素,我們在測試過程中將距離從7米改變為12米。在模擬期間,測試車輛以5m / s的恆定速度巡航。

圖6.輸入攝像機的視圖: ( a )距離d的定義;( b )完全可觀察到(無前方車輛);( c )部分可觀察到( d = 8m );( d )部分可觀察( d = 10m )的情況。

我們認為,如果車輛偏離車道,車道保持機動會出現故障。如果發生故障,則模擬暫停。來自控制器和前置攝像頭的所有數據與輸入圖像的幀數同步。地面實況由PDM的方向盤角度表示。跟蹤誤差是方向盤角度與第nth幀處的地面實況之間的差異。完整的模擬結束了大約3,001的幀數,因為車輛將返回到1,492米軌道的起始點,恆定巡航速度為5米/秒,並且在3,001幀內進行適當的車道保持操作。

A.完全可觀察的情況

圖7顯示了完全可觀察的案例的模擬結果。由DAVE-2SKY駕駛的車輛僅經過預訓練36小時即可成功駕駛車輛,直到到達圖4中標記的軌道的急彎位置。第1,500幀和第1,700幀之間軌道曲率的突然變化引起必要的轉向控制角度的快速變化以維持車道。因此,在車輛進入急劇彎曲的路段之後不久,車輛偏離其車道。此外,DAVE - 2SKY控制器通過主監督預訓練步驟和隨後的強化後訓練步驟成功地完成了全程軌道,並且與車道中心保持了可容忍的誤差距離。

B.部分可觀察的情況

在部分可觀察的情況下,每次嘗試通過DAVE-2SKY在預訓練步驟中駕駛車輛在模擬中都沒有成功,並且如果攝像機僅能部分地觀察彎道,則無法操縱車輛進行車道保持操縱。

如果距離d大於臨界值,由訓練有素的DAVE - 2SKY控制器控制的車輛可以將車道保持在容許誤差範圍內。在本文的模擬環境中,d的臨界值為9m。基於CNN的端到端控制器採用所提議的強化閉環訓練步驟進行訓練,在部分可觀察到的情況下表現出了更好的性能。

圖7.DAVE-2SKY充分觀測情況下的模擬結果:(a)方向盤角度(上);(b) PDM的參考值(即模擬中的地面真實值)與推理輸出值(下限)之間的誤差。

當前方行駛的車輛離自我駕駛車輛太近時,彎道的大部分輸入信息都會被前方車輛屏蔽。然而,如果在外部模擬中距離大於9m,車輛可以成功地在軌道上巡航,同時保持其車道在容許誤差範圍內。圖8中呈現的模擬結果有點嘈雜,但儘管在模擬期間施加了額外的干擾,但車輛仍然成功地行駛。

圖8.DAVE-2SKY部分可見情況下的模擬結果:(a)方向盤角度(上);(b) PDM的參考值(即模擬中的地面實況)與推理輸出值(下限)之間的誤差。

V.實驗結果

由於多個模擬已經證明了車道保持任務的可接受性能,因此DAVE-2SKY使用DRIVE?PX2計算機集成到真實的自動駕駛車輛中,用於實驗真實道路自動駕駛測試,如圖9和圖10所示。

通過應用第III節中描述的程序,收集並預處理真實道路的圖像數據以用於實際車輛的訓練。收集的數據集包含了延世大學國際圖8中行駛2小時以上的圖像。收集到的數據集包含Yonsei大學國際校區行駛2小時以上的圖像(環境如圖10所示)。在數據收集過程中,一名熟練的駕駛員駕駛車輛保持車道不偏離。

使用所提出的兩種連續訓練方法訓練該車輛72小時。然後,訓練好的模型被轉移到安裝在車輛上的PX - 2計算機上進行實驗性真實道路測試。在測試過程中,我們還評估了一個基於先前文章《[ 12,13]》的自動停車演算法的代客停車場景。實驗驗證了應用於DAVE - 2SKY控制器的上述技術可能能夠對自動駕駛車輛進行縱向控制。實驗視頻顯示在YouTube [14,15]上。由於長度限制,我們省略了本文中實驗場景和相應數據的詳細信息。

圖9.實驗自主真實道路駕駛測試的測試車輛實施

圖10.自動駕駛的實驗路線,以及道路測試下車輛的快照照片

Ⅵ.討論

對完全和部分可觀察到的情況的模擬顯示了用所提議的步驟訓練的DAVE - 2SKY的獨特能力第IV節中描述的模擬結果表明,僅通過監督預訓練自學的模型(其具有與傳統端到端CNN模型相似的特性)無法對車道保持任務執行適當的橫向控制。然而,儘管訓練周期數相似,但訓練後的加強閉環反饋實際上增強並改善了轉向控制的性能。

部分可觀察的案例顯示了DAVE-2SKY的穩健性。由於除了深NN中的反向傳播迴路之外的閉環反饋系統,所提出的DAVE-2SKY即使在車道保持機動中的部分可觀察情況下也執行魯棒的轉向控制。模擬結果表明,DAVE - 2SKY能夠從軌道自巡航控制期間的少量干擾中恢復。結果支持了我們的斷言,即受監督的預訓練和隨後的訓練後步驟以及增強的閉環反饋使得端到端控制器能夠在合理的誤差範圍內對車道保持任務進行完全橫向控制。

Ⅶ.結論

我們提出了一種端到端轉向控制器,該控制器具有基於CNN的自主車輛閉環反饋,與傳統的基於CNN的方法相比,該控制器可提高控制性能。提議的NN,DAVE - 2SKY,能夠通過監督的預訓練和加強的閉環後訓練,利用安裝在車輛上的攝像機的圖像來學習控制方向盤角度,用於自動駕駛車輛的橫向控制。我們使用PreScan模擬器和Caffe深度學習框架在SIL模擬環境中進行多種環境下的訓練。通過模擬和路況試驗,研究了該系統的性能。我們使用DRIVE PX2計算機實現了一輛自動駕駛汽車對所提議的端到端控制器進行了實驗驗證。總之,這項工作表明,基於CNN的端到端控制器即使在部分可觀察的情況下也能執行魯棒的轉向控制,這表明完全智能的自動駕駛車輛有可能由基於CNN的端到端轉向控制器控制。

致謝

這項工作得到了韓國科學和信通技術部的支持,並得到了信息和通信技術促進研究所監督的信通技術一致性創新方案( IITP - 2017 - 2017 - 0 - 01015 )的支持。作者在SK電信ICT研發中心支持的SKT -Yonsei全球人才培養計划下,作為SKT - Yonsei合作自動駕駛研究中心研究項目的一部分進行了這項工作。

REFERENCES

[1] A. Krizhevsky, I. Sutskever, and G. E.Hinton. "ImageNet classification with deep convolutional neuralnetworks." Advances in neural information processing systems. 2012.

[2] D. A. Pomerleau, "Alvinn: An autonomousland vehicle in a neural network." Advances in neural informationprocessing systems. 1989.

[3] Net-Scale Technologies, Inc., 「Autonomousoff-road vehicle control using end-to-end learning,」 July 2004. URL:http://net-scale.com/doc/net-scale-dave-report.pdf

[4] M. Bojarski, D. Del Testa, D. Dworakowski,B. Firner, B. Flepp, P. Goyal, L. D. Jackel, M. Monfort, U. Muller, J. Zhang,and X. Zhang, "End to end learning for self-driving cars." arXivpreprint arXiv:

1604.07316 (2016).

[5] Z. Chen and X. Huang, "End-to-endlearning for lane keeping of self-driving cars." Intelligent VehiclesSymposium (IV), 2017 IEEE, IEEE, 2017.

[6] Y. Jia, E. Shelhamer, J. Donahue, S. Karayev,J. Long, R. Girshick, S. Guadarrama, and T. Darrel, 「Caffe Convolutionalarchitecture for fast feature embedding,」 arXiv preprint arXiv: 1408.5093,2014.

[7] Berkeley Artificial Intelligence Research,「Caffe | Euclidean Loss Layer,」 URL:http://caffe.berkeleyvision.org/tutorial/layers/euclideanloss.html

[8] S. Ioffe, and C. Szegedy, "Batch normalization:Accelerating deep network training by reducing internal covariate shift."International Conference on Machine Learning. 2015.

[9] C. I. Chatzikomis and K. N. Spentzas."A path-following driver model with longitudinal and lateral control ofvehicle』s motion." Forschung im Ingenieurwesen 73.4 (2009): 257–266.

[10] R.S. Sharp, D. Casanova, and P. Symonds,「A Mathematical Model for Driver Steering Control, with Design, Tuning and PerformanceResults,」 Vehicle System Dynamics, 33:5, 289–326.

[11] Wikipedia contributors, "Steeringratio," Wikipedia, The Free Encyclopedia. Wikipedia, Jan 2018. URL: https://en.wikipedia.org/w/index.php?title=Steering_ratio&oldid=818

506438

[12] J. Moon, I. Bae, J. G. Cha, and S.Kim, "A trajectory planning method based on forward path generation and backwardtracking algorithm for automatic parking systems." IntelligentTransportation Systems (ITSC), 2014 IEEE 17th International Conference on.IEEE, 2014.

[13] I. Bae, J. H. Kim, and S. Kim,"Steering rate controller based on curvature of trajectory for autonomousdriving vehicles." Intelligent Vehicles Symposium (IV), 2013 IEEE. IEEE,2013.

[14] Seamless Transportation Lab, YonseiUniversity, 「Autonomous Valet Parking Demonstration 2017/ SeamlessTransportation Lab, Yonsei University,」 YouTube, November 2017. URL:https://youtu.be/kxaZvrhftuo

[15] Seamless Transportation Lab, YonseiUniversity, 「Autonomous Valet Parking System with Surround View Camera (II)/Seamless Transportation Lab, Yonsei University,」 YouTube, November 2017. URL:https://youtu.be/9rSGsKXuat8

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 智車科技 的精彩文章:

基於信道模擬的車聯網外場通信模擬測試方案
車聯網中的V2R通信

TAG:智車科技 |