學術報告大連交通大學楊明珠：深度強化學習在自動駕駛技術中的應用

科技 08-16

不到現場，照樣看最乾貨的學術報告！

嗨，大家好。這裡是學術報告專欄，讀芯術小編不定期挑選並親自跑會，為大家奉獻科技領域最優秀的學術報告，為同學們記錄報告乾貨，並想方設法搞到一手的PPT和現場視頻——足夠乾貨，足夠新鮮！話不多說，快快看過來，希望這些優秀的青年學者、專家傑青的學術報告，能讓您在業餘時間的知識閱讀更有價值。

2018年8月4月，由北京理工大學大數據創新學習中心與中國科學院人工智慧聯盟標準組聯合主辦的「2018深度強化學習：理論與應用」學術研討會，學界與業界頂級專家濟濟一堂，共同分享深度強化學習領域的研究成果。

大連交通大學電氣信息學院研究生楊明珠以深度強化學習在自動駕駛技術中的應用為主題進行了報告，以下分享內容根據嘉賓口頭分享整理。深度強化學習在自動駕駛技術中的應用

楊明珠大連交通大學今天我的演講內容主要分為四個部分：深度強化學習的理論、自動駕駛技術的現狀以及問題、深度強化學習在自動駕駛技術當中的應用及基於深度強化學習的禮讓自動駕駛研究。首先是深度強化學習的理論，DQN做了深度的拓展，在離散型動作中應用效果比較好，但連續性動作當中表現效果並不好，所以做了一些改進和發展，如Double DQN等。

在連續型動作之中我個人比較喜歡DDPG的理念，原因有兩點：之前學習到的經驗和Policy數據放到Replaybuffer當中，若之後的行為當中發現和之前相似的地方就會直接從Replaybuffer當中把之前的經驗和數據直接調用出來，這樣就可以避免在重複進行一種訓練或者採集的方式，節省時間、提高效率；信任域的策略優化，簡稱TRPO，其實是對之前的演算法做了改進，如對狀態分布進行處理，利用重要性採樣對動作分布進行的處理及在約束條件當中，把平均KL散度代替最大KL散度。

PPO也是最近比較熱門的一種深度強化學習演算法，分為N個Actor，同時進行一些工作，這樣平均分配給很多個actor，合作來做的話效率會更高，而且會節省更多的時間。HER演算法也是個人最喜歡的之前經過所有訓練，經驗總結出來，這個工作結束以後全部消化一遍，然後做第二次實驗或者工作的時候吸取了前面的經驗，然後再進行下面的訓練或者工作的話，就會避免一些錯誤，如無人駕駛撞車了，上次為什麼撞車了呢？第二次需要避免這個錯誤，即不讓它撞車。

自動駕駛技術的現狀和問題，主要成為三個模塊：感知模塊，包括攝像頭、感測器，即硬體方面，採集到的圖像信息、視頻信息或者感測器的數據反饋到了決策模塊，也叫黑匣子，是無人駕駛技術當中具有決定性的模塊，主要包括Planning和之後的預測。決策模塊，主要包括GPU、CPU等計算單元。控制模塊，主要是對自動駕駛的控制，比如制動和減速。預警系統，如果是突發情況，決策模塊反應不過來就會直接給到預警系統，採取制動或者減速。

自動駕駛公司分為互聯網公司（如Google、百度、蘋果和Uber）及傳統車企（如福特和汽車配件的博世、大眾、通用、寶馬和賓士等）。目前自動駕駛技術有三個問題：感知方面也可以叫做信息的預處理，主要包括對圖像或者視頻信息的分割、檢測或者識別，如果識別的準確率更高可能會對之後的決策有比較好的優勢。運行當中也需要用到分割工作，如沿著車線走需要分割車線位置等。決策方面其實是為了模仿人類，所以需要經過很多訓練，利用強化學習來做自動駕駛即像人考駕照的過程，學習怎樣開車，最後達到上路的水平。控制方面就是故障安全機制，遇到危險的情況下來不及反應，就需要安全機制保障車內的人身安全，我們做自動駕駛也就是為了減少交通事故的發生率，讓更多的人可以安安全全地坐上自動駕駛汽車。

在控制方面，我們不得不提一個模型，就是Mobileye的RSS模型。我們在此借用了王宏明教授的一段話：不主動、不拒絕、不負責，事故發生不是自動駕駛汽車引起的，非要拉進事故親密接觸也沒有辦法，有了不主動、不拒絕，自然也就不負責了。RSS模型就是不去主動撞你，但你要是撞我的話我也沒有任何辦法。我們不能說它不好，但確實是給了我們一種啟示，就是不要去撞別人，別人來撞我們就真的置之不理嗎？王宏明教授批評也是因為這個原因，別人撞我的時候我沒有任何反應，這樣的想法也是不對的。RSS模型也有可以肯定的地方，確實是做到了不去撞別人，之後的工作也是在RSS模型上面做一些改進。

現在解決自動駕駛技術問題有兩種方法：一種是低精度定位+低精度地圖+高準確識別率，另一種是高精度定位+高精度地圖+更準確的識別率。

國內百度採用的是高精度的定位和高精度的地圖，能夠知道是在哪條路上面，包括之後的Planning也是依據高精度地圖來做規劃。個人覺得這種方式可能比較麻煩，因為對要求會特別高，如果高精度地圖有一點偏差的話可能對之後的決策和規劃會有一些麻煩，所以我們將採用深度強化學習演算法來根據高識別率的信息做決策，不太依賴於高精度地圖。

DeepMap公司也在做高精度地圖方面的研發工作，目標就是用無人駕駛汽車有眼睛、有大腦，而且可以確保更加安全地到達之後想要去的地方，但這樣也是非常費時間、成本非常高，因為需要各條街路採集信息，包括全景。

百度是有採集信息的車輛，其實也是比較辛苦的，需要採集所有全景的圖像來做上傳，最後再和百度地圖結合，這樣才能制定比較好的高精度地圖，這樣成本會非常的高。

關於深度強化學習在自動駕駛當中的應用，有幾個團隊：WAYVE團隊、本田研究院團隊、堪薩斯州立大學團隊、韓國漢陽大學團隊。Wayve是我個人比較欣賞的團隊，是由英國劍橋的博士畢業生創立的自動駕駛。

Wayve在今年7月發布的文章是《Learning to Drive in a Day》，僅僅用了一個前景攝像頭，就是車前方的視頻作為輸入的State，輸出的Action就是保證在同一車道內行進距離，行駛距離長，reward就大；行駛距離短，reward就短。結果是只用了單個攝像頭讓自動駕駛汽車在三十分鐘內學會了保持在同一車道內行駛二百五十米距離。這樣的方式我們是比較欣賞，但不太建議使用這種僅僅基於視覺的方式來做自動駕駛，因為開車肯定是眼觀六路耳聽八方，側面或者後面出現任何問題沒有辦法及時預警，沒有辦法及時處理，將來在上路的問題上肯定是有很大的缺陷。

賓夕法尼亞大學，本田研究院和喬治亞理工學院合作團隊是採用TTC模式，能夠提前知道岔路口的狀態，如何通過岔路口並且預測到達這個岔路口的時間是不是有危險，有沒有足夠的時間進行制動，TTC一般都是二點七秒，那個，該團隊存在的缺陷因為就是DQN存在的問題，即在離散動作當中表現優異，在連續性動作中表現不好，如果是在高速行駛的情況下如何應用，解決得並不是太好。

如何在對抗性極強的情況下，對碰撞避免機制的行為進行訓練，使系統進入不安全預警狀態，堪薩斯州立大學團隊提出了一種基於深度強化學習的新框架，用於對自動駕駛汽車的碰撞避免機制的行為進行基準測試，但是有一個缺點：無感知單元的預處理過程，並且沒有在連續性動作的決策任務

韓國漢陽大學團隊使用了傳統的駕駛輔助系統和DQN結合，是在高速公路的模擬場景當中駕駛，而且採用的是兩個DQN的模式作為輸入，看一看是不是在車道變化情況下有一個很好的效果，超車的時候是不是也會有更好的效果，存在的問題其實也就是DQN的問題，離散性會更好一些，連續性並不是太好。

我們將這些思想做了融合，提出了我們的一種新的自動駕駛技術，就是禮讓自動駕駛。我們的禮讓自動駕駛也是從三個方面來說：感知、決策和控制單元。什麼叫做禮讓，包括」安全行車、禮讓三先」:先讓，先慢，先停，我不去撞別人，別人撞我的時候要先避讓一下，避免發生撞擊的情況。

感知部分是圍繞檢測、識別和圖像分割等方面，檢測當中我們用的最多的是YOLO演算法，如果車速特別快的話也需要快速的檢測，然後再去做一些決策方面的，識別方面個人比較喜歡VCG模型，模型結構簡單而且，識別效果也是比較不錯的。分割當中有局部分割、語義分割和全景分割，現在應用最多的是語義分割和全景分割。感知模塊我們借鑒AndreasGeiger的思想，將地圖、三維感測器、二維感測器中的信息給到「世界模型」（world model），我們把感知部分所有信息匯總到一個地圖當中，做成一個Map，相當於解除了我們對於高精度地圖的高度依賴感，同時可以理解每個時刻的不同物體，相對於地面和道路這些位置，並且可以做之後的預測，相當於之後的路徑規劃問題。

我們採用DDPG演算法改進自動駕駛決策的部分，同時加入禮讓的駕駛概念，就是我們在遇到問題的時候要首先想到先做避讓，也就是主動避讓的情況，連續動態的情況下可以讓自動駕駛汽車避免發生碰撞。

那麼「禮讓」這一詞最早起源於機器人，但機器人的速度會比較慢，如果轉移到車輛方面其實還是有些難度的，而且高速當中的禮讓應該還是比較困難的問題，所以這也是我們日後工作的難點。決策方面我們可能會結合PPO與HER的思想，個人比較喜歡這兩種演算法，所以會結合在裡面，自動駕駛在高速運行的情況下也會需要一個快速決策的過程，所以選用PPO演算法使得速度能夠提升。

駕駛一段時間以後我們會在第二次自動駕駛的時候總結第一次的經驗，因為人都是在經驗當中不斷積累，日後才能達到會開車的水平，所以我們也在說學習駕車的思想，然後通過HER促進自動駕駛車輛，總結之前的經驗，使其在之後的駕駛過程當中少犯錯誤，盡量避免發生不必要的危險。決策的過程當中個人還是比較喜歡Actor-Critic機制，通用reply buffer是我們對之前駕駛的經驗和其所得到的Policy的存儲過程，之後的駕駛任務當中遇到類似的問題直接可以採用這種經驗，不需要再做其它的改變或者訓練。

控制方面主要還是RSS模型上面做出一些改進，因為不可能只是關注到前方的避讓或者碰撞，也要關注後方，別人撞你的時候應該怎麼辦，所以採用的是雙保險的機制，為了保證自動駕駛汽車的安全。當然如果感測器檢測到有危險，或者是距離太近的情況下，自動駕駛汽車會直接進入安全機制，或者是作出禮讓的行為，因為我們貫穿始終的都是禮讓自動駕駛。

模擬平台TORCS屬於3D賽車模擬遊戲，個人比較喜歡通過這個來玩賽車遊戲，做的效果是很好的，而且是世界通用的賽車遊戲，也是相對有說服力，效果會比較好一點，但是場景單一，不適合在複雜場景下做訓練。

結論與展望：DQN出現最早，改良版本最多，離散情況效果最佳，原理相對較簡單，易於掌握與入門。DDPG是在DQN的基礎上進行改良，原理易懂，在連續動作中表現優異，適用於自動駕系統的決策研究。之後出現的A3C、PPO、HER等演算法在連續動作中都有很好的應用與體現。目前，有很多人在將分層強化學習和逆向強化學習（模仿學習）應用於自動駕駛技術當中，效果有待考究實驗。

實際上，基於時間空間的博弈動力學研究表明，機器人在目前的實驗與發展狀態下不具備倫理判斷能力與決策功能。所以，將機器人置於倫理困境是超出了機器人研究的能力範圍。德國聯邦交通和數字基礎設施部委員會說過，自動駕駛系統需要更好地適應人之間的交流，也就是讓車輛或者機器適應我們的生活節奏，不是我們人去適應機器應該怎麼做，或者是機器人之間的交流，總體來說就是以人為主，包括之後發生不可避免事故的時候主動的決定權，包括最終行為的決定權，必須要歸人來掌握，尤其是必須歸駕駛員掌握。吳焦蘇老師的一句話讓我印象深刻：「自動駕駛系統的安全性不能得到嚴格保證之前不應當被批准量產」。其實這也是對我們生命的負責任，因為如果自動駕駛車輛不能保證百分之百不發生事故，或者不能保證百分之百不會撞擊的話就不能上路，因為我們要對自己的生命負責，也要對他人生命負責。

精彩的學術報告背後，是一群優秀的學術人才。都說搞學術的人需要「超凡脫俗」，需要耐得住清貧寂寞，其實……芯君想說：完全不需要這樣啊！比如，馬上申請2018百度獎學金——是的，百度為每位具有AI才能的「潛力股」學術精英們提供了廣闊的平台資源和發展空間，為其提供20萬研究資金支持，幫助優秀學子全身心投入科研工作，心無旁騖地進行科學探索。

還等什麼，你——未來的學術之星，趕快申請報名吧！

留言點贊發個朋友圈我們一起探討AI落地的最後一公里

如需轉載，請後台留言，遵守轉載規範

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 讀芯術 的精彩文章:

※武漢大學、阿里巴巴：一種用於零樣本文檔過濾的深度相關性模型
※學術報告 NVIDIA何琨：NVIDIA 深度學習加速工具

TAG:讀芯術 |

學術報告 大連交通大學楊明珠：深度強化學習在自動駕駛技術中的應用

學術報告大連交通大學楊明珠：深度強化學習在自動駕駛技術中的應用