PerceptIn 張哲：SLAM剛剛開始的未來之風起獅城｜ICRA 2017

新聞 06-17

雷鋒網按：本文為PerceptIn聯合創始人兼CEO張哲參加今年5月29日至6月3在新加坡舉行的ICRA大會的感想，主要分享作者關於各個種類的SLAM及相關研究應用的看法和思考。

張哲，紐約州立大學機器人方向博士，清華大學自動化系本科。研發方向：地圖重建、位置跟蹤、機器人自主避障導航、設備端和雲端的演算法優化。2009-2014年在微軟，2014-2016年初在Magic Leap工作。

右一為PerceptIn CEO張哲，正在為參會人員演示給開發者用的視覺模組

2017年的ICRA大會 (International Conference on Robotics and Automation) 6月初在新加坡剛剛結束。ICRA作為國際機器人頂級學術會議之一，從1984年開始到今年已經是第34個年頭。現在有意願的申辦方要提前3年申請，即使被IEEE接受申請成為主辦方，都需要提前兩年每年學習當屆主辦方的經驗教訓。在新加坡會議現場，專門有2018澳大利亞布里斯班和2019加拿大蒙特利爾的宣傳展台。這次的ICRA是機器人學術屆和工業界的一次盛會，不但來自各大洲的學校和研究機構的教授、學生、研究員們來演講或學習最新的成果，工業界機器人和「泛機器人」相關的公司也紛紛前來參展和學習。機器人研究的方向和種類繁多，但計算機視覺，SLAM (同步定位和建圖)，建圖，空中機器人 (泛指各類無人機)，距離感知，RGB-D感知這幾個話題的track加在一起已經佔到所有track的一半左右。筆者根據這次的大會所見所聞和自己在機器人領域十多年 (尤其是最近一年多在PerceptIn全面推進軟硬體一體化智能感知方案的產品化落地) 的切身感受，在這裡和大家分享各個種類的SLAM及相關研究應用的看法和思考。

本文純屬個人觀點，僅供大家參考。SLAM技術基本知識的詳細介紹請參見筆者將近一年前的博客文章。

稀疏SLAM

稀疏SLAM指的是前端用從圖像提取來的較稀疏的特徵點而不是從深度攝像頭來的稠密點雲，或不提取特徵點直接試圖計算深度的直接法 (後面有專門的討論)。稀疏SLAM在理論和實現上已經趨於成熟，藉助六軸陀螺儀imu (inertial measurement unit) 的視覺慣導融合的緊耦合方法已經成為標配。在幾何方面，稀疏SLAM從前端到後端已經做的非常細緻，以致於大量演算法微調的細節出現在論文裡面，在這裡舉一些比較典型的例子：

特徵點從哪裡來的問題分為了KLT (Kanade-Lucas-Tomasi) pipeline和FREAK (Fast Retina Keypoint) pipeline: 前者的原理是基於亮度恆定、時間連續、空間一致來對像素做跟蹤匹配，這種方法幾何信息算的好、跟蹤時間長，但是會飄，後者相對不飄但跟蹤時間短，其原因是FREAK的DoG (Difference of Gaussian) 極值在相鄰幀重複性差。
特徵點被如何用的問題分為了SLAM特徵點和MSCKF特徵點：SLAM特徵點被加入狀態向量並被更新，MSCKF特徵點在測量的相關公式中被忽視 (marginalize) 掉來生成位姿之間的約束。這樣做的目的在於既保持了準確性又照顧到了處理時間不會太長。
諸如此類還有很多如何用imu來選好的特徵點，如何在後端優化中融合imu帶來的約束，sliding window有多長，哪部分用NEON/GPU實現了，標定裡面哪個參數最重要，預積分的處理在還算合理的情況怎麼能更合理等等。

然而即使稀疏SLAM演算法日趨成熟，但對硬體的依賴度反而變大，深層次的原因是因為演算法摳的非常非常細，對硬體的要求也都是非常細緻並明確的，比如大家偏好大視角鏡頭但大視角的邊界畸變最嚴重，到底好不好用、怎麼用、用什麼模型；比如相機和imu的同步最好是確定的硬體同步，不但希望能保證順序和微秒級的精確，還希望能在每幀圖的那一剎那正好有一幀imu這樣預積分才最準確；比如需要看的遠又能拿到準確的尺度，那必須基線拉大，那麼拉到多大呢，著名的做VINS (Visual Inertial Navigation System) 的明尼蘇達大學自己搭的硬體是26厘米基線的雙目配上165度的大視角鏡頭，堪稱是跟蹤神器；再比如賓州大學這次在ICRA發布的供SLAM跑分的數據集，採集數據用的是自己搭的一套硬體，由兩個第二代Tango平板，三個GoPro相機，和一個VI Sensor (做這個的公司早已被GoPro收購)，再加上AprilTags的marker跟蹤，融合後的位姿信息作為真值。PerceptIn的第一代雙目慣導模組在大會的展台區引來大家爭相詢問併購買，可見SLAM和各類基於計算機視覺的研究人員對一個好用的硬體需求非常大。

稠密SLAM

稠密SLAM重建目前也相對比較成熟，從最開始的KinectFusion (TSDF數據結構 + ICP) 到後來的InfiniTAM (用哈希表來索引很稀疏的voxel), ElasticFusion (用surfel點表示模型並用非剛性的圖結構), DynamicFusion (引入了體翹曲場這樣深度數據通過體翹曲場的變換後才能融入到TSDF數據結構中去來完成有非剛性物體的動態場景重建) 都做的比較成熟。工業界實現非常好的是微軟的HoloLens，在台積電的24核DSP上把mesh simplification這些操作都搞了上去。

這屆ICRA上稠密SLAM重建這部分，很明顯看出大家仍然很喜歡基本的幾何圖元，比如平面，比如法向量，這裡不一一贅述。著重說一下讓筆者感到驚喜的是很基礎但非常重要的：給地圖的數據結構仍然有很大程度的創新，比如這篇「SkiMap: An Efficient Mapping Framework for Robot Navigation」，這個東西的本質是「Tree of SkipLists」 (筆者不知道該翻譯為跳錶樹還是樹跳錶)，3D空間XYZ各一層，前兩層的每個節點其實就是一個指針指向下一層，最後那層才是voxel有真正的數據，而各層有個隱藏層是跳錶，保證了查找插入刪除都是O(logn)。這個數據結構對機器人非常實用，尤其是不同高度下的快速深度檢索和障礙物檢測。

基於事件相機的SLAM

一句話來解釋event camera (暫且直譯為事件相機) 的原理就是事件相機的每一個像素都在獨立非同步的感知接收的光強變化。對每個像素來說，「事件」的本質就是變亮或變暗，有「事件」發生才有輸出，所以很自然的沒有了「幀率」的概念，功耗和帶寬理論上也會很低。另一方面，事件相機對亮度變化非常敏感，動態範圍能到120 dB，甚至在對快速旋轉等劇烈運動的響應比imu還要好。這種新的感測器自然被很多做位置跟蹤的研究者們所青睞，ICRA上尤其是歐洲的幾個有名的實驗室都在玩。然而從工業界相對實際的角度看，這個相機有以下三個致命點如果不解決那麼就無法大量普及:

1) 貴，現在的價格是幾千美元，現場有人說量產了就能一美元，這顯然沒法讓人信服，CMOS已經應用這麼多年現在一個global shutter的CMOS也不可能只要一美元，雖然筆者又專門到做事件相機的公司展台去詳細聊了價格的問題，得到的答案是未來兩三年內隨著量產是有可能降到$200-$300的;
2) 大，因為每個像素的電路十分複雜，而每個像素本身的物理大小是20微米左右的，相比於很多CMOS，6μm x 6μm都算很大的了，那麼就直接導致事件相機的物理尺寸很大但像素其實很低 (比如128 x 128);
3) 少，「少」是說信息維度信息量不夠，事件相機的事件一般都在明暗分界線處，所以現場有人就管它叫「edge detector」，但在計算機視覺整體尤其是結合深度學習後都在往上層走的大趨勢下，只有一個事件相機是遠遠不夠的，這也是為什麼事件相機的廠家也在整合imu和傳統相機做在一起，但這樣的話成本更是居高不下。

基於直接法的SLAM

一句話來解釋direct method (直接法) 的原理就是在默認環境亮度不變 (brightness consistency assumption) 的前提下，對每個像素 (DTAM) 或感興趣的像素 (Semi-Dense LSD SLAM) 的深度通過inverse depth的表達進行提取，並不斷優化來建立相對稠密的地圖，同時希望實現相對更穩定的位置跟蹤。相比於研究了20多年的基於特徵點的方法，直接法比較新，只有五六年的歷史，下面是ICRA上和直接法有關的幾篇論文，主要都是通過融合額外的感測器或方法進行對原有直接法的改進。

「Direct Visual-Inertial Navigation with Analytical Preintegration」: 主要講的是連續時間意義下的imu kinematic model的閉式解。
「Direct Visual Odometry in Low Light Using Binary Descriptors」: 不再基於亮度不變的假設，改用基於二進位特徵描述不變的假設。
「Direct Monocular Odometry Using Points and Lines」: 用edge把基於特徵點和基於直接法的兩種方法結合起來。
「Illumination Change Robustness in Direct Visual SLAM」: Census效果最好。

那麼直接法到底能否大範圍普及呢？筆者從工業界「比較俗比較短視比較勢利」的角度來看，覺得直接法兩邊不靠非常尷尬: 1) 直接法沒有證明在位置跟蹤方面比前端用傳統特徵點的基於濾波 (MSCKF, SR-ISWF) 或者基於優化 (OKVIS, VINS-Mono) 要有優勢，如果環境惡劣是由於光線變化，那麼直接法的基於環境亮度不變的假設也不成立，如果環境惡劣是由於超級劇烈的高速運動，那麼直接法也是得通過imu融合才能爭取不跟丟; 2) 直接法的直接好處是地圖相對稠密，但相對稠密是針對於基於特徵點的稀疏而言，如果這個地圖是為了做跟蹤，那麼基於特徵點的方法已經證明可以做得很好了，如果是為了3D重建，那麼大可以用一個深度相機，如果是被動雙目的話，被動雙目還原出稠密深度本身也在大幅度進步。所以筆者認為直接法夠新穎，但新穎的不夠強大，或者說不夠強大到有落地價值。

這次ICRA大會的SLAM還有一個非常大的方向是語義SLAM還有深度學習，試圖從各個方面幫助SLAM的幾何部分。這個話題非常有趣也非常大，限於篇幅不多贅述。大方向上學術界SLAM的相對成熟，必然伴隨著工業界很大量級的產品中集成達到產品化程度的SLAM方案，那麼在工業界SLAM未來走勢會是什麼樣子呢？筆者有以下幾點看法:

1) SLAM太重要會導致大廠都想擁有，但有能力搞高質量全套的就那麼幾家，這幾家也能搞到業界最好，比如微軟HoloLens，谷歌Tango，蘋果ARKit，注意即使實力強大到這幾家也都緊密配合自己的硬體，也沒法給出一個普適方案；
2) 會有很多出貨量極大但優勢不在演算法端或者說不需要在演算法和軟體的公司，比如各大掃地機廠商，這些廠商只需要在創業公司裡面挑一家方案成熟度最高、資金儲備最充足、人才儲備最完備、最容易合作的方案廠商合作就好；
3) 留給國內外的SLAM初創公司做單點技術的空間不大，這個現象不只出現在SLAM上，也會出現在任何一個技術的產品化道路上，然而在SLAM和「泛感知」這一塊相對比較特殊的是需要SLAM和智能感知的產品和方向太多，而感知對硬體的依賴又非常大，整體市場尤其每個細分領域遠遠沒有達到飽和的階段。

ICRA 2017，風起獅城，SLAM的未來已經開始。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷鋒網 的精彩文章:

※別小看高精地圖：圍繞它的一場爭奪戰正在火熱進行
※無人機起飛姿態仿生鴨子，可連續飛行幾個月
※高通為硬體廠商們奉上了一張語音時代的入場券
※庫克：AR讓我興奮得想尖叫，不為創新而焦慮
※優必選周劍：給人形機器人裝上「智能心」，才是優必選的終極夢想

TAG:雷鋒網 |