北大教授陳寶權：AI+三維視覺，讓機器人具備決策和執行力

新聞 04-02

打開今日頭條，查看更多圖片

【新智元導讀】人類不僅可以通過眼睛「看清」周圍環境中的東西，還能「識別並理解」這些東西，對這些東西形成「認知和決策」。現在，研究人員正努力讓AI也做到這一點。北京大學博雅特聘教授、前沿計算研究中心執行主任陳寶權的這篇精彩演講，對當前國內三維視覺智能領域研究概況、技術應用方向和未來前景做了精彩分析。

眾所周知，人工智慧是模擬人類智能的技術，實現對人類智能的完全再現，是人工智慧的終極目標。而人類智能是從人類的感官和認知開始的。所以，人類的感官往往成為研究人工智慧的入手點，比如視覺。

對於人類而言，不僅可以通過眼睛「看清」周圍環境中的東西，還能「識別並理解」這些東西，對這些東西形成「認知和決策」。現在，越來越多的AI領域的研究人員正努力讓AI同樣做到這一點。從人類的三維視覺出發，三維視覺智能已成為人工智慧研究和應用的熱門領域。

在今年3月27日新智元舉辦的「智能雲·新世界」AI技術峰會上，北京大學博雅特聘教授、前沿計算研究中心執行主任陳寶權發表了題為《三維視覺智能及應用》的演講，從研究人員的視角，對當前國內三維視覺智能領域研究概況、技術應用方向和未來前景做了精彩的分析。

以下為新智元整理的演講內容：

北大教授陳寶權：AI+三維視覺，讓機器人具備決策和執行力

北京大學博雅特聘教授、前沿計算研究中心執行主任陳寶權

今天很高興有機會能夠在這裡發表演講！今天下午的講者主要來自於企業，我就從學術研究的角度，對現在非常流行的人工智慧技術的重要分支——視覺智能來做下介紹。

北大教授陳寶權：AI+三維視覺，讓機器人具備決策和執行力

說到視覺智能，大家都不陌生，人工智慧的很多技術是基於人的各種感觀的，其中視覺感觀就是非常重要的一環。在視覺智能方面的很多技術已經在工業界得到非常好的應用。隨著應用的深入，越來越多的視覺智能技術進入「三維視覺智能」階段。也就是說，我們的眼睛不僅要看清某個東西，認識某個東西，還要走到這個場景裡面去，在三維世界裡真實地感受場景，如同身臨其境。

北大教授陳寶權：AI+三維視覺，讓機器人具備決策和執行力

這就需要具有三維空間感知與認知能力的智能，即三維視覺智能。任何一個新的研究方向的出現都不是憑空而來，而是和許多其他學科交叉而來的。三維視覺智能的研究就是集合計算機圖形學、計算機視覺等領域的技術與傳統的人工智慧、學習、大數據等很好地交叉融合。

三維視覺技術的發展得益於視覺感測器的快速發展，已經在推動很多應用，比較有代表性的包括無人車、機器人，以及娛樂、影視等其它領域的應用。

北大教授陳寶權：AI+三維視覺，讓機器人具備決策和執行力

三維視覺研究什麼？總結起來有幾大主要方向：

首先是三維感知，也就是感知三維空間，獲取和處理三維深度等；然後是位置感知，比如感知相機的位置等；第三是三維建模，不僅對場景有基本的深度感知，還要獲得關於場景完整幾何模型的描述。最重要的就是三維理解，對場景和其中的物體從三維空間來進行理解。

北大教授陳寶權：AI+三維視覺，讓機器人具備決策和執行力

三維視覺的發展得益於視覺感測器的發展，而感測器大致可以分為兩類，一類是被動感測器，現在我們用的各種相機就是被動感測器。另一類就是主動感測器，比如激光掃描，以及各類以主動發射信號為主導進行測量的感測器。大家知道，隨著手機的快速發展，未來的手機會同時配備兩類感測器，也就是深度感測器和傳統的顏色感測器。

北大教授陳寶權：AI+三維視覺，讓機器人具備決策和執行力

下面簡要介紹一下我們在這方面的一些探索性工作。2009年，當時大疆無人機還做定製化產品，我們請大疆做了一台定製化無人機，目的用它來做傾斜角航拍，利用無人機從空中得到航拍影像，經過三維重建計算以後得到三維影像數據（注意，還不是完整的三維模型），有了三維描述就可以從任意視角自由地漫遊場景。可以看到，儘管用的只是二維感測器，依然可以通過視覺計算得到三維數據的描述。

隱式三維感知：動態相機實現視頻無縫接合

在我講如何利用主動式感測器直接獲得三維場景幾何模型之前，我想先介紹一下，其實對於影像的三維感知不一定要以顯式的方式表示出來，可以通過隱式的方法獲得一定程度的三維感知，也能實現一些類比於直接採用三維信息才能實現的功能。

北大教授陳寶權：AI+三維視覺，讓機器人具備決策和執行力

這個好比人的視覺感知，我們雖然對視覺的認知是三維的，但也不是一切基於精確的三維測量。這裡舉幾個例子。比如，上面是電影里的一個片斷，我們可以把其中的人物和表演放到一個新的場景里去，因為相機是動態的，這裡就需要有一個隱式的相機三維位置恢復，才能把一個動態的前景和一個動態的視頻背景無縫融合在一起。

北大教授陳寶權：AI+三維視覺，讓機器人具備決策和執行力

上面是一段表演視頻，我們可以提取它的一部分三維骨架信息，驅動一個不會跳舞的人來跳舞。左邊的這個人假設不會跳舞，她只是做幾個動作，右邊大圖裡面左上角是真正會跳舞的舞者，我們用她的專業動作來驅動不會跳舞的人來跳舞。就是通過對「驅動」視頻進行三維理解並「遷移」三維動作到參考視頻中的人物而併合成新的視頻，於是在右邊大圖裡，這位女士也會跳舞了。

北大教授陳寶權：AI+三維視覺，讓機器人具備決策和執行力

我們不僅可以把一個人的動作遷移到另外一位骨架類似的人身上，也可以把小孩的動作遷移到大人身上，甚至可以把動物的動作遷移到人的身上。這就需要具備一定的三維骨架重定向的能力。

比如，下面的動圖中有兩個人在跳舞，但是每個人的動作方向、臉部朝向、身高都有所不同。像這樣一個運動的定向差值，都是通過隱式三維理解和編碼實現的。

北大教授陳寶權：AI+三維視覺，讓機器人具備決策和執行力

下面講主動感測器的使用，近年來主動式感測的發展非常非常快。特別是無人車技術的發展要求，進一步推動了感測技術的飛速發展。早在無人車火爆之前，我們就於2009年開始採用車載移動激光掃描器來進行城市級別的大場景三維掃描，構建城市場景的三維模型。

北大教授陳寶權：AI+三維視覺，讓機器人具備決策和執行力

我們通過車載三維感測技術得到了大量點雲數據，並利用這些數據進行幾何建模，得到了非常精細的三維模型。我們對城市場景里各種類別的複雜物體進行建模，例如對樹木等目標進行三維識別，識別出不同類型的樹，再針對不同樹木的幾何特徵，對樹木進行高精細化的三維建模。

北大教授陳寶權：AI+三維視覺，讓機器人具備決策和執行力

中央電視台曾經對我們做過一期專門報道——《把城市搬到電腦里》。當時我們對深圳一個片區進行了完整的三維建模。這之後我們接到了很多電話，問我們：用你們的車開過一遍是不是就能獲得我們城市的三維模型？實際上我們做不到，原因不是因為數據處理的問題，而在於前端的數據獲取。

我們的城市綠化做得太好了，車開過去只能掃描到樹，掃描不到建築。如果要真正解決這個問題，就要把解決方案移到前端，想辦法能夠完整地獲取數據。

因此，我們開始提出利用機器人獲取數據，來進一步解決這個問題。機器人在現場採集數據的同時進行數據分析，看看數據是不是有缺失，如果有缺失就要走到相應地點去獲取所需信息，從而形成一個數據獲取與處理的閉環。

讓機器人不僅看得見，還要看得懂

北大教授陳寶權：AI+三維視覺，讓機器人具備決策和執行力

首先從單個物體的實驗開始，機器人手持Kinect（一種利用結構光獲取三維模型信息的主動式感測器）掃描一個物體，例如一個3D列印的玩具，能獲取目標物體全方位的三維數據。機器人自己規劃掃描路徑，直到最後獲得一個完整的三維模型。

北大教授陳寶權：AI+三維視覺，讓機器人具備決策和執行力

接著實驗的是場景認知問題。不僅要獲得場景的完整三維數據，而且還要認識每個物體到底是什麼，要去理解場景里的每個物體，獲取物體的語義信息。同樣的道理，認知的過程必須形成一個閉環，機器人的實時決策能不能根據現有的三維數據對這個物體進行識別。如果不可以，就要走到新的角度去獲取數據。

北大教授陳寶權：AI+三維視覺，讓機器人具備決策和執行力

進一步，我們的演算法就可以拓展到一個更大的室內場景中。這種情況下，只有一個機器人是不夠的，我們可以利用多個機器人。這些機器人要實現協作，需要一個實時的協同工作演算法。在室內環境下，我們已經有了非常好的機器人協同方案。

北大教授陳寶權：AI+三維視覺，讓機器人具備決策和執行力

機器人不僅可以在三維空間導航行走，還應該成為真實世界的一員。實現這一點就要讓機器人和現實場景打交道，比如讓機器人拿起一個杯子，打開一扇門，甚至和人握手等。這種直接的三維交互非常重要。這需要對機器人空間定位和路徑規划進行更多的研究，這方面我們近期做了一些工作。

讓機器人具備決策和執行力，替人類完成更多工

我們沿著這個技術路線探索，思路也變得愈發清晰。通過三維視覺與人工智慧技術的結合，我們讓機器人更加智能化與功能化，讓機器人做更多人在現實生活中能夠做的事。機器人具備現場自主決策和執行的能力，比如在工業流水線上可以幫助組裝配件，物流場景中搬箱子等。這樣的應用，涉及到非常精細化的技術，比如準確高效的運動規劃，還有各種各樣的控制，智能的執行等。我們在這方面也有了些探索性的工作。

北大教授陳寶權：AI+三維視覺，讓機器人具備決策和執行力

隨著三維感測器的普及，三維數據越來越多，如何實現對三維場景的精細化理解變得非常重要。理解場景很重要也很有效的一個方法就是深度學習。最早所有的深度學習都是針對二維影像。卷積神經網路面向的是二維影像，而對於三維場景，輸入數據是三維的點雲。

因為沒有卷積神經網路能夠天然地處理非結構化的三維點雲，我們針對這個問題設計了PointCNN卷積神經網路，它的性能是相當好的，我們也很高興看到有很多公司在使用我們的網路。

北大教授陳寶權：AI+三維視覺，讓機器人具備決策和執行力

面向物流領域的應用，我們還嘗試了一個機器人搬箱子的測試。在去年京東「雙11」期間進行了10天的壓力測試，機器人在現場代替一組人（兩人一組）去識別箱子、搬箱子，並把大大小小不同的箱子搬到傳送帶上。這是我們的技術第一次從學校的實驗室走進現實場景中。但是我們也感受到，越走近現實場景，問題就會越複雜。在座有很多企業界的人，歡迎各位能過來跟我們交流合作。

三維視覺智能的研究與應用如此重要，但國內還沒有一個基於三維視覺的社區。去年底，由本人召集在中國圖像圖形學會旗下成立了三維視覺專業委員會，目的是把學術界和企業界的相關人士聯合在一起。歡迎更多相關企業加入進來，一起推動三維視覺技術的發展。

謝謝各位！

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 新智元 的精彩文章:

※悄悄更新400代碼，谷歌中國版搜索引擎復活？
※互聯網大牛斷言數據科學家5年內被機器學習取代，網友：不能！

TAG:新智元 |