當前位置:
首頁 > 新聞 > 港科大教授權龍:計算機視覺下一步將走向三維重建

港科大教授權龍:計算機視覺下一步將走向三維重建

雷鋒網按:2018 全球人工智慧與機器人峰會(CCF-GAIR)在深圳召開,峰會由中國計算機學會(CCF)主辦,雷鋒網、香港中文大學(深圳)承辦,得到了寶安區政府的大力指導,是國內人工智慧和機器人學術界、工業界及投資界三大領域的頂級交流盛會,旨在打造國內人工智慧領域最具實力的跨界交流合作平台。

CCF-GAIR 2018 延續前兩屆的「頂尖」陣容,提供1個主會場和11個專場(仿生機器人,機器人行業應用,計算機視覺,智能安全,金融科技,智能駕駛,NLP,AI+,AI晶元,IoT,投資人)的豐富平台,意欲給三界參會者從產學研多個維度,呈現出更富前瞻性與落地性相結合的會議內容與現場體驗。

大會第二天的計算機視覺專場,香港科技大學教授,ICCV 2011主席,IEEE Fellow權龍教授作為開場嘉賓,發表題為「計算機視覺, 識別與三維重建」的精彩演講,點燃了現場氣氛。

權龍教授主要從三個方面進行闡述,分別是計算機視覺的基礎、計算機視覺的變遷與發展,以及計算機視覺最新的進展。

他談到,當下因為深度學習技術的發展,人工智慧變得非常火熱,計算機視覺作為人工智慧的一個領域,也變得異常火熱。

不過目前計算機視覺的研究和應用主要集中在「識別」,「識別」只是計算機視覺的一部分。如果要去做一些交互和感知,必須先恢復三維,所以在識別的基礎上,下一個層次必須走向「三維重建」。

針對這個領域,權龍教授和他的研究團隊已經做了諸多的工作並取得了一定的成績,在 4 月份,他們拿下了兩個計算機視覺榜單的全球第一。

當然,目前在深度學習推動下的計算機視覺技術還有很多不足和挑戰,需要更多業內研究者不斷去探索,特別是在卷積神經網路在高維度空間的理論理解與解釋。

以下是權龍教授的演講全文,雷鋒網做了不改變原意的整理與編輯:

感謝大會主辦方的邀請,今天我想跟大家分享計算機視覺中的識別和三維重建問題。

我今天的演講分為三部分:首先講一下計算機視覺的基礎,然後介紹它的變遷與發展,最後再談談它的最新進展。


計算機視覺的源起

什麼是人工智慧和計算機視覺?人工智慧的目的是讓計算機去看、去聽和去讀。圖像、語音和文字的理解,這三大部分基本構成了我們現在的人工智慧。而在人工智慧的這些領域中,視覺又是核心。大家知道,視覺占人類所有感官輸入的80%,也是最困難的一部分感知。如果說人工智慧是一場革命,那麼它將發軔於計算機視覺,而非別的領域。

2012年是非常重要的一年,我在標題中稱之為「a year of no significance」。這一年看似平凡,卻發生了很多事情。2012年,在一個叫CVPR的計算機視覺頂級會議上發生了一件看似重要,但也不那麼重要的事情。那就是一個叫ImageNet的比賽,它把圖像識別準確率從75%提高到了85%,引發了一系列(人工智慧)熱浪。

再把時間回溯到1998年,當年有了卷積神經網路,它是今天所有卷積神經網路的鼻祖模型。它有幾個特點,首先它輸入的圖像比較小,只有32*32pixel;其次它沒有GPU,這正是它計算力比較弱的原因。

2012年,卷積神經網路復活,我們稱之為AlexNet。和上一階段相比,它的內部結構基本一模一樣,變化非常小,但輸入的尺寸不一樣。1998年的模型,輸入尺寸為32*32pixel,且只有一個通道。新的模型輸入尺寸已經擴大到了224*224pixel,而且有三個通道。最關鍵的是裡面有了GPU,它當時訓練時用了兩塊GPU。

從1998年到2012年,中間經歷了10多年,卷積神經網路的架構還是一樣的,那麼它內部發生了哪些變化?有兩點非常重要:一、英偉達研發了GPU,GPU最早是為遊戲而不是人工智慧誕生的;二、華人學者、斯坦福大學教授李飛飛創建了ImageNet,她把幾百萬張照片發到網路上並發動群眾做了標註。

6年後的今天又發生了哪些變化呢?2012年訓練AlexNet模型需要使用兩塊GPU,花費6天時間;今天做同樣的事情只需要一塊DGX-2,十幾分鐘就能搞定。

再看看學術會議。CVPR以前是一個一般的學術會議,只有幾百人參與。今年,我們剛從鹽城湖回來,參會群眾規模已經達到了6500人,基本實現了10倍增長。我們有幸將於2022年在新奧爾良組織這個會議。相信到時候將有上萬人參加,我們需要擔憂的是哪裡能找到可容納這麼多人的場地。

什麼是計算機視覺?計算機視覺的本質是對圖像進行理解。「理解」這個詞沒有準確的定義,事實上計算機無法做到「理解」,只能做到認知。計算機視覺的終極目的就是達到認知。我們研究計算機視覺的目的是得到視覺特徵,有了視覺特徵才能開展一系列的工作。

為什麼視覺特徵如此重要?在語音識別領域,語音的特徵已經定義得非常清晰——音素。但如果我們拿來一個圖像,問它最重要的視覺特徵是什麼,答案並不明確。大家知道圖像包含像素,但像素並不是真正的特徵。像素只是一個數字化的載體,將圖像進行了數字化的表述。計算機視覺的終極目標就是尋找行之有效的視覺特徵。

計算機視覺包含兩個基本應用——識別和重建。它們的英文單詞都以「re」做前綴,說明這是一個反向的問題。


計算機視覺發展簡史

我們簡單回顧一下計算機視覺的發展歷史。上世紀70/80年代,計算機視覺有了最初的發展。那個年代,基本所有的計算機視覺研究都以Marr的primal sketches為理論依據。它的可計算數學模型都是以edges為主的邊緣提取。有了edge之後,再把它高層化後的線段元做簡單的統計分類或者三維重建。Edge在數學上是很好定義的,我們定義了很多優化準則後,這個研究方向就到頭了。

90年代到2000年,行業內有一些變化,大家從edge回過頭來研究幾何問題。幾何就是三維重建,一維的edges不適合做計算。幾何最本質的元素是點,它是二維的,更內在。這推動了很多研究工作以點為基礎展開,對點做描述,也就是feature descriptors。這對推動計算機視覺發展產生了重要作用。

從識別方面來看,有了feature descriptors就可以把很多東西變成矢量的無序集合,然後再去做統計。當時最成功的是三維重建,所謂成功也只是把一些點從二維變成三維,沒有真正語義上的描述。這是1990-2000年間的發展。

2012年開始,我稱之為CNN時代。這時候視覺領域開始發生變化,從特徵到識別演算法基本都被CNN一統。CNN現在已經很強大了,基本所有計算機視覺論文都會提到它。CNN的好處在於,它是端到端的,比較容易實現。

給大家講一個趣聞,90年代計算機視覺如日中天的時候,卷積神經網路還沉浸在痛苦中無人理睬。機器學習、計算機視覺和語音識別領域的人都忽視它。

2012年,AlexNet在重要會議上只能參加一些邊緣比賽,不能進入主會場。那個年代,如果你的論文中提到CNN,估計會直接被拒;但今天你的論文如果不提CNN,就非常難入圍。

今天計算機視覺中的識別技術基本是端到端的,從1998年的LeNet到2012年的AlexNet,再到2016年ResNet。目前ResNet已經非常成熟,谷歌給出了開源標準ResNet50,只需要把數據丟進去訓練即可。

今天,如果你能清晰地定義問題,做好數據標定,這個問題基本就解決了。哪怕找一個高中生把它輸入Net也能得到非常好的結果。讓計算機學習圖片之後,再給它展示一張它之前沒見過的圖片,一般它也能識別出來,水平基本與人類一致,甚至高於人類。因為人類有時會不小心犯錯,但機器記憶或學會了之後便不會犯錯。這些成果都是基於深度神經網路取得的。

但也不能忘記,這種東西有很大的局限,它並不是真的很聰明,只是記住了很多樣本。你也可以說它很蠢,因為它根本不知道自己在做什麼。一切取決於你的標準,如果你把一個東西標註成cat,它就認為這是一隻貓,明天你再把它標註成dog,它就認為這是一條狗。所以它並沒有真正理解,只是在做簡單的統計分類。人類可以把狼和狗歸為同類,也可以把薩摩耶和白狼區分,這些都是主觀的,取決於我們如何定義問題。我們如何定義,機器就給出什麼樣的答案,它本質上沒有自己的認知。

卷積神經網路能夠識別圖像只是表象,我們應該回歸本質——計算機視覺。計算機視覺是對視覺特徵的尋求和探索。CNN本質上是重新學習和定義了我們以前尋找的視覺特徵。以前的視覺特徵是手工定義的,維數不會太高,有幾十、幾百就已經比較高了,畢竟人類能力有限。卷積神經網路學習的視覺特徵維數更多,動輒上百萬,而且是有結構的。


下一步將走向三維重建

現在每個人都在研究識別,但識別只是計算機視覺的一部分。真正意義上的計算機視覺要超越識別,感知三維環境。我們活在三維空間里,要做到交互和感知,就必須將世界恢復到三維。所以,在識別的基礎上,計算機視覺下一步必須走向三維重建。

三維重建中包含深度、視差和重建三個概念,它們基本等價。使用哪個辭彙取決你處在哪個群體。

人類有兩隻眼睛,通過兩隻眼睛才能得到有深度的三維信息。當然,通過一隻移動的眼睛,也可以獲得有深度的信息。

獲取深度信息的挑戰很大,它本質上是一個三角測量問題。第一步需要將兩幅圖像或兩隻眼睛感知到的東西進行匹配,也就是識別。這裡的「識別」和前面有所不同,前面提到的是有標註情況下的識別,這裡的「識別」是兩幅圖像之間的識別,沒有資料庫。它不僅要識別物體,還要識別每一個像素,所以對計算量要求非常高。

雙目視覺非常重要,哺乳動物都有雙目視覺,而且智商越高,雙目視線重疊的區域越大。馬的眼睛是往兩邊看的,這並不代表它沒有雙目視覺,只是雙目視線重疊的範圍比較小。魚也是如此。

由此可見,現代三維視覺是由三維重建所定義的。CNN誕生之前,它的主要動力源於幾何,因為它的定義相對清晰。

計算機視覺中的三維重建包含三大問題:一、位置。假如我給出一張照片,計算機視覺要知道這張照片是在什麼位置拍的。二、多目。通過多目的視差獲取三維信息,識別每一個像素並進行匹配,進行三維重建。三、語義識別。完成幾何三維重建後,要對這個三維信息進行語義識別,這是重建的最終目的。

2012年之前,計算機視覺中的三維視覺已經得到了顯著發展,那麼新的深度學習對它有哪些啟發呢?三維視覺本質上也是一個「識別」的問題,深度學習讓它在識別方面得到了強化。視覺中的特徵非常重要,以前的幾何做法一般是用手工特徵。CNN的重要之處不在於它能識別一隻貓或一條狗,而在於它學會了很多視覺特徵,我們可以拿這些特徵做圖像之間的識別和匹配。

識別方面,現在我們面臨比過去更大的挑戰,因為現在的數據量比以前更多。以前是幾十幅、上百幅,現在動輒幾十萬、上百萬幅。這就涉及到計算機規模化的問題,規模化意味著分散式,這也是一個重要課題。

前面提到雙目和多目視覺,這個領域也有很多發展。以前是傳統的方法,現在所有stereo方法都可以重新回到卷積神經網路的框架下。它的卷積不是簡單的在圖像里,而是在更高維的視差空間進行的。這個領域發展得非常快。


Altizure三維重建開放雲平台

下面宣傳下我們做的工作。我在科大的團隊創立了一家公司altizure,我認為我們的三維重建做的最出色。Altizure是一個公共雲平台,大家可以用手機或無人機拍照然後上傳,就可以自動得到一個三維模型。我們的終極目標是把世界上的所有東西全部三維復現。我們生活在三維的環境里,所以要把所有東西全部恢復到三維。

今天的世界是數據為王,我們通過這個開放平台收集了很多數據,並進行標註。有了這樣一個平台,今後的演算法會越來越強大。

我們研究的領域現在每天都在發生變化。我們團隊今年4月份在兩個重要榜單上名列第一,一個是三維點雲,另一個是場景識別。

 計算機視覺的機遇與挑戰

深度學習浪潮下,計算機視覺面臨哪些機遇和挑戰?UCLA一位做統計的教授認為,現在的深度學習跟以前差不多,只是模擬了一個曲線或曲面,只是維度更高一些。另外一個學者Piekniewski也提出了質疑。2012年時AlexNet有6000個參數,今天我們已經可以學習比它多1000倍的參數,這是否意味著我們的能力提升了1000倍?其實不是,我們的改進仍然是非常邊緣的。

我的觀點是,毫無疑問,CNN是一個非常強大的工具,但關於它我們還有很多不清楚的地方。CNN處理的是非常高維的數據,以前幾十、幾百個維度就已經高不可攀了,但今天是幾百萬、幾千萬個維度。高處不勝寒,即便研究數學的人也不太清楚中間發生了什麼。這些還需要一段時間去理解。

再來說說「理解」這個詞,其實我們也不很清楚什麼樣才叫做理解。如果要做到真正理解,就要對世界和環境進行有結構、有邏輯的描述,但我們現在沒有任何結構,完全是由數據帶動,只有輸入和輸出。

最後簡單總結一下。早在80年代人工智慧就很火,我研究生第一志願報的就是人工智慧。當時並不理解人工智慧是什麼,後來才慢慢明白,世上本無人工智慧,只有圖像識別、計算機視覺、語音識別、自然語言理解等一個個具體的問題。

我們必須肯定這些年來取得的成績,尤其硬體領域的發展非常可觀。GPU已經在手機、電腦中普及,使得我們擁有非常強大的計算能力。以前相機是攝影師才有的,現在人手一台手機,隨時隨地可以拍照。甚至還有了無人機,可以從天上拍照。

我們非常榮幸能在計算機視覺領域工作,這個領域發展很快,在中國大地上也很有前景。舉兩個例子:一、曠視在人臉和物的識別方面世界領先,類似的公司在中國還有很多;二、Altizure三維重建視覺平台在全世界也是獨一無二的。

從廣義的人工智慧來說,我不認為它有多大的發展,但我們也不能否認存在真正的進步。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

英特爾正在測試僅為50nm的最小自旋量子位晶元
眼擎科技朱繼志:攻克視覺成像的山頭,做自動駕駛最清晰的「眼睛」

TAG:雷鋒網 |