淺論視覺智能技術的未來發展趨勢——2D到3D，再降維打擊

最新 04-21

作者介紹：何泳澔，博士研究生，畢業於中國科學院自動化研究所，專業模式識別與智能系統。長期致力於基於深度學習的計算機視覺研究。目前，創立了啟釋科技，將進一步在工業界落地計算機視覺應用。

本人學識有限，觀點避免不了有局限性，權當娛樂。內容不涉及高深的學術探討，不求長篇大論，但求所有人都可以理解。

一，何為視覺智能

人工智慧這個詞在近幾年時間裡幾乎吸引了所有人的眼球，其曝光率之高，前所未有，可能發明這個詞的人都未曾想到過。曾幾何時，在學術界，聽到這個詞還會略帶幾分敬畏之感，然而現在，已經變成了眾人戲謔的對象。

智能很難用非常嚴謹的語言去定義，我僅用自己簡單的認知去描述一下何謂智能（整篇所提及的智能僅狹隘地指人腦所表現出來的視覺智能）。人的視覺智能，關鍵因素可能有三點：記憶、聯想和預測。記憶是什麼？存儲整個現實世界萬物的三維模型，包括結構，尺度，紋理等。聯想是什麼？在記憶的基礎之上，熟悉萬物的組合規律。預測是什麼？遇見現實場景，調用記憶和聯想去推斷。由此可見，視覺智能是一個過程，由一系列的關鍵環節緊密結合而成。可見部分的視覺輸入僅僅是這個過程中的一小部分，大部分的活動是內在的，難以捕獲。

二，深度學習離視覺智能有多遠

在媒體的大肆吹鼓下，大眾的認知產生了巨大的偏差，將人工智慧等同於深度學習。人工智慧的內涵及其豐富，其囊括的領域眾多，絕對不能和深度學習畫等號的。想全面了解人工智慧的內涵，可以自行查找資料，這裡不贅述。那麼深度學習到底定位在哪裡？這裡稍微學術一點，在機器學習，模式識別，機器視覺等若干領域的交疊區域，深度學習僅僅作為一個演算法工具的存在。它既不是一個領域，也不是一個方向，最多就算一類技術。

近些年，深度學習的火熱，在於它在眾多視覺問題上大放異彩，比如目標分類、檢測、分割等。算力和數據量的陡增，加速了深度學習的崛起。各種公開資料庫的刷榜性能一再飆升，令人瞠目結舌，也讓人浮想聯翩——智能時代真的來了。事實上，還有些視覺問題它並沒有顯示出一貫的強勢，比如目標跟蹤、立體視覺若干問題等。

然而，多年的工業界實踐表明，想要落地一個人工智慧應用是多麼的難。即使各個人臉廠商都宣稱自己的人臉識別率是99.9%（估計恨不得再加幾個9），但作為大眾的我們接觸到的生活化人臉應用微乎其微。公眾的期望都被誤導了，任何準確度都有一個適用前提，一旦前提不成立，都是胡扯，但是沒人說起過還有前提這回事。我個人人為，深度學習被高估了。為什麼都說數據越多，深度學習的結果越好？其實深度學習依然沒有逃離統計學習的範疇，統計的例子越多，那當然更準確。更直白一點，深度學習就是數據科學，並非智能科學。

還不信？告訴你，現在已經有很多學術界的人在研究如何攻擊一個已經訓練完成的深度學習網路。而且一打一個準，基本無一例外。從當初在整幅圖像上隨機加上雜訊來愚弄網路，到現在只要改一個像素，就能讓網路徹底癱瘓。是不是很可怕？不嚴謹地說，任何一個參數化的視覺演算法，都可以被類似的方式攻擊，而且至今不知道如何防範。那些用深度學習來做關鍵性應用的公司，不知道你們作何感想？

說回來，深度學習就是一個還不那麼靠譜的且僅能夠解決部分視覺問題的工具，那麼它離視覺智能還有多遠呢？舉個例子，大概就是訓練螞蟻來理解人類行為那麼遠。

三，視覺智能技術的路在何方

學術界，拋開基本的視覺問題，比如識別、檢測和分割，深度學習已經被大膽地用來解決更多若干極其複雜的問題，比如視頻中的行為識別，再比如說單幅圖像的深度估計，更有甚者單幅圖像的三維重建。之所以說這些是極其複雜的問題，那是相對於平面視覺來說的，用二維的信息去預測三維的信息，本身就是病態的，無解的！就是一本正經地瞎猜。那麼添加更多參數，更多數據去擬合，是不是就可以了呢？那我也猜一下吧——仍然不靠譜。一者，三維空間的數據想用二維空間的數據來表達，多少是個頭？比如要做打架行為的識別，要採集情況足夠完備的數據，那麼需要考慮幾個變數：打架的人數，打架者用的武功路數，拍攝的攝像頭角度。僅這個三個維度的變化你就hold不住。所以想要弄一個完備的資料庫都不可能。二者，結合上者來說，如果收集的數據有限，總有一個複雜的模型可以完全擬合，懂行的都知道，這個模型是不可用的。如果數據多到接近完備，就算這個模型存在，也會複雜到無法計算。總的來說，非要用深度學習去解決三維世界裡面的問題，就是以卵擊石。

如何才能更靠近一點視覺智能呢？光一個深度學習肯定不行。我的愚見就是立體視覺為主，平面視覺為輔。立體視覺技術才是打開視覺智能的一把鑰匙。這裡看得出來，雖然懟了深度學習那麼久，其實我並沒有拋棄它，它還是挺關鍵的，平面視覺還是要依靠它的。拋開視覺，我認為深度學習合適的領域還有語音、自然語言理解，因為它們的信息類型相對簡單，多是二維信息，工業界的實踐表明也是如此。

為什麼會有這樣的認識——

人在記憶客觀物體的時候，優先記憶的是三維信息，其次是紋理信息。有了這樣的記憶可以干很多事情。比如深度信息感知。學術界的雙目視覺測距理論其實很完備，那人的測距也是這麼來的么？或者說學術界是不是因為人有兩個眼睛，所以才想出來的這套理論？我看不一定是。人的測距功能是通過判斷尺度變化達成的。上一次在10米的地方看到一個車，它的大小我記住了，這次我看到一個類似的車，它要比上次的小，那一定它比10米遠。人難以感知到精確的深度，超級大腦節目里的神人除外。再比如說，大家都說人腦就是比演算法聰明，演算法要判斷一類物體，要學習海量的圖像數據，而人只要看幾眼，以後就可以認出來了。我想這裡面是這樣的，人記憶了這個物體的三維信息，所以人腦可以腦補出這個東西從各個角度看過去的樣子，更可怕的是人還可以腦補出來它在各個場景裡面的樣子，這個就是之前提到的聯想。不信你現在閉上眼睛，想你的手機，並且再想幾個場景把你的手機放進去，你一定可以想像出很清晰的畫面。說到這裡，剛才那個人看的數據比演算法少的觀點就不對了，人其實並不比演算法看到的圖像少，反而是多得多，但是都是腦補出來的，你察覺不到而已，基礎就是對三維世界的記憶。對三維的理解那麼重要，那麼二維能扮演什麼角色？二維平面信息主要是提供細節信息。想要在三維的基礎之上更進一步，那就需要二維的技術了。比如，三維世界裡面有一個球體，僅僅全身通白，你是無法知道它是什麼球的。但是貼上了二維的紋理細節信息，你就知道它是什麼球了，新舊程度如何。

說了那麼多，我們要把對二維世界的迷戀收拾好，勇敢去面對三維世界的挑戰。可能只有在對三維世界的理解上更進一步，我們才有機會揭開視覺智能的面紗。

四，說在最後的話

人工智慧威脅論，作為一個專業人士，我可以負責任地告訴諸位，是不存在的。以上的見解如果給了你啟發，你又想了解更多，那麼推薦去細細品讀UCLA朱松純教授的一系列思考文章。這些文章更有系統性，洞見更深刻，讀了啟發更大。同時建議學術圈的同仁關注朱松純老師組的工作，一定和你做的不一樣。再推薦一本書，傑夫霍金斯的《On Intelligence》，他對智能有非常深入的理解，他創辦了一家致力於探索真正智能的公司Numenta （https://numenta.org/），去看看，一定讓你眼界大開。

再說點別的。想做好真正的學術，一定要對研究對象有深刻的認知，在此基礎上形成自己的主張，並且自信地走下去。有時候，做正確的事情和做時髦的事情，是不一樣的。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 全球大搜羅 的精彩文章:

※一觸即發與酷暑的搏鬥
※如何通過心理學知識解決戀愛、家庭、人際關係的問題？

TAG:全球大搜羅 |