2019最值得期待的計算機視覺問題有哪些？

新聞 04-11

新智元推薦

來源：微軟研究院AI頭條(ID：MSRAsia)

整理編輯：三石

【新智元導讀】4月2日，微軟亞洲研究院創研論壇CVPR 2019論文分享會在清華大學圓滿落幕。20餘位論文作者在分享會現場進行了報告宣講，30多篇論文進行了海報展示與交流，還有一場精彩的圓桌論壇，就計算機視覺領域值得關注的前沿問題、發展方向、人才培養等熱點話題進行了討論。

論壇主持人

劉家瑛，北京大學副教授

論壇嘉賓

赫然，中科院自動化所研究員，研究方向為計算機視覺、模式識別理論、信息理論學習等，在相關國際期刊和會議上發表論文140篇，研究工作獲得國家優秀青年科學基金和北京市傑出青年科學基金資助。

梁小丹，中山大學副教授，研究方向為機器學習、計算機視覺、智慧醫療等，已有60多篇頂級論文發表，獲2018年CCF優秀博士論文。

劉偲，北京航空航天大學副教授，研究方向為計算機識別、多媒體分析、深度學習在圖像視頻中的應用，已發表30餘篇CCF A類論文，獲ACM SIGAI China新星獎、吳文俊人工智慧優秀青年獎。

馬惠敏，清華大學副教授，中國圖像圖形學會副理事長兼秘書長，研究方向為三維圖象認知、複雜環境圖像目標檢測等，已在相關國際會議和期刊上發表80餘篇論文，獲2016年吳文俊人工智慧科學技術創新一等獎、2017年日內瓦國際發明銀獎、教育技術發明二等獎。

童欣，微軟亞洲研究院首席研究員，研究方向為計算機圖形學和計算機視覺，已在計算機圖形學相關的頂級會議SIGGRAPH和期刊ACM TOG上發表50多篇論文，2018年獲得ChinaGraph貢獻獎。

朱軍，清華大學教授，研究方向為機器學習基礎理論以及高效演算法等，已在相關國際會議和期刊上發表100餘篇論文。

從左至右：劉家瑛、梁小丹、赫然、劉偲、朱軍、馬惠敏、童欣

CVPR 2019分享會論壇實錄

主持人：首先想請各位老師分享一下最近在研究什麼，在關注計算機視覺或交叉方向的哪些前沿問題？

梁小丹：我的研究方向偏深度推理，我認為接下來的人工智慧（包括計算機視覺）要走向認知推理，結合人類的常識和Life-long Learning特徵去做更高層的分析，比如人機交互對話、視覺關係圖推理等。

赫然：我最近在研究概率深度學習基礎理論和應用方法，主要應用於高維圖像生成，比如生成高分辨人臉和自然場景圖像；力圖賦予機器一些創造能力，使機器像人類一樣能夠創造出一些有意思的結果。

劉偲：大家知道前段時間深度學習的「三駕馬車」獲得了圖靈獎，圖像中的感知已經取得了很大的進展，我也非常認同小丹的觀點，我們下一步應該向圖像推理和認知方向努力。所以我正在從事圖像中視覺關係的理解、分析方面的研究。

朱軍：我主要做機器學習，最近也在關注計算機視覺方面的研究。在機器學習方面，我們在做貝葉斯深度學習、概率編程庫，以及一些和決策相關的工作。和計算機視覺緊密相關的工作是深度學習的對抗攻擊與防禦。

馬惠敏：我主要的研究方向是圖像認知心理學和機器學習結合的交叉研究，通過研究人的視覺行為來推動human-like learning，同時也在做視覺、聽覺、語言結合在一起的任務驅動的問題，主要應用於自主視覺感知領域。我也希望有更多不同學科的學者和同學們一起來讓計算機視覺更加接近於人類的水平。

童欣：我的主要方向是圖形學，我們現在的研究集中在三維內容生成和三維內容分析上，包括三維內容的物體、場景以及人臉、頭髮等與人有關的方面的建模與分析理解。

主持人：現在的計算機視覺研究大多基於數據集，以致於有人戲稱「Dataset CV」，這究竟是一個好的出發點，還是使我們的研究和視野都局限在了數據集的範疇內呢？

梁小丹：雖然我做了很多數據集，但我覺得依賴數據集不是一條「正途」，因為它會限制我們對演算法的想像，大家就不會花更多精力去思考人類為什麼可以終身學習、可以從小樣本推斷大樣本這些真正的智能。大量數據對工業界來說是好事，但在學術界是對創新力的極大限制，所以我希望大家不再刷數據集，可以通過比如對物理世界的模擬、自主挖掘信息等方式做更好的研究。

赫然：實際上數據還是非常關鍵的，因為機器學習肯定要從具體的數據中學習。現在主流的、有影響力的數據集大多是國外建立的，因此建立能推動領域向前發展的、具有國際影響力的數據集是非常重要的一個方面。當然我們也更希望能從dataset到insight，朱軍老師的貝葉斯深度學習可能會提供更好的解決方案，讓我們從數據中解放出來，獲得一個抽象的學習範式。

劉偲：我們今年在ICCV投了一個workshop，提出了一個新的問題，就是基於結構化的搜索，用Scene graph幫助做圖像重建。那麼提出新問題的時候，我們肯定要搭配一套數據集，才能推動這個領域的發展。另外，我們和產業界合作了一個Human-object Interaction（HOI）數據集，我們不想和傳統的HOI數據集一樣類別很多，我們專註於很少的類，但應用範圍非常廣，以此來縮小學術界和工業應用的距離。

朱軍：我補充一點，在機器學習領域，大家在2012年對數據集有一個討論。數據集本身是沒錯的，問題在於大家在做數據集的時候把背後的意義、問題本身的難度忘掉了，所以我覺得這個是大家要記住的。

主持人：前段時間，圖靈獎終於頒給了三位深度學習的開山之祖，知乎馬上有帖子說，往往圖靈獎頒給哪個領域，哪個領域就開始走向寒冬。那麼在座很多同學都很關心，是不是等大家畢業的時候，這個方向就不火了？今年我們也確實看到產業界一些AI方向在轉冷，此前也有人質疑AI的火熱是不是一個泡沫。學界和產業界的各位老師怎麼看待呢？

朱軍：我覺得技術發展有起伏是好事，從技術本身來看，其實大家已經發現，深度神經網路能解決一些問題，也有很多問題不能很好解決。大家如果記得，10年、11年的圖靈獎都和統計學習有關，後來它的光芒被深度神經網路掩蓋了很多。但是現在看來，貝葉斯方法也有優勢，比如在小樣本學習、不確定性推理等方面，同時，將兩者融合的貝葉斯深度學習受到越來越多的關注。我覺得「寒冬」和「回歸」都是很正常的，因為大家研究到一定階段的時候，會發現技術的瓶頸，去探索其它的路徑，我覺得應該積極地看待這個問題。

馬惠敏：我有兩點想說。第一，我們視覺領域的老祖宗馬爾，同時是計算機和心理系的教授，包括我們這次圖靈獎的三位獲得者，他們在神經科學領域有著很深的理解和造詣，所以這一方向其實是一直在上升的，怎麼把人類學習方式與計算機視覺結合，一定是一個新的爆發點。第二，大家是不是覺得傅里葉變換、小波、BP這些方法過了很多年就沒有用了呢？實際上這些方法包括深度學習神經網路都是非常有效的研究工具。我覺得不存在冷的問題，降溫是因為產業界對人工智慧的期待過高，作為科學家和學者，我們要做的是腳踏實地。

童欣：我非常贊同馬老師和朱老師的觀點，我覺得寒冬是好事，這一屆圖靈獎得主就是在寒冬中堅持下來了。所以一旦寒冬了，說明下一個圖靈獎，大家就有希望了。大家應該繼續努力，堅持過寒冬，你們就勝利了。

主持人：謝謝，我的下一個問題是，很多人都開始轉向計算機視覺，或者做交叉研究，我們可以看到CVPR的投稿數量飛漲。那麼大家為什麼來做CV，怎麼看待所謂的「全民計算機視覺」以及不同領域的交叉？

童欣：我做CV其實原因很簡單，因為我做的這些題目和方向正好適合投CV。但是我覺得無論冷或者熱，各個領域都是機會均等的。如果一個領域很熱，關注多，但是進來的人很多，你想做出好的、出類拔萃的工作會很難，如果一個領域人很少，收到的關注會少，但是可能有機會十年磨一劍，最後大家機會均等。真正會被記住的是那些經得起時間考驗的工作。

朱軍：我做CV主要是因為最近在研究深度學習的對抗樣本攻擊和防禦，單從數據上說，圖像是一種連續的信號，從優化的角度來說更好做，應用也很廣泛。當然，我們也做了離散數據（如圖、文本）的對抗樣本，相對來說優化更困難一些。

現場觀眾提問一：我想問朱軍老師，我們現在對抗樣本的攻防會陷入一種模式，比如一個人提出一種攻擊方法，另一個人接著他的攻擊方法又提了一種防禦方法，針對這個防禦又出現二次攻擊方法，出現類似軍備競賽的一種攻防模式，請問朱軍老師對這種發展趨勢有什麼看法？

朱軍：做安全總是存在這種情況，因為防禦提高了，攻擊也會有相應的辦法去破解，但之所以存在這個問題，根本原因是對模型的理解不夠深入，不知道真正的局限在哪裡。最近大家從學習方法或者學習理論上也在探索，對一些簡單的模型，在數據分布比較清楚的情況下，可以有辦法去證明一種方法，但對於複雜的神經網路我們還知之甚少。所以我覺得做對抗樣本攻防最主要的意義在於加深對模型的理解，使得將來能夠設計出更好的模型。

現場觀眾提問二：梁小丹老師，您剛剛提到常識、認知和推理，您最近在做哪些相關的工作？

梁小丹：我覺得計算機視覺大部分問題是關於感知的問題，我希望可以把推理能力加入人工智慧系統，所以我最近主要在做對話系統，把人類的一些常識和推理加入對話。

我覺得推理有兩種策略，一種是把維基百科這樣的結構化知識轉換成圖結構數據顯式地加入模型，另一種是演繹學習。我們沒法做機器推理的原因是沒有把一些潛在的邏輯學習出來，如果我們可以在推理過程中顯式地把一些解釋邏輯、規則學習出來，就可以讓一個深度學習模型有更廣泛的適應性。

現場觀眾提問三：我想問童欣老師，現在的三維物體生成模型大都基於ModelNet、ShapeNet這樣基礎的三維模型資料庫，您覺得在三維生成領域有沒有什麼新的topic，或者跟圖形學結合有什麼新的問題？

童欣：剛剛大家也講到大數據，有大數據是非常幸福的事情，因為像剛剛這位同學講到，三維生成的問題就是數據太少了。三維生成本來就是為了生成數據，但用深度學習又需要大量三維數據，這是一個雞和蛋的問題。也因為如此，我個人覺得三維數據生成里有很多挑戰，或者說處處都是機遇，特別是關於三維空間中，形體如何有效表達，它的特徵空間應該是什麼樣？還有如何快速構建一個大型的三維資料庫，如何把三維機器學習、三維分析和已有的數據捕捉或者造型結合起來，我覺得這些都是很好的研究題目。同時我也非常歡迎做計算機視覺的同學，如果有興趣可以來看一看三維相關的很多東西，因為在傳統視覺中三維重建是很重要的研究內容，我相信有很多topic值得大家研究。

現場觀眾提問四：很多人都說三維視覺會成為AI的一片藍海，我想問童欣老師，您認為在三年到五年之內，三維視覺里哪些技術有可能成熟或者落地？

童欣：三維視覺技術會是AR中的關鍵技術，同時對機器人和無人車等三維環境中自動導航等都會有非常重要的應用。另一方面，三維視覺和深度學習技術也會給三維內容創作帶來很多新的東西。

馬惠敏：雖然離成熟還有距離，但現在自動駕駛領域的應用已經可以說「被」成熟了，這些跟我們生活連接最緊密的領域，往往是催生應用落地的點，無論是機器人、自動駕駛，還是醫療等，都有不少的成果出現，但要注意，這些成果都是有限條件下的成果，如果想達到具有普遍意義的成果，還有很多路要走。

主持人：最後一個問題，我前兩周參加了一個中學生的AI評委會，看到現在中學生已經能很好的使用深度學習平台，熟練地掌握PyTorch的調參技巧，學生就會有這樣的焦慮感，說「老師，中學生都能很好的駕馭AI了，我們還要幹什麼？」我想問幾位老師，在現在這個AI時代，我們應該教會學生什麼樣的東西，讓他們擁有傍身之技？

劉偲：我之前確實遇到過人大附中的學生，跑實驗和寫paper都特別好，讓我非常震驚。但是我們科班的人肯定希望能做一些前沿的事情，包括跨領域的探索，我覺得高校的老師和學生可以朝交叉學科的方向去做。

赫然：現在很多高中同學確實具有較強的科研實力，他們的研究工作往往都是建立在指導老師的肩膀上（長期的積累）。網路調參只是科研工作的一小部分，好的科研成果需要導師告訴高中同學具體的科研問題和方法的創新思路，還需要很多數據、平台和計算資源支撐。做科研還是需要有長期的積累，才可能走的更遠。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 新智元 的精彩文章:

※極限速度！10億位超級大整數相乘僅需30秒，半個世紀的猜測終被證明

TAG:新智元 |