當前位置:
首頁 > 新聞 > 微軟首席研究員童欣:深度學習將席捲計算機圖形,VR/AR爆發臨近

微軟首席研究員童欣:深度學習將席捲計算機圖形,VR/AR爆發臨近

微軟首席研究員童欣:深度學習將席捲計算機圖形,VR/AR爆發臨近

新智元原創

微軟首席研究員童欣:深度學習將席捲計算機圖形,VR/AR爆發臨近

微軟首席研究員童欣:深度學習將席捲計算機圖形,VR/AR爆發臨近

童欣博士

1993年畢業於浙江大學計算機系,獲工學學士學位;1996年獲浙江大學計算機系碩士學位;1999年獲清華大學計算機系博士學位,同年加入微軟亞洲研究院。目前為微軟亞洲研究院網路圖形組首席研究員,主要從事計算機圖形學方面的研究。

童欣在微軟做了近20年的圖形學是什麼?與計算機視覺有什麼關係?在 AI 的發展上會發揮什麼樣的作用?新智元近日專訪了童欣。他和我們分享了網路圖形學的最新進展以及深度學習為這一領域帶來的改變。

博士畢業到現在,童欣在微軟亞洲研究院做研究已經有18個年頭。微軟亞洲研究院是中國AI領域當之無愧的「黃埔軍校」,培養了大量目前在行業起到中流砥柱作用的中堅力量。在AI迅速發展的浪潮中,許多人在這裡來來去去,童欣從畢業後一直留在微軟,成為了名副其實的「老兵」。在研究院內部,人們親切地稱他為 「童姥」。

對於為什麼一直選擇留在微軟,童欣說:「無可置疑,這裡有一批如此優秀的人匯聚在一起做著我們所喜歡的圖形學研究,這裡創造了國內圖形學研究最寬鬆和開放的環境,這些才是吸引我在微軟亞洲研究院樂業的魅力所在。」

站在風口,豬都飛起來了,為什麼我沒有?

童欣:「有傳言說,如果你站在風口,就算你是一頭豬也能飛起來。可是我這麼瘦的一個人,站了這麼久,怎麼還沒飛起來,這到底出了什麼問題?」

到底什麼是互聯網圖形?

童欣在接受新智元的專訪時介紹說,所謂的網路圖形學,或者說互聯網圖形學,本質還是圖形學,但是我們希望相對傳統的圖形學能有些不一樣的東西。

傳統的圖形學起源在上世紀六十年代,經過幾十年的發展,傳統的圖形學在工業和娛樂產業中得到了非常廣泛的應用,產業化已非常成熟:

  • 計算機輔助設計與輔助製造。小到我們身邊日常生活的物品,大到飛機汽車,計算機輔助設計和製造已經廣泛的應用於工業生產與製造中,並形成了和圖形學相對獨立的分支出來。

  • 遊戲、影視中的圖形特效。從完全由計算機生成的動畫片,到大家在手機,遊戲機上打的遊戲,都包含了圖形學中很多的研究成果。

  • 科學計算可視化與信息可視化。通過圖形表示,展現抽象數據的屬性,方便大家快速,準確的理解數據,做出決策。這裡面既包括用於科學計算,醫學應用的可視化技術,也包含近幾年興起的信息可視化與可視分析技術。

這些成熟的產業化,反過來推動了圖形學研究幾十年的發展和繁榮。但是在傳統的圖形學中,我們會發現整個圖形內容的生產模式從開始到現在是一致的,就是由專家做出高質量內容,分發給普通用戶消費。隨著互聯網的發展,我們發現圖形學不但沒有因此受益,反而遇到了發展的瓶頸。那麼我們提出網路圖形學,就是希望要解決圖形內容生產的everyone和everywhere的問題。也就是讓圖形在互聯網上在線流動起來,讓任何人(everyone)方便地在任何地方(everywhere)可以創造可視的媒體內容。不但能創造,還能方便的分享和享受這些東西。

微軟首席研究員童欣:深度學習將席捲計算機圖形,VR/AR爆發臨近

計算機圖形跟計算機視覺是一對「好基友」

那麼圖形學與時下流行的計算機視覺是什麼關係?

童欣告訴新智元,一個簡單的說法,圖形學和視覺是兩個相反的過程,圖形學是給定所有三維的場景,如光照,材質,動態信息等,我們來正向的生成圖像或者視頻。而視覺是給定圖像和視頻,計算機來恢復裡面三維場景的所有信息,並進一步理解場景中的語義。

但是由此認為圖形學比視覺簡單,或者兩者正好相反就錯了,因為這兩個學科本質上是一個硬幣的兩面,他們裡面的核心是真實世界的物理規律和人的理解創造過程。計算機視覺和計算機圖形二者的界限沒有這麼清晰。兩者有很大一部分重疊的研究領域,比如三維重建,材質建模,人體動態捕捉和重建,計算攝像學等。而不重疊的領域又可以相互借鑒,可以用「一對好基友」來形容。

舉例來說,我們看到一個圖像的時候,圖形學可以把背後的物理成像原理、場景中形狀和材質的特性,以及相機成像中一些處理步驟告訴你,然後當人去設計理解這個圖像的演算法時,這些物理規律和特性可以幫助大家對圖像加入合適的先驗假設和條件,從而得到更為有效的視覺演算法。另一方面,視覺對圖形學的研究也有很大的啟發和幫助。為了生成真實感的圖形,創建逼真的三維場景,我們的內容從哪裡來?這就需要視覺中很多技術的幫助。童欣說:「比如我做一個可樂罐子,我可以拿相機拍下來做三維重構,也可以通過拍攝大量的圖片直接重現這個可樂罐子在不同視角,不同光照下的圖片。」

深度學習尚未席捲計算機圖形學,但格局很快就要被打破了

談到機器學習和計算機圖形學關係,童欣認為:「圖形學其實一直是個開放的領域。很多人好奇我們圖形學到底用不用機器學習技術,我們其實很早就在使用了,但是在圖形學研究里,我們稱這類方法為數據驅動的方法。數據驅動在圖形學的歷史非常悠久,現在當然也包括了深度學習這一技術。」

和計算機視覺中深度學習已經滲透到幾乎每一分支不同,深度學習似乎目前尚未席捲計算機圖形學(Computer Graphics)的各個領域。對此,童欣認為,這方面的原因有幾個方面。一方面,圖形學中使用的三維表達多種多樣,並沒有統一的表達。和圖像、視頻這些表達不同,如何有效的設計一個通用的針對3D 圖形數據的深度學習模型(就像專為圖片設計的深度卷積神經網路CNN)還是大家在研究的一個熱點問題。另外,在圖形學的很多領域,大規模高質量的數據集還很缺乏。如何有效的產生這些高質量的圖形數據本身就是圖形學研究中的核心問題。最後,在圖形學很多領域,比如繪製,大家對結果的物理正確性和演算法實時性有非常高的要求,在這些方面如何有效的利用機器學習技術,包括深度學習技術,發展出比目前的演算法更好的解決方案,還需要解決很多問題。

同時童欣提到,挑戰也是機遇。在近幾年中,圖形學研究中大家也開始積極探索如何利用深度學習技術解決不同的圖形學問題。在今年的SIGGRAPH上也出現了很多深度學習、和機器學習相關的論文,其中很多都是有華人作者參與的。除了微軟亞洲研究院發表的三項相關的工作,國防科大徐凱副教授等人在形狀的結構分析方面的工作,港大的俞益州教授和潘曉光博士等人在基於草圖的人臉表情建模方面的工作都是非常具有啟發性的工作。從這兩年的論文也可以看到機器學習,特別是深度學習也得到了圖形學研究人員越來越多的關注。

最後童欣評論道:「深度學習是個很好的工具,但是在圖形學裡,很可能深度學習並不會席捲一切,也不可能解決所有的問題。因為內容的生成本質上是比圖像理解更難的一個問題。一方面我們希望能夠理解人們的語義和描述,能夠把這些歧義的抽象的想像和描述變成具體的確定性的圖形內容。另一方面,我們要求生成的內容必須具有物理的合理性,同時具有豐富逼真的細節。這一逆向的生成過程在深度學習中,也是大家目前才剛剛探索的一個問題。最後可能還是百花齊放,殊途同歸,通過不同方法的結合達到最終的目標。」

基於八叉樹的卷積神經網路,降低三維形狀分析計算量

在採訪中,童欣也簡單介紹了微軟亞洲研究院今年在SIGGRAPH上發表的三篇和深度學習有關的論文。第一個是用於三維形狀分析的基於八叉樹的卷積神經網路。

通常用CNN做二維圖像分析效果很不錯,Nvidia也有專門的庫。但是3D圖形一般用不規則連接的三角形網格,或者點雲來表達,那麼如何把處理規則數據的CNN用在處理不規則的三角形網格或者點雲上?就變成了大家首先要解決的問題。

傳統的數據表達會導致計算太複雜!

一個直觀的方案是在空間做一個規則網格的體素表達,這個形狀佔到了的體素就標記為1,否則就標記為0。如果把這個三維的規則網格直接用CNN做,運算複雜度會很大。解析度稍微高一點,訓練的內存開銷和速度都會承受不了。往往一個32*32*32這麼小的,連形狀細節都看不清楚的規則網格都做不動。

另外一個解決方案是從各個角度繪製大量深度圖,再把圖片摞在一起來做CNN,這種方式可以解決很多問題。但是要拍多少張圖片才夠?從哪個角度繪製?我們沒有統一的解決方案。如果形狀有內部結構或著凹下去的部分,這種方法很可能會丟失這部分信息造成後面演算法性能下降。還有一種方案是沿著表面做CNN。這樣做的主要問題在於,這需要一個流形的形狀表達,對點雲卻無能為力。同時,大部分表面無法沒有誤差的展開到一個平面上來一定有一些地方被拉伸或扭曲,也造成演算法性能的損失。

童欣介紹:「我們的工作是,利用圖形學中非常流行的八叉樹結構,把空間一分為八,有物體的部分留著,沒有的就標記後扔掉,留下的繼續細分。在做卷積的時候,只在空間有物體的那個八叉樹的分支上做。這樣演算法需要的空間和速度和做一張圖像的複雜度相似,從而可以對更高解析度的三維形狀進行分析。基於這一想法,我們做了一個GPU上的優化實現,允許用戶使用大部分基於圖像的CNN模型,充分的發揮了CNN的優勢。」

CNN結合半監督學習結合,挑戰表面材質生成難題

另外一項很重要的與深度學習相關的工作是:用深度學習自動生成物體表面材質。

什麼叫表面材質?材質決定了物體在真實光照下的顏色,反光和表面的外觀細節。光憑形狀無法分辨這個可樂罐子是塑料的,還是金屬的,是磨砂的,還是拋光的。只有加上材質信息,有了顏色,反光、高光等,我們才知道這是個鋁的磨砂罐子。

材質在圖形學渲染中非常重要。但是生成很真實的表面材質一直是一個很困難的事情。童欣表示:「一個有經驗的藝術家可以根據自己的經驗,從一張照片出發,通過Photoshop,經過很多複雜的圖像編輯操作,產生相應的材質貼圖。那麼如果藝術家可以做得很好,那我們可不可以利用深度學習技術從圖片出發,自動做出高質量的材質貼圖?」

可是,這裡面的挑戰是,如果我們用傳統的CNN的訓練方法,我們就需要輸入很多照片和他們對應的真實材質的標定數據。但是我們很難找到大量的圖片和對應的材質。否則我們也不需要研發這個工具了。

童欣說:「我們的解決方法是,能夠利用用戶給的少量輸入圖片和對應的材質標籤,以及大量的Internet下載的沒有材質標籤的圖片一起,通過一個新提出的自增強的訓練方法結合繪製演算法來訓練CNN,這一方法取得了很好的效果。這是針對圖形學問題的一個新的半監督學習的演算法。我相信這一演算法具有潛力來幫助解決更多的圖形學視覺的問題。」

而另一項工作,則是微軟亞洲研究院視覺計算組袁路和廖菁研究員等人所提出的新的圖像風格化演算法,可以生成高質量的和內容相關的圖像風格化結果。這一成果也再次說明圖形學、視覺研究之間的相關性。

VR只是媒體而AR是平台,四大技術快速發展,爆發期將近

VR/AR/MR 跟圖形學是密切相關的一個應用方向。在這個方向上,微軟已經發布了HoloLens這一在MR(混合現實)方向的主打產品。不僅僅微軟,Facebook、蘋果、谷歌等巨頭也已涉足MR。對於這個方向,他也有一些觀點。

大家喜歡把VR和MR/AR放在一起說,但是童欣認為兩者有本質的不同——VR更多的是一種新的媒體形式。而MR/AR是一個新的平台,本質上是一個基於語義的地理位置的服務(semantic locationservice)。童欣說:「兩者雖然也有一些共同點,但是在關鍵的應用場景上最終肯定要分道揚鑣。」

任何用到媒體的場景如娛樂、教育等, VR都會滲透。而AR/MR的應用場景,遠比VR要廣得多,它會變成你生活中一個無處不在的平台。理解本質後,可以再探討VR和AR/MR是否會在應用層面爆發。

童欣認為,對於媒體最關心的內容生成和傳播。VR現在還是很難生成體驗非常好的內容給用戶。VR需要用戶帶著頭盔,用戶需要花費額外的精力克服不適感,這意味著用戶對內容的期待比現有的媒體要高一個數量級。糟糕的是,我們現在沒有特別好的手段,幫助用戶產生真正超越目前可視媒體的更高質量的媒體內容出來。拿VR視頻舉例,我們面對的是畫面粗糙的顆粒感、交互的不便,視覺感受和身體其他感官體驗的分離。這不僅僅是圖形技術的問題,而是一系列技術都沒跟上。

圖形上的問題在於,如何捕捉更高解析度,視點可自由移動的視頻。第二,從傳輸機制上說,如何壓縮內容,減少延遲。第三,從交互意義上說,屏幕就這麼大解析度,我要看某個細節的時候,如何自然交互,放大、特寫這一部分的內容。VR帶給用戶的體驗還沒有超過給用戶帶來的額外負擔,任重道遠。AR/MR也有很多技術難點,但是這些技術難點在最近幾年得到了一系列突破和快速發展:

1. SLAM定位技術,現在發展很快很好

2. 識別技術,識別用戶所看到的,所交互的東西是什麼?

3. 手勢和視線跟蹤技術,面部表情跟蹤技術,用於自然交互

4. 顯示技術,如何實現更輕的頭顯和更大的視角

童欣認為,以上關於AR/MR的每個技術離完全成熟都差一點火候,但是也在飛速發展,所以他認為AR/MR的爆發很快就會到來。

童欣告訴新智元,在MR的普及方面,微軟也在跟很多企業合作,來探索在不同實際場景中的應用。例如跟蒂森克虜伯(Thyssenkrupp)合作電梯檢修,跟沃爾沃合作做汽車設計,還有醫學的解剖教育等等。對微軟來說,現在更重要的是建立健康的生態系統。

微軟互聯網圖形組:培養了一大批中國圖形學的人才

從2001年成立至今,微軟互聯網圖形組培養了一大批中國圖形學的人才,這是整個微軟亞洲研究院在中國互聯網發展所扮演的角色的一個縮影。

童欣說,目前圖形學在國內的發展水平相當好,在很多研究方面達到了國際一流水平。國內的很多高校,如清華,浙大,中科大,山大,深圳大學,北大,中科院都有能力發表高水平的SIGGRAPH論文。國內圖形學界活躍的一些著名學者,比如清華大學的徐迎慶教授,劉世霞副教授,浙大的周昆教授、劉新國教授,中科大的劉利剛教授,香港大學的魏立一副教授等等都曾經在微軟亞洲研究院的圖形學組工作過。

童欣說:「國內圖形學界的各位前輩給圖形學的發展打下了堅實的基礎。圖形學界大家都很團結,都想把圖形學的產,學,研做的更好。因此這些年圖形學在中國發展的很好,大家努力做出了很多世界一流的成果。微軟亞洲研究院很高興能夠參與其中,和大家一起努力,為這些發展做了自己的貢獻。除此之外,網路圖形組給微軟以及產業界也做過很多貢獻:微軟開源框架 CNTK 里的視覺分析演算法和GPU優化方面;XBOX平台上對原有平台的遊戲支持,以及微軟很多遊戲中所使用的繪製建模技術等等。這些技術應用實實在在的推動了產業的進步」。

展望未來,童欣對網路圖形學的未來非常樂觀:「我們其實剛剛走完了圖形技術發展的基礎層次(LowLevel)的研究。而在上面一個層次,如何通過用戶的簡單輸入和對結果功能、使用場景的理解進行更為智能的內容創作和交互還是大家剛剛開始探索的問題。而如何通過對用戶的語言輸入和理解,幫助用戶自動的生成高質量的可視內容,和完全打破虛擬與現實界限的交互技術才是網路圖形學的最終目標。我們離這一目標還很遠,但是我們正在向這一目標奮力前進。」

參考列表:

1. https://zhuanlan.zhihu.com/p/26856561

5. http://xiamag.com/37964.html

6. SANET:http://msraig.info/~sanet/sanet.htm

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 新智元 的精彩文章:

國務院印發 《新一代人工智慧發展規劃》
Facebook加入爭奪中國AI人才,LeCun上交大對話AI領袖(PPT)
首發:人臉識別世界盃榜單出爐,微軟百萬名人識別競賽冠軍分享
蘋果重磅推出AI技術博客,CVPR合成逼真照片論文打響第一槍
Facebook加入爭奪中國AI人才,LeCun對話AI領袖

TAG:新智元 |

您可能感興趣

美媒介紹IARPA機器學習研究現狀
微軟亞洲研究院CVPR論文DA-GAN,讓計算機創造奇妙「新物種」
CAP@NTU 大規模圖計算系統研究進展
基於FPGA的TCP/IP硬體協議棧研究與設計
突破特徵表達方式:微軟亞洲研究院CVPR論文DA-GAN,讓計算機創造奇妙「新物種」
INNOVATIVE BIORESEARCH推出令牌銷售,用以開發新的艾滋病治療研究與去中心化臨床數據
OPPO 宣布成立研究院,加強 AI和5G 技術的研究
OPPO宣布成立研究院,致力於研究5G、AI
李永樂:從抗血小板藥物研究到臨床應用——PHARMCLO研究與TREAT研究解讀
公私合營研發組織模式研究——基於NASA-SpaceX合作研發案例研究
Cell:開發出基於CRISPR的方法研究lncRNA的功能
張鋒等人終於鬆了口氣,引發巨大爭議的CRISPR突變研究,文章被撤
Uber與美國陸軍研究機構合作,共同研發靜音飛行技術
北大陸劍研究組揭示果蠅tsRNA的作用機制
BBC AR應用讓家秒變博物館,微軟新研究給盲人體驗VR機會
PNAS:大數據方法研究HIV包膜蛋白藍圖 有望開發新型HIV疫苗
法國Compiegne大學建立VR空間模擬器 將有助於研究VR環境
原微軟亞洲研究院研究員王立峰博士加盟51VR 任CTO兼首席科學家
微軟研究院正在打造AI驅動的硬體設備
韓方普研究組在 CRISPR-Cas9 玉米基因組編輯方法研究中取得新進展