騰訊AI Lab劉威博士詳解CVPR 2017入選論文

知識 08-11

機器之心原創

作者：高靜宜

2016 年 4 月，騰訊 AI Lab 正式成立，結合騰訊的業務場景，針對計算機視覺、語音識別、自然語言處理和機器學習四個方向進行人工智慧領域的相關研究。其中，計算機視覺團隊是較早組建的研究團隊之一，由計算機視覺和機器學習專家劉威博士帶領十餘位基礎研究科學家，具體圍繞大規模圖像分類、視頻編輯與生成、時序數據建模和增強現實等項目展開研究。該團隊專註於中高層視覺問題，加深可視結構數據理解，同時對計算機視覺+NLP、計算機視覺+信息檢索等學科交叉領域具有濃厚的研究興趣。

今年，騰訊 AI Lab 計算機視覺團隊研究成果頗豐，有六篇論文入選了計算機視覺領域全球頂級學術會議 CVPR 2017。為此，機器之心採訪了騰訊 AI Lab 計算機視覺團隊負責人劉威博士及團隊成員，對論文中的研究工作進行了詳細的解讀。

一、關於論文《Real Time Neural Style Transfer for Videos》

機器之心：這篇論文中，團隊提出了一種全新兩幀協同訓練機制，讓卷積神經網路能夠在做像素級別的視頻編輯時保持時域一致性。能否具體介紹一下這個過程是如何實現的？

騰訊 AI Lab：在每一輪訓練時，我們使用了連續兩幀的視頻畫面。在計算損失函數時，除了風格化相關的內容損失和風格損失，還首次引入了時域損失。時域損失用於約束連續兩幀的輸出時域一致，兩幀像素之間的對應關係通過預計算的光流獲得。在訓練完畢後，則不再需要計算光流。我們提出的演算法在保證視頻風格遷移能夠實時完成的前提下，大大提升了視頻的時域一致性。

機器之心：這種演算法的性能表現如何，在數據測試集上可以達到什麼樣的效果？

騰訊 AI Lab：在提供光流真值的 Sintel 數據集上，相比直接每幀應用圖像風格遷移的方法 [ECCV 2016 Johnson et al.]，我們的方法測試誤差減小約 27%~44%。在其他沒有提供光流真值的數據集上，也可以明顯觀察到時域一致性提升。

機器之心：您認為這項技術的應用前景如何？如何發揮其潛在的價值？

騰訊 AI Lab：我們的方法除了能應用在視頻風格遷移上，也能夠推廣至其他同類型的視頻編輯工作。視頻實時遷移功能目前已經在 QQ 手機版本上線運行，演算法也將依據未來應用形態變化做進一步調整。

二、關於論文《WSISA: Making Survival Prediction from Whole Slide Histopathological Images》

機器之心：能否具體介紹一下論文提出的生存預測方法 WSISA 是如何基於全尺寸、無標準的病理圖片完成預測過程？

騰訊 AI Lab：利用 WSISA 進行病人生存預測總共分為四步：1）大規模隨機採樣；2）聚類並自動篩選對生存預測有區分性的 cluster；3）進行病人層次的全局特徵估計和 4）進行病人層次的生存預測。其中，大規模隨機採樣是後續流程的基礎，聚類並自動篩選有區分性的 cluster 可以替代醫生標註的工作，病人層次的全局特徵估計克服了傳統方法僅關注局部信息的弱點。

機器之心：目前的預測準確率達到什麼樣的水平？這項技術如何在醫療領域進行應用，可以為分別為醫生和患者帶來哪些便利？

騰訊 AI Lab：SISA 在兩類癌症（肺癌和腦癌）的三個不同數據集上均超越了傳統方法，CI 值（Concordance index, 排序一致性）分別平均提升 26%，10% 和 12% 以上。A3: WSISA 的提出不僅可以應用在病人的生存預測上，而且可以應用在其他基於十億甚至百億像素級病理圖像的診斷預測上（如癌症分級），它極大地減輕了醫生的負擔，為更加精準的醫療診斷及個性化的治療方案提供量化指標，從而病人可以得到精準的醫療服務。

三、關於論文《SCA-CNN: Spatial and Channel-wise Attention in Convolutional Networks for Image Captioning》

機器之心：SCA-CNN 的設計思路什麼？這個網路模型解決了圖像文本生成的哪些問題？

騰訊 AI Lab：在研究思路上，我們認為空間注意力模型不能很好地描述人眼的視覺注意力機制，尤其是在圖像描述生成這一目前熱門的視覺任務中。因此，需要引入圖像卷積神經網路中的通道信息來進一步建模注意力機制。

我們提出的 SCA-CNN 模型，是一個融合了空間上和通道上的注意力的卷積神經網路。針對圖像描述生成任務，SCA-CNN 基於卷積網路的多層特徵來動態生成文本的描述，進而建模文本生成過程中空間上與通道上的注意力機制。

機器之心：與現有的自動生成圖像文本描述的演算法方法相比，該網路有何優勢與不足？與世界前沿演算法相比，表現如何？

騰訊 AI Lab：與現有的基於注意力的編碼器-解碼器結構的網路相比，SCA-CNN 特別考慮了通道上的注意力問題，因此能夠更好地描述在文本生成過程中圖像空間與通道上的信息。

在三個公開的數據集 (flickr8k, flickr30k, mscoco) 上的測試結果證明，相較於傳統的基於注意力模型的圖像描述生成, 我們提出的 SCA-CNN 模型能夠顯著提高圖像描述生成的質量。

四、關於論文《Deep Self-Taught Learning for Weakly Supervised Object Localization》

機器之心：這篇論文提出的深度自我學習方法是如何打破弱監督物體定位的訓練樣本質量的壁壘？該技術對弱監督學習的精確度、計算速度等性能帶來怎樣的影響？

騰訊 AI Lab：這篇論文提出了從較少的、質量低下的數據開始的模型學習演算法。模型在不斷學習後，性能增強，從而能自主地選擇更多數據、並選取其中質量更高的進行模型訓練，提升模型性能，從而實現模型的自主學習。這種依靠模型自身達到數據從少到多、從差到好的自主獲取過程，有效打破了弱監督學習數據質量低的瓶頸。

我們創新性地提出依靠預測分數的相對增量來指導獲取更高質量訓練數據，有效減輕了質量低下的訓練數據對模型的影響，防止模型因對這些數據過擬合而陷入局部最優點。該方法因為能動態獲取更多更高質量的訓練數據，比使用固定的質量低下的訓練數據學習到的檢測器模型性能大大增強，額外時間開銷也很小，並在 PASCAL VOC 07 和 12 數據集上超過其他當前最先進的幾種方法。

五、關於論文《Diverse Image Annotation》

機器之心：能否介紹一下 DIA 演算法是如何最大程度地利用利用語義關係，同時降低冗餘的？

騰訊 AI Lab：我們先從 WordNet 中挖掘了圖像標籤之間的語義拓撲關係和同義片語，隨後將合併同義片語並分裂多義標籤，進而提出了權重語義路徑這一全新概念，使得每條語義路徑能夠明確地表達一個完整的語義信息。在此基礎上，我們規定在標籤採樣過程中，一條語義路徑上最多只能有一個標籤被選中來標註一幅圖像，從而最大限度地避免了標籤之間的語義冗餘，因此鼓勵了標籤多樣性。

機器之心：語義層級的多樣性及質量對 DIA 演算法有怎樣的影響？下一步研究方向？

騰訊 AI Lab：語義層級多樣性和質量對 DIA 的演算法的影響在於，我們通過對人為標註結果的觀察和統計發現，人在標註過程中充分考慮了標籤之間的語義關係從而保證了語義多樣性。而且人的標註結果與我們所定義的語義路徑高度吻合，這就驗證了我們所定義的語義路徑的高質量，也是 DIA 演算法能夠產生與人的類似標註結果的關鍵所在。

未來，我們計劃將語義路徑嵌入到模型學習階段，而不僅僅是目前所涉及到的採樣預測階段，這將更加充分地發揮語義路徑的作用。

六、關於論文《Exploiting Symmetry and/or Manhattan Properties for 3D Object Structure Estimation from Single and Multiple Images》

機器之心：能否介紹一下本文中提出的物體三維重建方法是如何基於曼哈頓結構與對稱信息進而達到較好的效果？與單張圖片相比，本文提出的三維重建方法在針對多張圖像時存在什麼異同？

騰訊 AI Lab：這篇論文是由騰訊 AI Lab、約翰霍普金斯大學及加州大學洛杉磯分校合作發表，主要討論了如何從二維圖像中進行人造物體（如汽車、飛機等）的三維結構重建問題。事實上，絕大多數人造物體都有對稱性以及曼哈頓結構，後者表示我們可以很容易在欲重建的人造物體上找到三個兩兩垂直的軸。例如，在汽車上，這三個軸可為兩個前輪、兩個左輪及門框邊緣。

論文中首先討論了基於單張圖片的物體三維結構重建，並證明了僅用曼哈頓結構信息即可恢復圖像的攝像機矩陣；然後結合對稱性約束，可唯一地重建物體的三維結構。在單張圖像重建中，遮擋和雜訊等因素會對重建結果造成很大影響。所以論文後半部分轉到了多張圖像基於運動恢復結構（Structure from Motion, 簡稱 SfM）及對稱信息的物體三維重建中。事實上，SfM 演算法涉及到對二維特徵點進行矩陣分解，而添加對稱性約束後，我們並不能直接對兩個對稱的二維特徵點矩陣直接進行矩陣分解，因為這樣不能保證矩陣分解得到同樣的攝像機矩陣以及對稱的三維特徵點坐標。所以，論文通過進一步利用對稱性信息進行坐標軸旋轉解決了這個問題。實驗證明，該方法的物體三維結構重建及攝像機角度估計均超出了之前的最好結果。

七、關於團隊

機器之心：能否介紹一下目前騰訊 AI Lab 計算機視覺團隊的現狀？

劉威：目前我們的團隊有十多位基礎研究科學家，大多擁有國內外院校博士學位，並與一個較大的應用工程師團隊緊密合作。我們很注重對青年研究者的培養，團隊中應屆畢業的博士接近半數，也將繼續在海內外招募不同級別的優秀研究者。另外，我們的項目也吸引了哥倫比亞和清華等海內外知名大學的優秀實習生參與。

機器之心：如何看待目前計算機視覺領域技術的發展以及未來在哪些領域具有較大的潛力？

劉威：2012 年深度學習技術的興起，讓計算機視覺自此有了長足發展。除了物體檢測與識別這類經典的中層視覺問題，在圖像去噪、去模糊、超解析度和語義分割等低層視覺問題解決上也有了很大的飛躍。從最近兩屆 CVPR 廣受關注的論文來看，未來 CV 領域的研究除了會繼續提升經典視覺問題的演算法性能，伴隨著新數據集設計及細分研究領域上的新挑戰，一些有趣且有挑戰的研究問題也將會受到更大關注。我個人認為，視覺+NLP 的交叉將持續升溫，視頻分析理解（包括視頻分類、視頻物體分割等）的研究將再上一個台階。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※10大深度學習架構：計算機視覺優秀從業者必備
※《連線》對話陸奇：人工智慧技術商業化就是構建人工智慧生態系統
※如何通過牛頓法解決Logistic回歸問題
※官方：DeepMind與暴雪開源星際爭霸2人工智慧研究環境
※信息檢索頂會SIGIR獎項：微軟最佳論文、清華最佳學生論文

TAG:機器之心 |

您可能感興趣

※RCTF 2018 Magic題目詳解
※V6廠宇舶法拉利F11系列Big Bang Ferrari Ceramic 401.CX.0123.VR腕錶詳解評測
※CVE-2018-2628 Weblogic反序列化POC重構詳解
※BATES 貝特斯 E08670 COBRA作戰靴詳解測評
※什麼是RAID？RAID詳解RAID0/RAID1/RAID5/RAID10
※Magic Leap站台GDC2018，詳解沉浸式MR遊戲設計
※華為Mate 20系列開啟EMUI 9.1公測：官方詳解4大設計變化
※詳解CIBN2018的AI、雲、IPTV、OTT盒子、4K等八大關鍵點
※經典遠攝變焦鏡頭：AF-P 尼克爾 70-300mm f/4.5-5.6E ED VR性能詳解
※DELL R720安裝Windows Server 2008R2 Datacenter 詳解教程
※Canvas API詳解(Part 1)
※詳解華為Mate 20 Pro DxOMark評分
※《VR/AR全球投資回顧與2018展望報告》發布，詳解VR/AR新機遇
※長江存儲Xtacking詳解：3000次P/E壽命，3Gbps IO速度
※KDD 2018 Research Track 最佳學生論文詳解：流行音樂的旋律與編麴生成
※7nm為羽Zen 2為翼，AMD第二代EPYC霄龍處理器詳解
※VS廠沛納海青銅PAM382圖文詳解
※詳解Redmi Note8 Pro手機6400W主攝表現
※7nm為羽、Zen 2為翼，AMD第二代EPYC處理器技術詳解
※一文詳解 TensorFlow 2.0 的符號式 API 和命令式 API