工業界論文被CVPR收錄有捷徑？| CVPR 2017

新聞 07-28

雷鋒網AI科技評論按： CVPR是全球頂級的三大計算機視覺會議之一，每年都會吸引世界各地著名院所的學者提交論文，國內外從事計算機視覺和圖像處理相關領域的著名學者都以能在CVPR上發表論文為榮，這些學術論文也將引領著未來的研究趨勢。除了學術界以外，工業界也帶來了他們的研究成果。雷鋒網編輯挑選了來自工業界的四家公司入選的論文，分別作簡介和評論。

阿里巴巴

阿里巴巴共有四篇論文被 CVPR 2017 接收，其中阿里人工智慧實驗室 3 篇，阿里 iDST 1 篇；阿里巴巴人工智慧實驗室此次入選的三篇論文均有傑出科學家王剛的深度參與，分別針對深度學習和計算機視覺所涉及的上下文模擬、場景分割、行為理解等問題提出了解決辦法。

以下是對四篇論文的解讀：

Deep Level Sets for Salient Object Detection（結合深度網路的水平集方法在顯著性目標檢測中的應用）

簡介：顯著性目標檢測能夠幫助計算機發現圖片中最吸引人注意的區域，有效的圖像分割和圖像的語意屬性對顯著性目標檢測非常重要。由南洋理工大學和阿里巴巴人工智慧實驗室合作，共同提出了一種結合深度網路的水平集方法，將分割信息和語意信息進行結合，獲得了很好的效果。水平集方法是處理封閉運動界面隨時間演化過程中幾何拓撲變化的有效的計算工具，後來被用到圖像分割演算法當中。深度學習能夠很好的建模顯著性目標的語意屬性，進而進行顯著性目標檢測，但更多的語意屬性信息導致分割邊界的低層信息不準確。論文巧妙的結合了深度網路和水平集方法（Deep Level Sets），同時利用圖片低層的邊界信息以及高層的語意信息，在顯著性目標檢測領域獲得了最好的效果。

Global Context-Aware Attention LSTM Networks for 3D Action Recognition（將全局上下文注意力機制引入長短時記憶網路的3D動作識別）

簡介：3D動作識別能夠幫助計算及更好的理解人體動作，未來可以作為人機交互的一種補充。一個好的3D動作識別系統需要很好的處理動作在時間（動作需要一定時延）、空間（結構）上的信息。LSTM（長短時記憶網路）能夠很好的建模動態的、相互依賴的時間序列數據（如人的3D動作序列），注意力機制能夠更有效的獲取數據中的結構信息，並排除掉雜訊的干擾。由南洋理工大學、北京大學、阿里巴巴人工智慧實驗室合作，論文結合LSTM和上下文注意力機制，提出了一種新的LSTM網路：GCA-LSTM（Global Context-Aware Attention LSTM）；用來建模動作序列中有效的全局上下文信息（時間信息+空間信息），進而進行3D動作識別。同時，論文為GCA-LSTM網路提出了一種循環注意力機制來迭代提升注意力模型的效果。論文方法在3個主流的3D動作識別數據集上都達到了最好的效果。

Episodic CAMN: Contextual Attention-based Memory Networks With Iterative Feedback For Scene Labeling（引入迭代反饋的上下文注意力機制記憶網路在場景分割中的應用）

簡介：場景分隔通常在自動駕駛中應用，通過對路面場景進行分割，可以幫助無人車分析那部分區域是可行駛區域。也可以用於室內機器人通過場景分割獲知室內物體的分布。場景分割對待分割區域周圍的區域以及全局信息有較強的依賴關係，但這種依賴關係是動態變化的（即使同一區域在不同的場景中對周圍信息的依賴是不同的），因此動態的獲知不同區域的依賴關係以及圖像全局上下文特徵的使用至關重要。由南洋理工大學，伊利諾伊大學厄巴納-香檳分校，阿里巴巴人工智慧實驗室合作，論文通過一個可學習的注意力機制網路來刻畫不同區域之間的依賴關係，並獲取包含上下文信息的特徵。進一步，論文通過引入迭代反饋的方式對注意力機制網路的輸出進行調節，以獲得更好的包含上下文的特徵。

Video to Shop: Exactly Matching Clothes in Videos to Online Shopping Images（從視頻到電商：視頻衣物精確檢索）

作者：Zhi-Qi Cheng、Xiao Wu、Yang Liu、華先勝（阿里iDST)

簡介：圍繞視頻電商業務場景，提出了一個在線視頻衣物精確檢索系統。該系統能夠滿足用戶在觀看影視劇時想要同時購買明星同款的需求。整個系統採用了目前最先進的衣物檢測和跟蹤技術。針對明星同款檢索中存在的多角度、多場景、遮擋等問題。提出可變化的深度樹形結構（Reconfigurable Deep Tree structure）利用多幀之間的相似匹配解決單一幀檢索存在的遮擋、模糊等問題。該結構可以認為是對現有 attention 模型的一種擴展，可以用來解決多模型融合問題。

蘋果

蘋果公司之前接受採訪時拒不透漏自家的AI進度，外界甚至一度懷疑蘋果的AI技術落後於競爭對手。這次是奉行保密文化的蘋果公司對外發布的第一篇AI論文，標誌著蘋果公開AI學術研究成果、對外敞開大門的第一步。該論文發表於去年12月，提出了由三部分（模擬器Simulator，精製器Refiner，再加上一個判別器Discriminator）組成的 SimGAN訓練方法，因此而獲得CVPR 2017最佳論文。不過，學術界有學者對這篇論文的含金量提出了質疑，認為蘋果這份論文「試水」的意義遠大於研究本身的意義。具體可參考雷鋒網今年年初的報道。

論文題目：Learning From Simulated and Unsupervised Images through Adversarial Training

即「《藉助對抗訓練，從模擬、無監督圖像中學習》」

作者：蘋果公司 Ashish Shrivastava，Tomas Pfister，Oncel Tuzel，Joshua Susskind，Wenda Wang，Russell Webb。

簡介：隨著圖像領域的進步，用生成的圖像訓練機器學習模型的可行性越來越高，大有避免人工標註真實圖像的潛力。但是，由於生成的圖像和真實圖像的分布有所區別，用生成的圖像訓練的模型可能沒有用真實圖像訓練的表現那麼好。為了縮小這種差距，論文中提出了一種模擬+無監督的學習方式，其中的任務就是學習到一個模型，它能夠用無標註的真實數據提高模擬器生成的圖片的真實性，同時還能夠保留模擬器生成的圖片的標註信息。論文中構建了一個類似於 GANs 的對抗性網路來進行這種模擬+無監督學習，只不過論文中網路的輸入是圖像而不是隨機向量。為了保留標註信息、避免圖像瑕疵、穩定訓練過程，論文中對標準 GAN 演算法進行了幾個關鍵的修改，分別對應「自我正則化」項、局部對抗性失真損失、用過往的美化後圖像更新鑒別器。

騰訊

騰訊人工智慧實驗室曾經喊出「學術有影響，工業有產出」的口號。從這次入選論文數量上看，BAT三家，數騰訊最多，共6篇被收錄。此次成果也可以算是對口號的前半句的一個有力回應吧！

一：Real Time Neural Style Transfer for Videos（實時視頻風格轉化實現）

簡介：最近的研究工作已經表明了使用前饋卷積神經網路來實現圖像快速風格轉變的可行性。而清華大學與騰訊AI實驗室的研究基於這一點在實踐上更近了一步，他們通過使用前饋網路對視頻進行風格轉化，同時還保持了風格化視頻幀圖像的時間一致性。在《實時視頻風格轉化實現》這篇論文中，作者介紹到，他們所使用的前饋網路是通過強制執行連續幀的輸出既保持原有的風格又具有良好的連續性進行的訓練得到的。更具體的，作者提出了一種混合損失（hybrid loss）理論，充分利用輸入畫面幀的畫面信息，圖像的風格信息和連續幀的時間信息對圖像進行處理。為了計算在訓練階段的時間損失，作者提出了一種全新的兩幀協同訓練的機制。與原先直接硬性的將已有的畫面風格轉入視頻的方法相比，這種全新的方式摒除了原有方法對耗時優化的依賴，即可保持畫面的時間連續性，又消除了畫面閃爍的問題，確保視頻風格遷移實時、高質、高效和完整性，從而實現更好的視覺欣賞效果。

二：WSISA: Making Survival Prediction from Whole Slide Histopathological Images

簡介：德州大學阿靈頓分校（University of Texas-Alington）與騰訊AI實驗室提出了就基於病理圖片進行的病人生存預測方法——WSISA，有效地支持大數據時代的精準個性化醫療。作者提出了訓練基於深度卷積生存（DeepConvSurv）預測結果的累積模型來記性病人層面的預測。與現有的基於圖像的生存模型相比不同的是，這種模型可以有效地提取和利用WSI上所有可進行區分的小圖塊來進行預測。在目前的研究領域，這種方法還未有人提出過。通過論文中的方法，作者用三種數據集對膠質瘤和非小細胞肺癌的生存預測進行了研究，研究結果證實了WSISA架構可以極大程度的提高預測的精準性。

三：SCA-CNN: Spatial and Channel-wise Attention in Convolutional Networks for Image Captioning （SCA-CNN：卷積神經網路中的注意力模型）

簡介：由浙江大學、哥倫比亞大學，山東大學、騰訊AI實驗室和新加坡國立大學（National University of Singapore）聯合發表，針對圖像描述生成任務，基於卷積網路的多層特徵來動態生成文本描述，進而提出了空間及頻道感知上的注意力模型。論文中，作者引入了一種新穎的卷積神經網路，稱為SCA-CNN，其將空間和頻道感知注意力融合進卷積神經網路。在實現給圖像增加字幕的任務時，SCA-CNN動態的調整在多層特徵映射中句子生成的語境，從而編譯視覺注意力的兩個特徵：where（即在所層疊中注意力的空間位置）和what（即吸引注意力的頻道）。論文通過三種benchmark的圖像字幕數據集對提出的SCA-CNN架構進行評估，包括：Flickr8K，Flickr30和MSCOCO。通過評估證實了基於SCA-CNN架構進行圖像字幕註解相對於目前已有方法的明顯優勢

四：Deep Self-Taught Learning for Weakly Supervised Object Localization（用於所監督對象定位的深度自學習）

簡介：由新加坡國立大學（National University of Singapore）和騰訊AI實驗室聯合發布的論文《用於所監督對象定位的深度自學習》提出的依靠檢測器自身段改進訓練樣本質量，不斷增強檢測器性能的一種全新的深度自學習方法，破解了所監督目標檢測問題中訓練樣本質量低的瓶頸。為了實現這樣的自學習，文中提出了一個種子樣本採集方法，通過圖像到對象的傳輸和密集的子圖採集獲取可靠的正樣本來進行探測器的初始化。作者進一步的提供了一種在線支持樣本收集計劃來動態地選擇最為可信的正樣本，並提供成熟的訓練方法對探測器進行訓練。為了防止探測器在訓練過程中陷入因過適應而造成的困境中，作者還引入了一種方法來引導自學習過程。

五：Diverse Image Annotation（多樣圖像標註）

簡介：該論文由沙烏地阿拉伯的阿布多拉國王科技大學與騰訊AI實驗室聯合發表，提出了一種新的圖像自動標註方式，即用少量多樣性的標籤表達盡量多的圖像信息，其充分利用標籤之間的語義關係，從而使得自動標註的結果與人類標註的結果更加相近。

六：Exploiting Symmetry and/or Manhattan Properties for 3D Object Structure Estimation from Single and Multiple Images（對稱性和/或曼哈頓特性對單個和多個圖像進行三維物體結構設計)

簡介：由騰訊AI實驗室、約翰霍普金斯大學和加州大學洛杉磯分校聯合發表，其論述了利用對稱性和/或曼哈頓特性對單個和多個圖像進行三維物體結構設計的方法。基於曼哈頓結構與對稱信息，文中提出了單張圖像三維重建及多張圖像Structure from Motion三維重建的新方法。

商湯科技

人工智慧技術行業巨頭谷歌在此次CVPR 2017共有21篇論文入選，而國內一家獨角獸公司商湯科技，它與香港中大-商湯科技聯合實驗室共同發表的論文數量卻超越谷歌，達到驚人的23篇。這23篇論文涵蓋了計算機視覺的多個領域，提出了很多新型的應用，在核心技術的研發上取得了多項國際領先的成果。下面雷鋒網AI科技評論著重介紹其中的三篇論文。

Quality Aware Network for Set to Set Recognition（因圖而異的融合網路）

論文簡介：在人臉識別、人體再識別任務中，現有的方法是利用卷積神經網路對一個序列中的所有圖像分別提取特徵，再將特徵進行簡單的平均或池化，作為該序列的最終特徵用於之後的識別。但實際應用場景中一個序列中的圖像可能在許多方面存在著較大差異，例如光照、清晰度、角度等，如示例圖。由於在融合序列的特徵時沒有考慮到這些差異，上述方法在實際應用場景用會受這些因素的影響從而無法達到理想的效果。本論文提出了一種新的序列匹配方法，充分考慮了序列內圖像的差異性，並利用深度學習的方法對這種差異性進行無監督的學習，再根據學習到的質量差異性對序列中的圖像特徵進行融合，最終得到具有較高判別力的序列特徵，解決光照模糊等一系列實際應用中的問題。

Person Search with Natural Language Description（用自然語言來進行人的搜索）

論文簡介：大規模圖像庫檢索，通常提取圖像屬性特徵再通過屬性檢索來找到目標。但是常用場景比如嫌疑犯描述都是通過自然語言描述（人類能理解的語言）。本論文提出了使用自然語言描述進行人的大庫檢索，如上圖所示，自然語言描述為「這位婦女穿著一件長而亮的橙色長袍，腰上系著一條白色腰帶。她把頭髮挽成一個髮髻或馬尾辮。」這樣的描述要比用屬性來的豐富的多。這個系統定位人體圖像顯著視覺區域，同時把有意義的文本描述短語賦予顯著的視覺區域。通過學習圖像-語言關係，系統可以準確得到自然語言查詢和相似度得分，從而大大提成查詢準確率和效率。

Residual Attention Network for Image Classification （殘餘注意網路用來圖像分類）

論文簡介：該論文首次成功將極深卷積神經網路與人類視覺注意力機制進行有效的結合。視覺注意力機制是人類視覺所特有的大腦信號處理機制。人類視覺通過快速掃描全局圖像獲得需要關注的目標區域，而後重點獲取所需要關注的目標信息，抑制其他無用信息。在計算機視覺任務中，如何將視覺注意力機制有效的嵌入到神經網路結構並提升網路性能成為亟待解決的問題。 Residual Attention Network，在圖像分類問題上，首次成功將極深卷積神經網路與人類視覺注意力機制進行有效的結合，並取得了遠超之前網路結構的準確度與參數效率。

雷鋒網AI科技評論小結：今年的CVPR大會是迄今為止規模最大的一屆，其中提交論文數量最多，收錄論文數量最多則直接反映了CVPR的學術影響力。商湯科技能有23篇論文被選中，除了論文質量高以外，也和今年大會的論文收錄數量直線增長有關。BAT三巨頭，百度並沒有論文收錄的消息，是沒有提交論文，還是因為提交後沒有入選，不得而知。另外，AI科技評論從錄取的論文中發現，能顯著提高CV在現實場景中的應用水平，以及將CV與最新的大眾化應用相結合（如視頻精確檢索和淘寶購物聯繫起來），則最受評委的青睞。另外工業界和知名大學研究院聯合發表論文也能提高論文的通過率。

工業界中，國內除了BAT三家互聯網巨頭參加外，還有很多的初創企業，像文中提到的商湯科技，還有自動駕駛公司馭勢，Momenta等等。這些企業參加CVPR除了展示自家學術研究，以及了解借鑒最新科研成果外，還有一個最大的原因就是搶奪計算機視覺領域內的人才。各大企業展區，可以說是HR的競技場！

雷鋒網AI科技評論

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷鋒網 的精彩文章:

※基因檢測的App Store暗藏建立基因資料庫的野心
※阿里巴巴安全第一人肖力：中國 90 %的企業安全只能得 0 到 1 分，這裡有四個趨勢
※CVPR論文解讀：非常高效的物體檢測Mimic方法

TAG:雷鋒網 |

您可能感興趣

※Siamese：CVPR 2019 接收論文作者為你解讀視頻跟蹤領域 | CVPR 2019
※CVPR 2019收錄論文ID公開，你上榜了嗎？
※CVPR 2019 論文解讀：人大 ML 研究組提出新的視頻測謊演算法 | CVPR 2019
※精選NLP、CV領域論文TOP10
※CVPR 2018 中國論文分享會之「GAN 與合成」
※中科院自動化所智能感知與計算研究中心11篇論文被CVPR接收 | CVPR 2018
※CVPR 2018 論文解讀
※HCP Lab 12篇論文入選世界頂級計算機視覺會議 CVPR 2019
※300篇 CVPR 2019 Oral 論文精選匯總，值得一看的 CV 論文都在這裡
※ECCV 2018 | 10篇論文+5項第一，記曠視科技ECCV之旅
※CCKS 2018最佳論文：南京大學DSKG，多層RNN用於知識圖譜補全
※CCKS 2018 | 最佳論文：南京大學提出DSKG，將多層RNN用於知識圖譜補全
※KDD2019最佳論文；AutoML SOTA 綜述
※2017年度NLP領域論文TOP10
※ICLR 2018 最佳論文公布：Adam 的收斂性，球面 CNN，連續適應獲獎
※CVPR 2018：十大最酷論文
※ICLR 2019最佳論文出爐：微軟、MILA、MIT獲獎
※華科博士一篇有關區塊鏈的論文被IEEE ICDCS 2018錄用
※CVPR 2018 最酷的十篇論文
※CVPR 2019 論文解讀精選