當前位置:
首頁 > 知識 > 上海交通大學 ECCV 2018 四篇入選論文解讀

上海交通大學 ECCV 2018 四篇入選論文解讀

AI 研習社按7月3日,國際人工智慧及計算機視覺頂級會議ECCV 2018論文接收列表公布,今年的ECCV大會將在德國慕尼黑舉行。據AI科技評論了解,上海交通大學SJTU-UCLA機器感知與推理聯合研究中心有4篇論文入選,研究方向涉及自動駕駛、視頻理解、視覺跟蹤以及新型神經網路。本文對這幾篇論文做了簡介,更多詳細內容可通過論文網盤鏈接下載查看。

ECCV 2018論文接收列表:

https://docs.google.com/document/d/1FuKeKgTxm_Vt8cH3HbNxaYuU8T4NnhjAm6xVGetKXgA/edit?usp=sharing

Paper1:《Deep Regression Tracking with Shrinkage Loss》

基於收縮損失函數的目標跟蹤

網盤鏈接:https://pan.baidu.com/s/1GnwYrzI5NNL-1ONy-z8jsQ

目標跟蹤任務旨在給定某視頻序列初始幀的目標大小與位置的情況下,預測後續幀中該目標的大小與位置。目標跟蹤在視頻監控,人機交互,無人駕駛等領域有著極大的應用價值。由於目標姿態、外觀、光照、遮擋等因素的影響,目標跟蹤仍然是一個極具挑戰的任務。為了解決目標跟蹤演算法訓練樣本不均衡的問題,作者在這篇ECCV的工作中提出了一個基於收縮損失函數的深度回歸跟蹤演算法,針對基於深度回歸的目標跟蹤中樣本不平衡問題,本文提出的收縮損失函數顯著提升了性能。

基於深度回歸的目標跟蹤演算法,通常在目標周圍的上下文區域中利用一個高斯熱圖(圖1 b)來訓練一個正比於目標尺寸的卷積層作為跟蹤器。在這個訓練過程中,卷積核採用密集滑窗的方式產生樣本(圖1 a所示)。這樣導致大量冗餘的易分樣本(圖1 d 所示),進而導致訓練樣本的不平衡問題。

圖 1. 給定搜索區域(a)以及對應的標籤Y(b)。 圖 (c)表示回歸相應圖,圖 (d)是預測與標籤數值之間差值的分布直方圖

傳統的基於深度回歸的網路採用的是L2損失函數,對所有參與訓練的樣本的懲罰力度是一樣的。這樣導致網路訓練的時候,集中在了容易訓練的樣本,也就是冗餘的負樣本上。為了解決這個問題,在這項工作中,作者提出了收縮損失函數(Shrinkage loss)的端到端目標跟蹤演算法。作者提出的收縮損失函數,對於容易訓練樣本的損失輸出進行壓縮同時保證難分樣本的損失數值,進而影響到梯度對網路的學習,這樣獲得深度回歸網路更加關注正樣本以及難分的負樣本的學習,緩解了網路的過擬合問題。此方法在OTB-2013、OTB-2015,Temple-128以及VOT-2016數據集上實現了和當前最優的ECO跟蹤演算法相當的結果。圖2可視化了不同損失函數下的結果,可以看出我們的方法實現了更好的跟蹤結果。

圖2. 不同損失函數下的跟蹤效果

Paper2:《Geometric Constrained Joint Lane Segmentation andLane Boundary Detection》

基於幾何約束的車道分割與車道邊界檢測

網盤鏈接:https://pan.baidu.com/s/1wxu3BT_1ONsHkO_Gzx1VYw

在智能駕駛問題中,環境感知是極其重要的一環。車道檢測目的在於檢測車輛可行駛道路,為智能駕駛決策提供支持。目前已有的車道檢測工作大多集中於使用卷積神經網路直接進行語義分割,而沒有考慮到車道固有的幾何信息。針對車道檢測中的魯棒性問題,本文提出了一個多任務神經網路,引入車道本身與邊界之間的幾何先驗知識進行車道檢測,並得到了良好的實驗結果。

圖1. 相較於現有方法,我們的方法使得兩個具有幾何相關性的任務,即Lane segmentation sub-network與Lane boundary detectionsub-network 在特徵提取層與決策層上有效互補,同時提升兩個網路的性能

網路首先採用傳統的多任務網路結構,同時進行車道分割、車道邊界檢測。在得到初步的檢測結果後,網路將通過對其中一個任務輸出結果重新卷積,形成補充信息,對另一任務的結果進行修正。由於兩個任務之間存在一定的內在關係,因此修正能顯著地提高了網路的性能,使網路同時關注輸入圖片中的關鍵特徵與互補特徵。同時,根據兩個任務之間的幾何先驗知識,網路引入不同的損失函數,一方面通過車道的外邊界一致性約束車道分割的訓練,另一方面通過車道線內部區域一致性約束車道邊界檢測,進一步提升網路精度。

圖2. 性能對比。左圖為本文結果。其中綠色區域代表True Positive,藍色區域代表False Positive,紅色區域代表False Negative。可以看出與其他state-of-art方法對比,本文在精度上有極大的提高

Paper3:《Quaternion Convolution Neural Networks》

四元卷積神經網路

網盤地址:https://pan.baidu.com/s/1oAX_SqtGzyENa35BPcbE0g

在計算機視覺領域,卷積神經網路可謂是近年來最為流行的演算法,受到了非常廣泛的關注。目前,絕大多數的相關工作都局限於實數域的卷積神經網路,而針對計算機視覺中最為常見的多通道彩色圖像卻缺乏針對性的矢量卷積處理方式。為了解決這一問題,作者在這篇文章中首次提出四元卷積神經網路,構建了基於四元數運算的卷積和全連接等操作。針對卷積神經網路對彩色圖像各通道分別處理而忽略它們之間相關性的問題,本文提出了四元卷積神經網路,利用四元數運算直接對三維顏色矢量進行處理,在一系列任務上取得了良好的實驗結果。

圖1. 四元卷積操作與實數卷積基本操作的對比

如圖所示,實數卷積核利用三個濾波器對三個顏色通道的數據分別卷積並相加,即在三個通道上進行獨立的標量拉伸,通過網路訓練生成單通道的特徵圖。相比之下,四元卷積核則直接對顏色矢量進行旋轉和拉伸,通過網路訓練直接生成彩色的特徵圖。作者提出,四元卷積應當實現以下兩點要求:

對每個顏色矢量,能夠在整個顏色空間中進行變換以尋求最優表示。

對於灰度圖像輸入,能夠與實數卷積完成等價的操作。

為此,本文引入雙邊四元數乘法來實現三維空間中顏色矢量旋轉的性質,提出將滑窗內的顏色矢量旋轉和放縮後相加,可期望每個顏色矢量能充分遍歷顏色空間。同時,將旋轉軸限定為灰度軸。當輸入的圖像為灰度圖像,此時等價於僅對輸入像素的灰度值進行了放縮變換,這和實數卷積中的操作是相同的。也就是說,實數卷積神經網路是本文所提出的四元卷積神經網路的一個特例。

對於全連接層,可以將其看作特殊的1*1卷積,這樣就可以構建出完整的四元卷積神經網路。作者對四元卷積神經網路中各層的正向與反向傳播過程進行了推導,並探索了參數的初始化方法及激活函數的設置,成功利用四元卷積神經網路完成了彩色圖像分類和去噪的任務。實驗結果表明在這些任務中四元卷積神經網路能夠取得優於相同結構的實數卷積神經網路的結果,尤其是對於色彩鮮艷紋理豐富的圖像優勢較為明顯。

圖2. 在COCO的一個子集的去噪任務上使用同一個Encoder-Decoder結構的四元卷積神經網路與實數網路效果對比

圖3. 在Cifar-10的分類任務上使用同一個淺層網路結構時四元卷積神經網路和實數網路的準確度對比

Paper4:《Egocentric Activity Prediction via Event ModulatedAttention》

基於非同步事件注意力的第一人稱視頻預測

網盤鏈接:https://pan.baidu.com/s/1wyjQuL0zxj-dkfTO6K_bRw

第一人稱視頻行為預測問題是一個極具研究價值的問題。其應用場景包括生活輔助(Assist living)、機器人行為研究等。目前,基於第一人稱視頻的行為分析技術大多適用於行為識別,而不能夠應用於行為預測問題。其原因在於,大多數現有的方法,使用了時序同步的特徵處理框架,因而不能夠有效地對時序非同步事件來進行建模。本文針對這一問題,創造性地提出了Gaze-事件驅動的非同步/同步網路模型,再結合注意力模型,取得了良好的實驗結果。

圖1. 相較於目前已有方法,我們的方法不但能夠對同步特徵進行建模,還能夠充分地利用非同步事件信息,同時注意力模型能夠對視頻序列包含的冗餘幀信息進行修剪,從而提升網路的行為預測性能

本文提出的網路框架包括同步和非同步兩個模塊。同步模塊以hand-mask和gaze-point為輸入特徵,經過一個FCN網路和LSTM模塊得到同步特徵。非同步模塊以非同步事件信號和Object-gaze特徵序列為輸入特徵,並經過LSTM模型得到非同步特徵。輔以注意力模型進行特徵融合,最終得到行為預測結果。實驗結果表明,模型結合非同步信息後能夠顯著提高模型對行為的預測能力,在數據集Gaze(Gaze+)分別比baseline提升5.6%(11.8%),同時,注意力模型的引入也能夠進一步提高模型的精度,在數據集Gaze(Gaze+)分別提升1.6%(1.3%)。

註:上海交通大學SJTU-UCLA機器感知與推理聯合研究中心主任為長江學者張文軍教授,由倪冰冰教授、徐奕教授指導多個研究小組。該聯合中心主要研究方向為:新一代人工智慧基礎理論、智能視頻理解及創意互動媒體、智能醫療影像分析。聯合中心於2018年6月正式成立,聯合中心的外方專家有國際計算機視覺與圖像學權威、著名的SNAKE模型發明人,Demetri Terzopoulos教授,以及圖靈獎獲得者、概率推理理論的奠基人Judea Pearl教授。截止到目前,聯合中心已發表30餘篇CCF-A類頂級論文。

想知道關於計算機視覺的更多知識?


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 AI研習社 的精彩文章:

Machine Can See 2018 圖像對抗攻擊大賽比賽心得
計算機視覺領域的王者與榮耀

TAG:AI研習社 |