當前位置:
首頁 > 新聞 > 谷歌AI超大規模圖像競賽,中國團隊獲目標檢測冠軍

谷歌AI超大規模圖像競賽,中國團隊獲目標檢測冠軍

新智元AI WORLD 2018世界人工智慧峰會

倒計時7

新智元將於9月20日在北京國家會議中心舉辦AI WORLD 2018世界人工智慧峰會,MIT物理教授、未來生命研究所創始人、《生命3.0》作者Max Tegmark,將發表演講《我們如何利用AI,而不是被其壓制》,探討如何直面AI軍事化和殺人武器的出現,歡迎到現場交流!

活動行購票二維碼:

新智元報道

來源:百度視覺團隊

【新智元導讀】在Google主辦的最大規模開放圖像目標檢測競賽中,中國團隊再次獲得冠軍。獲獎技術採用了FPN,cascade-rcnn等最新的檢測演算法,並面向複雜實際場景數據集對演算法進行了改進,模型性能實現了大幅提升。

眼睛是人類接觸外部世界的第一感官,對於機器而言,計算機視覺技術就是它們的「眼睛」。近日,百度視覺團隊在全球最大規模目標檢測競賽Google AI Open Images-Object Detection Track中從全球450多支參賽隊伍中脫穎而出,獲得世界第一,並在ECCV 2018上進行分享。

Google AI Open Images-Object Detection Track是大規模目標檢測任務的權威挑戰賽事,由Google AI Research舉辦,賽事遵循 PASCAL VOC、ImageNet和COCO等賽事傳統,但數據規模遠大於這些賽事。

Open Images V4數據集

據介紹,大賽採用Google今年5月份發布的Open Images V4數據集作為訓練數據集,包含超過170萬的圖片數據,500個類別以及超過1200萬物體框,數據沒有完全精細標註,屬於弱監督任務,框選類別數目不均衡且有非常廣泛的類別分布,這更符合實際情況,也意味著參加競賽的團隊需要考慮到類別的分布,而不能統一對所有類別做處理,因此更具挑戰性。這項賽事有助於複雜模型的研究,同時對評估不同檢測模型的性能有積極的促進作用。下圖為Open Image V4 與 MS COCO 和 ImageNet 檢測任務數據對比情況。

Open Image V4 與 MS COCO及ImageNet 檢測數據對比情況

與傳統的檢測數據集合相比,該賽事除了數據規模大、更真實之外,還存在一系列的挑戰。具體來說,主要集中在以下三個方面:

數據分布不均衡:最少的類別框選只有14個,而最多的類別框選超過了140w,數據分布嚴重不均衡。

類別框數量分布

漏標框:很多圖片存在只標註主體類別,其他小物體或者非目標物體沒有標註出來。

漏標註圖片舉例

尺度變化大:大部分物體框只佔整個圖片的0.1以下,而有些框選卻佔了整個圖片區域。如圖所示,Open Image V4集合存在更多的小物體,參賽者也會在檢測數據中遇到更大的挑戰。

框尺度大小分布對比

解決方案

在比賽過程中百度視覺團隊採用了不同複雜度、不同骨架網路進行模型的訓練,並對這些模型進行融合。從整體方案框架來看,可分為Fast R-CNN和Faster R-CNN兩種不同的訓練模式。Fast R-CNN版本是該團隊研發的一套PaddlePaddle版本,在此基礎上Faster R-CNN加入了 FPN、Deformable、Cascade等最新的檢測演算法,模型性能實現了大幅度的提升。

整體方案框架流程圖

骨架網路為ResNet-101 的Fast R-CNN,模型收斂後可以達到0.481,在測試階段加入Soft NMS以及 Multi-Scale Testing策略,可以達到0.508。研究人員也嘗試了其他骨架網路(dpn98,Inception-v4,Se-ResNext101),並把不同骨架網路的檢測演算法融合到一起,最終mAP可以達到0.546。在Proposal採樣階段,團隊使用在不同位置進行不同尺度的候選框生成,然後對這些框選進行分類以及調整他們的位置。

Faster R-CNN: 採用這種框架可以達到略高於Fast R-CNN,mAP為0.495。在測試階段使用Soft NMS以及 Multi-Scale Testing策略後,性能達到0.525。

Deformable Convolutional Networks使用Soft NMS以及 Multi-Scale Testing策略前後,性能分別達到0.528及0.559。

Deformable Cascade R-CNN : 使用Soft NMS以及 Multi-Scale Testing策略前後,性能分別可以達到0.581和0.590.

簡言之,在Fast R-CNN框架下,該團隊採用了不同的骨架網路進行訓練,而在Faster R-CNN框架下只使用了ResNet101這種骨架網路進行訓練。在訓練過程中,還通過不同的策略有效解決了各種技術問題。詳情如下:

動態採樣

Google Open Images V4 數據集大概有170w圖片,1220w框選,500個類別信息。最大的類別框選超過了140w,最小的類別只有14個框選,如果簡單使用所有的圖片及框選,需要幾十天才能進行模型訓練,而且很難訓練出來一個無偏的模型。因此,需要在訓練過程中進行動態採樣,如果樣本數量多則減少採樣概率,而樣本數量少則增加採樣概率。研究人員分別進行全集數據訓練、固定框選子集訓練、動態採樣模型訓練三種策略進行。

全集數據訓練:按照主辦方提供數據進行訓練,mAP達到0.50。

固定框選子集訓練:線下固定對每個類別最多選擇1000個框,mAP達到0.53。

動態採樣模型訓練:對每個GPU、每個Epoch採用線上動態採樣,每次採集的數據都不同,輪數達到一定數目後,整個全集的數據都能參與整體訓練。最後mAp達到0.56。

動態採樣策略

FPN

基於訓練數據集的分析,研究人員發現其中500個類別的尺度有很大的差異。因此他們將FPN引入到檢測模型中,即利用多尺度多層次金字塔結構構建特徵金字塔網路。在實驗中,他們以ResNet101作為骨幹網路,在不同階段的最後一層添加了自頂向下的側連接。自頂向下的過程是向上採樣進行的,水平連接是將上採樣的結果與自底向上生成的相同大小的feature map合併。融合後,對每個融合結果進行3*3卷積以消除上採樣的混疊效應。值得注意的是,FPN應該嵌入到RPN網路中,以生成不同的尺度特徵並整合為RPN網路的輸入。最終,引入FPN後的mAP可達到0.528。

Deformable Convolution Networks

該團隊採用可變形卷積神經網路增強了CNNs的建模能力。可變形卷積網路的思想是在不需要額外監督的情況下,通過對目標任務的學習,在空間採樣點上增加額外的偏移量模塊。同時將可變形卷積網路應用於以ResNet101作為骨架網路的Faster R-CNN架構,並在ResNet101的res5a、5b、5c層之後應用可變形卷積層,並將ROI Pooling層改進為可變形位置敏感ROI Pooling層。可變形卷積網路的mAP性能為0.552。

Cascade R-CNN

比賽中,該團隊使用級聯的R-CNN來訓練檢測模型。除訓練基本模型外,還使用包含五個尺度特徵金字塔網路(FPN)和3個尺度anchors的RPN網路。此外,他們還訓練了一個針對全類模型中表現最差的150類的小類模型,並對這150類的模型別進行評估。得出的結論是,500類模型的MAP為0.477,而用150類單模型訓練結果替換500類的後150類的結果,則模型的MAP提升為0.498。使用以上方法進行訓練的單尺度模型的性能為0.573。

Testing Tricks

在後處理階段,團隊使Soft NMS和多尺度測試的方法。用Soft NMS的方法代替NMS後,在不同模型上有0.5-1.3點的改進,而Multi-Scale Testing在不同模型上則有0.6-2個點的提升。

模型融合

對於每個模型,該團隊在NMS後預測邊界框。來自不同模型的預測框則使用一個改進版的NMS進行合併,具體如下:

給每個模型一個0~1之間的標量權重。所有的權重總和為1;

從每個模型得到邊界框的置信分數乘以它對應的權重;

合併從所有模型得到的預測框並使用NMS,此外,除此之外,研究人員採用不同模型的分數疊加的方式代替只保留最高分模型,在這個步驟中IOU閾值為0.5。

其實,不論是在學術圈還是工業界,大規模目標檢測都是計算機視覺極為重要的基礎技術。通過這一技術,軟硬體應用產品可以深度定點陣圖片中的物體位置以及類別,並用於新零售、通用多物品識別等場景。

新智元AI WORLD 2018世界人工智慧峰會

倒計時7

門票已開售!

新智元將於9月20日在北京國家會議中心舉辦AI WORLD 2018世界人工智慧峰會,邀請機器學習教父、CMU教授 Tom Mitchell,邁克思·泰格馬克,周志華,陶大程,陳怡然等AI領袖一起關注機器智能與人類命運。

大會官網:

http://www.aiworld2018.com/

活動行購票鏈接:

http://www.huodongxing.com/event/6449053775000

活動行購票二維碼:


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 新智元 的精彩文章:

2018 年世界計算機學者論文單天引用次數最新排行榜!深度學習三巨頭領銜
《生命3.0》作者:在AI基礎研究和教育投入上,中國完勝美國

TAG:新智元 |