奪冠PASCAL VOC視覺大賽，創新奇智團隊提出目標檢測新演算法

新聞 07-04

機器之心發布

機器之心編輯部

近日，在國際頂級的計算機視覺競賽 Pattern Analysis, Statistical Modeling and Computational Learning（PASCAL VOC）挑戰賽目標檢測 comp4 賽道上，創新奇智 (AInnovation) 研發的 AInnoDetection 目標檢測演算法在 20 項的評測指標中，取得 10 項指標排名第一的成績，超越眾多國內外知名人工智慧企業和高校人工智慧實驗室，奪得大賽冠軍。

PASCAL VOC 挑戰賽是視覺對象的分類識別和檢測的基準測試比賽。該賽事是世界最權威的三大計算機視覺挑戰賽之一，數據集標註質量高、場景複雜、目標多樣、檢測難度大、數據量小但是場景豐富，相比

ImageNet

等更加考驗人工智慧演算法的設計和創新能力。如今，PASCAL VOC 挑戰賽和其所使用的數據集已經成為目標檢測領域普遍接受的標準，一年一度的挑戰賽成為了國內外團隊角逐實力的賽場。今年有全球近百支專業隊伍參加挑戰賽。參賽團隊包括 Google、Microsoft、CMU、清華大學、阿里巴巴、騰訊、搜狗、Yi+、平安科技等國內外知名圖像領域的頂尖隊伍。

目標檢測

是圖像領域三大基本任務之一。任務要求演算法在給定圖像中精確定位物體的位置，並標註出被定位物體的類別。因此，演算法首先需要確定圖像中物體位置，然後對已定位的物體進行分類。

目標檢測的難點在於，圖像中的目標大小、位置、姿態等不確定，同一圖像中可能有多個目標。這些問題給演算法準確檢測目標帶來了挑戰。

在 Pascal VOC 的數據集中，演算法識別難度更高。首先，圖像中的目標分屬數十個類別，包括人類、動物、交通工具、室內物體等，目標種類數量較多。其次，數據集較小，模型難以通過大量數據訓練提升表現。此外，圖像包含多個室內外場景，單個圖像中的內容多變，目標數量和種類豐富，這對演算法在多種場景下準確檢測多個目標提出了更高要求。

奪冠PASCAL VOC視覺大賽，創新奇智團隊提出目標檢測新演算法

打開今日頭條，查看更多圖片

Pascal VOC 數據集部分樣本

AInnoDetection 目標檢測演算法

由創新奇智提出的 AInnoDetection 目標檢測演算法，在 20 類不同的目標檢測上獲得了 10 個類別的檢測 MAP(準確率) 第一、總分第一的成績。這一演算法在模型架構、數據增強等方面都進行了創新和改進。

模型架構

從架構而言，AlnnoDetection 基於目標檢測演算法中著名的二階段（two stage）檢測法，首先由演算法對目標生成候選框，然後將選定的物體進行分類。在結構上，骨幹網路使用 ResneXt152 網路架構，使用它來提取多尺度特徵圖，而頸部網路採用一個 6 級特

特徵金字塔網路

（FPN)，用來生成更豐富的多尺度卷積特徵金字塔。在這之後，連接兩個共享子網，一個子網負責分類目標框，另一個網路負責將目標框回歸到真實框，最後使用 focal-loss 作為二分類的損失。在訓練中，模型採用多尺度測試融合，這樣能夠使網路根據不同的圖像尺度來關注不同的目標框信息。

奪冠PASCAL VOC視覺大賽，創新奇智團隊提出目標檢測新演算法

讓小圖片更加關注大物體，大圖片更加關注小物體。

數據增強方法

考慮到數據集較小的問題，團隊採用數據增強來擴充訓練數據。增強方法包括填充小目標和 mixup 的方法。

奪冠PASCAL VOC視覺大賽，創新奇智團隊提出目標檢測新演算法

填充小目標方法是在單個圖像上，將目標複製多次，並添加在圖像上。該方法可以增加小目標在訓練中的曝光次數，使得模型更好的學習相關特徵，最終使模型能夠準確檢測圖像中的多個大小的目標。

奪冠PASCAL VOC視覺大賽，創新奇智團隊提出目標檢測新演算法

Mixup 方法則是將多幅圖像融合，使被檢測多個目標重疊。該方法增加了圖像中的場景類別，豐富了模型需要檢測的圖像種類，使得模型在圖像數據變得複雜的情況下學習目標的特徵。Mixup 方法使模型擁有更好的預測效果，在應對複雜場景圖像時更加穩健。

奪冠PASCAL VOC視覺大賽，創新奇智團隊提出目標檢測新演算法

為了提升目標檢測的準確率，團隊最後採用多模型融合的方法，輸出最優的結果。

模型表現

從賽事主辦方發布的排名顯示，在 comp4 賽道比賽中，AlnnoDetection 演算法在 20 項評測指標中取得 10 項指標第一、總分第一的成績，超越了多家研究機構和知名 AI 企業。

奪冠PASCAL VOC視覺大賽，創新奇智團隊提出目標檢測新演算法

圖片來源：Pascal VOC 官網 http://host.robots.ox.ac.uk:8080/leaderboard/displaylb.php?challengeid=11&compid=4

目前，此次奪冠的目標檢測演算法在創新奇智的商品檢測、工業視覺缺陷檢測、渠道陳列監控等產品中已經使用。

參賽團隊

奪冠PASCAL VOC視覺大賽，創新奇智團隊提出目標檢測新演算法

創新奇智 CTO 張發恩

參與本次 Pascal VOC 競賽的創新奇智團隊由張發恩、吳佳洪、楊志錚、曹浩天、宋劍飛和范馨予組成。Leader 張發恩現任創新奇智 CTO、創新工場人工智慧工程院首席架構師和寧波諾丁漢大學榮譽教授，曾任職 Microsoft、Google 和百度，持有多項國內外人工智慧演算法專利和發表過數篇人工智慧頂級會議論文。

關於創新奇智

創新奇智是創新工場的 AI 子公司，以「人工智慧賦能商業未來」為使命，致力於用最前沿的人工智慧技術為企業提供 AI 相關產品及商業解決方案。公司戰略為「技術產品」+「行業場景」的雙輪驅動模式，極力推動技術商業化。創新奇智 CEO 徐輝在 IT 行業擁有 20 余年的銷售、產品、技術、服務、管理經驗，歷任 IBM、微軟、SAP 等多家世界 500 強科技巨頭企業高管。

自成立伊始，創新奇智已在零售、製造、金融等多個領域的持續發力，穩步推進人工智慧演算法商業化。成果包括機器學習平台和 AI 工業視覺平台 ManuVision，以及多篇頂級會議論文。而除了這次 Pascal VOC 賽事奪冠之外，創新奇智在多個世界頂級人工智慧演算法大賽上奪冠。比如，創新奇智最近在 WIDER FACE 人臉檢測賽事中奪冠。

創新奇智擁有優異的技術研發團隊，結合 AI 技術商業化的特點，制定了科學技術人才三級體系建設方案，包括：「創新奇智科研委員會、創新奇智創新研究院和創新奇智工程演算法研發團隊」。創新奇智科研委員會專家包括前騰訊 AI Lab 負責人張潼、百度研究院三維視覺首席科學家楊睿剛、密歇根州立大學教授張彌、創新工場人工智慧工程院執行院長王詠剛、創新奇智 CTO 張發恩等。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※晶元技術被「卡脖子？」這是中國對抗封鎖最有效的「武器」
※如何動手設計和構建推薦系統？看這裡

TAG:機器之心 |