當前位置:
首頁 > 科技 > 浙大、螞蟻集團提出基於標籤關係樹的層級殘差多粒度分類網路

浙大、螞蟻集團提出基於標籤關係樹的層級殘差多粒度分類網路

機器之心專欄

作者:螞蟻集團-大安全-數字身份及安全生態、浙江大學


來自浙江大學和螞蟻集團 - 大安全 - 數字身份及安全生態的研究者提出了一種基於標籤關係樹的層級殘差多粒度分類網路 HRN。

基於有監督式深度學習的圖像識別任務中一個方面要求是構建整理大規模、高質量的標註數據,這就對圖像質量和標註人員的背景知識有比較高的要求。例如,在細粒度分類任務中,標註人員需要依賴大量的領域知識去區分各種種類的鳥以及不同型號的艦船,如圖 1 所示。

圖 1: 不同種類的信天翁以及不同型號的航母

在圖 1 中,標註人員需要藉助鳥類專家的知識才能辨認黑腳信天翁與黑背信天翁,擁有一般鳥類知識的人員或許會將這兩種鳥類歸類為信天翁,而缺乏鳥類知識的人員可能只會將這兩種鳥類歸類為鳥。類似地,標註人員需要藉助軍事艦船專家的知識才能有效區分尼米茲級航母與企業級航母,而缺乏相關背景知識的人員可能會將這兩類艦船歸類為航母。也就是說,同一張圖片會被擁有不同背景知識的標註人員標註到不同層級粒度的類別上。

除了背景知識對標註產生的影響,諸如鳥類辨別中的關鍵區域被遮擋、圖像解析度較低、或者圖像比較模糊等圖像質量因素也會干擾標註人員對於圖像目標屬於層級多粒度標籤中的哪一類的判斷,如圖 2 所示。

圖 2: 由於遮擋、解析度等圖像質量的變化與專家背景知識的差異,導致目標可能被標註到不同層級上

但是,傳統的圖像識別數據集類別設定中,針對某個特定任務例如通用圖像分類任務或者細粒度分類任務,類別標籤往往只位於同一層級中,無法魯棒地利用標註到不同層級上的圖片,對標註的要求較高。為了降低圖像質量以及背景知識等帶來的對標註數據的高要求、充分利用具有不同層級粒度標籤的樣本,設計建模目標層級語義結構的層級多粒度識別演算法對於提升深度神經網路的魯棒性具有十分重要的作用。為此,浙江大學聯合螞蟻集團提出了一種基於標籤關係樹的層級殘差多粒度分類網路,收錄到 CVPR2022 中。

  • 論文地址:https://openaccess.thecvf.com/content/CVPR2022/papers/Chen_Label_Relation_Graphs_Enhanced_Hierarchical_Residual_Network_for_Hierarchical_Multi-Granularity_CVPR_2022_paper.pdf
  • 代碼地址:https://github.com/MonsterZhZh/HRN

演算法介紹

我們從三點觀察出發構建我們的層級多粒度分類演算法:(1)由於細粒度類別可以根據不同層次的抽象向上不停迭代歸類形成樹形類別結構,我們構建對應的標籤關係樹建模層級類別間的語義關係;(2) 基於標籤關係樹設計複合損失函數,使得具有不同層級粒度標註的樣本在學習時可以傳遞層級間的知識;(3)現實世界中位於低層級的子類除了擁有自己的獨特屬性還會進一步繼承來自父類的屬性,我們首先為每個層級設置專有的特徵提取層,根據主幹網 絡輸出的特徵提取各個層級相關的特徵。然後我們參考深度殘差網路中經典的殘差連接 設計,實現為所有父類層級的特徵以殘差連接的方式融合到子類層級專有的特徵中,進而用於當前層級類別分類的層級殘差網路(HRN)。

標籤關係樹

標籤關係樹

由節點集合

、有向邊集合

、以及無向邊集合

組成。每個節點

對應到層級中的一個類別標籤,圖中的節點個數 n 等於層級中所有標籤的個數。一條有向邊

代表節點

間具有父子關係,及類別 i 是類別 j 的父類。一條無向邊

代表節點

為互斥關係。層級中每個類別標籤取值為二元值,即

,代表目標是否具有這個類別標籤。圖中每條邊限制了相連節點的取值:對於具有父子關係邊相連的兩個節點

的賦值是違法的(是拉布拉多卻不是狗);對於具有互斥關係邊相連的兩個節點

的賦值是違法的(既是柯基又是拉布拉多)。圖中所有邊約束了層級多標籤中相鄰類別節點的合法取值,對於層級中所有標籤的一個全局合法賦值為一個二元標籤向量

。所有全局合法賦值向量的集合構成標籤關係樹 G 擁有的合法賦值空間

層級殘差網路

圖 3: 層級殘差網路結構圖

基於殘差跨層級連接的層級殘差網路 (HRN) 由一個主幹特徵提取網路、層級特徵 交互模塊、以及兩個並行的輸出通道構成,如圖 3 所示。任何常用的網路都可以作為主幹網路用來提取輸入圖像的特徵,我們選用廣泛使用的深度殘差網路 ResNet-50 作為 HRN 網路的主幹網路。層級特徵交互模塊包括每個層級專有的特徵提取層與殘差連接部分。層級專有特徵提取層網路結構一致,都包含兩層卷積層後接兩層全連接層 (FC)。層級專有特徵提取層根據主幹網路產生的共享輸入特徵提取每個層級專有的特徵。殘差連接部分首先線性組合來自粗粒度父類層級的特徵與細粒度子類層級的特徵,反映子類不僅具有屬於自己的獨特屬性還繼承了來自父類的屬性。父類層級專有特徵提取層可以視為殘差連接將屬於自己層級的特徵逐層向下結合到子類層級的特徵中。

然後,我們對組合後的特徵應用非線形變換(ReLU) 後送入後續網路層。網路最後依然設置兩路並行的輸出通道。第一路輸出通道用來基於標籤關係樹計算概率分類損失函數,通道中的 sigmoid 節點一一對應層級中的每個類別標籤,所有 sigmoid 節點按照標籤關係樹進行組織。第二路輸出通道中的 softmax 節點對應最後一層級中彼此互斥的細粒度類別,形成多類交叉熵損失函數讓網路在優化時關注細粒度分類的誤差。

複合損失函數

給定一幅輸入圖像

通道中對應賦值向量的所有 sigmoid 節點的聯合輸出概率可以計算為:


  • ,代表層級中第 i 個節點的 sigmoid 輸出
  • ,代表由標籤關係樹定義的層級約束
  • 用作概率歸一化,求和標籤關係樹上所有的合法賦值

如果輸入圖像 x 被標註到樹中的第 i 個標籤上,即

,我們可以計算標籤 i 的邊緣概率:


分析邊緣概率的計算公式,我們可以發現:(1)圖中某個標籤 的邊緣概率依賴於該標籤所有的父類節點分數值之和,因為該標籤賦值為 1 則其所有的 父節點都應該賦值 1 才能滿足層級約束關係。因此,邊緣概率的計算可以使得父節點的 分數值影響子節點的預測值。(2)計算層級中間標籤的邊緣概率時需要包含其所有子類標籤對應的聯合概率,即可以聚集來自子類的知識。最後,給定 m 個訓練樣本

,我們最大似然邊緣概率得到概率分類損失函數:

  • 代表賦值的標籤向量,為標註到標籤關係樹中的標籤下標。

為了進一步加強網路對於細粒度葉子節點的區分能力,我們進一步結合多類交叉熵損失函數,形成最後的複合損失函數優化整個網路:


即根據樣本是否被標註葉子節點,選擇性地結合交叉熵損失函數與概率分類損失函數。

實驗

數據集

我們在常用的三套細粒度分類數據集:CUB-200-2011、FGVC-Aircraft、Stanford Cars。依據維基百科為每個數據集設定層級標籤關係樹,其中 CUB-200-2011 包含 38 orders, 38 families, 200 species 三個層級;FGVC-Aircraft 具有 30 makers, 70 families, 100 models 三個層級;以及 Stanford Cars 具有 9 car types, 196 car makers 兩個層級。

實驗指標

我們採用兩套實驗指標進行評價:衡量每個層級的準確率(OA)以及層級分類中的常用指標

,即首先計算各個類別上平均的 precision-recall (PRC)曲線,通過某個閾值,獲得平均 PRC 曲線中的一點


通過設定不同的閾值得到平均 PRC 曲線,

為平均 PRC 曲線下的面積。

實驗設計

我們模擬現實世界中存在的兩點限制:(1)模擬主觀專家知識的差異:將位於細粒度葉子類別中的樣本,選取其中 0%,30%,50%,,70% 以及 90% 的樣本,重新標記到其對應的父類標籤;(2)模擬圖像質量的影響:將選取的重標記樣本進一步降低其圖像的解析度。

消融實驗

在表 1 中我們驗證了層級殘差網路中包含的層級專有特徵提取層(GSB)、層級特徵線性組合(LC)、以及針對組合後的層級特徵的非線性變換(ReLU)各部分的作用:

表 1:通過逐步添加 HRN 網路中的關鍵部分: 層級專有特徵提取層 (granularity-specific block, GSB)、層級間特徵的線性組合(linear combination, LC)、以及最後對於組合特徵的非線形變換 (ReLU) 獲得 CUB-200-2011 數據集中最後一層級上對應重標記比例為 0% 的 OA(%) 實驗結果。

在表 2 中我們驗證了複合損失函數中多類交叉熵損失函數的作用:

表 2: 不同重標記比例下驗證概率分類損失函數

與多類交叉熵損失函數

的結合效果,彙報 CUB-200-2011 數據集中最後一層級上的 OA(%) 實驗結果

在表 3 中我們對比了複合損失函數與傳統的層級分類損失函數對比的結果:


表 3:CUB-200-2011 數據集中最後一層級上重標記比例為 0% 對比複合損失函數與傳統層級分類損失函數的 OA(%) 實驗結果

在圖 4 中我們利用 Grad-Cam 可視化演算法展示各個層級響應的二維激活熱力圖:

圖 4: 鳥類數據集上來自同一目 (order: Passeriformes) 同一科 (family: Troglodytidae) 下面兩種 種類 (species: House Wren 與 Marsh Wren) 的鳥類圖片上,我們方法產生的二維激活熱力圖

對比實驗

我們對比了 4 種公認的層級多粒度分類方法:HMC-LMLP[1] 、HMCN[2]、Chang et al.[3]、C-HMCNN[4]。我們匯總平均在各個數據集、不同重標記比例下各個對比方法的 OA / 結果在表 4 中:


表 4: 在各個數據集、不同重標記比例下對比方法的平均 OA / 結果

類似地,我們利用 Grad-Cam 演算法展示各個對比方法在不同層級上的二維激活熱力圖,結果見圖 5:

圖 5: CUB-200-2011 數據集中來自同一目 (order: Passeriformes) 同一科 (family: Troglodytidae) 下面兩種種類(左邊: House Wren,右邊: Marsh Wren) 的鳥類圖片上,不同對比方法在三層層級 上各自的感興趣響應區域示例

參考文獻

[1]Ricardo Cerri, et al. Reduction strategies for hierarchical multi-label classification in protein function prediction. BMC Bioinformat., 17(1):373, 2016.

[2]Jonatas Wehrmann, Ricardo Cerri, and Rodrigo Barros. Hierarchical multi-label classification networks. ICML, 2018.

[3]Dongliang Chang, et al. Your」 flamingo」 is my」 bird」: Fine-grained, or not. CVPR, 2021.

Eleonora Giunchiglia and Thomas Lukasiewicz. Coherent hierarchical multi-label classification networks. NeurIPS, 2020.

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心Pro 的精彩文章:

思考總結10年,圖靈獎得主Yann LeCun指明AI方向:自主機器智能
星際爭霸II協作對抗基準超越SOTA,架構解決多智能體強化學習問題