IJCAI 2019 | 整合多類信息，阿里文娛提出多視圖多標記演算法SIMM

新聞 08-09

IJCAI 2019 將於 8 月 10 日至 16 日在中國澳門隆重召開，本屆大會共收到 4752 篇有效提交論文，收錄 850 篇，接收率為 17.9%。據機器之心了解，阿里文娛摩酷實驗室共有 5 篇論文被接收。

本文對其中一篇論文《Multi-View Multi-Label Learning with View-Specific Information Extraction》進行解讀。該論文由東南大學、阿里巴巴集團優酷人工智慧平台合作完成，旨在利用視圖私有信息對示例的標記進行預測。

鏈接：http://palm.seu.edu.cn/zhangml/files/IJCAI"19.pdf

一、研究動機

在真實世界中，存在許多對象兼具多樣性的描述與豐富的語義信息。例如，對圖 1(a) 的風景圖片，可以通過 HSV 色彩直方圖、全局特徵 Gist、尺度不變特徵 SIFT 等方式進行表徵，同時可以被打上 {雪景，亭子，湖} 等標記。又例如，對圖 1(b) 中的劇集《長安十二時辰》進行標註時，通常可以通過多種信息源進行表徵，如標題、音頻、封面圖、視頻幀等，同時該視頻可以被打上 {長安，易烊千璽，雷佳音，古裝劇} 等標記。

IJCAI 2019 | 整合多類信息，阿里文娛提出多視圖多標記演算法SIMM

在此場景下，若使用傳統的多標記學習演算法，在特徵空間需對多樣的表徵信息進行合併。方式一是將多個特徵向量進行對應位相加，然而各特徵向量的維度可能不完全相同，無法直接操作；方式二是將不同種表徵信息進行拼接，但是這樣會導致特徵維度過高，當樣本數量不足時，容易帶來過擬合的問題，影響最終的訓練效果。因此，在此場景下進行學習的關鍵，是如何對種類多樣的信息（多樣表徵信息與多個標註信息）進行有效整合，多視圖多標記學習（Multi-view multi-label learning）是一種常用的解決此類問題的框架。

現有方法均試圖挖掘所有視圖間的共享信息，然而當他們試圖挖掘所有視圖的共享信息來消除雜訊和冗餘時，通常的做法是將各個視圖不同維度的特徵向量映射到一個共享子空間，但是各視圖特徵向量的映射矩陣是互不相同的，也就是說各視圖的映射過程是完全獨立的，在此情況下，視圖之間缺少交流，很難保證挖掘到的是真正的共享信息。同時，現有方法在進行多標記預測時，各個視圖的私有貢獻被直接忽略。

舉例來講，一張畫著粉色玫瑰的圖片被打上了 { 粉色，花 } 的標記，同時它通過 HSV 和 Gist 兩種方式進行表徵，我們可以很容易發現標記與表徵之間的關聯，即 { 粉色 } 是通過 HSV 描述所得到的標記，{ 花 } 是通過 Gist 描述得到的，然而現有的方法通常是希望挖掘 HSV 和 Gist 所描述的公共信息，而忽略了不同表徵對標記的私有貢獻。顯然，在這一例子中，保留視圖的私有信息要比挖掘其公共信息更加符合直觀。

基於以上兩點考慮，本文作者提出基於視圖私有信息挖掘的多視圖多標記演算法 SIMM（view-Specific Information extraction for Multi-view Multi-label learning），同時進行共享子空間挖掘與視圖私有信息提取。

二、方法

作者認為，視圖提供的信息分為兩個方面：共享和私有。SIMM 演算法分為兩個步驟：共享子空間挖掘 (Shared Subspace Exploitation) 與視圖私有信息提取 (View-Specific Information Extraction)。SIMM 演算法通過神經網路框架來實現兩個關鍵步驟，整體損失函數：

IJCAI 2019 | 整合多類信息，阿里文娛提出多視圖多標記演算法SIMM

其中，L_ml 為多標記損失，控制最終模型的標記輸出。在該論文中，使用「一階」策略進行計算：

IJCAI 2019 | 整合多類信息，阿里文娛提出多視圖多標記演算法SIMM

2.1 共享子空間挖掘

受文獻 [1] 啟發，SIMM 通過最小化一個對抗損失 L_adv 來混淆視圖到共享子空間的映射過程，希望迷惑判別器 D，使其無法判斷輸入的共享子空間表徵來自於哪一個視圖。

令 c^v 表示第 v 個視圖特徵 x^v 的共享子空間表徵向量，由共享子空間提取層 H 提取得到。文中引入視圖標記向量 z_i，僅 z^v_i 為 1，表示 c^v_i 來自於第 v 個視圖。令 hat(z) 為判別器預測的視圖標記向量，對抗損失 L_adv 表示為：

IJCAI 2019 | 整合多類信息，阿里文娛提出多視圖多標記演算法SIMM

F 需選擇一個單調遞減函數，通過這種設定，作者希望迷糊判別器，無法判斷輸入的共享子空間表達來自於哪一個視圖，當判別器無法分辨時，可以認為輸入的特徵向量不含判別性的私有信息，表明 c^v 中僅包含共享信息。

然而，僅利用 L_adv 可能會帶來一些問題：單純的雜訊不含任何信息，但也極有可能迷惑判別器，但雜訊不能表示包含共享信息的表徵向量。因此，作者額外增加了共享子空間多標記損失 L_sml 保證 c^v 具有語義：

IJCAI 2019 | 整合多類信息，阿里文娛提出多視圖多標記演算法SIMM

在 SIMM 演算法中，共享子空間的挖掘不再只是各個視圖獨立進行，H 和 D 在訓練中可以接觸到來自所有視圖的特徵向量，增加了視圖間的交互過程，共享子空間挖掘的整體損失表示為：

IJCAI 2019 | 整合多類信息，阿里文娛提出多視圖多標記演算法SIMM

2.2 視圖私有特徵提取

直觀上，什麼是視圖私有信息，似乎無法被直接明確的定義，本文作者選擇的方式是，將公共信息從原始信息中剝離，並認為保留下來的部分為視圖私有信息。這一想法在文中通過約束正交損失實現，s^v 表示由私有信息提取層 E^v 提取得到的 l 維特徵向量，c 表示包含所有視圖公共信息的 l 維特徵向量，由 c^v 相加得到。私有信息提取損失 L_specific 約束 s^v 和 c 間的正交性：

IJCAI 2019 | 整合多類信息，阿里文娛提出多視圖多標記演算法SIMM

L_specific 希望從原始特徵 x^v 中提取出的 s^v 和 c 相差越大越好。

2.3 模型整體框架

IJCAI 2019 | 整合多類信息，阿里文娛提出多視圖多標記演算法SIMM

圖 2

模型整體框架圖如圖 2 所示，在訓練階段，同時優化各模塊參數，測試階段，給定未見示例 x^*，模型預測輸出結果由下式得到：

IJCAI 2019 | 整合多類信息，阿里文娛提出多視圖多標記演算法SIMM

三、實驗

在實驗部分，論文中共選取了 8 個多視圖多標記數據集，包括 6 個基準數據集和 Youku 視頻標註數據集：

IJCAI 2019 | 整合多類信息，阿里文娛提出多視圖多標記演算法SIMM

6 個對比演算法包括：2 個與 SIMM 相關的基準演算法、2 種不同輸入的多標記演算法 ML-kNN 和 2 個多視圖多標記演算法 F2L21F、LSAMML。實驗指標選擇 6 種被廣泛使用的多標記評價指標 Hamming Loss、Average Precision、One Error、Coverage、Micro-F1，對 Average Precision 和 Micro-F1 來說，結果越大越好，對其他 4 個指標來說，結果越小越好，在每個數據集上，均採用十折交叉驗證計算各指標均值與標準差。結果如下：

IJCAI 2019 | 整合多類信息，阿里文娛提出多視圖多標記演算法SIMM

加粗部分為 SIMM 演算法在該指標下優於對比演算法的情況，SIMM 演算法在 87.5% 的情況下排名第一，在 10.4% 的情況下排名第二。

同時，在文中為分析 L_shared 和 L_specific 的作用，作者保留論文結構，將平衡參數 alpha 和 beta 置為 0。圖 3 中結果顯示，在 Pascal 和 Youku15w 數據集下，無損失約束時，性能要劣於 SIMM 演算法，說明 SIMM 在一定程度上幫助分離各視圖的共享和私有信息。

IJCAI 2019 | 整合多類信息，阿里文娛提出多視圖多標記演算法SIMM

圖 3

四、總結

該論文提出了一種多視圖多標記學習演算法 SIMM，首先 SIMM 同時優化一個混淆的對抗損失與多標記損失來提取視圖間的共享信息，其次加入正交約束，利用視圖私有的判別信息，最終通過共享和私有信息的協同作用，進行語義學習。在 8 個數據集、6 個對比演算法、6 種評價指標上的對比實驗，可以觀察到 SIMM 演算法較自身基準模型、傳統多標記演算法、多視圖多標記演算法均有明顯提升。

相關文獻：

[1] Liu, Pengfei, Qiu, Xipeng, and Huang, Xuanjing. Adversarial Multi-task Learning for Text Classification[C]. In: Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. Vancouver, Canada, 2017. 1–10.

[2] Min-Ling Zhang and Zhi-Hua Zhou. ML-kNN: A lazy learning approach to multi-label learning. Pattern recognition, 40(7):2038–2048, 2007.

[3] Min-Ling Zhang and Zhi-Hua Zhou. A review on multi-label learning algorithms. IEEE transactions on knowledge and data engineering, 26(8):1819–1837, 2014.

[4] Xiaofeng Zhu, Xuelong Li, and Shichao Zhang. Block-row sparse multiview multilabel learning for image classification. IEEE transactions on cybernetics, 46(2):450–461, 2016.

[5] Changqing Zhang, Ziwei Yu, Qinghua Hu, Pengfei Zhu, Xinwang Liu, and Xiaobo Wang. Latent semantic aware multi-view multi-label classification. In Proceedings of the 32nd AAAI Conference on Artificial Intelligence, New Orleans, LA,4414–4421, 2018.

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※三星3D版「AI上色」演算法：神經網路實時渲染真實視頻
※萬字綜述，核心開發者全面解讀PyTorch內部機制

TAG:機器之心 |