淺析深度神經網路遷移方法

最新 07-14

淺析深度神經網路遷移方法

引言

遷移學習無疑已經成為機器學習領域最有研究前景的子領域之一。在計算機視覺領域，研究人員利用遷移學習復用訓練模型，以避免模型的重複訓練和計算資源的浪費[1]。在推薦系統中，遷移學習有效緩解了冷啟動問題[2]。在深度學習領域中，遷移學習結合可視化技術可以展示特徵的層次結構，幫助提高模型可解釋性[3]。機器學習模型的可遷移性差、訓練數據量少、標籤數據缺失、數據類型多樣、數據來源廣泛等問題驅動遷移學習的發展。本質原因可以歸結為以下幾點：

1. 模型從專用到通用。傳統機器學習方法十分依賴數據，在某類數據下訓練出來的模型只能被應用在同類數據中，遷移學習可以從數據、特徵、參數等不同層次遷移至另外的數據場景中，在一定程度上實現專用模型的通用化。

2. 數據從海量到少量。針對人工標註的少量數據集，遷移學習可以利用一些與已有訓練集相關的數據輔助訓練。

3. 場景從單一到豐富。遷移學習可以將不同場景中的數據和模型同時遷移到相關場景或將數據和模型從多個相近的場景中進行多次遷移從而達到輔助訓練的目的。

2012年AlexNet在ImageNet比賽中取得冠軍，這成為了深度學習在各領域爆發的一個契機。目前深度模型在語音和圖像識別領域的表現均超越人類，但人工智慧發展的「奇點」並沒有來臨。當前技術存在的問題是顯而易見的，例如訓練模型仍然需要大量高質量標註數據，而人類學習識別某一種物體只需要極少數量的樣本，甚至人類只學習某一角度的該物體但卻能從另一角度重識別該物體。正如一句戲謔當前人工智慧的玩笑所說「有多少人工，就有多少智能」。當前機器學習技術依靠海量數據的訓練在特定領域的表現十分優異，但是卻缺乏舉一反三、聯想、推理等等高層次的能力。如何將深度學習的優秀特徵提取能力和遷移學習方法結合起來進而提高模型的準確率、可遷移性等，成為遷移學習的研究熱點。

研究背景

傳統機器學習模型和深度模型主要差別在於：1）從模型的角度而言，深度模型可以自動提取高質量的特徵；2）從實際應用的角度而言，深度模型滿足了端到端的需求。

傳統的遷移學習方法，根據遷移對象可以分為四種不同層級的遷移：樣本、特徵、模型和關係遷移。

樣本遷移方法主要從數據實例的層次對數據分布進行調整，文獻[3]提出的TrAdaboost將Adaboost方法進行拓展，將大量相關數據引入分類並根據單次迭代結果調整數據實例的權重和Adaboost的基分類器權重。文獻[4]提出的DDTL方法，在數據實例的層級使用深度神經網路和矩陣分解，幫助數據實例在多個相關場景中進行多次遷移，通過多次小跨度的遷移實現了不相似領域之間的知識共享。

特徵遷移是指使用特徵變化的方法將源域和目標域中的特徵向量變換到同一個子空間中從而縮小域間差距。文獻[5]的TCA方法是最為著名的特徵遷移方法，該方法使用MMD作為距離度量，使用降維的方法生成源域目標域共同子空間。文獻[6]在文獻[5]的基礎上，增加了聯合概率分布的度量，實現了在同一模型下的兩種概率適配。

模型遷移，也可以叫做基於模型參數的遷移，主要思路是發現源域模型和目標域模型之間一些可以共享的參數並進行模型參數的遷移。文獻[7]中提出的TransEMDT方法，其主要思路是利用Kmeans無監督聚類演算法找出決策樹中最適合遷移的模型參數。文獻[8]研究了隱馬爾科夫模型在不同條件下室內Wifi定位問題的模型參數遷移方法。

關係遷移相關的研究工作較少，文獻[9][10]是利用馬爾科夫邏輯網路挖掘不同域間關係的相似性。

圖1. 遷移方法性能對比

然而，如上圖所示，從遷移效果而言在同一數據集的圖像分類任務下，深度遷移學習方法優於深度學習方法，深度學習方法優於傳統遷移學習方法。遷移學習方法彌補了深度神經網路難以遷移的問題，深度學習方法強大的特徵提取能力提高了遷移學習模型的能力，所以深度神經網路的遷移方法是近幾年來遷移學習研究熱點之一。

研究現狀

2014年文獻[3]揭示了深度神經網路的可遷移性，通過可視化深度神經網路的層次化特徵，發現了神經網路的淺層通用特徵和深層的專屬特徵。實驗結果表明，使用遷移學習得到的神經網路模型的訓練速度和性能都要優於於重新訓練的神經網路模型。

圖2. 一個神經網路的Finetune

網路參數微調(Finetune)的創新在於復用了神經網路的參數，節省了訓練資源和訓練時間。但是它的缺點在於無法處理異分布數據。基於網路自適應的方法是目前深度遷移學習的主要方法，它需要在預訓練的網路中插入自適應層來完成源域和目標域的適配。2014年文獻[12]首次提出了DaNN方法，該工作在淺層神經網路後加入一層基於MMD度量的適配層，MMD適配層有效的計算並縮短了源域和目標域數據的距離，在網路訓練過程中將MMD的距離加入到網路全局loss中。該文章的重要性在於確立了深度遷移方法的主體思路。DDC[13]是在文獻[12]的基礎上將適配網路更換成AlexNet。DDC採用了一個變長的適配層，適配層的距離度量仍然選擇的是MMD，作者在AlexNet的8層神經網路上調整適配層的參數，並提出網路結構為AlexNet的情況下，在分類器前一層插入適配層會得到最佳的分類效果。DAN(Deep Adaptation Networks)[14]方法嘗試插入了更多的適配層，並且更改域間距離度量為多核MMD(MK-MMD)。MK-MMD可以同時衡量多個適配層的域間距離，並且MK-MMD的參數學習並不會增加深度神經網路的訓練時間。實驗結果表明DAN在多個不同類型的任務上均取得了更優的分類效果。

圖3. DAN網路結構

文獻[15]提出Joint CNN architecture for domain and task transfer方法，作者不僅採用了域間遷移(domain transfer)，還考慮任務間遷移(task transfer)。在設計實驗中的場景部分類別有少量標籤，而剩餘類別沒有標籤，所以作者認為只進行域間適配是不夠的，還需要進行類別間適配。作者利用soft label loss對源域的分類類別進行約束，提高類別標籤不全下的深度遷移模型分類精度。

圖4. Task Transfer網路結構

文獻[16]提出的JAN(Joint Adaptation Network)在深度神經網路中同時適配域間的聯合概率分布和對抗學習，並基於這兩者提出JMMD(Joint MMD)度量。文獻[17]的AdaBN方法在網路Norm層加入基於統計分析的特徵適配，其實現方法簡單並且取得不錯的效果。

結語

本文簡要總結了深度神經網路遷移方法的研究背景和研究現狀，總體來看近來的工作可以分為以DAN為代表的以多層適配、多種分布適配為主要思路的方法和以AdaBN為代表的基於統計特徵等非網路自適應的方法。

深度神經網路遷移方法仍然處於發展的初期，基於網路適配方法的一家獨大正說明其發展的不充分，希望有興趣研究相關方法的讀者能夠不吝賜教，提出寶貴意見。

參考文獻

[1] Razavian, Ali Sharif, et al. "CNN Features Off-the-Shelf: An Astounding Baseline for Recognition." Computer Vision and Pattern Recognition Workshops IEEE, 2014:512-519.

[2] Li, B., Yang, Q., Xue, X.: "Can movies and books collaborate?: cross-domain collaborative filtering for sparsity reduction. " In: IJCAI 2009 (2009)

[3] Yosinski, Jason, et al. "How transferable are features in deep neural networks?." Advances in neural information processing systems. 2014.

[4] Tan, Ben, et al. "Distant domain transfer learning." AAAI. 2017.

[5] Pan, Sinno Jialin, et al. "Domain adaptation via transfer component analysis." IEEE Transactions on Neural Networks 22.2 (2011): 199-210.

[6] Long, Mingsheng, et al. "Transfer feature learning with joint distribution adaptation." Proceedings of the IEEE international conference on computer vision. 2013.

[7] Zhao, Zhongtang, et al. "Cross-people mobile-phone based activity recognition." IJCAI. Vol. 11. No. 3. 2011.

[8] Pan, Sinno Jialin, James T. Kwok, and Qiang Yang. "Transfer Learning via Dimensionality Reduction." AAAI. Vol. 8. 2008.

[9] Mihalkova, Lilyana, Tuyen Huynh, and Raymond J. Mooney. "Mapping and revising Markov logic networks for transfer learning." AAAI. Vol. 7. 2007.

[10] Mihalkova, Lilyana, and Raymond J. Mooney. "Transfer learning by mapping with minimal target data." Proceedings of the AAAI-08 workshop on transfer learning for complex tasks. 2008.

[11] Dai, Wenyuan, et al. "Boosting for transfer learning." International Conference on Machine Learning ACM, 2007:193-200.

[12] Ganin, Yaroslav, et al. "Domain-adversarial training of neural networks." The Journal of Machine Learning Research 17.1 (2016): 2096-2030.

[13] Tzeng, Eric, et al. "Deep domain confusion: Maximizing for domain invariance." arXiv preprint arXiv:1412.3474 (2014).

[14] Long, Mingsheng, et al. "Learning transferable features with deep adaptation networks." arXiv preprint arXiv:1502.02791 (2015).

[15] Tzeng, Eric, et al. "Simultaneous deep transfer across domains and tasks." Proceedings of the IEEE International Conference on Computer Vision. 2015.

[16] Long, Mingsheng, et al. "Deep Transfer Learning with Joint Adaptation Networks." International Conference on Machine Learning. 2017.

[17] Li, Yanghao, et al. "Adaptive Batch Normalization for practical domain adaptation." Pattern Recognition 80 (2018): 109-117.

[18] 封面配圖 http://s3.amazonaws.com

快，關注這個公眾號，一起漲姿勢～