學界 | 綜述論文：四大類深度遷移學習

科技 09-17

選自

arXiv

作者：

Chuanqi Tan、Fuchun Sun、Tao Kong、

Wenchang Zhang、Chao Yang、Chunfang Liu

機器之心編譯

參

與：乾樹、劉曉坤

本文是清華大學智能技術與系統國家重點實驗室近期發表的深度遷移學習綜述，首次定義了深度遷移學習的四個分類，包括基於實例、映射、網路和對抗的遷移學習方法，並在每個方向上都給出了豐富的參考文獻。機器之心對該綜述進行了全文編譯。

論文：A Survey on Deep Transfer Learning

論文地址：https://arxiv.org/pdf/1808.01974v1.pdf

摘要

：作為一種新的分類方法，深度學習最近受到研究人員越來越多的關注，並已成功應用到諸多領域。在某些類似生物信息和機器人的領域，由於數據採集和標註費用高昂，構建大規模的標註良好的數據集非常困難，這限制了這些領域的發展。遷移學習放寬了訓練數據必須與測試數據獨立同分布（i.i.d.）的假設，這啟發我們使用遷移學習來解決訓練數據不足的問題。本篇綜述的重點是回顧當前利用深度神經網路進行遷移學習的研究及其應用。我們根據深度遷移學習中使用的技術，給出了深度遷移學習的定義、類別並回顧了最近的研究工作。

1 引言

深度學習最近受到研究員越來越多的關注，並已成功應用於眾多實踐中。深度學習演算法可以從海量數據中學習高級特徵，這使得深度學習具備超越傳統機器學習的優勢。

深度學習可以通過無監督或半監督特徵學習演算法和分層特徵提取來自動提取數據特徵。相比之下，傳統的機器學習方法需要手動設計特徵，這會嚴重增加用戶的負擔。可以說深度學習是機器學習中一種基於大規模數據的表徵學習演算法。

數據依賴是深度學習中最嚴峻的問題之一。與傳統的機器學習方法相比，深度學習極其依賴大規模訓練數據，因為它需要大量數據去理解潛在的數據模式。我們可以發現一個有趣的現象，模型的規模和所需數據量的大小几乎呈線性關係。

一個合理的解釋是，對於特定問題，模型的表達空間必須大到足以發現數據的模式。模型中的較底層可以識別訓練數據的高級特徵，之後的較高層可以識別幫助做出最終決策所需的信息。

在一些特殊領域，訓練數據不足不可避免。數據收集複雜且昂貴，因此構建大規模、高質量的帶標註數據集非常困難。

例如，生物信息數據集中的每個樣本通常都代表一次臨床試驗或一名痛苦的患者。另外，即使我們以昂貴的價格獲得訓練數據集，也很容易過時，因此無法有效地應用於新任務中。

遷移學習放寬了訓練數據必須與測試數據獨立同分布（i.i.d.）這樣的假設，這啟發我們使用遷移學習來解決訓練數據不足的問題。

在遷移學習中，訓練數據和測試數據不需要是 i.i.d.，目標域中的模型也不需要從頭開始訓練，這可以顯著降低目標域對訓練數據和訓練時間的需求。

過去，大多數遷移學習研究都是在傳統的機器學習方法中進行的。由於深度學習在現代機器學習方法中的優勢地位，深度遷移學習及其應用的概述尤為重要。這篇綜述論文的貢獻如下：

定義了深度遷移學習，並首次將其分為四類。我們回顧了目前關於每種深度遷移學習的研究工作，並給出了每個類別的標準化描述和示意圖。

2 深度遷移學習

遷移學習是機器學習中解決訓練數據不足問題的重要工具。它試圖通過放寬訓練數據和測試數據必須為 i.i.d 的假設，將知識從源域遷移到目標域。

這對由於訓練數據不足而難以改善性能的許多研究領域產生巨大的積極影響。遷移學習的學習過程如圖 1 所示。

這篇綜述中使用的某些符號需要明確定義。首先，我們分別給出了域和任務的定義：域可以用 D = {χ, P(X)} 表示，其包含兩部分：特徵空間 χ 和邊緣概率分布 P(X) 其中 X = {x1, ..., xn} ∈ χ。

任務可以用 T = {y, f(x)} 表示。它由兩部分組成：標籤空間 y 和目標預測函數 f(x)。f(x) 也可看作條件概率函數 P(y|x)。最後，遷移學習可以定義如下：

定義 1：（遷移學習）。給定一個基於數據 Dt 的學習任務 Tt，我們可以從 Ds 中獲取對任務 Ts 有用的知識。遷移學習旨在通過發現並轉換 Ds 和 Ts 中的隱知識來提高任務 Tt 的預測函數 fT(.) 的表現，其中 Ds ≠ Dt 且/或 Ts ≠ Tt。此外，大多數情況下，Ds 的規模遠大於 Dt 的規模。

圖 1：遷移學習的學習過程。

綜述 [19] 和 [25] 將遷移學習就源域和目標域之間的關係分為三個主要類別，這已被廣泛接受。這些綜述是對過去遷移學習工作的總結，它介紹了許多經典的遷移學習方法。

此外，人們最近提出了許多更新和更好的方法。近年來，遷移學習研究界主要關注以下兩個方面：域適應和多源域遷移。

如今，深度學習近年來在許多研究領域取得了主導地位。重要的是要找到如何通過深度神經網路有效地傳遞知識，深度神經網路其定義如下：

定義 2：（深度遷移學習）。給定一個由 <Ds, Ts, Dt, Tt, fT(.)>定義的遷移學習任務。這就是一個深度遷移學習任務，其中 fT(.) 是一個表示深度神經網路的非線性函數。

3 類別

深度遷移學習研究如何通過深度神經網路利用其他領域的知識。由於深度神經網路在各個領域都很受歡迎，人們已經提出了相當多的深度遷移學習方法，對它們進行分類和總結非常重要。

基於深度遷移學習中使用的技術，本文將深度遷移學習分為四類：基於實例的深度遷移學習，基於映射的深度遷移學習，基於網路的深度遷移學習和基於對抗的深度遷移學習，如表 1 所示。

表 1：深度遷移學習的分類。

3.1 基於實例的深度遷移學習

基於實例的深度遷移學習是指使用特定的權重調整策略，通過為那些選中的實例分配適當的權重，從源域中選擇部分實例作為目標域訓練集的補充。

它基於這個假設：「儘管兩個域之間存在差異，但源域中的部分實例可以分配適當權重供目標域使用。」基於實例的深度遷移學習的示意圖如圖 2 所示：

圖 2：基於實例的深度遷移學習的示意圖。源域中的與目標域不相似的淺藍色實例被排除在訓練數據集之外；源域中與目標域類似的深藍色實例以適當權重包括在訓練數據集中。

[4] 中提出的 TrAdaBoost 使用基於 AdaBoost 的技術來過濾掉源域中的與目標域不同的實例。在源域中對實例重新加權以構成類似於目標域的分布。最後，通過使用來自源域的重新加權實例和來自目標域的原始實例來訓練模型。

它可以減少保持 AdaBoost 屬性的不同分布域上的加權訓練誤差。[27] 提出的 TaskTrAdaBoost 是一種快速演算法，可以促進對新目標域的快速再訓練。與 TrAdaBoost 設計用於分類問題不同，[20] 提出了 ExpBoost.R2 和 TrAdaBoost.R2 來解決回歸問題。

[24] 提出的雙權重域自適應（BIW）可以將兩個域的特徵空間對齊到公共坐標系中，然後為源域的實例分配適當的權重。[10] 提出增強的 TrAdaBoost 來處理區域砂岩顯微圖像分類的問題。

[26] 提出了一個量度遷移學習框架，用於在並行框架中學習實例權重和兩個不同域的距離，以使跨域的知識遷移更有效。[11] 將集成遷移學習引入可以利用源域實例的深度神經網路。

3.2 基於映射的深度遷移學習

基於映射的深度遷移學習是指將源域和目標域中的實例映射到新的數據空間。在這個新的數據空間中，來自兩個域的實例都相似且適用於聯合深度神經網路。

它基於假設：「儘管兩個原始域之間存在差異，但它們在精心設計的新數據空間中可能更為相似。」基於映射的深度遷移學習的示意圖如圖 3 所示：

圖 3：基於映射的深度遷移學習的示意圖。來自源域和目標域的實例同時以更相似的方式映射到新數據空間。將新數據空間中的所有實例視為神經網路的訓練集。

由 [18] 引入的遷移成分分析（TCA）和基於 TCA 的方法 [29] 已被廣泛用於傳統遷移學習的許多應用中。一個自然的想法是將 TCA 方法擴展到深度神經網路。

[23] 通過引入適應層和額外的域混淆損失來擴展 MMD 用以比較深度神經網路中的分布，以學習具有語義意義和域不變性的表示。該工作中使用的 MMD 距離定義為：

損失函數定義為：

[12] 通過用 [8] 中提出的多核變數 MMD（MK-MMD）距離代替 MMD 距離改進了以前的工作。與卷積神經網路（CNN）中的學習任務相關的隱藏層被映射到再生核 Hilbert 空間（RKHS），並且通過多核優化方法使不同域之間的距離最小化。

[14] 提出聯合最大均值差異（JMMD）來衡量聯合分布的關係。JMMD 用於泛化深度神經網路（DNN）的遷移學習能力，以適應不同領域的數據分布，並改進了以前的工作。由 [2] 提出的 Wasserstein 距離可以用作域的新距離度量，以便找到更好的映射。

3.3 基於網路的深度遷移學習

基於網路的深度遷移學習是指復用在源域中預先訓練好的部分網路，包括其網路結構和連接參數，將其遷移到目標域中使用的深度神經網路的一部分。

它基於這個假設：「神經網路類似於人類大腦的處理機制，它是一個迭代且連續的抽象過程。網路的前面層可被視為特徵提取器，提取的特徵是通用的。「基於網路的深度遷移學習示意圖如圖 4 所示：

圖 4：基於網路的深度遷移學習的示意圖。首先，在源域中使用大規模訓練數據集訓練網路。然後，基於源域預訓練的部分網路被遷移到為目標域設計的新網路的一部分。最後，它就成了在微調策略中更新的子網路。

[9] 將網路分為兩部分，前者是與語言無關的特徵變換，最後一層是與語言相關的分類器。語言獨立的特徵變換可以在多種語言之間遷移。[17] 反覆使用 CNN 在 ImageNet 數據集上訓練的前幾層來提取其他數據集圖像的中間圖像表徵，CNN 被訓練去學習圖像表徵，它可以有效地遷移到其他訓練數據量受限的視覺識別任務。

[15] 提出了一種聯合學習源域中標記數據和目標域中未標記數據的自適應分類器和可遷移特徵的方法，它通過將多個層插入深層網路，指引目標分類器顯式學習殘差函數。[30] 在 DNN 中同時學習域自適應和深度哈希特徵。

[3] 提出了一種新穎的多尺度卷積稀疏編碼方法。該方法可以以一種聯合方式自動學習不同尺度的濾波器組，強制規定學習模式的明確尺度，並提供無監督的解決方案，用於學習可遷移的基礎知識並將其微調到目標任務。

[6] 應用深度遷移學習將知識從現實世界的物體識別任務遷移到 glitch 分類器，用於多重力波信號的探測。它證明了 DNN 可以作為優秀的無監督聚類方法特徵提取器，根據實例的形態識別新類，而無需任何標記示例。

另一個非常值得注意的結果是 [28] 指出了網路結構和可遷移性之間的關係。它證明了某些模塊可能不會影響域內準確性，但會影響可遷移性。它指出哪些特徵在深層網路中可以遷移，哪種類型的網路更適合遷移。得出的結論是，LeNet、AlexNet、VGG、Inception、ResNet 在基於網路的深度遷移學習中是很好的選擇。

3.4 基於對抗的深度遷移學習

基於對抗的深度遷移學習是指引入受生成對抗網路（GAN）[7] 啟發的對抗技術，以找到適用於源域和目標域的可遷移表徵。它基於這個假設：「為了有效遷移，良好的表徵應該為主要學習任務提供辨判別力，並且在源域和目標域之間不可區分。」基於對抗的深度遷移學習的示意圖如圖 5 所示。

圖 5：基於對抗的深度遷移學習的示意圖。在源域大規模數據集的訓練過程中，網路的前面層被視為特徵提取器。它從兩個域中提取特徵並將它們輸入到對抗層。

對抗層試圖區分特徵的來源。如果對抗網路的表現很差，則意味著兩種類型的特徵之間存在細微差別，可遷移性更好，反之亦然。在以下訓練過程中，將考慮對抗層的性能以迫使遷移網路發現更多具有可遷移性的通用特徵。

基於對抗的深度遷移學習由於其良好的效果和較強的實用性，近年來取得了快速發展。[1] 通過在損失函數中使用域自適應正則化項，引入對抗技術來遷移域適應的知識。

[5] 提出了一種對抗訓練方法，通過增加幾個標準層和一個簡單的新梯度翻轉層，使其適用於大多數前饋神經模型。[21] 為稀疏標記的目標域數據提出了一種方法遷移同時跨域和跨任務的知識。在這項工作中使用了一種特殊的聯合損失函數來迫使 CNN 優化域之間的距離，其定義為 LD = Lc +λLadver，其中 Lc 是分類損失，Ladver 是域對抗損失。

因為兩個損失彼此直接相反，所以引入迭代優化演算法，固定一個損失時更新另一個損失。[22] 提出了一種新的 GAN 損失，並將判別模型與新的域自適應方法相結合。

[13] 提出一個隨機多線性對抗網路，其利用多個特徵層和基於隨機多線性對抗的分類器層來實現深度和判別對抗適應網路。[16] 利用域對抗性損失，並使用基於度量學習的方法將嵌入泛化到新任務，以在深度遷移學習中找到更易處理的特徵。

4 結論

在本篇綜述論文中，我們對深度遷移學習的當前研究進行了回顧和分類。並首次將深度遷移學習分為四類：基於實例的深度遷移學習，基於映射的深度遷移學習，基於網路的深度遷移學習和基於對抗的深度遷移學習。在大多數實際應用中，通常混合使用上述多種技術以獲得更好的結果。

目前大多數研究都集中在監督學習上，如何通過深度神經網路在無監督或半監督學習中遷移知識，可能會在未來引發越來越多的關注。負遷移和可遷移性衡量標準是傳統遷移學習的重要問題。這兩個問題對深度遷移學習的影響也要求我們進行進一步的研究。

此外，為深層神經網路中的遷移知識找到更強大的物理支持是一個非常有吸引力的研究領域，但這需要物理學家、神經學家和計算機科學家的合作。可以預見，隨著深度神經網路的發展，深度遷移學習將被廣泛應用於解決許多具有挑戰性的問題。