當前位置:
首頁 > 新聞 > 2017 年領域自適應發展回顧

2017 年領域自適應發展回顧

本文為 AI 研習社編譯的技術博客,原標題 :

A Little Review of Domain Adaptation in 2017

翻譯 | 小豬咪    校對 | Lamaric    整理 | 志豪

原文鏈接:

https://artix41.github.io/static/domain-adaptation-in-2017/index.html

註:本文的相關鏈接請點擊http://ai.yanxishe.com/page/TextTranslation/1093進行訪問


2017年領域自適應的一點回顧

這篇文章原為 quora 中2017年機器學習領域最傑出的成就是什麼?問題下的答案。

2017是領域自適應形式大好的一年:產生了一些優秀的圖對圖、文對文轉換的成果,對抗方法的應用水平顯著提高,一些卓越的創新演算法被提出以解決兩領域間適應時的巨大問題。

通過領域適應,我是指任何想要對兩個領域(通常叫做源和目標,如繪畫作品和真實圖片)間進行轉換的演算法,都想把它們映射到一個公共的領域。為了達到這一效果,你可以選擇把一個領域轉換成另一個(如把繪畫轉換成照片),也可以找到兩個領域間一個公共的映射。當只有源域有標籤而我們想要給目標域預測標籤時,這就被稱為無監督的領域適應,也是這些成果最傑出的地方。有很多評估 DA 演算法的基準,一個最常用的就是通過 MNIST 集(一個最常見的手寫數據集)和它的標籤來預測 SVHN(一個門牌號碼數據集)的標籤。在一年的時間裡,準確度從90%(這是 DTN 的結果,相比於之前演算法如 DRCN 等的82%已經有了很大提高),進一步提升到了99.2%(self-ensembling DA 的結果)。除了準確度上的量化分析,今年的一些演算法結果在質量上也十分驚人,尤其是在視覺領域自適應和自然語言處理方面。

圖1 利用2017年5月發表的 SBADA-GAN[4]  完成從 SVHN 到 MNIST 的轉化。為了測試 DA 演算法,你可以只利用 MNIST 的標籤,採用二者間無監督轉化的方法預測 SVHN 的標籤。

讓我們來總結一下這一年領域自適應方向的卓越成果吧。


  對抗領域自適應

如果說2015年是對抗域適應出現的一年( 由 DANN[5]為代表),而2016年是基於 GAN 的域適應出現的一年(由 CoGAN[6] 和 DTN[2:1]),那麼2017年就是這些方法大幅長進併產生驚人成果的一年。

對抗域適應背後的思想是訓練兩個神經網路:一個辨別網路試圖分辨變換後的源域與目標域,而生成網路則試圖使源域變得儘可能逼近目標域以迷惑辨別網路。它的思想主體還是 GAN ,只不過輸入的是源域的分布而不是均勻分布(通常被稱為條件 GAN )。我做了一個小動畫來更直觀地解釋這個概念(代碼在這裡):

圖2 基於 GAN 的兩個高斯分布域的對抗域適應。判別器(背景)嘗試將綠色和橘色的分布分離開,生成器則修正綠色的分布來迷惑判別器。代碼在這兒。

所以,2017年的「重大進展」是什麼呢?

  ADDA

首先在2月份,ADDA[7]發布了一個泛化對抗域適應理論模型框架並在一個簡單的  SVHN MNIST 的 GAN 損失上達到了76.0%的分數(他們認為這是對抗網路在這個任務上最好的分數,但他們可能在提交論文時還沒有聽說過 DTN 這個模型)。


  CycleGAN 模型

一個月之後,對抗域適應領域的一個最重要的成果出現了:  CycleGAN[8] 提出的的循環一致損失。這篇文章真的稱得上是一場革命式創新。他們的思想是訓練兩個條件 GAN ,一個完成從源到目標的轉化,一個正相反,之後他們考慮了一種稱作循環一致損失的新的損失函數,它保證了如果你將兩個網路連接到一起,將會得到一個恆等映射(源  目標  源)。他們的從馬到斑馬以及從畫到照片的轉換結果十分出名,我覺得這真是這一年最酷炫的東西之一了!和其它如  pix2pix[9], 等方法不同的是,他們沒有用成對的圖片訓練網路(比如 pix2pix 用到的貓的照片和同樣一隻貓的素描),而僅僅用到了兩個獨立的分布,這也使得他們的工作更加引人注目。

圖3 CycleGAN 的圖-圖轉換示例


  DiscoGAN 模型

有意思的是很多其它文章在三到五月幾乎同時發現了循環一致損失,有些時候還叫不同的名字(如重建損失)。以  DiscoGAN[10]  為例,它提出的損失就略有不同(比如對 GAN loss 使用了交叉熵代替了均方誤差),但他們也達到了很棒的效果,實現了同時對質地屬性(比如將金髮變成棕色頭髮的人,將女人變成男人,或將戴眼鏡的人變成不戴眼鏡的人)和幾何屬性(椅子變成汽車,臉變成汽車)進行轉換。

圖4  DiscoGAN 的圖-圖轉換示例 


  DualGAN 模型

DualGAN[11] 也是一樣,它用到了 WGAN 以及其它一些近期出現的用於更好地訓練GAN 模型的技巧 。它將模型用於做白天黑夜或素描照片的轉換,下面是他們的結果:

圖5  DualGAN 的圖-圖轉換示例


  SBADA-GAN 結構

但上面提到的三篇文章都沒有考慮到任何帶有任務的數據集(如分類任務),所以不能給出他們方法的量化評價。 SBADA-GAN[4:1] 做到了這一點,他們在網路的最後加入了一個分類器來預測源域和轉換之後的目標域圖片的標籤。在訓練過程中,將偽標籤分配給給目標樣本以生成分類損失。在 SVHN MNIST 上得到的分數不是很高(~76%,和 ADDA 相仿),但他們在反變換上(MNISTSVHN) 以及在 MNIST USPS 上(另一個和 MNIST很像的手寫數字數據集)都達到了新的 SOTA 成果。


  GenToAdapt 模型

還有一種對抗結構今年在數字基準模型上可謂是大獲成功,四月份發表的 GenToAdapt[12] 在  SVHN MNIST 上達到了92.4%的高分,可以說是這一年第一個可以稱得上 state-of-the-art 的工作。他們的技術簡單說來是使用了 GAN 模型從源域和目標域提取樣本生成源域圖像,並用判別器鑒別真偽以及確認源域樣本不同的分類標籤(就像 AC-GAN )。這種機器學習得來的 embedding 方法訓練好之後將被用來訓練第三個網路,C,來直接預測輸入樣本的標籤。下面的這張圖(來自原論文)肯定比我的解釋清楚多啦。

圖6 GenToAdapt 的結構

  UNIT 模型

一種Nvidia提出的對抗結構, UNIT[13] ,也表現不凡。就像 Nvidia 的其他文章一樣,他們展示出了很多驚艷的實驗結構(比如基於不同外部條件的圖-圖轉換, GTA 和現實的切換,不同品種的狗變換等)。他們也在 SVHN MNIST 上測試了他們的演算法並達到了90.53%的分數,和 DTN 的得分十分接近,但他們的圖像解析度要高得多。他們的技術基於一種含有兩個 GAN 模型的 CoGAN[6:1] ,一個生成源域圖像,一個生成目標域圖像,一些層之間權值共享。Nvidia 的主要貢獻是把生成器用VAE 實現了,他們的確成功展示出了 VAE 損失和前述文章中的循環一致損失的等價性。

圖7 UNIT 的圖-圖變換部分結果


  StarGAN

然而這些結構只適用於在一次變換中從一個源域變換到一個目標域。如果你有多個域,就應該有一種網路訓練的方法在所有的域間做變換。9月份 StarGAN[14] 把 CycleGAN應用到了所謂的多域適應問題中。他們對於同一個體的發色和情緒變換的結果的確很驚人,正如你們所看到的這樣:

圖8 StarGAN 的多域圖像變換示例


  沒有並行數據的文字翻譯

從上述例子中可以看到域適應領域的研究基本聚焦在計算機視覺領域(CV),但去年最重要的且共享的文章之一出自自然語言處理領域(NLP):Word Translation Without Parallel Data[15]。他們主要採用了對抗域適應的方法,找到了一個兩種語言(源和目標)樣本間的 embedding,而且在不依賴任何翻譯樣例的情況下達到了很高的準確率!如果你讀過這篇文章,你會注意到「域適應」的字樣一次也沒有出現……因為大多數 DA 的研究猿都在計算機視覺領域,看起來那些 NLP 領域寫出這篇文章的傢伙自己都沒有意識到他們的工作實際上進入了域適應的範疇。所以我覺得,如果 NLP 的研究員們嘗試著在今年 CV 社群中湧現出的大量而優秀的 DA 新方法上測試他們的數據的話,可能會收穫滿滿呢。

圖9 源域(英語)和目標域(義大利語)的嵌入詞空間的校準


  Pix2Pix HD

最後,我剛剛只提到了未配對的域適應(就是說你在訓練的時候不使用任何配對的源/目標樣例),但配對的 DA 也由pix2pixHD[16] 帶來了一場小革新。它可以說是 pix2pix (一個基於配對樣本訓練的條件對抗生成網路)的升級版本,用了許多小技巧來使它可以適用於更大的圖像。他們把網路訓練得可以將區域分割後的圖片轉換為真實的街景照片,正如你在下面的動畫演示中看到的那樣:

圖10 利用pix2pix HD生成的從區域分割圖向真實街景的轉化效果


  嵌入方法

除了對抗域適應,今年也有人嘗試了許多其它方法,它們中的一些還是很成功的。近期有兩個方法試圖找到源和目標域間的通用嵌入法,最後達到了利用一個神經網路就能對兩個域的樣本進行分類的效果。


Associative DA

第一個是 Associative DA (( DA_{assoc} ))[17] ,它在 SVHNMNIST 任務中達到了97.6%的分數。為了找到最佳 embedding 方式,他們使用了2017年的新趨勢…循環一致損失!是的,這個方法再一次的出現了,只不過這次沒有任何 GAN 和對抗網路的痕迹:它們只是嘗試學習出一種 embedding 方法(前年這是用神經網路實現的),以使得當來自兩個域的樣本屬於同一類別時,從源域樣本向目標域轉換(基於 embedding 空間里兩點間的距離),再轉換回另一個源域樣本的可能性會更高。

  Self-Ensembling DA

第二個是Self-Ensembling DA[3:1] ,它的99.2%的極高的準確率可真是把我們的 SVHNMNIST 測試基準模型按在地上摩擦!看來明年我們要尋找新的測試基準了!這樣的效果是通過引入 Mean Teacher 達到的,這是一個來自半監督學習領域並達到了最近 SOTA 成果的工作。它的思想是,有兩個網路分別叫做 student 和 teacher,而 teacher 的權重是整個訓練過程中 student 網路權重的動態平均值。之後,有標籤的源域樣本被用作訓練 student 網路以使之成為一個更好的分類器,而無標籤的目標域樣本被用作訓練 student 網路來使之接近 teacher 網路(利用一致性損失)。你可以在這裡看到一個更直觀的可視化解釋。


  最優傳輸

還有一種方法也是今年的產物:基於最優傳輸的領域自適應。最優傳輸是應用數學中一個巨大的領域,其中就包含如何找到從一個分布到另一個的最優傳輸方案:通過最小化從源集到目標集的傳輸的消耗總和。比如說,如果你考慮兩個點集(含有相同數目的點),分別是源集和目標集,簡單的將歐拉距離作為消耗函數,那麼最優傳輸就要求你把每個源點和目標點相關聯從而使總距離最小化。下面是對於兩個高斯分布域的解:

圖11 兩個高斯分布域間的最優傳輸方案,每個源點被傳輸到一個目標點,總距離被最小化了。這個圖是通過 POT 庫生成的。

如果你想了解更多有關 OT 的內容,這篇博文是一個絕佳的綜述。

如果你已經開始對域適應有所涉獵,我覺得現在你可以清楚地看到 OT 和DA 間的聯繫。這兩個領域間的關係在 2016[18]年被理論化出來,但一個非常有趣的演算法在2017年才出現:聯合分布最優傳輸(JDOT)[19]。他們的方案是一個迭代的過程:在一次迭代過程中,偽標籤被賦給每一個目標點(最開始是使用一個在源樣本上訓練出來的分類器)。之後的目標是從每一個源點傳輸到目標點,但最小化的不止是總距離,還有傳輸過程中變化了的標籤的總數(源點標籤和目標點的偽標籤)。我在這裡做了一個可視化的說明:一個 JDOT 演算法的可視化說明,在下面的 GIF 里可以了解一個大概(我不能確定如果不在每一步停頓的話是否還方便大家理解):

圖12 展示 JDOT 演算法中不同步驟的動畫。你可以在這裡找到單獨的每一張圖片和附加說明。


  總結

總結來說呢,2017年不僅用絕佳的分數碾壓了一些域適應的標準評測方法,而且還創造出了第一個從一個域到另一個的高質量圖片轉化(就像你在上面看到的這些圖片)。但我們還可以在許多更加複雜的評測機制上做到更好,並且把 DA 方法運用到機器學習的其他領域中去(比如強化學習和 NLP)。所以2018很有機會變得和2017年同樣優秀,我很期待這一年能看到哪些新的成果!

如果你想學習更多和領域自適應相關的內容,我在維護一個關於 DA 和遷移學習的資源列表(包含文章,數據集和成果等),在這裡可以找到它們。

免責聲明:這些文章的描述僅限於我個人目前對它們的理解,所以抱著懷疑的態度來審視它們吧,如果你發現我有表述上的錯誤或不精確之處請毫不猶豫地告訴我。再來看我給出的這些結果,它們只是原文中說明的,因此事實上,為了給出一個更加真實可靠的比對結果可能還需要運用一些更加嚴謹的方法。

想要繼續查看該篇文章相關鏈接和參考文獻?雷鋒網雷鋒網雷鋒網

戳鏈接http://ai.yanxishe.com/page/TextTranslation/1093

AI研習社每日更新精彩內容,觀看更多精彩內容:


悼念保羅·艾倫,除了他科技圈還有哪些大佬值得信仰?

AI課程/書籍/視頻講座/論文精選大列表

自定義損失函數Gradient Boosting

為什麼現在人工智慧掀起熱潮?

等你來譯:

深度網路揭秘之深度網路背後的數學

如何開發多步空氣污染時間序列預測的自回歸預測模型

(Python)可解釋的機器學習模型

很有啟發性的25個開源機器學習項目


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

GFXBench 5.0版推出全新測試場景,蘋果A11也只能跑17fps
智雲大咖秀:怎樣的穩定器才是攝影師的「靈魂輔助」?

TAG:雷鋒網 |