CVPR 2018摘要：第四部分

新聞 11-24

本文為 AI 研習社編譯的技術博客，原標題：

State of the Art in Domain Adaptation (CVPR in Review IV)

作者 |Sergey Nikolenko、Anastasia Gaydashenko

翻譯 | 老趙校對 | 醬番梨

整理 | 菠蘿妹

https://medium.com/neuromation-io-blog/state-of-the-art-in-domain-adaptation-cvpr-in-review-iv-21ac05f935b9

領域適應的最新進展（CVPR 回顧 -4）

我們已經分三期關於CVPR 2018（計算機視覺和模式識別）會議：第一部分專門討論計算機視覺的GAN，第二部分涉及關於識別人類（姿勢估計和跟蹤）的論文，第三部分涉及合成數據。今天，我們深入探討最近一直在興起的深度學習領域的細節：領域適應。對於這個NeuroNugget，我很高興為您呈現我的共同作者Anastasia Gaydashenko，他已離開Neuromation並繼續加入思科...但他的研究繼續存在，這就是其中之一。

什麼是領域適應？

最近研究中有幾個具體趨勢（包括CVPR 2018），其中一個是領域適應。由於這個領域與合成數據密切相關，因此我們在Neuromation對我們非常感興趣，但這個主題在本身也越來越受歡迎和重要。

讓我們從頭開始。我們已經討論了構成現代計算機視覺基礎的最常見任務：圖像分類，對象和姿勢檢測，實例和語義分割，對象跟蹤等。由於深度卷積神經架構和大量標記數據，這些問題得到了相當成功的解決。

但是，正如我們在上一部分中所討論的那樣，總是存在一個巨大的挑戰：對於監督學習，你總是需要找到或創建標記數據集。幾乎所有關於某些奇特的現有技術模型的論文都會提到數據集的一些問題，除非他們使用每個人通常比較的少數標準「 vanilla 」數據集之一。因此，收集標記數據與設計網路本身一樣重要。這些數據集應該足夠可靠和多樣化，以便研究人員能夠使用它們來開發和評估新穎的架構。

我們已經多次談到手動數據收集既昂貴又耗時，往往非常耗費精力。有時甚至不可能手動標記數據（例如，如何標記深度估計，評估圖像上的點到相機的距離的問題？）。當然，許多標準問題已經具有可自由或容易獲得的大型標記數據集。但首先，這些易於標記的數據可以（並且確實）將研究偏向於可用的特定領域，其次，你自己的問題永遠不會完全相同，標準數據集通常根本不符合您的要求：它們將包含不同的類別，會有不同的偏置，等等。

使用現有數據集，甚至是沒有專門針對你的特定問題的合成數據生成器的主要問題是，當生成數據並且已經標記時，我們仍然面臨域轉移的問題：我們如何使用一種數據準備網路應對不同種類？對於整個合成數據領域來說，這個問題也很突出：無論你製作數據是否真實，它仍然無法與現實世界的照片完全區分開來。這裡的主要潛在挑戰稱為域移位：基本上，目標域中的數據分布（例如，真實圖像）與源域中的數據分布（例如，合成圖像）不同。設計能夠應對這種轉變的模型正是稱為域適應的問題。

讓我們看看人們現在如何處理這個問題，考慮一下CVPR 2018中的一些論文，比之前的「CVPR in Review」分期付款稍微詳細一些。

具有相似性學習的無監督領域適應

Pedro Pinheiro的這項工作（見pdf）來自ElementAI，這是一家蒙特利爾公司，於2016年由Yoshua Bengio共同創立。它涉及一種基於對抗性網路的域適應方法，我們之前提到的那種方式（參見本文，第二部分即將推出）。

對無監督領域自適應的最簡單的對抗方法是嘗試提取跨域保持相同的特徵的網路。為了實現這一點，網路試圖使它們與網路的單獨部分（鑒別器（下圖中的「光碟」）無法區分。但與此同時，這些功能應該代表源域，以便網路能夠對對象進行分類：

通過這種方式，網路必須提取能夠同時實現兩個目標的特徵：（1）足夠的信息，「類」網路（通常非常簡單）可以分類，（2）獨立於域，以便「光碟」網路（通常與特徵提取器本身一樣複雜，或更多）無法真正區分。請注意，我們不必為目標域提供任何標籤，僅針對源域，通常更容易（再次考慮源域的合成數據）。

在Pinheiro的論文中，通過用基於相似性的部分替換分類器部分來改進這種方法。判別部分保持不變，分類部分現在比較圖像與一組原型的嵌入; 所有這些表述都是以端到端的方式共同學習的：

基本上，我們要求一個網路g從標記的源域和另一個網路f中提取特徵，以從未標記的目標域中提取具有相似但不同的數據分布的特徵。不同之處在於現在f和g是不同的（我們在上圖中有相同的f），並且分類現在是不同的：我們訓練模型以區分目標原型和所有其他原型，而不是訓練分類器。為了標記來自目標域的圖像，我們將圖像的嵌入與來自源域的原型圖像的嵌入進行比較，分配其最近鄰的標籤：

本文表明，所提出的基於相似性的分類方法對於兩個數據集之間的域移位更加穩健。

領域適應的圖像到圖像翻譯

在Murez等人的這項工作中（完整的pdf）。來自加州大學聖地亞哥分校和HRL實驗室，主要的想法實際上相當簡單，但實施是新穎和有趣的。該工作涉及比分類更複雜的任務，即圖像分割（參見我們之前的帖子），其廣泛用於自動駕駛，醫學成像和許多其他領域。那麼他們所談論的這種「形象翻譯」是什麼？

讓我們從常規翻譯開始。想像一下，我們有兩個不同語言的大型文本語料庫，比如英語和法語，我們不知道哪些短語對應哪個。它們甚至可能略有不同，可能缺少其他語言語料庫中的相應翻譯。就像來自合成域和真實域的圖片一樣。現在，為了得到一個機器翻譯模型，我們將一個短語從英語翻譯成法語，並試圖將所得短語的嵌入與原始法語語料庫中的短語嵌入區分開來。然後檢查我們沒有失去太多的方法是嘗試將這個短語翻譯成英語; 現在，即使原始語料庫完全不對齊，我們也知道我們在尋找什麼：答案就是原始句子。

現在讓我們看看圖像到圖像的轉換，實際上，它非常相似。基本上，領域自適應技術旨在通過找到從源數據分布到目標分布的映射來解決域移位問題。或者，域X和Y都可以映射到共享域Z，其中分布是對齊的; 這是本文中使用的方法。這種嵌入必須是域不可知的（獨立於域），因此我們希望最大化嵌入源和目標圖像的分布之間的相似性。

例如，假設X是晴天駕駛場景的領域，Y是下雨天駕駛場景的領域。雖然「晴天」和「下雨」是源域和目標域的特徵，但實際上它們對於注釋任務（例如，道路的語義分段）幾乎沒有任何意義，並且它們不應該影響注釋。在處理諸如結構化雜訊之類的特徵時，我們希望找到對這種變化不變的潛在空間Z. 換句話說，域Z不應包含特定於域的特徵，即與域無關。

在這種情況下，我們還希望從目標域恢復圖像的注釋。因此，我們還需要添加從共享嵌入空間到標籤的映射。它可能是圖像級標籤，如分類問題中的類或像素級標籤，如語義分段：

基本上，這就是整個想法。現在，要從目標域獲取圖像的注釋，我們只需要將其嵌入到共享空間Z中並從C恢復其注釋。這是該方法的基本思想，但可以通過這些思想進一步改進本文提出。

具體而言，實現成功的無監督領域適應需要三個主要工具：

域無關特徵提取，這意味著從對抗性鑒別器網路判斷，從兩個域提取的特徵的分布應該是難以區分的

特定域的重建，這意味著我們應該能夠將嵌入解碼回源域和目標域，也就是說，我們應該能夠學習如下所示的函數gX和gY：

循環一致性，以確保正確學習映射，也就是說，我們應該能夠回到我們開始的循環，如下所示：

在這項工作中提出的框架的重點是確保這些屬性具有損失函數和對抗結構。我們不會深入研究架構的細節，因為它們可能會針對其他領域和問題進行更改。

但是讓我們來看看結果。在帖子的最後，我們將對三篇關於領域適應的論文進行詳細比較，但現在讓我們看一個例子。本文使用了兩個數據集：來自俠盜獵車手5的合成數據集和帶有城市圖片的真實世界城市景觀數據集。這是兩張示例圖片：

以下是真實世界圖像的分割結果（上圖B）：

在這張圖片中，E是地面真實分割，C是沒有領域適應的結果，只需通過訓練合成GTA5數據集，D是領域適應的結果。它確實看起來更好，並且數字（交叉聯合度量）確實證實了這一點。

結構領域自適應的條件生成對抗網路

本文由Hong等人撰寫（完整的pdf）提出了標準鑒別器 - 分段器架構的另一種修改。從第一次看到架構，我們甚至可能沒有注意到任何差異：

但實際上這種架構非常有趣：它將GAN集成到完全卷積網路（FCN）中。我們在之前的NeuroNugget帖子中討論了FCN; 它是用於分割問題的網路體系結構，它通過反卷積層提供特徵來返回圖片中每個像素的標籤。

在此模型中，GAN用於緩解源域和目標域之間的差距。例如，前一篇論文通過中間特徵空間對齊兩個域，從而隱含地假定兩個域具有相同的決策函數。這種方法放鬆了這個假設：在這裡我們學習來自兩個域的特徵圖之間的殘差，因為生成器學會產生類似於真實圖像中的特徵以欺騙鑒別器; 之後，更新FCN參數以適應GAN所做的更改。

同樣，我們將顯示下面結果的數字比較，但這裡是數據集中的一些示例：

值得注意的是，在這項工作中，作者還提供了與我們在合成數據效率研究中所做的非常類似的事情：他們已經測量了結果的準確性（再次通過交叉結合測量）取決於部分數據集中的合成圖像：

從合成數據中學習：解決語義分割的域移位問題

這項工作由Sankaranarayanan等人完成（完整的pdf）介紹了基於GAN的基本方法的另一種修改，它使嵌入在學習的特徵空間中更接近。這一次，讓我們從圖片開始，然後解釋它：

基礎網路的結構類似於預先訓練的模型，如VGG-16，分為兩部分：F表示的嵌入和C表示的逐像素分類器。C的輸出是標籤的映射上採樣到與F的輸入相同的大小。生成器網路G將學習的嵌入作為輸入並重建RGB圖像。鑒別器網路D在給定輸入的情況下執行兩個不同的任務：它以域一致的方式將輸入分類為真實或偽造，並且還執行類似於網路C的像素標記任務（這僅適用於源數據，因為目標數據在訓練期間沒有任何標籤）。

因此，這項工作的主要貢獻是採用生成模型來對齊特徵空間中的源和目標分布的技術。為此，作者首先通過訓練網路的重建部分，將使用CNN獲得的中間特徵表示投影到圖像空間，然後通過強制網路學習特徵使得源特徵產生類似目標的圖像來強加域對齊約束。當傳遞給重建模塊時，反之亦然。

聽起來很複雜，那麼，讓我們看看所有這些方法實際上是如何比較的。

結果的數值比較

我們選擇這三篇論文進行深入研究，因為它們的結果實際上是可比較的！所有這三篇論文都使用了GTA5的域適應作為源（合成）數據集和Cityscapes作為目標數據集，因此我們可以簡單地比較這些數字。

Cityscapes數據集包含19個城市戶外場景的特徵，如「road」, 「wall」, 「person」, 「car」等。所有這三篇論文實際上都包含表格，其中的結果按類別進行細分。

Murez等人，圖像到圖像的翻譯：

Hong等人，條件GAN：

Sankaranarayanan等人，GAN in FCN：

平均結果分別為31.8,44.5,37.1，因此看起來圖像到圖像的方法是最不成功的，條件GAN是贏家。為清楚起見，我們還要比較每種方法的前3個最不可區分的類別（即最佳和最差結果）。

最明顯的是，按照相同的模型順序：

road (85.3), car (76.7), veg (72.0)

road (89.2), veg (77.9), car (77.8)

road (88.0), car (80.4), veg (78.7)

但是最糟糕的課程情況則不同：

train (0.3), bike (0.6), rider (3.3)

train (0.0), fence (10.9), wall (13.5)

train (0.9), t sign (11.6), pole (16.7)

再次，「train」類似乎構成了一種不可逾越的挑戰（可能在訓練集中沒有那麼多集合），但其他人都是不同的。因此，讓我們比較所有基於「自行車」，「bike」, 「rider」, 「fence」, 「wall」, 「t sign」, 和「pole」類的模型。現在他們的分數將非常明顯：

你可以從這些結果中得出不同的結論。但是我們個人覺得真正令人興奮的主要結果是，對於這樣一個複雜的任務可以提出許多不同的方法，在同一個會議上產生不同的論文（因此作者不能互相追隨，這些結果獨立出現）是完全可以相互比較，研究人員毫不猶豫地發布這些可比較的數字，而不是一些舒適的自我開發的指標，這將證明他們無可置疑的至高無上的地位方式去嘻嘻嘻現代機器學習。

最後，讓我們以更輕鬆的方式完成，還有一篇關於合成數據的有趣論文。

免費監督視頻遊戲

在這項工作中，PhilippKr?henbühl（完整的pdf）為流行的Microsoft DirectX渲染API創建了一個包裝器，並在遊戲運行時為遊戲添加了專門的代碼。這使得DirectX引擎能夠實時生成地面實況標籤，例如分段，語義標記，深度估計，光流，內在圖像分解和實例跟蹤！這聽起來非常酷，因為現在，研究人員不僅可以手動標記數據或創建專用合成數據引擎，而且可以整天玩視頻遊戲！您需要做的就是找到合適的3D遊戲：

我們完成了CVPR 2018的第四部分。感謝你的關注 - 敬請關注。

Sergey Nikolenko

Chief Research Officer, Neuromation

Anastasia Gaydashenko

former Research Intern at Neuromation, currently Machine Learning Intern at Cisco

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷鋒網 的精彩文章:

※周鴻禕花式玩路由器發布全球首款可搭樂高路由器
※DeepMind 開源TRFL，又一個強化學習復現、創新好幫手

TAG:雷鋒網 |