Adobe圖像處理論文：開源iGAN到深度摳圖和風格轉換

新聞 04-18

機器之心報道

Adobe提出深度摳圖：利用卷積網路分離圖像前景與背景

摳圖，一直是一件體力活，它需要大量的操作與時間。而傳統摳圖演算法主要是以色彩為特徵分離前景與背景，並在小數據集上完成，而這就造成了傳統演算法的局限性。在 Adobe 等機構新提出的論文中，其採用了大規模數據集與深度神經網路學習圖像的自然結構，從而進一步分離圖像的前景與背景。

論文地址：https://arxiv.org/abs/1703.03872

Adobe圖像處理論文：開源iGAN到深度摳圖和風格轉換

摘要

摳圖（Image matting）是一項基本的計算機視覺問題，並擁有廣闊的應用空間。當圖像的前景（foreground）和背景顏色或複雜紋理類似時，早先的演算法表現得差強人意。主要是因為：1. 只有低級特徵（low-level features）；2. 缺乏高層次上下圖境（high-level context）。在本篇論文中，我們提出了一種基於深度學習的新演算法，該演算法可以解決這兩個問題。我們的深度模型分為兩個階段。第一階段是深度卷積編碼-解碼網路（deep convolutional encoder-decoder network），該神經網路將圖像和相對應的三分圖（trimap）作為輸入，並預測圖像的α蒙版（alpha matte）。第二階段是一個小型卷積神經網路，該神經網路對第一個網路預測的α蒙版進行精鍊從而擁有更準確的α值和銳化邊緣。另外，我們還創建了一個大規模摳圖數據集（large-scale image matting dataset），該數據集包含 49300 張訓練圖像和 1000 張測試圖像。我們在摳圖基準、測試數據集和各種真實圖像上評估了我們的演算法。實驗結果清楚地表明了我們的演算法比先前的方法更具優越性。

簡介

摳圖（Image matting），即在圖像或視頻中精確估計前景的問題，具有很重要的實用性。它是圖像編輯和電影製作的關鍵技術，高效的自然圖像摳圖方法能極大地提升當前的圖像視頻處理流程的效率。並且這種技術是無約束場景（unconstrained scenes）下處理真實世界圖像的必要方法。

然而，目前摳圖演算法還是具有很大的局限性：

首先第一個局限性就是目前用來求解摳圖方程式（matting equation）的方法存在問題。

Adobe圖像處理論文：開源iGAN到深度摳圖和風格轉換

其中 Ii 是像素塊 i 的 RGB 色彩，已知前景色彩 Fi，背景色彩 Bi，未知蒙版估計（matte estimation）αi。在這個方程式中，摳圖問題形式化為兩種顏色的線性組合，因此大多數現存的演算法很大一部分都是將其近似求解色彩的問題。

另一個局限性就因為小數據集而產生。一般用於摳圖的數據真值（ground truth）是很複雜的，而 alphamatting.com 數據集通過提供標記數據集對摳圖研究做出了很重要的貢獻。不過因為該數據集僅僅只由 27 張訓練圖像和 8 張測試圖像組成，那麼這樣大小的數據集會帶來自然偏差（nature biased），訓練出來的演算法也會很難進行泛化。

在這項研究中，我們提出了一種旨在克服這些局限性的方法。我們的方法就是使用深度學習在給定輸入圖像和三分圖的基礎上直接計算α蒙版（alpha matte）。我們的神經網路並不首要依賴於色彩信息，它會學習圖像的自然結構，並將其反映到α蒙版中。例如毛髮（通常需要將其摳出來）就擁有很強的結構和紋理圖案，它們通常存在能抽取出的共同結構或α蒙版輪廓。並且由於低層次的特徵並不會捕獲這些結構，那麼就需要深度神經網路去表徵它們了。我們的兩階段神經網路包含了編碼器-解碼器階段和使用小型殘差網路進行精鍊階段。我們是第一個證明了在給定輸入圖像和三分圖的情況下能採用端到端的方式學習到α蒙版。

如下圖所示，實際上我們能在三分圖（trimap）未知前景或背景的情況下產生很好的結果，而在這種情況下，大多數演算法都返回不了什麼內容。

Adobe圖像處理論文：開源iGAN到深度摳圖和風格轉換

圖 1：我們的方法和封閉形式的摳圖（Closed form matting）對比。第一張圖像是從 Alpha Matting 基準而來，第二張圖像是從我們千張測試圖像中抽取的。

為了訓練我們的深度神經網路，如下圖所示，我們將識別目標（前景）摳取出來，並放入不同的背景而構建一個大型摳圖數據集。

Adobe圖像處理論文：開源iGAN到深度摳圖和風格轉換

圖 2：創建數據集。a) 一張手動摳圖的前景圖（擁有簡單背景）作為輸入。b) 經計算的α蒙版。c) 經計算的前景圖像，可以作為對象放入到各種背景圖像（d-f）中。

我們通過深度學習解決摳圖問題。給定一個新的數據集（大規模摳圖數據集），我們的神經網路能充分利用這些數據進行訓練。並且該神經網路由以下兩個階段組成。

Adobe圖像處理論文：開源iGAN到深度摳圖和風格轉換

圖 3：我們的神經網路由兩階段組成，編碼-解碼階段（Sec. 4.1）和精鍊階段 (Sec. 4.2)

精鍊圖像的效果在圖 4 中展示了。注意，該精鍊網路並沒有大規模改變α蒙版，只不過是精鍊並銳化α值。

Adobe圖像處理論文：開源iGAN到深度摳圖和風格轉換

圖 4：摳圖精鍊網路的效果。a) 輸入圖像。b) 編碼-解碼階段的輸出。c) 精鍊階段的輸出結果

下一張圖表明了在 SAD 度量（SAD metric）下的排名結果。

Adobe圖像處理論文：開源iGAN到深度摳圖和風格轉換

圖 6：α蒙版預測使用「user」三分圖的「Troll」和「small」三分圖的「Doll」作為測試圖像。第一列顯示了測試圖像。對於每一張測試圖像，按照降序從第 2 列到第 6 列顯示了 SAD 度量（SAD metric）下的排名結果（排名 1 到 5）。在這兩個例子中，我們的方法都實現了最好的結果。

結論

為了泛化到自然圖像中，摳圖演算法必須超越以色彩作為主要線索，並能利用更加結構性和語義性的特徵（structural and semantic features）。在該項研究中，我們展示了一種神經網路，它有足夠的能力捕捉到高層次特徵（high-order features），並利用它們計算且提升摳圖效果。實驗還展示了我們的方法不僅在標準數據集上優於以前的方法，而且它在泛化到真實圖像上也顯著地比現存演算法表現更優良一些。

論文：在自然圖像流形上的生成式視覺操作（Generative Visual Manipulation on the Natural Image Manifold）

Adobe圖像處理論文：開源iGAN到深度摳圖和風格轉換

摘要：真實圖像流形上的操作一直具有挑戰性，因為它需要以一種用戶可控的方式調整圖像外貌，還要保留結果的真實性。除非用戶有相當好的藝術技能，不然在編輯時候很容易減少自然圖像的流形。在此論文中，我們提出使用生成式對抗網神經網路直接從數據中學習自然圖像的流形。然後，我們定義了一類圖像編輯操作，並依賴一直學習到的流形束縛它們的輸出。該模型能自動調整輸出，保持所有的編輯都是儘可能真實的。我們所有的處理方法都依據約束最優化來表達，幾乎是實時的情況下被應用。我們在真實圖像形狀和顏色操作任務上評估該演算法。該方法可進一步用於將一張圖像改變為類似的一張，也可基於用戶的塗鴉亂畫生成新的圖像。

論文：Deep Photo Style Transfer

Adobe圖像處理論文：開源iGAN到深度摳圖和風格轉換

摘要：

本論文介紹了一種實現照片風格遷移的深度學習方法，這種方法可以處理很多不同種類的照片內容，同時還能如實遷移參考風格。近期，我們研究了美術風格遷移，通過研究神經網路的不同層級將風格從圖片內容中分離出來，本論文就是建立在這一研究基礎上。過去的辦法並不適合圖像現實主義風格的遷移，即使輸入和參考圖片都是照片，但仍然會輸出畸變（distortions）的結果。我們的貢獻在於將輸入到輸入的變換限制為空間內的精確色彩變化，並將此約束表示為可以反向傳播的自定義 CNN 層。我們的實驗表明，這一辦法成功地抑制了圖片在各種不同場景下（包括一天的各個時間段，各種天氣，季節以及藝術風格編輯）的風格扭曲，照片現實主義（photorealistic）風格遷移的效果也令人滿意。

Adobe圖像處理論文：開源iGAN到深度摳圖和風格轉換

圖 1：（a）是參考風格，（b）是輸出的圖像，我們希望輸出的效果能仍然和輸入一樣，屬於照片風格，不過風格是參照圖片的風格。Neural Style 演算法（C）雖然可以成功遷移顏色，不過輸出效果會有些扭曲，看起來更像是畫作，這並是不照片風格遷移想要的結果。對比之下，我們的結果（d）不僅可以成功遷移作為參照的風格圖片，還可以維持輸出的照片現實主義風格。右邊（e）就是上面不同效果的集合對比。

Adobe圖像處理論文：開源iGAN到深度摳圖和風格轉換

圖 2：在研究中，開發者向不同的模型輸入圖片（a），參考圖片（e），對風格遷移效果進行了比較。相比 CNNMRF 等其他研究得出的結果，新模型（d）可以防止扭曲並正確地匹配紋理。

Adobe圖像處理論文：開源iGAN到深度摳圖和風格轉換

圖 3：通過手動分割，可以讓系統完成多種任務，如：為香水瓶（a）加入火焰效果（c），切換不同蘋果（d，e）之間的紋理顏色。

Adobe圖像處理論文：開源iGAN到深度摳圖和風格轉換

圖 4：用戶反饋意見顯示康奈爾大學和 Adobe 的新研究實現了目前最好的效果

結論

在本論文中，研究者通過自定義卷積神經網路層中的拉普拉斯摳圖矩陣（Matting Laplacian）來限制輸入到輸出的變化，從而改善了風格轉換中色彩變化的效果。而語義分割的引入帶來了更多效果絕佳的風格遷移。在各種各樣的場景中，包括不同時間，天氣，季節和藝術風格，都能獲得令人滿意且逼真風格的轉換。在未來，研究者們將繼續探索神經網路自動語義匹配的方法，以消除目前圖像分割演算法的局限性。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※DeepMind的強化學習：從無監督輔助到情境控制
※大腦的啟發，從高性能低功耗人工突觸到擬動物大腦實現連續學習
※深度學習在NLP領域成績斐然，計算語言學家該不該驚慌？
※專訪｜IBM提出商業人工智慧，看好中國機遇

TAG:機器之心 |

您可能感興趣

※KindEditor開源富文本編輯框架XSS漏洞
※從Facebook AI Research開源fastText談文本分類：詞向量模性、深度表徵等
※谷歌I/O走進TensorFlow開源模型世界：從圖像識別到語義理解
※Google、Adobe 再度攜手，推出新款開源字體「思源宋體」
※Facebook 開源 JS 代碼優化工具 Prepack；GCC 7.1 發布；李彥宏再度強調 AI 轉型決心
※OpenStreetCam讓街景視圖開源化
※踢掉 FB+PL：Apache 的開源激進宣言？
※GitHub使用Electron重寫桌面客戶端；微軟小冰推出詩集；Facebook開源AI對話框架
※重磅：Adobe聯合Google發布全新開源字體「思源宋體」
※Valve推出開源VR音頻解決方案Steam Audio
※微軟攜Facebook推出開源AI資源分享平台ONNX
※愛開源的微軟是如何擊敗 Facebook、Google 成為 GitHub No.1 的？
※微軟擬推第二代HoloLens全息處理器；騰訊開源深度學習框架ncnn
※TensorFLow可應用於Android Things的物聯網；GitHub發布開源指南
※快速切換hosts文件的開源程序SwitchHosts
※不敵GitHub：微軟開源平台CodePlex關門
※Forrester：開源APM發展勢頭強勁
※蘋果在GitHub上正式開源iOS內核源碼
※XSS OR 開源，Hack with JavaScript