深度學習「一鍵P圖」：為原畫無縫添加新元素

新聞 04-16

把照片中的一個元素「複製粘貼」到繪畫作品上，很簡單？Nonono… 要想成品不像拼貼畫，二者風格一致甚至融為一體可沒有那麼容易～來自康奈爾大學和 Adobe Research 的研究者提出一種 two-pass 演算法，輕鬆實現快速無痕 P「畫」。

論文鏈接：https://arxiv.org/abs/1804.03189
項目GitHub：https://github.com/luanfujun/deep-painterly-harmonization

引言

圖像合成是創建新視覺內容的關鍵操作。它幫助藝術家將現有材料合成新的作品，Man Ray 和 David Hockney 等藝術家使用該技術創造了很多傑出作品。合成可用於不同的語境中。照片拼貼等應用希望有明顯的拼合痕迹，但其他應用希望使合成不易被人察覺，例如將一個對象添加到圖像中，使之好像原本就在圖像中一樣。

人們開發了很多工具進行照片合成，如移除邊界層 [PGB03]、匹配顏色 [XADR12] 或匹配細密結構 [SJMP10]。但是，沒有適合繪畫的工具。如果我們想在繪畫作品上添加對象，選擇就很有限了。你可以手動繪製該對象或使用繪畫引擎 [CKIW15]，但這需要時間和技巧（並沒有幾個人會）。為照片設計的演算法對於繪畫生成的結果低於標準，因為它們無法處理繪畫作品的畫刷紋理和抽象化。使用現有的繪畫風格化演算法效果也不好，因為它們是為全局風格化設計的，而我們想要尋求的是顏色、紋理和結構屬性的局部協調。

本論文中，研究者解決了這些挑戰，使得人們可以將圖像中的對象複製到繪畫作品中，且合成作品看起來就像原作一樣。研究者基於繪畫風格化方面的近期研究 [GEB16] 構建方法，以協調粘貼過來的對象的外觀，使之與原畫作匹配。研究者的策略是將繪畫作品的神經反應相關數據遷移到對象中，主要貢獻是如何確定哪些數據需要遷移。與之前研究類似，本論文使用 VGG 神經網路 [SZ14] 的反應作為推動該過程的數據。本論文展示了空間一致性和尺度間一致性的重要性。即，遷移來自畫作小片區域的數據比使用大量獨立位置得到的結果更好。此外，保存網路層之間的神經反應關聯性還可以提升輸出質量。為了達到這兩個目標，研究者引入了一種 two-pass 演算法：第一階段達到單一尺度的大致協調，作為第二階段的起點，來實現精細的多尺度改善。圖 1（右）顯示本文方法與相關技術的對比結果。

深度學習「一鍵P圖」：為原畫無縫添加新元素

圖 1：本論文提出的方法可以將元素與畫作合成到一起，並使元素與畫作相協調。左側是給出的畫作和元素，研究者展示了未調整的剪切複製結果、深度圖像類比（Deep Imange Analogy）[LYY? 17] 和本論文提出方法的合成結果。

研究者在多個樣本上執行了該方法。繪畫合成是一項要求很高的任務，因為合成的風格要和原作風格一致，否則一眼就可以看出來。因此，單獨看效果還不錯的全局風格化技術結果在合成語境中可能不太好，因為合成元素和原作並列在一起，很容易就能看出細微差別。研究者進行了一項用戶調研，結果顯示其演算法產生的合成結果通常被認為就是原作。

繪畫協調演算法（Painterly Harmonization Algorithm）

研究者設計了一種 two-pass 演算法以達到繪畫協調。之前的研究使用單程方法，如 Gatys et al. [GEB16] 將整個風格圖像匹配到整個輸入圖像中，然後在格拉姆矩陣上使用 L2 範數來重建最終結果。Li & Wand [LW16a] 使用最近鄰進行匹配，在激活向量上使用 L2 範數來重建最終結果。在早期實驗中，研究者發現此類單程策略在本論文研究背景中效果並沒有那麼好，結果未達到預期。於是研究者開發了一種 two-pass 方法，第一階段進行大致協調，第二階段精細化視覺質量（演算法 1）。

深度學習「一鍵P圖」：為原畫無縫添加新元素

第一階段生成了一個接近期望風格的中間結果，但是研究者這時的意圖並不是輸出最高質量的輸出。研究者放鬆了對質量的要求，設計了一個魯棒演算法，該演算法可以處理大量不同的風格。這一階段通過執行粘貼區域顏色、紋理屬性與畫作語義類似區域的對應屬性的粗略匹配，達到了大致的協調。研究者找到獨立於每一網路層的最近鄰神經 patch（演算法 3）來匹配粘貼區域和背景的神經反應。這提供了中間結果（圖 2b），對於第二階段來說是一個更好的起點。

深度學習「一鍵P圖」：為原畫無縫添加新元素

第二階段中，研究者從中間結果開始，聚焦於改善視覺質量。直觀來看，由於中間圖像和風格圖像在視覺上是非常接近的，因此研究者對輸出質量的要求更加嚴格。研究者研究捕捉圖像局部紋理屬性的單個中間層，生成一個對應映射，可用於移除空間異常值。之後研究者對該空間一致映射執行上採樣，以獲取網路的更精細層級，從而確保在每個輸出位置上，任意尺度的神經反應都來自畫作的同一位置（演算法 4）。這使得紋理更連貫流暢，結果看起來更好（圖 2c）。

深度學習「一鍵P圖」：為原畫無縫添加新元素

圖 2：從差異巨大的輸入和風格圖像開始（a），研究者首先協調粘貼元素的整體外觀（b），並細化結果，以精細化匹配紋理，移除偽影（c）。

繪畫估計器

上述演算法有兩個影響輸出風格屬性的重要參數——風格和直方圖權重（ws 和 whist）。我們觀察到，不同的參數集根據風格化程度的不同為不同畫作給出了最佳結果。例如，立體主義繪畫往往包含多面的小區域，這些區域具有強烈而銳利的筆觸，而文藝復興鼎盛時期和巴洛克時期的繪畫則更寫實。研究者沒有為每個輸入調整參數，而是開發了一個訓練過的權重估計器，使其權重選擇方法更加魯棒。

研究者訓練一個繪畫估計器來預測演算法的優化參數，以便在背景畫作風格更強烈時使用允許更深風格改變的參數，反之亦然。為了訓練這種估計器，研究者將參數值分成三個類別（「弱」、「中」、「強」），並手動將每個繪畫風格歸入其中一個類別。表 1 顯示了繪畫風格的子集及其類別和權重值（其他風格在補充材料中）。

深度學習「一鍵P圖」：為原畫無縫添加新元素

表 1：所選藝術風格的權重。其他藝術風格和參數權重詳見補充文檔。最後的權重是使用本文研究者訓練的繪畫估計器網路對不同藝術風格計算出的線性插值。TV 權重是根據繪畫圖像的雜訊水平單獨計算的（第 4 部分）。

研究者從 wikiart.org 收集了 8 萬幅繪畫作品，並調整 VGG-16 網路 [SZ14] 對 18 種不同風格進行分類。訓練結束後，去掉最後一個分類層，在基於風格類別的 softmax 層上使用加權線性插值輸出 ws 和 whist 的浮點值，ws 和 whist 表示風格化程度。然後在優化中使用這些參數值（如表 1 所示）。

深度學習「一鍵P圖」：為原畫無縫添加新元素

圖 7：在蒙娜麗莎（b）上粘貼 Ginevra de" Benci（a）的臉時，泊松混合 [PGB03] 無法匹配二者的紋理（c），Mulitscale Harmonization [SJMP10] 添加紋理但沒有復現畫作裂縫（d），Image Melding [DSB? 12] 添加裂縫，但不是處處添加，例如右側眼睛下方沒有裂縫（e）。相比之下，本論文的結果在各處都產生了裂縫（f）。

深度學習「一鍵P圖」：為原畫無縫添加新元素

圖 8：「編輯與否」用戶調查的結果。繪畫分類率越高，表明協調效果越好，因為用戶無法識別研究者所做的編輯。大圖標表示每個類別的平均值。

深度學習「一鍵P圖」：為原畫無縫添加新元素

圖 9：「對比」用戶調查的結果。在四種演算法中，本研究的演算法通常是最受歡迎的。

深度學習「一鍵P圖」：為原畫無縫添加新元素

圖 10：熱氣球（左上）的典型對象協調結果。

論文：Deep Painterly Harmonization

深度學習「一鍵P圖」：為原畫無縫添加新元素

論文鏈接：https://arxiv.org/abs/1804.03189

摘要：將圖像中的一個元素複製粘貼到繪畫作品中是一項難度很高的任務。在這一情境下，使用照片合成技術獲得的結果欠佳，看起來像拼貼畫。現有的全局繪畫風格化演算法在局部使用時性能也不好。我們使用一種專用演算法解決了這些問題，該演算法仔細確定要被遷移的局部數據。我們確保空間和尺度內數據的一致性，並展示了二者是生成高質量結果的關鍵。為了處理畫作的不同抽象水平和類型，我們引入了一種技術，根據具體畫作調整遷移參數。我們展示了該演算法生成的結果顯著優於照片合成或全局風格化技術，它使原本比較困難的有創造性的繪畫編輯成為可能。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※不出所料！ICLR 2018最佳論文：基於梯度的元學習演算法，可高效適應非平穩環境
※這是一份優美的信息圖，吳恩達點贊的deeplearning.ai課程總結

TAG:機器之心 |