必讀！2018最具突破性計算機視覺論文Top 10

新聞 02-15

打開今日頭條，查看更多圖片

【新智元導讀】本文總結了2018年以來最重要的10篇計算機視覺/圖像生成相關的研究，包括許多新穎的架構設計，圖像生成方面的突破等。

自從卷積神經網路在特定的圖像識別任務上開始超越人類以來，計算機視覺領域的研究一直在飛速發展。

CNN(或ConvNets)的基本架構是在20世紀80年代開發的。Yann LeCun在1989年通過使用反向傳播訓練模型識別手寫瘦子，改進了最初的設計。

自那以後，這個領域取得了長足的進步。

在2018年，我們看到計算機視覺領域出現了許多新穎的架構設計，這些設計改進性能基準，也擴大了機器學習的模型可以分析的媒介範圍。

在圖像生成方面，我們也看到了一些突破，包括逼真的風格轉換、高解析度的圖像生成和視頻到視頻的合成。

我們在不久前總結了2018年的頂級機器學習論文。由於計算機視覺和圖像生成對於AI應用的重要性和普及性，本文中，我們總結了2018年最重要的10篇視覺相關的研究。

以下是我們精選的2018必讀計算機視覺論文Top 10：

Spherical CNNs
Adversarial Examples that Fool both Computer Vision and Time-Limited Humans
A Closed-form Solution to Photorealistic Image Stylization
Group Normalization
Taskonomy: Disentangling Task Transfer Learning
Self-Attention Generative Adversarial Networks
GANimation: Anatomically-aware Facial Animation from a Single Image
Video-to-Video Synthesis
Everybody Dance Now
Large Scale GAN Training for High Fidelity Natural Image Synthesis

1、球形CNN

標題：Spherical CNNs

作者：Taco S. Cohen, Mario Geiger, Jonas Koehler, Max Welling

https://arxiv.org/abs/1801.10130

論文摘要

卷積神經網路（CNN）可以很好的處理二維平面圖像的問題。然而，對球面圖像進行處理需求日益增加。例如，對無人機、機器人、自動駕駛汽車、分子回歸問題、全球天氣和氣候模型的全方位視覺處理問題。將球形信號的平面投影作為卷積神經網路的輸入的這種天真做法是註定要失敗的，因為這種投影引起的空間扭曲會導致CNN無法共享權重。

這篇論文介紹了球形CNN的基本構建塊。我們提出了利用廣義傅里葉變換（FFT）進行快速群卷積（互相關）的操作。我們證明了球形CNN在三維模型識別和分子能量回歸分析中的計算效率、數值精度和有效性。

概要總結

汽車、無人機和其他機器人使用的全向攝像機能夠捕捉到它們周圍環境的球形圖像。我們可以通過將這些球形信號投射到平面上並使用CNN來分析它們。然而，球形信號的任何平面投影都會導致失真。為了解決這個問題，來自阿姆斯特丹大學的研究小組引入了球形CNN的理論，這種網路可以分析球形圖像，而不會被扭曲所欺騙。該方法在3D形狀和球形MNIST圖像的分類以及分子能量回歸分析(計算化學中的一個重要問題)中都有很好的效果。

核心思想

球形信號的平面投影會導致嚴重的失真，因為有些區域看起來比實際面積大或小。
傳統的CNN對於球形圖像來說是無效的，因為當物體在球體周圍移動時，它們也會出現收縮和拉伸(試想一下，地圖上格陵蘭島看起來比它實際要大得多)。
解決方案是使用球形CNN，它對輸入數據中的球形旋轉具有穩健性。球形神經網路通過保持輸入數據的原始形狀，平等地對待球面上的所有對象而不失真。

最重要的成果

提出了構建球形CNN的數學框架。
提供了易於使用、快速且內存高效的PyTorch代碼來實現這些CNN。
為球形CNN在旋轉不變學習問題中的應用提供了第一個經驗支持：
球形MNIST圖像的分類
3D形狀分類，
分子能量回歸分析。

AI社區的評價

這篇論文獲得了ICLR 2018年的最佳論文獎，ICLR是一個領先的機器學習會議。

未來研究方向

為球體開發一個可操縱的CNN來分析球體上向量束的截面(例如，風向)。
將數學理論從2D球面擴展到3D點雲，用於在反射和旋轉下不變的分類任務。

可能的應用

能夠分析球面圖像的模型可以應用於以下問題：
無人機、機器人和自動駕駛汽車的全向視覺;
計算化學中的分子回歸問題
全球天氣和氣候模型。

代碼

作者在GitHub上提供了這篇論文的原始實現：

https://github.com/jonas-koehler/s2cnn

2、同時愚弄視覺系統和人類的對抗樣本

標題：Adversarial Examples that Fool both Computer Vision and Time-Limited Humans

作者：Gamaleldin F. Elsayed, Shreya Shankar, Brian Cheung, Nicolas Papernot, Alex Kurakin, Ian Goodfellow, Jascha Sohl-Dickstein

https://arxiv.org/abs/1802.08195

論文摘要

機器學習模型很容易受到對抗性樣本(adversarial examples)的影響：圖像中的微小變化會導致計算機視覺模型出錯，比如把一輛校車誤識別成鴕鳥。然而，人類是否容易犯類似的錯誤，這仍然是一個懸而未決的問題。在這篇論文中，我們通過利用最近的技術來解決這個問題，這些技術可以將具有已知參數和架構的計算機視覺模型轉換為具有未知參數和架構的其他模型，並匹配人類視覺系統的初始處理。我們發現，在計算機視覺模型之間強烈轉移的對抗性樣本會影響有時間限制的人類觀察者做出的分類。

概要總結

谷歌大腦的研究人員正在尋找這個問題的答案：那些不是特定於模型的對抗樣本，並且可以在不訪問模型的參數和架構的情況下欺騙不同的計算機視覺模型，是否同時也可以欺騙有時間限制的人類？他們利用機器學習、神經科學和心理物理學的關鍵思想，創造出對抗性樣本，這些樣本確實在時間有限的設置下影響人類的感知。因此，這篇論文介紹了一種人類和機器之間共享的錯覺。

必讀！2018最具突破性計算機視覺論文Top 10

核心思想

在第一步中，研究人員使用黑盒對抗性樣本構建技術，在不訪問模型架構或參數的情況下創建對抗性示例。
然後，他們調整計算機視覺模型來模擬人類最初的視覺過程，包括：
在每個模型前面加上視網膜層，視網膜層對輸入進行預處理，從而結合人眼執行的一些轉換;
對圖像進行偏心依賴的模糊處理，以接近受試者的視覺皮層通過其視網膜晶格接收到的輸入。
人類的分類決策在一個有時間限制的環境中進行評估，以檢測人類感知中的細微影響。

最重要的成果

表明在計算機視覺模型之間傳遞的對抗性樣本也成功地影響了人類的感知。
證明了卷積神經網路與人類視覺系統的相似性。

AI社區的評價

這篇論文在AI社區得到廣泛討論。儘管大多數研究人員對這些結果感到震驚，但一些人認為，我們需要對對抗性圖像進行更嚴格的定義，因為如果人類將受到干擾的貓圖像歸類為狗，那麼它很可能已經是狗，而不是貓了。

未來研究方向

研究哪些技術對於將對抗性樣本轉移到人類身上是至關重要的(視網膜預處理，模型集成)。

可能的應用

從業者應該考慮這樣一種風險，即圖像可能被操縱，導致人類觀察者產生不尋常的反應，因為對抗性樣本可能會在我們意識不到的情況下影響我們。

3、照片級逼真的圖像風格

標題：A Closed-form Solution to Photorealistic Image Stylization

作者：Yijun Li, Ming-Yu Liu, Xueting Li, Ming-Hsuan Yang, Jan Kautz

https://arxiv.org/abs/1802.06474

論文摘要

照片級逼真的圖像風格化涉及到將參考照片的風格轉換為內容照片，其約束條件是，經過風格化的照片應保持照片級逼真程度。雖然存在多種逼真的圖像風格化方法，但它們往往會產生具有明顯偽影的空間不一致。在這篇論文中，我們提出一種解決這些問題的方法。

該方法由風格化步驟(stylization step)和平滑步驟(smoothing step)組成。當風格化步驟將引用照片的樣式轉換為內容照片時，平滑步驟確保空間上一致的樣式化。每個步驟都有一個封閉的解決方案，可以有效地計算。我們進行了廣泛的實驗驗證。結果表明，與其他方法相比，該方法生成的逼真風格輸出更受受試者的青睞，同時運行速度更快。源代碼和其他結果可在https://github.com/NVIDIA/FastPhotoStyle獲得。

概要總結

英偉達(NVIDIA)和加州大學默塞德分校的研究團隊提出了一種新的解決照片級圖像風格化的方法——FastPhotoStyle。該方法包括兩個步驟：風格化和平滑化。大量的實驗表明，該方法生成的圖像比以前的最先進的方法更真實、更引人注目。更重要的是，由於採用封閉式的解決方案，FastPhotoStyle生成風格化圖像的速度比傳統方法快49倍。

必讀！2018最具突破性計算機視覺論文Top 10

核心思想

照片級真實的圖像風格化的目標是在保持輸出圖像逼真的同時，將參考照片的風格轉換為內容照片。
任務分為風格化和平滑化兩個步驟：
風格化步驟是基於增白和著色變換(WCT)，通過特徵投影處理圖像。然而，由於WCT是為藝術圖像的風格化而開發的，因此，它常常會生成用於照片級真實圖像風格化的結構構件。為了解決這個問題，本文引入了PhotoWCT方法，將WCT中的上採樣層替換為非池化層，從而保留了更多的空間信息。
平滑步驟用於解決第一步之後可能出現的空間不一致的樣式。平滑基於流形排序演算法。
這兩個步驟都具有封閉形式的解決方案，這意味著可以通過固定數量的操作(即，卷積、最大池化、增白等)。因此，計算比傳統方法更有效。

最重要的成果

提出了一種新的圖像風格化化方法：FastPhotoSyle，其中:
通過渲染更少的結構偽影和不一致樣式，從而比藝術風格化演算法表現更好；
通過不僅合成風格照片中色彩，而且合成風格照片的圖案，從而優於照片級真實的風格化演算法。
實驗表明，在風格化化效果(63.1%)和光真實感(73.5%)方面，用戶更喜歡FastPhotoSyle的結果，而不是之前的最先進的技術。
FastPhotoSyle可以在13秒內合成一張解析度為1024 x 512的圖像，而之前最先進的方法需要650秒才能完成相同的任務。

AI社區的評價

該論文在歐洲計算機視覺會議ECCV 2018上發表。

未來研究方向

找到一種從風格照片遷移小圖案的方法，因為這篇論文提出的方法可以將它們平滑化。
探索進一步減少風格化照片中的結構偽影數量的可能性。

可能的應用

內容創建者可以從照片級真實的圖像風格化技術中獲得很大的好處，因為該技術基本上允許你根據適合的內容自動更改任何照片的風格。
攝影師們也將受到這項技術的影響。

代碼

NVIDIA團隊提供了該論文在GitHub上的原始實現：

https://github.com/NVIDIA/FastPhotoStyle

4、Group Normalization

標題：Group Normalization

作者：吳育昕, 何愷明

https://arxiv.org/abs/1803.08494

論文摘要

批標準化(Batch Normalization, BN)是深度學習進展中的一項里程碑式技術，它使各種網路都能進行訓練。但是，沿batch dimension進行標準化會帶來一些問題——由於批統計估計不準確，當batch size變小時，BN的誤差會迅速增大。這限制了BN用於訓練更大模型和將特徵遷移到計算機視覺任務(包括檢測、分割和視頻)的用途，這些任務受內存消耗限制，需要小的batch size。

在這篇論文中，我們提出了組標準化(Group Normalization ，GN)，作為BN的簡單替代。GN將通道劃分為組，並在每個組內計算均值和方差以進行標準化。GN的計算獨立於batch sizes，在各種範圍的batch sizes精度穩定。

在ImageNet上訓練的ResNet-50，當batch size 為2時，GN的誤差比BN小10.6%；在使用典型 batch size時，GN與BN一般好，並且優於其他標準化變體。此外，GN可以很自然地從預訓練過渡到 fine-tuning。GN在COCO的目標檢測和分割任務，以及在Kinetics的視頻分類任務中都優於基於BN的同類演算法，這表明GN可以在各種任務中有效地替代強大的BN。GN可以通過現代庫中的幾行代碼輕鬆實現。

概要總結

Facebook AI研究團隊建議使用Group Normalization (GN)代替Batch Normalization (BN)。這篇論文的作者是FAIR的吳育昕和何愷明，他們認為，對於small batch sizes，BN的錯誤會急劇增加。這限制了BN的使用，因為當使用大型模型來解決計算機視覺任務時，由於內存限制而需要小的batch sizes。相反，Group Normalization與batch sizes無關，因為它將通道劃分為組，並計算每個組內標準化的均值和方差。實驗證實，GN在目標檢測、分割、視頻分類等多種任務中都優於BN。

必讀！2018最具突破性計算機視覺論文Top 10

核心思想

Group Normalization是Batch Normalization的一個簡單替代方法，特別是在batch size較小的場景中，例如需要高解析度輸入的計算機視覺任務。
GN只探索層的維數，因此它的計算是獨立於batch size的。具體地說，GN將通道或特徵映射劃分為組，並在每個組內對特徵標準化。
Group Normalization可以通過PyTorch和TensorFlow中的幾行代碼輕鬆實現。

最重要的成果

提出了Group Normalization，一種新的有效的歸一化方法。
評估了GN在各種應用中的表現，並表明:
GN的計算獨立於batch sizes，在大範圍的batch sizes中精度穩定。例如，對於batch size為2的ImageNet訓練的ResNet-50, GN的錯誤率比基於BN的模型低10.6%。
GN也可以轉移到fine-tuning。實驗表明，在COCO數據集的目標檢測和分割任務，以及Kinetics數據集的視頻分類任務，GN優於BN。

AI社區的評價

該論文在ECCV 2018上獲得了最佳論文提名。
根據Arxiv Sanity Preserver，這篇論文也是2018年第二受歡迎的論文。

未來研究方向

將group normalization應用到序列模型或生成模型。
研究GN在強化學習的學習表示方面的表現。
探索GN與合適的正則化項相結合能否改善結果。

可能的應用

依賴基於BN的模型進行對象檢測、分割、視頻分類和其他需要高解析度輸入的計算機視覺任務的應用可能會受益於基於GN的模型，因為它們在這些設置中更準確。

代碼

FAIR團隊提供Mask R-CNN基線結果和使用Group normalize訓練的模型：

https://github.com/facebookresearch/Detectron/tree/master/projects/GN

GitHub上也提供了使用PyTorch實現的group normalization：

https://github.com/chengyangfu/pytorch-groupnormalization

5、分解任務遷移學習

標題：Taskonomy: Disentangling Task Transfer Learning

By Amir R. Zamir，Alexander Sax，William Shen，Leonidas J. Guibas，Jitendra Malik，Silvio Savarese（2018）

https://arxiv.org/abs/1804.08328

論文摘要

視覺任務之間有關聯嗎？例如，表面法線可以簡化對圖像深度的估計嗎？直覺回答了這些問題，暗示了視覺任務中存在結構。了解這種結構具有顯著的價值;它是遷移學習的基本概念，提供了一種原則性的方法來識別任務之間的冗餘。

我們提出了一種完全計算的可視化任務空間結構建模方法。這是通過在潛在空間中的二十六個2D，2.5D，3D和語義任務的字典中查找（一階和更高階）傳遞學習依賴性來完成的。該產品是用於任務遷移學習的計算分類映射。我們研究這種結構的結果，例如出現的非平凡關係，並利用它們來減少對標記數據的需求。例如，我們展示了在保持性能幾乎相同的情況下，解決一組10個任務所需的標記數據點的總數可以減少大約2/3（與獨立訓練相比）。我們提供了一組用於計算和探測這種分類結構的工具，包括一個解決程序，用戶可以使用它來為他們的用例設計有效的監督策略。

概覽

自現代計算機科學的早期以來，許多研究人員就斷言視覺任務之間存在一個結構。現在Amir Zamir和他的團隊試圖找到這個結構。他們使用完全計算的方法建模，並發現不同可視化任務之間的許多有用關係，包括一些重要的任務。他們還表明，通過利用這些相互依賴性，可以實現相同的模型性能，標記數據要求大約減少2/3。

必讀！2018最具突破性計算機視覺論文Top 10

核心思想

了解不同可視化任務之間關係的模型需要更少的監督、更少的計算和更可預測的行為。
一種完整的計算方法來發現視覺任務之間的關係是可取的，因為它避免了強加的、可能是不正確的假設：先驗來自於人類的直覺或分析知識，而神經網路可能在不同的原理上運作。

最重要的成果

識別26個常見視覺任務之間的關係，如目標識別、深度估計、邊緣檢測和姿態估計。
展示這個結構如何幫助發現對每個視覺任務最有效的遷移學習類型。

AI社區的評價

該論文在計算機視覺與模式識別重要會議CVPR 2018上獲得了最佳論文獎。
結果非常重要，因為對於大多數實際任務，大規模標記數據集不可用。

未來研究方向

從一般的視覺任務完全由人類定義的模型，轉向將人類定義的視覺任務視為由計算髮現的潛在子任務組成的觀察樣本的方法。
探索將發現轉化為不完全是視覺任務的可能性。

可能的應用

在本文中發現的關係可以用來構建更有效的視覺系統，這個系統將需要更少的標記數據和更低的計算成本。

代碼

https://github.com/StanfordVL/taskonomy/tree/master/taskbank

6、自注意力生成對抗網路

標題：Self-Attention Generative Adversarial Networks

作者：Han Zhang, Ian Goodfellow, Dimitris Metaxas, Augustus Odena

https://arxiv.org/abs/1805.08318

論文摘要

在這篇論文中，我們提出了自注意力生成對抗網路(SAGAN)，它允許對圖像生成任務進行注意力驅動、長期依賴關係建模。

在低解析度特徵圖中，傳統的卷積GAN只根據空間局部點生成高解析度細節。在SAGAN中，可以使用來自所有特徵位置的線索生成細節。此外，該鑒別器還可以檢查圖像中較遠部分的細節特徵是否一致。

最近的研究表明，生成器的調節會影響GAN的性能。利用這一點，我們將頻譜歸一化應用於GAN發生器，並發現這改善了訓練的動態性。

在具有挑戰性的ImageNet數據集上，提出的SAGAN實現了最佳的結果，將最佳Inception分數從36.8提高到52.52，並將Frechet Inception距離從27.62降低到18.65。注意力層的可視化顯示，生成器利用的是與對象形狀對應的鄰域，而不是固定形狀的局部區域。

概要總結

傳統的卷積神經網路在圖像合成方面顯示了較為優秀的結果。然而，它們至少有一個重要的弱點——單獨的卷積層無法捕捉圖像中的幾何和結構模式。由於卷積是一種局部操作，所以左上方的輸出幾乎不可能與右下方的輸出有任何關係。

本文介紹了一個簡單的解決方案 - 將自注意力機制納入GAN框架。該解決方案與幾種穩定技術相結合，有助於自注意力生成對抗網路（SAGAN）在圖像合成中實現最佳的結果。

必讀！2018最具突破性計算機視覺論文Top 10

核心思想

單獨的卷積層在計算圖像中的長程依賴關係計算時效率低。相反，將自注意機制融入到GAN框架中，將使生成器和鑒別器都能夠有效地建模廣泛分離的空間區域之間的關係。
自注意力模塊將一個位置的響應計算為所有位置特徵的加權和。
以下技術有助於在具有挑戰性的數據集上穩定GAN的訓練：
對發生器和鑒別器應用光譜歸一化。研究人員認為，鑒別器和發生器都能從光譜歸一化中受益，因為它可以防止參數幅度的增大，避免異常梯度。
對發生器和鑒別器使用單獨的學習速率來補償正則化鑒別器中慢學習的問題，並使每個鑒別器步驟使用更少的發生器步驟成為可能。

最重要的成果

事實上，將自注意力模塊合併到GAN框架中可以有效地建模長期依賴關係。
驗證了所提出的穩定化技術在GAN訓練中的有效性。特別是表明：
應用於生成器的頻譜歸一化穩定了GAN訓練；
利用不均衡的學習速率可以加快正規化鑒別器的訓練。
通過將Inception的分數從36.8提高到52.52，並將Frechet Inception的距離從27.62降低到18.65，從而在圖像合成方面獲得最先進的結果。

AI社區的評價

威斯康星大學麥迪遜分校統計學助理Sebastian Raschka教授表示：「這個想法簡單直觀，卻非常有效，而且易於實施。」

未來研究方向

探索減少GAN產生的奇怪樣本數量的可能性

可能的應用

使用GAN進行圖像合成可以替代用於廣告和電子商務目的的昂貴手工媒體創建。

代碼

GitHub上提供了自注意力GAN的PyTorch和TensorFlow實現。

PyTorch：

https://github.com/heykeetae/Self-Attention-GAN

TensorFlow：

https://github.com/brain-research/self-attention-gan

7、GANimation

標題：從單個圖像中獲取具有人臉解剖結構的面部動畫

作者：Albert Pumarola, Antonio Agudo, Aleix M. Martinez, Alberto Sanfeliu, Francesc Moreno-Noguer

https://arxiv.org/abs/1807.09251

論文摘要

若是能單憑一張圖像就能自動地將面部表情生成動畫，那麼將會為其它領域中的新應用打開大門，包括電影行業、攝影技術、時尚和電子商務等等。隨著生成網路和對抗網路的流行，這項任務取得了重大進展。像StarGAN這樣的結構不僅能夠合成新表情，還能改變面部的其他屬性，如年齡、發色或性別。雖然StarGAN具有通用性，但它只能在離散的屬性中改變面部的一個特定方面，例如在面部表情合成任務中，對RaFD數據集進行訓練，該數據集只有8個面部表情的二元標籤（binary label），分別是悲傷、中立、憤怒、輕蔑、厭惡、驚訝、恐懼和快樂。

為達到這個目的，我們使用EmotioNet數據集，它包含100萬張面部表情(使用其中的20萬張)圖像。並且構建了一個GAN體系結構，其條件是一個一維向量：表示存在/缺失以及每個動作單元的大小。我們以一種無監督的方式訓練這個結構，僅需使用激活的AUs圖像。為了避免在不同表情下，對同一個人的圖像進行訓練時出現冗餘現象，將該任務分為兩個階段。首先，給定一張訓練照片，考慮一個基於AU條件的雙向對抗結構，並在期望的表情下呈現一張新圖像。然後將合成的圖像還原到原始的樣子，這樣可以直接與輸入圖像進行比較，並結合損失來評估生成圖像的照片級真實感。此外，該系統還超越了最先進的技術，因為它可以在不斷變化的背景和照明條件下處理圖像。

概要總結

本文介紹了一種新的GAN模型，該模型能夠在不斷變化的背景和光照條件下，從單個圖像生成具有解剖學感知的面部動畫。而在此之前，只能解決離散情感類編輯和人像圖像的問題。該方法通過將面部變形編碼為動作單元來呈現多種情緒。即使在具有挑戰性的光照條件和背景，得到的動畫演示了一個非常平滑和一致的轉換幀。

必讀！2018最具突破性計算機視覺論文Top 10

核心思想

面部表情可以用動作單元（AU）來描述，其在解剖學上描述特定面部肌肉的收縮。例如，「恐懼」的面部表情通常通過以下激活產生：Inner Brow Raiser（AU1），Outer Brow Raiser（AU2），Brow Lowerer（AU4），Upper Lid Raiser（AU5），Lid Tightener（AU7），Lip Stretcher（AU20）和Jaw Drop（AU26）。每個AU的大小定義了情緒的程度。
合成人臉動畫的模型是基於GAN架構的，它以一維向量為條件，表示每個動作單元的存在/不存在和大小。
為了避免同一人在不同表情下的訓練圖像對的需要，使用雙向發生器將圖像轉換成所需的表情，並將合成的圖像轉換回原始姿態。
為了在不斷變化的背景和光照條件下處理圖像，該模型包括一個注意力層，該注意力層只將網路的動作集中在圖像中與表達新表情相關的區域。

最重要的成果

引入一種全新的GAN模型用於野外人臉動畫，該模型可以在完全無監督的情況下進行訓練，並在具有挑戰性的光照條件和非真實世界數據的情況下，通過幀間非常平滑和一致的轉換生成具有視覺吸引力的圖像。
演示如何通過在GAN已經看到的情緒之間進行插值來生成更豐富的情緒。

AI社區的評價

該論文在歐洲計算機視覺會議(ECCV 2018)上獲得了榮譽獎。

未來研究方向

將該方法應用於視頻序列。

可能的應用

這項技術可以從一張圖片中自動生成面部表情動畫，可以應用於時尚界和電子商務、電影行業、攝影技術等多個領域。

代碼

作者提供了本研究論文在GitHub上的原始實現地址：

https://github.com/albertpumarola/GANimation

8、視頻到視頻的合成

標題：視頻到視頻的合成Video-to-Video Synthesis

作者：Ting-Chun Wang, Ming-Yu Liu, Jun-Yan Zhu, Guilin Liu, Andrew Tao, Jan Kautz, Bryan Catanzaro

https://arxiv.org/abs/1808.06601

論文摘要

本文研究的問題是視頻到視頻(Video-to-Video)的合成，其目標是學習一個映射函數從一個輸入源視頻(例如，語義分割掩碼序列)到一個輸出逼真的視頻，準確地描述了源視頻的內容。

與之對應的圖像到圖像的合成問題是一個熱門話題，而視頻到視頻的合成問題在文獻中研究較少。在不了解時間動態的情況下，直接將現有的圖像合成方法應用於輸入視頻往往會導致視頻在時間上不連貫，視覺質量低下。

本文提出了一種在生成對抗學習框架下的視頻合成方法。通過精心設計的生成器和鑒別器架構，再加上時空對抗目標，可以在一組不同的輸入格式(包括分割掩碼、草圖和姿勢)上獲得高解析度、逼真的、時間相干的視頻結果。

在多個基準上的實驗表明，與強基線相比，本文的方法具有優勢。特別是該模型能夠合成長達30秒的街道場景的2K解析度視頻，大大提高了視頻合成的技術水平。最後，將該方法應用於未來的視頻預測，表現優於幾個最先進的系統。

概要總結

英偉達的研究人員引入了一種新的視頻合成方法。該框架基於條件甘斯。具體地說，該方法將精心設計的發生器和鑒別器與時空對抗性目標相結合。實驗表明，所提出的vid2vid方法可以在不同的輸入格式(包括分割掩碼、草圖和姿勢)上合成高解析度、逼真、時間相干的視頻。它還可以預測下一幀，其結果遠遠優於基線模型。

必讀！2018最具突破性計算機視覺論文Top 10

核心思想

視頻幀可以按順序生成，每個幀的生成只取決於三個因素：
電流源幀；
之前的兩個源幀；
之前兩個生成的幀。
使用多個鑒別器可以緩解GAN訓練過程中的模式崩潰問題：
條件圖像鑒別器確保每個輸出幀類似於給定相同源圖像的真實圖像；
條件視頻鑒別器確保連續輸出幀類似於給定相同光流的真實視頻的時間動態。
在生成器設計中，前背景先驗進一步提高了模型的綜合性能。
使用軟遮擋掩碼代替二進位可以更好地處理「放大」場景：我們可以通過逐漸混合扭曲像素和新合成像素來添加細節。

最重要的成果

在視頻合成方面優於強基線：
生成高解析度(2048х2048)、逼真、時間相干視頻30秒；
根據採樣不同的特徵向量，輸出多個具有不同視覺外觀的視頻。
在未來的視頻預測中優於基線模型：
開源了一個PyTorch技術的實現。此代碼可用於：
將語義標籤轉換為現實世界的視頻；
從邊緣映射生成正在說話的人的多個輸出；
在給定的姿勢下生成整個人體。

AI社區的評價

藝術家兼程序員吉恩·科根(Gene Kogan)說：「英偉達的新vid2vid是第一個開源代碼，它可以讓你從一個源視頻中令人信服地偽造任何人的臉。」
這篇論文也受到了一些批評，因為有人擔心它可能被用來製作深度偽造或篡改的視頻，從而欺騙人們。

未來研究方向

使用對象跟蹤信息，確保每個對象在整個視頻中具有一致的外觀。
研究是否使用較粗糙的語義標籤訓練模型將有助於減少在語義操縱之後出現的可見偽像（例如，將樹木變成建築物）。
添加額外的3D線索，如深度地圖，以支持汽車轉彎的合成。

可能的應用

市場營銷和廣告可以從vid2vid方法創造的機會中獲益(例如，在視頻中替換面部甚至整個身體)。然而，這應該謹慎使用，需要想到道德倫理方面的一些顧慮。

代碼

英偉達團隊提供了本研究論文在GitHub上的原始實現的代碼：

https://github.com/NVIDIA/vid2vid

9、人人來跳舞

標題：人人都在跳舞

作者：Caroline Chan, Shiry Ginosar, Tinghui Zhou, Alexei A. Efros

https://arxiv.org/abs/1808.07371

論文摘要

本文提出了一種簡單的「按我做」的動作轉移方法：給定一個人跳舞的源視頻，我們可以在目標對象執行標準動作幾分鐘後將該表演轉換為一個新的(業餘)目標。

本文提出這個問題作為每幀圖像到圖像的轉換與時空平滑。利用位姿檢測作為源和目標之間的中間表示，我們調整這個設置為時間相干視頻生成，包括現實的人臉合成。學習了從位姿圖像到目標對象外觀的映射。視頻演示可以在https://youtu.be/PCBTZh41Ris找到。

概要總結

加州大學伯克利分校的研究人員提出了一種簡單的方法，可以讓業餘舞蹈演員像專業舞蹈演員一樣表演，從而生成視頻。如果你想參加這個實驗，你所需要做的就是錄下你自己表演一些標準動作的幾分鐘的視頻，然後拿起你想要重複的舞蹈的視頻。

神經網路將完成主要工作：它將問題解決為具有時空平滑的每幀圖像到圖像的轉換。通過將每幀上的預測調整為前一時間步長的預測以獲得時間平滑度並應用專門的GAN進行逼真的面部合成，該方法實現了非常驚人的結果。

必讀！2018最具突破性計算機視覺論文Top 10

核心思想

「跟我做」動傳遞被視為每幀圖像到圖像的平移，姿勢棒圖作為源和目標之間的中間表示
預先訓練的最先進的姿勢檢測器根據源視頻創建姿勢棒圖；
應用全局姿勢標準化來解釋框架內的體形和位置中的源和目標主體之間的差異；
標準化的姿勢棒圖被映射到目標對象。
為了使視頻流暢，研究人員建議在先前生成的幀上調節發生器，然後將兩個圖像提供給鑒別器。姿勢關鍵點上的高斯平滑允許進一步減少抖動。
為了生成更逼真的面部，該方法包括額外的面部特定GAN，其在主生成完成之後刷新面部。

最重要的成果

根據定性和定量評估，提出了一種優於強基線(pix2pixHD)的運動傳輸新方法。
演示特定於人臉的GAN為輸出視頻添加了相當多的細節。

AI社區的評價

谷歌大腦的技術人員湯姆·布朗(Tom Brown)說：「總的來說，我覺得這真的很有趣，而且執行得很好。期待代碼的公布，這樣我就可以開始訓練我的舞步了。」
Facebook人工智慧研究工程師Soumith Chintala說：「卡洛琳·陳(Caroline Chan)、阿廖沙·埃夫羅斯(Alyosha Efros)和團隊將舞蹈動作從一個主題轉移到另一個主題。只有這樣我才能跳得好。了不起的工作! ! !」

未來研究方向

用時間相干的輸入和專門為運動傳輸優化的表示來替換姿態棒圖。

可能的應用

「跟我做」在製作營銷和宣傳視頻時，可能會應用動作轉移來替換主題。

代碼

本研究論文的PyTorch實現可在GitHub上獲得：

https://github.com/nyoki-mtl/pytorch-EverybodyDanceNow

10、用於高保真自然圖像合成的大規模GAN訓練

標題：Large Scale GAN Training For High Fidelity Natural Image Synthesis

By Andrew Brock，Jeff Donahue，Karen Simonyan（2018）

https://arxiv.org/abs/1809.11096

論文摘要

儘管生成圖像建模最近取得了進展，但從ImageNet等複雜數據集成功生成高解析度、多樣化的樣本仍然是一個難以實現的目標。為此，我們在最大的規模下進行了生成對抗網路的訓練，並研究了這種規模下的不穩定性。我們發現，將正交正則化應用於發生器，使其服從於一個簡單的「截斷技巧」，可以允許通過截斷潛在空間來精細控制樣本保真度和多樣性之間的權衡。我們的修改使得模型在類條件圖像合成中達到了新的技術水平。當我們在ImageNet上以128×128解析度進行訓練時，我們的模型（BigGAN）的初始得分（IS）為166.3，Frechet初始距離（FID）為9.6。

概覽

DeepMind團隊發現，當前的技術足以從現有數據集(如ImageNet和JFT-300M)合成高解析度、多樣化的圖像。他們特別指出，生成對抗網路(GANs)可以生成看起來非常逼真的圖像，如果它們在非常大的範圍內進行訓練，即使用比以前實驗多2到4倍的參數和8倍的批處理大小。這些大規模的GAN，或BigGAN，是類條件圖像合成的最新技術。

必讀！2018最具突破性計算機視覺論文Top 10

核心思想

隨著批（batch）大小和參數數量的增加，GAN的性能更好。
將正交正則化應用到生成器中，使模型響應特定的技術（「截斷技巧」），該技術提供了對樣本保真度和多樣性之間的權衡的控制。

最重要的成果

證明GAN可以從scaling中獲益；
構建允許顯式、細粒度地控制樣本多樣性和保真度之間權衡的模型；
發現大規模GAN的不穩定性；
BigGAN在ImageNet上以128×128解析度進行訓練：初始得分（IS）為166.3，之前的最佳IS為52.52；Frechet Inception Distance (FID)為9.6，之前最好的FID為18.65。

AI社區的評價

該論文正在為ICLR 2019做準備；
自從Big Hub上線BigGAN發生器之後，來自世界各地的AI研究人員正在玩BigGAN，來生成狗，手錶，比基尼圖像，蒙娜麗莎，海濱以及更多主題。

未來研究方向

遷移到更大的數據集以減少GAN穩定性問題；
探索減少GAN產生的奇怪樣本數量的可能性。

可能的應用

取代昂貴的手工媒體創作，用於廣告和電子商務的目的。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 新智元 的精彩文章:

TAG:新智元 |

必讀！2018最具突破性計算機視覺論文Top 10

1、 球形CNN

2、同時愚弄視覺系統和人類的對抗樣本

3、照片級逼真的圖像風格

4、Group Normalization

5、分解任務遷移學習

6、自注意力生成對抗網路

7、GANimation

8、視頻到視頻的合成

9、人人來跳舞

10、用於高保真自然圖像合成的大規模GAN訓練

1、球形CNN