UT-Austin提出新型端到端深度學習編解碼器，用圖像插值壓縮視頻

科技 04-23

圖源：unsplash

原文來源：arXiv

作者：Chao-Yuan Wu、Nayan Singhal、Philipp Kr?henbühl

「雷克世界」編譯：嗯~是阿童木呀、KABUDA、EVA

我們的數字通信、媒介消費和內容創作越來越多地圍繞著視頻展開。我們通過這些視頻分享、觀察和存檔我們生活的許多方面，而所有這些都是由強大的視頻壓縮驅動的。傳統的視頻壓縮是通過費力的手工設計和手工優化進行的。本文提出了一種端到端深度學習編解碼器的可選方案。我們的編解碼器建立在一個簡單的想法上：視頻壓縮是重複的圖像插值。因此，它得益於在深度圖像插值和生成方面的最新研究進展。我們的深度視頻編解碼器性能優於當今流行的編解碼器，比如H.261、MPEG-4 Part 2，並且與H.264的性能相媲美。

圖1：在電影《鋼鐵之淚》中，我們的端到端深度視頻壓縮演算法與MPEG-4 Part 2和H.264的比較。所有方法使用0.080 BPP。我們的模型比MPEG-4 Part 2提供更好的視覺質量，可與H.264相媲美。與傳統方法不同，我們的方法沒有塊偽影。與原始未壓縮的對照標準相比，MS-SSIM對視頻剪輯的圖像質量進行測量

視頻佔據著互聯網數據的最大份額，現在它佔據了所有互聯網流量的3/4。我們捕捉瞬間，分享記憶，並通過動態圖片互相娛樂，所有這些都是由強大的數碼相機和視頻壓縮驅動的。強大的壓縮可以顯著減少互聯網流量，節省存儲空間，並增加吞吐量。它驅動了諸如雲遊戲、實時高質量視頻流、3D和360度視頻等應用。視頻壓縮甚至有助於更好地理解和解析使用了深度神經網路的視頻。雖然有這些顯而易見的好處，但是視頻壓縮演算法仍然主要是手工設計的。當今最具競爭力的視頻編解碼器依賴於塊運動估計（block motion estimation）、殘差顏色模式（residual color pattern）和它們使用了離散餘弦變換（discrete cosine transform）和熵編碼（entropy coding）的編碼之間的複雜相互作用。雖然每個部分都經過精心設計，以儘可能地壓縮視頻，但整個系統並未進行聯合優化，而且基本上沒有受到端到端深度學習的影響。

本文介紹了，據我們所知的第一個進行了端到端訓練的深度視頻編解碼器。我們的編解碼器的主要洞察在於對視頻壓縮的不同看法：我們將視頻壓縮作為重複的圖像插值，並利用深度圖像生成和插值方面的最新研究進展。我們首先使用標準的深度圖像壓縮，對一系列錨幀（關鍵幀）進行編碼。然後，我們的編解碼器通過在相鄰錨幀之間進行內插以重新構造所有剩餘的幀。然而，這種圖像插值並不是唯一的。我們還為插值網路提供了一個小型的可壓縮代碼以消除不同插值的歧義，並儘可能忠實地對原始的視頻幀進行編碼。我們主要的技術挑戰是可壓縮圖像插值網路的設計。

圖2：我們的模型由壓縮關鍵幀的圖像壓縮模型和插入殘差幀的條件插值模型組成

我們介紹了一系列用於圖像插值的越來越強大並可壓縮的編碼器-解碼器架構。我們首先使用一個vanilla U-net插值架構來重構除關鍵幀之外的幀。這種架構很好地利用了時間上的重複靜態模式，但是它難以正確地消除移動模式軌跡的歧義。然後，我們直接將一個離線運動估計從塊運動估計或光流中結合到網路中。該新架構內插了使用預先計算的運動估計的空間U-net特徵，並在深度圖像壓縮上將壓縮率提高了一個數量級。這個模型捕獲了大多數但並不是全部我們重構框架所需的信息。另外，我們還訓練了一個編碼器，它可以提取不存在於任何源圖像中的內容，並將其簡潔地表示出來。最後，我們減少了所有剩餘的空間冗餘，並使用一個帶有自適應算術編碼的3D PixelCNN對它們進行壓縮。

為了進一步降低視頻碼率（bitrate），我們的視頻編解碼器（codec）以分層方式應用圖像插值。層次結構中每個連續層次都在更接近的參考幀之間進行插值，因此更加具有可壓縮性。層次結構中的每個級別都使用所有以前的解壓縮圖像。

我們將我們的視頻壓縮演算法與最先進的視頻壓縮（HEVC，H.264，MPEG-4 Part 2，H.261）以及各種圖像插值基線進行比較。我們在兩個未壓縮視頻標準數據集上對所有演算法進行了評估：視頻追蹤庫（VTL）和超視頻組（UVG）。我們另外收集了Kinetics數據集的一個子集用於訓練和測試。Kinetics子集包含高解析度的視頻，我們將其進行下採樣以去除YouTube上先前編解碼器引入的壓縮偽影。最終數據集包含280萬幀，根據MS-SSIM和PSNR測量所測量的結果顯示，我們的深度視頻編解碼器在壓縮率和視覺質量方面均優於所有深度學習基線，MPEG-4第2部分和H.261。我們能夠與最先進的H.264編解碼器相媲美。圖1顯示了一個可視化的比較。所有數據都是公開可用的。

圖3：我們以分層方式應用插值。層次結構中的每個級別都使用先前所解壓縮的圖像

視頻壓縮演算法必須指定一個用於壓縮視頻的編碼器，以及一個用於重建原始視頻的解碼器。編碼器和解碼器一起構成編解碼器（（codec））。編解碼器有一個主要目標：用儘可能少的比特數對一系列圖像進行編碼。大多數壓縮演算法在壓縮率和重構誤差之間找到了一個微妙的折衷。最簡單的編解碼器（如運動JPEG或GIF）獨立對每個幀進行編碼，並且嚴重依賴於圖像壓縮。

圖像壓縮，對於圖像來說，深度網路可以產生最先進的壓縮比，且具有令人印象深刻的重構質量。他們中的大多數都是通過一個小的二進位瓶頸層對一個自編碼器進行訓練，以直接使失真最小化。一種流行的變體使用循環神經網路逐步編碼圖像。這使得單一模型具有可變壓縮率。我們將這個想法擴展到可變速率視頻壓縮中。

深度圖像壓縮演算法使用完全卷積網路來處理任意圖像大小。然而，完全卷積網路的瓶頸仍然包含空間冗餘激活。熵編碼（Entropy coding）進一步壓縮了這個冗餘信息。我們遵循Mentzer等人的方法並在對Pixel-CNN的概率估計中使用自適應算術編碼。

學習二進位表示本質上是不可微的，這使基於梯度的學習變得複雜。Toderici等人使用隨機二值化（stochastic binarization）並反向傳播期望的導數。Agustsson等人使用軟分配以近似量化。Balle等人通過添加均勻雜訊來取代量化。所有這些方法的運行都是相似的，並使得梯度能夠通過離散化過程。在本文中，我們使用隨機二值化。

結合這些技術，深度圖像壓縮演算法在相同的圖像質量水平下，能夠提供比手工設計的演算法（如JPEG或WebP）更好的壓縮率。深度圖像壓縮演算法極大地利用了圖像的空間結構。但是，他們錯過了視頻中的一個關鍵信號：時間。視頻暫時性地高度冗餘。沒有深度圖像壓縮能夠與最先進的（淺層）視頻壓縮技術相媲美，這種壓縮技術利用了這種冗餘技術。

視頻壓縮

人工編寫的視頻壓縮演算法（例如：H.263、H263和HEVC（H.265））往往基於兩種簡單的思想：它們將每一幀都分解為多個像素塊（亦稱宏塊，macroblocks），並將幀分為圖像（I）幀和參考（P或B）幀兩種。I幀使用圖像壓縮直接壓縮視頻幀。視頻編解碼器節省的大部分空間都源於引用幀。P幀會借用先前幀的顏色值。它們為每個宏塊存儲一個運動估計和一個高度可壓縮的差分圖像。另外，只要沒有循環引用，B幀就允許雙向引用。H.264和HEVC都以分層方式對視頻進行編碼。I幀構成了層次結構的頂部。在每個連續的級別中，P幀或B幀都參考較高級別的解碼幀。傳統視頻壓縮技術的主要缺點是，需要大量的工程投入，並且在聯合優化方面存在難度。在該項研究工作中，我們使用深度神經網路構建一個分層視頻編解碼器。我們在不藉助任何人工設計的啟發法或過濾器的情況下，對其進行端到端的訓練。我們的主要觀點是參考（P或B）幀作為圖像插值的一種特殊情況。

基於學習的視頻壓縮還有很大一部分等待人們的探索，究其原因在於時間冗餘建模方面存在困難。Tsai等人提出了一種用於在特定域視頻中編碼H.264誤差的深度後處理過濾器。但是，目前我們還不清楚過濾器是否以及如何在開放域中進行泛化。據我們所知，本文提出了首個用於視頻壓縮的通用深度網路。

圖像的內插值與外推值

圖像內插值試圖在兩個參考幀之間產生一個看不見的幀。大多數圖像內插值網路建立在編碼器-解碼器網路構架上，可以隨時間移動像素。Jia等人與Niklaus等人估算了一個空間變化的卷積核，Liu等人製作了流場（flow field）。這三種方法，沿時間正向、反向將兩種預測相結合，形成最終的輸出。

圖像外推值更具「雄心」，它可以預測幾幀後的未來視頻或靜止圖像。圖像的內插值和外推值都可以很好地作用於小時間步長，例如，用於創建慢動作視頻或預測未來的幾分之一秒。然而，如今的方法將幫助它們適用於更大的時間步長，在該方法中，內插值和外推值不再是唯一的，並且需要額外的輔助信息。在該項研究工作中，我們擴展了圖像內插值，並納入了少量可壓縮邊信息，以重建原始視頻。

據我們了解，本文介紹了首個端到端訓練的深度視頻編碼器。它依賴於重複的深度圖像內插值。為了消除內插值的歧義，我們對一些表示信息的可壓縮比特進行編碼，而這些信息並不是從相鄰的關鍵幀中計算出來的。這會產生可靠的重構，而非純粹的幻覺。該網路無需事先掌握工程知識，就可以直接被訓練並用於優化重構工作。

我們的深度編碼器非常簡單，其性能優於MPEG-4 Part 2或H.261等主流編碼器，與最先進的H.264編碼器性能相當。我們目前沒有將運行時間或實時壓縮等工程方面的問題考慮在內。我們認為它們是未來的重要研究方向。

簡言之，由深度圖像內插值驅動的視頻壓縮，無需複雜的啟發法或過度工程設計，就可以實現最先進的性能。

原文鏈接：https://arxiv.org/pdf/1804.06919.pdf

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷克世界 的精彩文章:

※如何看圖說話？Facebook提出全新的基於圖像實體的圖像字幕框架
※Google發布最新語音命令數據集，可有效提高關鍵詞識別系統性能

TAG:雷克世界 |