圖鴨科技獲CVPR 2018圖像壓縮挑戰賽單項冠軍，技術解讀端到端圖像壓縮框架

知識 06-22

機器之心報道

參與：曉坤、路

CHALLENGE ON LEARNED IMAGE COMPRESSION 挑戰賽由 Google、Twitter、Amazon 等公司聯合贊助，是第一個由計算機視覺領域的會議發起的圖像壓縮挑戰賽，旨在將神經網路、深度學習等一些新的方式引入到圖像壓縮領域。據 CVPR 大會官方介紹，此次挑戰賽分別從 PSNR 和主觀評價兩個方面去評估參賽團隊的表現。

不久之前，CLIC 挑戰賽比賽結果公布：在不同基準下，來自國內創業公司圖鴨科技的團隊 TucodecTNGcnn4p 在 MOS 和 MS-SSIMM 得分上獲得第一名，騰訊音視頻實驗室和武漢大學陳震中教授聯合團隊 iipTiramisu 在 PSNR（Peak Signal-to-Noise Ratio，峰值信噪比）指標上佔據領先優勢，位列第一。xvc，評分較高的團隊中，xvc 的解碼速度最快。

比賽結果：http://www.compression.cc/results/

在這篇文章中，我們對第一名圖鴨科技的解決方案進行了編譯介紹，內容采自論文《Variational Autoencoder for Low Bit-rate Image Compression》。

論文：Variational Autoencoder for Low Bit-rate Image Compression

地址：http://openaccess.thecvf.com/CVPR2018_workshops/CVPR2018_W50.py#

摘要：我們展示了一種用於低碼率圖像壓縮的端到端可訓練圖像壓縮框架。我們的方法基於變分自編碼器，包含一個非線性編碼器變換、均勻量化器、非線性解碼器變換和後處理模塊。壓縮表徵的先驗概率通過使用超先驗自編碼器的拉普拉斯分布來建模，並與變換自編碼器進行聯合訓練。為了去除低碼率圖像的壓縮失真和模糊，我們提出了一種基於卷積的高效後處理模塊。最終，考慮到 CLIC 挑戰賽對碼率的限制，我們使用一個碼率控制演算法來對每一個圖像自適應性地分配碼率。在驗證集和測試集上的實驗結果證明，使用感知損失訓練出的該優化框架能夠實現最優的 MS-SSIM 性能。結果還表明該後處理模塊可以提高基於深度學習的方法和傳統方法的壓縮性能，在碼率為 0.15 時最高 PSNR 達到 32.09。

1. 引言

近期，機器學習方法被應用於有損圖像壓縮，並利用自編碼器取得了很有潛力的結果。基於典型神經網路的圖像壓縮框架由多個模塊構成，例如自編碼器、量化器（quantization）、先驗分布模型、碼率評估和率失真優化。自編碼器用於將圖像像素 x 轉換為編碼空間 y 中的數據，編碼空間由編碼器和解碼器構成。圖像的像素值通過編碼器轉換到編碼空間。之後，利用量化函數處理表徵 y，得到離散值向量。然後使用諸如算術編碼 [8] 這樣的熵編碼方法來無損壓縮，並生成用於傳輸的碼流。在接收到碼流之後，經過熵解碼的量化後的表徵使用解碼器被轉換回圖像空間。

很明顯，表徵的先驗概率模型（也稱為熵模型）對於算術編碼很關鍵。的真實邊際概率（依賴於圖像分布）是未知的。因此我們通過先驗分布對它進行估計。先驗概率可以通過參數化模型形式化，並通過參數學習來擬合數據。給定熵模型，碼率的下界由的離散先驗分布的熵決定。由恰當設計的熵編碼得到的真實率僅稍微大於熵：

。

率失真優化的作用是在編碼長度 R 和原始圖像 x、重構圖像之間的失真 D 進行權衡。D 可以用均方誤差（MSE）建模：D=，或感知失真的度量例如 MS-SSIM [13]。很明顯，如果如果更加集中，則熵 R 更小，但網路的表徵能力將退化，並且 D 可能會增加。因此我們以端到端的方式優化率和失真的加權和 R+λD。我們可以斷定先驗模型和量化的聯合優化在高效的壓縮系統中是最重要的技術。一方面，對量化後的表徵的先驗分布的準確估計有利於約束和 R 的真實邊際分布。另一方面，準確的先驗模型可以使適應性算術編碼在編碼和解碼過程中更加高效。

本論文提出的圖像壓縮框架基於之前的方法。與這些方法不同，我們設計了一個金字塔自編碼器和更高效的卷積結構，來提升壓縮性能。此外，我們使用參數化零均值拉普拉斯分布對壓縮表徵的先驗概率進行準確建模，該分布的參數通過超先驗自編碼器學習得到。考慮到如果該網路只通過保持低碼率的像素相似度來學習，那麼圖像重建會遇到模糊的情況，對人眼的吸引力也會下降。因此我們使用一種基於 MS?SSIM 的高效損失函數來衡量感知損失，訓練提高感知質量的壓縮編碼解碼器。最後，我們使用基於卷積的後處理模塊來提高圖像重建質量。考慮到該挑戰賽中對壓縮測試圖像和驗證圖像的限制是 0.15 bpp，因此我們設計碼率控制演算法來為每個圖像選出最好的壓縮參數。

2. 本論文提出的圖像壓縮框架