實時替換視頻背景：谷歌展示全新移動端分割技術

知識 03-02

為視頻中人物實時替換背景的技術能夠催生出很多新類型的應用。谷歌最近提出的機器學習視頻分割技術首先被應用在了自家的 YouTube app 上，實現了令人驚艷的效果。同時，由於模型被高度壓縮，其在 iPhone 7 這樣的移動端設備上也可以達到 100+ FPS 的高幀率。

視頻分割是一項廣泛使用的技術，電影導演和視頻內容創作者可以用該技術將場景中的前景從背景中分離出來，並將兩者作為兩個不同的視覺層。通過修改或替換背景，創作者可以表達特定的情緒、將人放在有趣的位置或強化信息的衝擊力。然而，這項技術的執行在傳統上是相當耗時的手工過程（例如，對每一幀圖像摳圖），或者需要利用帶綠幕的攝影棚環境以滿足實時背景移除。為了讓用戶能用攝像頭實時創造這種效果，谷歌為手機設計了這種實時摳圖技術。

今天，通過將該技術整合到 stories，谷歌宣布將給 YouTube app 帶來精確、實時、便攜的移動視頻分割體驗。目前僅限於測試版本，stories 是 YouTube 的新輕量視頻格式，是特別為 YouTube 創作者而設計的。該新型分割技術不需要專業設備，讓創作者能方便地替換和修改背景，從而輕易地提高視頻的製作水準。

在 YouTube stories 中實現神經網路視頻分割。

谷歌使用機器學習的卷積神經網路來解決語義分割任務，從而實現該技術。特別地，通過滿足以下的需求和約束，研究人員設計了適合手機的網路架構和訓練流程：

移動端的解決方案必須是輕量級的，並至少達到當前最佳照片分割模型的 10-30 倍的分割速度。對於實時推斷，這樣的模型需要達到每秒 30 幀的分割速度。

視頻模型需要利用時間冗餘度（相鄰幀看起來相似），和具備時間一致性（相鄰幀得到相似的結果）。

高質量的分割結果需要高質量的標註。

數據集

研究人員標註了成千上萬張捕捉了廣泛類型的前景姿態和背景環境的圖像，以為新的機器學習流程提供高質量的數據。這些標註包括前景元素的像素級精確定位，例如頭髮、眼鏡、脖子、皮膚、嘴唇等；而背景標籤普遍能達到人類標註質量的 98%（IOU、Intersection-Over-Union）的交叉驗證結果。

在這個示例圖中，研究人員仔細地標註了 9 個標籤，前景元素按不同顏色的色塊分割。

網路輸入

谷歌設計的分割任務是為每個視頻的輸入幀（三個通道，RGB）計算二進位掩碼，以將前景從背景上分割出來。其中，獲得計算掩碼在幀上的時間一致性是關鍵。當前的方法是使用 LSTM 或 GRU 來實現，但對於在移動設備上實時應用來說其計算開銷太高了。因此，我們首先將前一幀的計算掩碼作為先驗知識，並作為第四個通道結合當前的 RGB 輸入幀，以獲得時間一致性，如下圖所示：

原本的幀（左）分離為三種色彩通道，並且和之前的掩碼（mask）級聯在一起（中間）。這就可以用做輸入來訓練神經網路而預測當前幀的掩碼（右）。

訓練過程

在視頻分割中，我們需要實現幀到幀的時間連續性，同時也需要考慮時間的不連續性，例如突然出現在相機鏡頭前的人。為了魯棒地訓練模型而解決這些問題，我們需要以多種方式轉換每張圖片的標註真值，並將其作為前一幀的掩碼：

清空前面的掩碼（Mask）：訓練網路已正確處理第一幀和場景中的新目標，這將模擬某人出現在相機鏡頭內的場景。

標註真值掩碼的仿射變換：根據 Minor 轉換訓練神經網路以傳播和調整前一幀的掩碼，而 Major 轉換將訓練網路以理解不合適的掩碼，並丟棄它們。

轉換後的圖像：谷歌實現了原版圖像的薄板樣條平滑（thin plate spline smoothing）以加快相機的移動和旋轉。

運作中的實時視頻分割。

網路架構

通過修正後的輸入、輸出，研究人員構建了一個標準的沙漏型分割網路架構，並增加了以下改進：

在新方法中，研究人員通過使用有較大步幅（strides=4）的大卷積核以檢測高解析度 RGB 輸入幀的目標特徵。卷積層有較少的通道數（在 RGB 作為輸入的情況下）從而節約了算力，因此使用較大的卷積核也不會有很大的計算成本。

為了提高速度，研究人員通過較大步幅而積極地採用下採樣，並結合跳過連接（如 U-Net）以在上採樣中恢復低級特徵。對於新的分割模型，它相比於不使用跳過連接的模型要提升 5% 的 IOU。

Hourglass 分割網路 w/ skip 連接

為進一步提高速度，谷歌研究人員優化了默認 ResNet 瓶頸。在 ResNet 論文《Deep Residual Learning for Image Recognition》中，作者將網路中間信道壓縮四倍（即將 256 信道通過 64 個不同的卷積核壓縮為 64 個）。然而，研究人員注意到在更為激進地壓縮至 16 或 32 個信道後，質量並沒有顯著下降。

ResNet 瓶頸和大壓縮率

為了細化和提高邊緣的準確性，谷歌研究人員為神經網路上層加入了一些 DenseNet 層，其解析度與 Neual Matting（見論文《Deep Image Matting》）相同。這種技術讓模型的整體質量提高了 0.5% IOU，但卻顯著提高了分割的質量。

這些修改的最終結果是新的神經網路速度很快，並適用於移動端設備。使用高準確率設置時（在驗證數據集上達到 94.8% IOU），它在 iPhone 7 上可以達到 100+ FPS，而在 Pixel 2 上可以達到 40+ FPS，在 YouTube stories 中能夠提供各種平滑的展示效果。

谷歌下一步的目標是使用 YouTube 中的 stories 來測試新技術的效果。隨著新方法的改進和擴展，這種分割技術將會適用於更多場景，谷歌計劃在未來將其應用於增強現實服務中。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※阿里巴巴提出極限低比特神經網路，用於深度模型壓縮和加速
※既能欺騙機器，也能迷惑人類：Goodfellow等人提出新一代對抗樣本

TAG:機器之心 |