解析「移動實時視頻分割」技術

最新 03-15

視頻分割是一種廣泛使用的技術，電影導演和視頻內容創作者可以使用這種技術將場景的前景與背景分離，然後將它們作為兩個不同的視覺層處理。

通過修改或替換背景，創作者可以表達特定的情緒，將他們自己放在有趣的位置或強化消息的衝擊力。不過，這個操作一直以來都是一個相當耗時的手動過程（例如，藝術家需要對每一幀進行轉描），或者需要利用帶綠幕的攝影棚環境來實時移除背景（這種技術稱為色差摳像）。為了讓用戶能夠在取景器中創造這種效果，我們設計了一種適合手機的新技術。

我們高興地為 YouTube 應用帶來精確、實時的設備上移動視頻分割，將這項技術集成到"短片故事中"。"短片故事"目前仍處於有限測試階段，它是 YouTube 推出的一種新型輕量化視頻格式，專門為 YouTube 創作者設計。我們的新分割技術讓創作者可以替換和修改背景，無需專業設備即可輕鬆地提高視頻的製作價值。

GIF

YouTube 短片故事中的神經網路視頻分割

為此，我們通過機器學習利用卷積神經網路來完成語義分割任務。特別是，在考慮以下要求和約束的基礎上，我們設計了一個適合手機的網路架構和訓練過程：

移動解決方案應當輕量化，並且運行速度至少要比現有的最先進照片分割模型快 10-30 倍。對於實時推理，此類模型需要達到每秒 30 幀的速度。

視頻模型應利用時間冗餘度（相鄰的幀看起來相似）並具備時間一致性（相鄰的幀得到相似的結果）。

優質的分割結果需要優質的標註。

數據集

我們標註了數以萬計捕捉各種前景姿態和背景環境的圖像，以便為我們的機器學習管道提供優質數據。標註包括頭髮、眼鏡、脖子、皮膚和嘴唇等前景元素的準確像素位置，一般背景標籤的交叉驗證結果可以達到人類標註質量 98% 的交集並集比例 (IOU or Jaccard index)。

我們的數據集中一個使用九個標籤仔細標註的示例圖像 - 前景元素疊加到圖像上

網路輸入

我們具體的分割任務是計算一個二進位蒙版，將視頻每個輸入幀（三個通道，RGB）的前景與背景分離。在所有幀中實現計算蒙版的時間一致性非常關鍵。目前的方法使用 LSTM 或 GRU 來實現一致性，但是對於手機上的實時應用來說，這些方法的計算開銷過高。因此，我們首先將前一幀的計算蒙版作為先驗知識，將它用作第四個通道與當前的 RGB 輸入幀串聯，以實現時間一致性，如下圖所示：

原始幀（左側）分成三個顏色通道，並與上一個蒙版（中間）串聯。這將用作我們神經網路的輸入來預測當前幀（右側）的蒙版

訓練過程

在視頻分割中，我們既需要實現幀間的時間連續性，同時還應考慮時間不連續性，例如其他人突然闖入相機視野。為了訓練我們的模型可靠地處理這些用例，我們以多種方式轉換每個照片的標註真實值並將它作為前一幀的蒙版：

清空前一個蒙版- 訓練神經網路正確處理場景中的第一幀和新對象。這將模擬有人出現在相機幀中的情況。

仿射轉換的真實蒙版- 小型轉換可以訓練網路傳播到前一幀的蒙版並進行調整。大型轉換則訓練網路理解不合適的蒙版並捨棄它們。

轉換後的圖像- 我們對原始圖像進行薄板樣條平滑，以便模擬快速的相機移動和旋轉。

網路架構

利用修正的輸入/輸出，我們構建了一個標準的沙漏型分割網路架構，並進行了以下改進：

1.我們使用具有步幅為4 或更多的大卷積內核來檢測高解析度 RGB 輸入幀上的對象特徵。具有少量通道的層（如 RGB 輸入）的卷積開銷相對較低，因此，使用大內核幾乎不會影響計算開銷。

2.為了提高速度，我們使用較大步幅激進地進行下採樣，並結合短路連接（skip connections，例如 U-Net）在上採樣期間恢復低級別特徵。對於我們的分割模型，與使用無短路連接相比，這種技術將 IOU 大幅提升了 5%。

帶跳過連接的沙漏型分割網路

3.為了進一步提高速度，我們優化了默認的 ResNet 瓶頸。在這篇論文中，作者將網路中間的通道壓縮了四倍（例如，使用 64 個不同的卷積內核將 256 個通道縮減為 64 個）。不過，我們注意到可以更激進地壓縮 16 倍或 32 倍，並且質量沒有明顯下降。

ResNet 瓶頸與較大的壓縮係數

4.為了優化和提高邊緣的準確性，我們在網路頂層添加了多個 DenseNet 層，其全解析度與神經摳圖相似。這種技術將整體模型質量稍微提高了 0.5% IOU，但是分割的感知質量顯著提升。

以上這些修改的最終結果是，我們的網路可以在移動設備上以相當快的速度運行。在保證高準確率（在驗證數據集上實現 94.8% 的 IOU）的基礎上，它在 iPhone 7 上可以達到 100+ FPS 的速度，而在 Pixel 2 上則可以達到 40+ FPS 的速度，從而為 YouTube 短片故事帶來各種平滑的運行和自適應效果。

我們的近期目標是通過在 YouTube "短片故事"中進行有限的分階段發布，在第一組效果中測試我們的技術。隨著我們不斷改進分割技術並擴展到更多標籤，我們計劃將它與 Google 更廣泛的增強現實服務集成。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 TensorFlow 的精彩文章:

※宣布Google-Landmarks：世界最大的人造和自然地標識別數據集

TAG:TensorFlow |