視頻分割技術登錄移動端，提供便利便利實時摳圖服務

最新 03-05

在超級英雄電影和科幻大片扎堆的2018，有多少電影已經進入了你們的必看名單呢。丸子醬已經預見了將會住在電影院的自己。

酷炫的特效幾乎是現代大片的標配，而綠幕則是這些的特效基礎。綠幕運用的技術是色差摳像，通過電腦精確識別像素上的顏色，然後將所有的綠色去掉，這樣摳像就完成了，然後就可以加入特效了。

相信大家都看過少年派的奇幻漂流中那隻萌萌噠的老虎。

還有龍媽那隻「威猛的」巨龍。

說起來很簡單，但有一個問題就是，電腦會將所有的綠色去掉，如果有的綠色不想去掉怎麼辦呢？從電腦技術來說，並沒有什麼辦法，往往是從幕布顏色的方面來改善，比如運用藍幕布，不夠歐美人大多擁有藍眼睛，這並不是一個什麼好的方法，對亞洲人來講，就沒有什麼問題。不過，影視作品中藍色的出現頻率極大，比如衣服、汽車、建築物甚至天空，所以我們常見的都是綠幕。同時綠幕的使用的也存在許多問題。

綠幕作為被大眾所熟知的一種視頻分割技術，卻是離普羅大眾最遠的技術。與此同時還存在著另外一種視頻分割方式或許更適合生活，就是直接將場景中的前景從背景中分離出來，並將兩者作為不同的視覺層。不過這項技術傳統操作方式是通過手工，即對一幀幀圖像進行摳圖，這使得時間和成本大幅度的上升了。

為了使該技術能夠達到消費級別，讓手機用戶能夠利用攝像頭實時創造摳圖效果，谷歌提出了一項新的技術——機器學習視頻分割技術。

同時將該技術首先應用在了自家Youtube應用剛剛推不到半年的stories（類似於小視頻）功能，目前僅限於移動端測試版。允許創作者替換和修改背景，毫不費力地增加視頻的產品價值而無需專業設備。

GIF

谷歌利用的是機器學習的卷積神經網路來解決語義分割任務。同時為了將該技術應用於手機，研究人員設計了適合手機的訓練流程和網路構架來解決了遇見的問題。

首當其衝的肯定是受制於手機的運算能力，方案必須是輕量級的，並且還要保證實時分割速度是當前最先進的照片分割技術的10~30倍，需要達到每秒30幀的分割速度。

為了給機器學習提供高質量的數據，研究人員標註了成千上萬的圖像。這些圖像包含了廣泛的前景姿勢（簡單點說，自拍咯）和背景環境。標註的內容包括諸如頭髮、眼鏡、脖子、皮膚、嘴唇等前景姿勢的元素。而背景標籤普遍能達到人工標註質量的98%的交叉驗證結果。

另外一個重要的問題就是，視頻模型應該利用時間冗餘（相鄰幀看起來相似）並展現時間一致性（相鄰結果應該是相似的）。谷歌設計的分割任務是為每個視頻的輸入幀（三個通道，RGB）計算二進位掩碼，將前景從背景分割。在保持時間一致性時，目前方法是用LSTM和GRU，對算力要求太高了。不適用於手機。

因此，研究人員首先將前一幀的計算掩碼作為先驗知識，並作為第四個通道結合當前的RGB輸入幀，以獲得時間一致性。這樣，就能節省算力，拿到的片子視覺上還滿足連貫的要求。

這樣，正常情況下的工作就完成了。但在訓練之前，我們還要考慮一種情況，如果在視頻拍攝過程中突然有其他人闖入怎麼辦？為了讓模型能夠強有力地處理這些問題，研究人員用多種方式轉換每張照片的標註真值，並將其作為前一幀的掩碼：

清空前面的掩碼（Mask）：訓練網路已正確處理第一幀和場景中的新目標，這將模擬出現在相機鏡頭內的人的場景。

標註真值掩碼的仿射變換：根據 Minor 轉換訓練神經網路以傳播和調整前一幀的掩碼，而 Major 轉換將訓練網路以理解不合適的掩碼，並丟棄它們。

轉換後的圖像：對當前幀做羽化處理，優化摳圖後的毛邊，模仿鏡頭在快速移動或旋轉時候的情境。

GIF

在構建網路構架的時候，通過修正後的輸入、輸出，研究人員構建了一個標準的沙漏型分割網路構架，並增加了一下改進。

通過使用有較大步幅（strides=4）的大卷積核來檢測高解析度RGB輸入幀的目標特徵從而節省了算力，所以使用較大的卷積核幾乎不會影響計算成本。

通過大幅度縮減採樣，結合像U-Net這樣的跳過連接來回復上採樣中恢復低級特徵從而提高了速度。

為了進一步提高速度，谷歌研究人員優化了默認ResNet瓶頸。在論文《Deep Residual Learning for Image Recognition》中，將網路中間信道的256個信道壓縮為64個。然而，研究人員注意到在更為激進地壓縮到16或32個信道後，質量並沒有顯著下降。

為了細化和提高邊緣的準確性，研究人員為神經網路上層加入了一些DenseNet層，其解析度與Neual Matting相同。

這些修改的最終結果是神經網路在手機上的運行速度非常快，在iPhone 7上實現了100+FPS，在Pixel 2上實現了40+FPS，並具有很高的準確性（在驗證數據集上達到了94.8%IOU），在Youtube stories中能提供各種平滑的展示效果。

GIF

雖然谷歌這項技術只在Youtube stories上登錄。但這並不意味著我們還是只能像以前一樣望牆興嘆。

同樣研究移動端視頻分割技術的公司還有這家NALBI，一家專註於深度學習與研究和計算機視覺技術的嵌入式系統的AI公司。號稱擁有世界上最快的嵌入式系統AI計算機視覺技術。同時也致力於將視頻分割技術應用於手機。

NALBI其中一個一個視頻分割技術——Human segmentation ，可以將人和背景分開。

從他們的演示視頻來看，能夠很好的將人像和環境分離開來。

GIF

臉部的方向對於識別來說也沒有大的問題。

但在移動速度過快，比如揮胳膊，識別會有一些延遲。

其實早就進入了我們的生活。常用的B612相機就應用了該技術。

GIF

snow上的效果

比如丸子醬找到的以下這三個貼紙（小夥伴找到其他的可以告訴我啊）。

這幾個貼紙在照片上的效果還是十分好的。

依舊是丸子醬最喜歡的石原里美

但在視頻體驗中發現，這些貼紙只能夠識別正臉，與演示視頻中的不大一樣。

除了Human Segmentation之外，NALBI還有Hair Segmentation的技術，可以識別頭髮，不過丸子醬並沒有在B612或者snow（境外版B612）上找到有關這個技術的貼紙。

GIF

不過觀看演示視頻，效果也不錯。無論長發如何擺動，識別的效果都很好。

YouTube和B612兩家幾乎是同時推出這些產品。技術的進步勢必會推動相應的產品。在未來，谷歌計劃將視頻分割技術應用於AR服務當中。而NALIBI除了在B612上給我們帶來更多的有趣貼紙，也希望能有其他的驚喜。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 AR醬 的精彩文章:

※宜家AR發布5年了，家居AR現在怎麼樣了？
※《Mug Life》讓面癱變戲精，沒有演技你至少還有高科技

TAG:AR醬 |