谷歌開發出一項適用手機的視頻分割技術 視頻背景隨意換
視頻分割是一類被廣泛使用的技術,它確保了視頻場景中的前景與背景區分開來,並將二者視為兩個不同的圖層。通過修改或替換背景,表演者將可以表達特定的情緒,任意轉換位置,或者增強信息的表現力。然而,從傳統角度講,這種操作屬於一類極為耗時的手動過程(例如對每一幀畫面進行調整),或者需要在專門提供綠幕的工作室環境下(利用一種所謂色度鍵控技術)實現實時背景轉換。
現在,為了讓用戶能夠在取景器中直接享受這種效果,谷歌正在利用人工智慧技術設計出一種適用於手機平台的實時性替代方案,目前已經在YouTube Stories應用當中進行測試。
具體而言,谷歌利用機器學習通過卷積神經網路以解決語義分割任務。谷歌認為,一款適用於手機的網路架構與訓練程序,且其重點關注以下要求及約束條件:
移動解決方案應當具備輕量化特性,其運行速度至少要比現有的最為先進的圖像分割模型快10到30倍。對於實時推理,這種模型需要提供每秒30幀的處理速度。
視頻模型應該利用時間冗餘特性(即相鄰幀的內容往往較為相似)並體現出時間一致性(相鄰結果應當彼此相似)。
高質量的分割結果源自高質量的注釋。
谷歌這項視頻分割技術與大多數基於人工智慧的成像程序一樣——人們首先以手動方式在超過10000張圖像進行注釋。正因為這些圖像內涵豐富的前景與背景信息,因此相關注釋包括頭髮、眼鏡、頸部、皮膚、嘴唇等前景元素的精確像素位置,以及一套能夠以98%的精度重現人類注釋交叉驗證結果(簡稱IOU)質量的常規性背景標籤。
利用這套數據集,谷歌研究團隊得以訓練程序並指導其將背景與前景分離開來。(Adobe公司在Photoshop當中也曾提供一款類似的背景清除工具,但僅適用於靜止圖像)
圖:來自谷歌數據集的示例圖像,其中標有九項標籤——前景元素覆蓋在該圖像之上。
谷歌的特定分割任務在於計算出一套二進位遮罩,從而在視頻的每個輸入幀(三通道,RGB)內將前景與背景區分開來。在這項任務當中,實現跨幀計算遮罩的時間一致性是其關鍵所在。對於目前的移動手機而言,利用LSTM或者GRU來實現實時應用顯然在計算資源層面不具備可行性。因此,我們首先將前一幀的計算遮罩作為先驗,並將其作為第四條通道接入當前RGB輸入幀,從而實現時間一致性。具體如下圖所示:
圖:原始幀(左)在其三色通道中被區分出來,且與之前的遮罩(中)對接。其將作為神經網路的輸入內容以預測當前幀的遮罩結果(右)。
然而,在視頻分割當中,需要實現幀與幀之間的時間連續性,同時也要考慮到可能存在的時間不連續性——例如突然出現在攝像頭當中的人物對象,而且,以上數據集是針對單幅圖像訓練而成的,那麼谷歌如何利用單一圖像替換每一幀視頻的背景呢?
事實上,一旦該軟體在第一幅圖像上遮蓋了背景,程序本身就會利用相同的遮罩機制來預測下一幀背景。當下一幀與前一幀僅存在些許差異時(例如攝像頭髮生了輕微移動),程序將對遮罩作出同樣的微調。而如果下一幀與前一幀存在巨大區別(例如有新的人物對象加入視頻),那麼該軟體將徹底丟棄原有遮罩預測結論,並創建新的遮罩(mask)。
具體操作而言,谷歌利用多種方式轉換對圖像內基本事實的注釋,並將其用作前一幀的遮罩基準:
清空前一套遮罩——訓練網路以正確方式處理第一幀與場景中的新對象。這就模擬出了新的人物對象突然出現在攝像頭畫面中的情況。
仿射轉換後的實際背景遮罩——利用微調轉換以訓練網路傳播並調整至前一幀的遮罩。利用重大轉換以訓練網路理解不適用的遮罩,並棄用此類遮罩。
轉換圖像——實現了對原始圖像進行順滑的平移轉換,從而模擬攝像頭的快速移動與旋轉。
儘管這種分離背景的能力確實令人印象深刻,但谷歌公司還希望更進一步,包括使該程序能夠在智能手機之上更為有限的硬體條件下運行。這意味著其必須放棄相對強大的台式計算機性能資源。在視頻分割功能背後,程序員們會對程序作出進一步調整,從而提高分割與採樣等操作的速度,同時減少通道數量。在此之後,該團隊通過添加圖層為前景與背景之間創建出更為平滑的邊緣,最終提升處理質量。
谷歌公司指出,這些調整使得該應用程序能夠以實時方式完成背景替換——在iPhone 7上,該應用的處理速度超過每秒100幀,而谷歌Pixel 2上的處理速度亦超過每秒40幀。谷歌方面表示,該訓練集的準確率達到94.8%。不過谷歌公司目前發布的所有示例皆為單人視頻,且其並沒有提到該功能是否適用於多對象視頻素材。
在該項功能的beta測試當中,YouTube主播們可通過選擇不同的效果(夜景、黑白乃至空白背景)來更改視頻中的顯示背景。這一測試版本中的部分特效甚至增加了光照效果,例如可在角落處添加鏡頭光暈。
這款視頻分割工具已經正式開放,但目前僅作為beta測試方案,因此相關功能仍無法廣泛使用。谷歌公司表示,在整理出該項測試的相關結果之後,他們計划進一步擴展這種分割效果,並將該功能添加到其它程序當中——包括提供增強現實選項。
【谷歌「視頻分割」文章Mobile Real-time Video Segmentation獲取方式:關注科技行者公眾號(itechwalker),打開對話界面,回復關鍵字「視頻分割」,即可獲得地址】


※英偉達的賭城之旅:一塊晶元掀起CES「自動駕駛風雲」
※擦掉鐵鏽,人工智慧讓這家美國老牌鋼鐵廠轉型重生
TAG:科技行者 |