自動捕捉高光時刻：谷歌展示Google Clips全新智能攝影技術

知識 05-12

選自Google AI

作者：Aseem Agarwala

機器之心編譯

參與：路、張倩

谷歌今天宣布，旗下 AI 智能相機 Google Clips 的技術再獲升級。現在，它已能剪輯並自動捕捉特定時刻的圖像——如人們的擁抱和親吻，或跳躍和舞蹈動作。Google AI 博客對這款智能相機背後的機器學習技術進行了解讀。

對我而言，攝影就是在幾秒鐘之內認識到一個事件的重要性，同時為這個事件找到恰當表達形式的一種精密組織形式。

——Henri Cartier-Bresson

在過去幾年裡，人工智慧經歷了一場類似寒武紀的爆發，在深度學習方法的幫助下，計算機視覺演算法能夠識別出一張優質照片中的許多元素，包括人、微笑、寵物、日落、著名地標等。但是，儘管最近取得了這些進展，自動攝影仍是一個頗具挑戰性的問題。相機能自動捕捉不平凡的時刻嗎？

今年 2 月，谷歌發布了 Google Clips，這是一款全新的免持相機，可以自動捕捉生活中的有趣瞬間。在 Google Clips 的設計過程中，谷歌主要遵循以下三個重要原則：

谷歌希望所有計算都在設備上運行。除了延長電池壽命和減少延遲之外，設備端處理還意味著，除保存或共享視頻之外，任何視頻都不會離開設備，這是隱私控制的關鍵一環。

谷歌希望該設備能夠拍攝短視頻，而不是單張照片。有動作的時刻可能更深刻，也能留下更真實的記憶。而且，拍攝一個引人注目時刻的視頻往往比即時捕捉一個完美瞬間更容易。

谷歌希望捕捉人和寵物的真實時刻，而不是將精力放在捕捉藝術圖像這種更抽象、更主觀的問題上。也就是說，谷歌並未試圖教 Clips 思考構圖、色彩平衡、燈光等問題，而是專註於如何選取包含人和動物進行有趣活動的時刻。

學會識別不平凡的時刻

如何訓練演算法來識別有趣的時刻？與大多數機器學習問題一樣，研究者首先從數據集入手。他們在不同的場景中創建了一個由數千個視頻組成的數據集，想像 Clips 在這些場景中得到應用。同時研究者還確保數據集涵蓋廣泛的種族、性別和年齡。之後，谷歌聘請了專業攝影師和視頻編輯仔細查看視頻，選出最佳的短視頻片段。這些早期的處理為他們的演算法提供了可以模仿的實例。然而，僅僅從內容處理者的主觀選擇來訓練演算法是有挑戰性的，我們需要平滑的標籤梯度來教會演算法識別內容的質量（從「完美」到「糟糕」）。

為了解決這個問題，研究者採用了第二種數據收集方法，目標是在視頻長度上創建連續的質量分數。研究者將每個視頻分割成小段（類似於 Clips 捕捉到的內容），然後隨機選擇片段對，並要求人類評分者選擇他們喜歡的片段。

研究者採用這種成對比較的方法，而不是讓評分者直接給視頻評分，因為選擇一對中更好的一個要比給出一個數字容易得多。研究者發現評分者在成對比較中非常一致，而在直接評分時分歧大一些。給定任意給定視頻足夠多的成對比較片段，我們就能計算整個長度上的連續質量分數。在這個過程中，研究者從 1000 多個視頻中收集了超過 5000 萬對成對比較視頻片段。這是一項非常耗費人力的工作。

訓練評估視頻片段質量的模型

基於該質量得分訓練數據，研究者的下一步就是訓練一個神經網路模型來評估設備捕捉到的任意照片的質量。谷歌研究者首先假設了解照片中的內容（即人、狗、樹等）有助於確定「有趣性」（interestingness）。如果該假設正確，則我們可以學習一個使用識別到的照片內容的函數來預測其質量得分（得分基於人類的對比評估結果）。

為了確定訓練數據中的內容標籤，研究者使用了支持谷歌圖像搜索和 Google Photos 的谷歌機器學習技術，該技術可以識別超過 27000 個描述對象、概念和動作的標籤。研究者當然不需要所有標籤，也不會在設備端對所有標籤進行計算，因此專業攝影師選擇了幾百個他們認為與預測照片「有趣性」最相關的標籤。研究者還將最相關的標籤與評分者的質量得分結合起來。

有了這個標籤子集之後，研究者需要設計一個緊湊高效的模型，在能量和發熱嚴格受限的設備端預測任意給定圖像的標籤。這是一項挑戰，因為計算機視覺背後的深度學習技術通常需要強大的 desktop GPU，在移動端設備上運行的演算法遠遠落後於桌面端或雲端的當前最優技術。為了訓練設備端模型，谷歌研究者首先採用大量照片集合，然後再次使用谷歌基於伺服器的強大識別模型來預測上述每個「有趣」標籤的置信度。研究者訓練了一個 MobileNet 圖像內容模型（Image Content Model，ICM），用於模仿基於伺服器的模型的預測。該緊湊模型能夠識別照片中最有趣的元素，忽略不相關的內容。

最後一步是利用 ICM 預測的照片內容，預測輸入照片的質量得分，使用 50M 成對比較視頻片段作為訓練數據。得分通過逐段線性回歸模型進行計算，將 ICM 輸出轉換為幀質量得分。視頻片段中的幀質量得分取平均即為 moment score。給定一組成對對比視頻片段，該模型計算出的人類偏好的視頻片段的 moment score 更高一些。該模型的訓練目的是使其預測儘可能與人類的成對比較結果一致。

生成幀質量得分的訓練過程圖示。逐段線性回歸模型將 ICM 嵌入映射至幀質量得分，視頻片段中的所有幀質量得分取平均即是 moment score。人類偏好的視頻片段的 moment score 應該更高。

該過程使得研究者訓練出一個結合谷歌圖像識別技術和人類評分者智慧的模型。（人類評分者智慧主要體現在指出有趣內容的 5000 萬條意見。）

拍照控制器（Shot Control）

基於這一預測照片「有趣性」的強大模型，Google Clips 可以決定哪些時刻需要實時捕捉。其拍照控制器演算法遵循以下三個主要原則：

尊重電量 & 發熱：谷歌希望 Clips 的電池能夠持續大約三小時，同時不想設備過熱，因此該設備不能一直全力運行。Clips 大部分時間處於每秒拍攝一幀的省電模式。如果這一幀的質量超過 Clips 最近拍攝的閾值集，則它進入高功率模式，以 15 fps 進行拍攝。Clips 在遇到第一次質量高峰時保存該視頻片段。

避免冗餘：谷歌不希望 Clips 一次捕捉所有時刻，而忽視了其他內容。因此谷歌的演算法將這些時刻聚合成視覺相似的組，限制每一簇中的視頻片段的數量。

後見之明的好處：看到所有的視頻片段後，再選擇最佳的視頻片段就比較簡單了。因此視頻片段捕捉到的時刻要比它展示給用戶的多。當視頻片段要遷移至手機時，Clips 設備會花一秒時間查看其拍攝成果，只把最好和最不冗餘的內容遷移過去。

機器學習公平性

除了確保視頻數據集展現人口多樣性，研究者還構建了多個測試來評估該演算法的公平性。研究者通過從不同性別、膚色中均勻採樣，同時保持內容類型、時長和環境條件不變，來精心創建數據集。然後，研究者使用該數據集測試該演算法在應用到其他群體時是否具備相似性能。為了幫助檢測提升 moment 質量模型時可能發生的任何公平性回歸，研究者向該自動系統添加了公平性測試。該軟體的任意改變都會在該測試中運行，並獲得通過。注意該方法無法確保公平性，因為研究者無法測試每一個可能的場景和結果。但是，研究者相信這些步驟是實現機器學習演算法公平性的長期工作中的重要部分。

結論

多數機器學習演算法都是為評估客觀質量而設計的，如判斷照片中是否有貓。在本文中，谷歌的目標是捕捉一個更難捉摸、更主觀的質量——判斷個人照片是否有趣。因此，谷歌將照片的客觀、語義內容與主觀人類偏好相結合，構建了 Google Clips 背後的人工智慧。此外，Clips 被設計成與人協同，而不是自主工作；為了獲得優質的結果，人類的取景意識依然重要，還要確保相機的方向是有趣的內容。谷歌對 Google Clips 的出色表現感到欣慰，期待繼續改進演算法來捕捉「完美」時刻！

本文為機器之心編譯，轉載請聯繫本公眾號獲得授權。

------------------------------------------------

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※英偉達官方解讀：Volta Tensor Core GPU實現AI性能新里程碑
※CVPR 2018 | 新型語義分割模型：動態結構化語義傳播網路DSSPN

TAG:機器之心 |