人類已經無法控制的相機：谷歌AI相機Clips解密

科技 10-08

智東西文 | Lina

昨天凌晨，谷歌在一年一度的秋季硬體發布上一口氣連發7款新品，Pixel 2手機、筆記本、翻譯耳機、智能音箱、AI相機……這場「硬（件）貨十足」的發布會貫穿著谷歌「人工智慧+軟體+硬體」（AI+Software+Hardware）的中心思想。

Pixel手機、音箱、筆記本一類的產品我們基本都在此前的爆料中有所耳聞，反倒是AI相機Clips、無線翻譯耳機Pixel Buds等新奇有趣的AI新品讓人眼前一亮。

尤其是Clips，這是一台可以通過人工智慧技術自動選擇場景、自動拍攝錄像、自動保存的小型相機，你只需要把它打開了放在一邊，它就能自動為你記錄下它認為有意義的瞬間。

一、一款主打家庭場景的AI相機

Clips是一款只有5厘米高、60克重的方形相機，售價249美元（摺合1657元人民幣）非常小，也非常輕便。全機上下只有一個快門按鈕、一個鏡頭、一個拍攝時會亮起的LED燈，套上自帶的塑料外殼後可以立在、掛在、勾在家庭里的任何一個角落。

通過扭動鏡頭打開相機後，它能以15幀每秒的頻率錄製拍攝，擁有一個1200萬像素的感測器與130度的廣角鏡頭，能夠自動對焦，有16GB的存儲空間，電池續航時間為3小時——不過，沒有內置麥克風。

最重要的是，當你把Clips放在客廳里，擁有AI技術加成的它會自動「觀察」鏡頭裡的世界，當出現有趣的場景——比如你家的小baby晃晃悠悠蹣跚學步，又或是家裡的小奶貓饒有興趣地玩著線頭——時，自動開啟錄製拍攝，錄出幾秒到十幾秒不等的的視頻（而短視頻片段在英語中就叫「Clips」，谷歌起名字一向這麼耿直），用戶可以選擇在手機APP上將這些段視頻剪輯、導出為視頻、照片、GIF、或是動態照片。

谷歌將這款相機的場景定位是家庭——更準確來說，是室內環境中的嬰幼兒跟寵物。當你想要專心陪孩子玩耍，又或是上班外出錯過了精彩瞬間時為你留下這一刻。

而對於那些擔心自己隱私安全的用戶，谷歌表示，整個機器學習的拍攝、計算、存儲過程都是在相機終端進行，和網路沒有任何數據傳輸。只有當你想要導出照片時，才需要在手機上下載谷歌App，在App內選擇編輯、導出、或者刪除。

Clips可以跟谷歌親兒子Pixel手機配合使用，也適配於三星S7/8，以及iPhone 6/7/8等機型。不過Clips產品主管Juston Payne反覆強調，Clip不是Pixel手機的附件，也不是任何東西的附件。Clips是一台獨立的相機，跟其他所有的數碼相機一樣。

二、用AI自動尋找「有趣」的場景

正如前文所說，Clips將會關注「有趣」的場景，暫時為止它認為有趣的事物包括：人臉、寵物。

你可以把Clips的「思維」過程想像成這樣：它睜開眼睛，看著眼前的世界。接著問自己一系列問題，「這個世界裡有臉嗎？－這是我認識的臉嗎？－這張臉上眼睛是睜開的嗎？是微笑著的嗎？－這裡的光線足夠充足嗎？－這個鏡頭模糊嗎？……」最終確保照出來的片段是好的、值得拍攝的。

而需要Clips自主判斷這些內容，自然少不了我們天天都在提的機器學習。

正如其他的每個AI模型都需要接受大量數據訓練一樣，Clips使用的模型也需要。但是Clips面臨著一個艱難的問題——沒有合適的訓練數據。

世界上有大量早已標記好的數據集，拿ImageNet來說，裡面成千上萬張帶有「貓」或者「狗」標記的圖片數據可以迅速訓練出一個能辨別貓狗的神經網路，但是，世界上沒有任何一套機器訓練數據集里有「這有一個嬰兒在地板上爬的短視頻，這是他父母想要保存的片段」、「那兒有一段小貓在玩毛線球的視頻，看上去真可愛」的帶標記數據。沒有訓練數據，AI神經網路無從談起。

不過，谷歌畢竟是谷歌，它一方面有著強大的研究團隊，而另一方面，別忘了它擁有世界上最大的在線視頻網站——YouTube。

目前YouTube上已經有超過10億個在線視頻，並且用戶每日還持續上傳超過30萬個新視頻，這些視頻都是絕佳的機器學習素材（尤其是對於寵物貓而言）。谷歌的Clips團隊與一大批視頻編輯者與圖像評估團隊合作，通過人工標記、評分視頻的方式為Clips提供訓練素材。

而且，在今年5月的I/O開發者大會上，谷歌就宣布升級了Google Photo圖片庫軟體：現在有了人工智慧與機器學習技術的加碼，Google Photo可以自動幫你在眾多照片中選出清晰、不重複、照得好的照片。

隨著使用得越來越多，Clips也會越來越聰明，慢慢地自己「學會」哪些是你關心的人、哪些是你關心的場景。下次你帶著孩子去公園一起玩的時候，Clips就只會專註於拍你家孩子，而不會被別的小孩的臉「分心」。

Clips產品主管Juston Payne表示，現在Clips已經非常擅長尋找人和寵物的圖像了（或者更確切地說，是寵物貓、寵物狗——寵物豬暫時不在考慮範圍）。但它還只是局限在家庭場景，當你外出度假、旅行、跳傘、潛水時，Clips就無法判斷哪些圖像是值得拍攝的了。

未來，谷歌計劃在更多的終端設備上拓展AI功能，以支持更多的應用場景。Clips是谷歌這個「萬物AI」宏偉計劃的一個小嘗試，它還很貴，而且沒有那麼聰明，但它已經是第一步了。

三、隱私憂慮、端智能與VPU

當然，面對這麼一個由AI全自主控制的相機，隱私問題可以說是房間里那隻粉紅色的大象，你完全無法避而不談它。

面對這個問題，谷歌表示：「我們知道隱私真的很重要，所以我們一直在為Clips的用戶、他們的家人、朋友們考慮。所以Clips是根據以下原則進行設計的：

1、Clips看起來像一個相機——這就意味著所有看到它的人都知道它是一個相機——當Clips開啟時，有一個LED燈將會亮起，讓每個人都知道它正在運行當中。

2、當你在室內環境里，和你的家人或者親密朋友在一起時效果最佳。因為Clips能夠自動學會識別與你相關的人物的臉，並幫助您捕獲更多時刻。

3、最後，整個機器學習的拍攝、計算、存儲過程都是在相機終端進行，和網路沒有任何數據傳輸。跟所有相機一樣，只有當你想要導出照片時，數據才會離開你的設備。」

至於這三點能不能說服用戶……那就不好說了。

四、VPU又是何許人也？

隱私問題放一邊，上文提到的第三點非常有趣。為了達到在相機終端上就能實行圖像的計算、識別、不需要連接到雲的能力，Clips里內置了英特爾旗下的Movidius Myriad 2 VPU視覺處理晶元。

在這裡解釋一下，Movidius是2016年9月被英特爾收購的矽谷公司、Myriad 2是這塊晶元的名字，Myriad 1曾經被用在谷歌的Tango平板里、VPU則是Vision Processing Unit視覺處理單元的縮寫。

正如智東西此前一系列關於AI晶元的報道中提到的，現在的晶元/處理器實際上所指的是一個「處理器包」封裝在一起，這個計算包專業一點說叫SoC（System-on-a-Chip），高大上的說法是「計算平台」。

根據分工不同，很多專用功能的處理單元加進來，比如我們最熟悉的是GPU，現在這個包里的獨立單元數量已經越來越大，比如ISP（圖像處理）、Modem（通信模塊）、DSP（數字信號處理）、以及蘋果的A11、麒麟970中加入的神經網路引擎、NPU等（AI應用）不同的數據進來，交給不同特長的計算模塊來處理將會得到更好的效果、更高的能效比。

不過，雖然都是「U」，但VPU與GPU、NPU不同。它不是（或者說不只是）一個模塊，它本身就是一個SoC，內部集成有多個主控RISC的CPU、許多硬體加速器單元和矢量處理器陣列，專門為視覺海量像素設計的高性能影像信號處理器(ISP)，以及豐富的高速外圍介面。

VPU針對視覺處理應用而設計，在性能、功耗和功能性方面都有特別的強化，使之更貼近於實際的應用需求。尤其是在功耗方面，按照Movidius CEO Remi El-Ouazzane的說法，相比能夠提供同等效果的GPU，Myriad 2的功耗低了最少10倍——對於Clips這樣一個重量僅為60克的小相機來說，功耗與續航問題必然是重中之重。

Myriad 2的晶元設計包括12個SHAVE 128位處理器＋SIPP過濾器，前者對原始影像數據做計算處理，每顆處理器都運作在600MHz的頻率下，而且有超頻潛能；後者是SIPP是（Streaming Inline Processing Pipeline filters）硬體加速期的縮寫，可完成一些預設的影像處理任務，比如將來自不同類型攝像頭的數據融合到一起，或者將多個視頻內容接合到一起。此外，Myriad 2 VPU上還有2個32位RISC處理器用於晶元管理，有效降低延遲。

(Myriad 2的其他參數)

當然，除了傳統的影像處理能力外，Myriad 2最重要的就是AI能力，對於Clips來說，也就是相機的智能理解能力。除了晶元本身，Movidius還設計一系列的補充演算法與SDK，使得Myriad 2支持3D建模和掃描、影像搜索、室內導航、以及手勢輸入、臉部識別、實物探測等——想必這次和谷歌的合作也使得兩家共同研發了更多功能。

基於這樣的架構設計，Myriad 2晶元採用台積電28納米工藝製造、面積是6.5mm、厚度1mm，支持六個60幀全高清視頻信號輸入，而功耗在1.2W以內。

其實，這塊Myriad 2晶元在2014年就發布了，大疆Phantom 4無人機中就集成了這塊晶元。而且英特爾也在前不久（今年8月）推出了Movidius Myriad X新版VOU，性能效果都更為強大，至於為什麼沒有用在Clips上，可能是基於成本考慮、也可能是功耗考慮。（目前Myriad 2每塊售價已經降到了10美元以下）

結語：AI相機僅僅只是個開始

Clips看似個毫不起眼的小玩意兒，但不知道大家有沒有意識到，它是有史以來第一款完全由AI進行主動決策的消費級電子產品。從被打開的一刻起，人類就對它失去了控制，我們不知道它會選擇什麼場景進行拍攝、也不知道它為什麼選擇這個場景進行拍攝——就如同現在深度學習正在使用的種種神經網路一樣，我們知道它們的效果非常好，但我們至今不知道為什麼。

這既讓人興奮，又讓人不免有些恐慌。

可以看得出來，端智能、端AI已經是大勢所趨，無論是軟體上各種機器學習演算法的不斷成熟，還是硬體上各類高性能低功耗AI晶元的誕生，無不推動著「萬物AI」的腳步。繼谷歌Clips這款AI相機之後，我們不難想像還有AI咖啡機、AI麥克風、甚至AI耳環、AI皮帶的誕生。Clips的市場反饋好壞只會加速或暫緩這一趨勢，但終究無法終止它，這僅僅只是個開始。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自科客的精彩文章:

※有錢可能也買不到！韓媒：三星Galaxy X摺疊手機將限量生產
※谷歌Chrome瀏覽器大份額領先，微軟Edge略尷尬
※黑莓首款防水手機Motion泄露：大下巴設計，加入神秘按鍵
※2017年全面屏手機盤點
※升級Android R無壓力，谷歌承諾Pixel 2享3年更新支持

TAG:科客 |