當前位置:
首頁 > 科技 > 人類已經無法控制的相機:谷歌AI相機Clips解密

人類已經無法控制的相機:谷歌AI相機Clips解密

智東西 文 | Lina

昨天凌晨,谷歌在一年一度的秋季硬體發布上一口氣連發7款新品,Pixel 2手機、筆記本、翻譯耳機、智能音箱、AI相機……這場「硬(件)貨十足」的發布會貫穿著谷歌「人工智慧+軟體+硬體」(AI+Software+Hardware)的中心思想。

Pixel手機、音箱、筆記本一類的產品我們基本都在此前的爆料中有所耳聞,反倒是AI相機Clips、無線翻譯耳機Pixel Buds等新奇有趣的AI新品讓人眼前一亮。

尤其是Clips,這是一台可以通過人工智慧技術自動選擇場景、自動拍攝錄像、自動保存的小型相機,你只需要把它打開了放在一邊,它就能自動為你記錄下它認為有意義的瞬間。

一、一款主打家庭場景的AI相機

Clips是一款只有5厘米高、60克重的方形相機,售價249美元(摺合1657元人民幣)非常小,也非常輕便。全機上下只有一個快門按鈕、一個鏡頭、一個拍攝時會亮起的LED燈,套上自帶的塑料外殼後可以立在、掛在、勾在家庭里的任何一個角落。

通過扭動鏡頭打開相機後,它能以15幀每秒的頻率錄製拍攝,擁有一個1200萬像素的感測器與130度的廣角鏡頭,能夠自動對焦,有16GB的存儲空間,電池續航時間為3小時——不過,沒有內置麥克風。

最重要的是,當你把Clips放在客廳里,擁有AI技術加成的它會自動「觀察」鏡頭裡的世界,當出現有趣的場景——比如你家的小baby晃晃悠悠蹣跚學步,又或是家裡的小奶貓饒有興趣地玩著線頭——時,自動開啟錄製拍攝,錄出幾秒到十幾秒不等的的視頻(而短視頻片段在英語中就叫「Clips」,谷歌起名字一向這麼耿直),用戶可以選擇在手機APP上將這些段視頻剪輯、導出為視頻、照片、GIF、或是動態照片。

谷歌將這款相機的場景定位是家庭——更準確來說,是室內環境中的嬰幼兒跟寵物。當你想要專心陪孩子玩耍,又或是上班外出錯過了精彩瞬間時為你留下這一刻。

而對於那些擔心自己隱私安全的用戶,谷歌表示,整個機器學習的拍攝、計算、存儲過程都是在相機終端進行,和網路沒有任何數據傳輸。只有當你想要導出照片時,才需要在手機上下載谷歌App,在App內選擇編輯、導出、或者刪除。

Clips可以跟谷歌親兒子Pixel手機配合使用,也適配於三星S7/8,以及iPhone 6/7/8等機型。不過Clips產品主管Juston Payne反覆強調,Clip不是Pixel手機的附件,也不是任何東西的附件。Clips是一台獨立的相機,跟其他所有的數碼相機一樣。

二、用AI自動尋找「有趣」的場景

正如前文所說,Clips將會關注「有趣」的場景,暫時為止它認為有趣的事物包括:人臉、寵物。

你可以把Clips的「思維」過程想像成這樣:它睜開眼睛,看著眼前的世界。接著問自己一系列問題,「這個世界裡有臉嗎?-這是我認識的臉嗎?-這張臉上眼睛是睜開的嗎?是微笑著的嗎?-這裡的光線足夠充足嗎?-這個鏡頭模糊嗎?……」最終確保照出來的片段是好的、值得拍攝的。

而需要Clips自主判斷這些內容,自然少不了我們天天都在提的機器學習。

正如其他的每個AI模型都需要接受大量數據訓練一樣,Clips使用的模型也需要。但是Clips面臨著一個艱難的問題——沒有合適的訓練數據。

世界上有大量早已標記好的數據集,拿ImageNet來說,裡面成千上萬張帶有「貓」或者「狗」標記的圖片數據可以迅速訓練出一個能辨別貓狗的神經網路,但是,世界上沒有任何一套機器訓練數據集里有「這有一個嬰兒在地板上爬的短視頻,這是他父母想要保存的片段」、「那兒有一段小貓在玩毛線球的視頻,看上去真可愛」的帶標記數據。沒有訓練數據,AI神經網路無從談起。

不過,谷歌畢竟是谷歌,它一方面有著強大的研究團隊,而另一方面,別忘了它擁有世界上最大的在線視頻網站——YouTube。

目前YouTube上已經有超過10億個在線視頻,並且用戶每日還持續上傳超過30萬個新視頻,這些視頻都是絕佳的機器學習素材(尤其是對於寵物貓而言)。谷歌的Clips團隊與一大批視頻編輯者與圖像評估團隊合作,通過人工標記、評分視頻的方式為Clips提供訓練素材。

而且,在今年5月的I/O開發者大會上,谷歌就宣布升級了Google Photo圖片庫軟體:現在有了人工智慧與機器學習技術的加碼,Google Photo可以自動幫你在眾多照片中選出清晰、不重複、照得好的照片。

隨著使用得越來越多,Clips也會越來越聰明,慢慢地自己「學會」哪些是你關心的人、哪些是你關心的場景。下次你帶著孩子去公園一起玩的時候,Clips就只會專註於拍你家孩子,而不會被別的小孩的臉「分心」。

Clips產品主管Juston Payne表示,現在Clips已經非常擅長尋找人和寵物的圖像了(或者更確切地說,是寵物貓、寵物狗——寵物豬暫時不在考慮範圍)。但它還只是局限在家庭場景,當你外出度假、旅行、跳傘、潛水時,Clips就無法判斷哪些圖像是值得拍攝的了。

未來,谷歌計劃在更多的終端設備上拓展AI功能,以支持更多的應用場景。Clips是谷歌這個「萬物AI」宏偉計劃的一個小嘗試,它還很貴,而且沒有那麼聰明,但它已經是第一步了。

三、隱私憂慮、端智能與VPU

當然,面對這麼一個由AI全自主控制的相機,隱私問題可以說是房間里那隻粉紅色的大象,你完全無法避而不談它。

面對這個問題,谷歌表示:「我們知道隱私真的很重要,所以我們一直在為Clips的用戶、他們的家人、朋友們考慮。所以Clips是根據以下原則進行設計的:

1、Clips看起來像一個相機——這就意味著所有看到它的人都知道它是一個相機——當Clips開啟時,有一個LED燈將會亮起,讓每個人都知道它正在運行當中。

2、當你在室內環境里,和你的家人或者親密朋友在一起時效果最佳。因為Clips能夠自動學會識別與你相關的人物的臉,並幫助您捕獲更多時刻。

3、最後,整個機器學習的拍攝、計算、存儲過程都是在相機終端進行,和網路沒有任何數據傳輸。跟所有相機一樣,只有當你想要導出照片時,數據才會離開你的設備。」

至於這三點能不能說服用戶……那就不好說了。

四、VPU又是何許人也?

隱私問題放一邊,上文提到的第三點非常有趣。為了達到在相機終端上就能實行圖像的計算、識別、不需要連接到雲的能力,Clips里內置了英特爾旗下的Movidius Myriad 2 VPU視覺處理晶元。

在這裡解釋一下,Movidius是2016年9月被英特爾收購的矽谷公司、Myriad 2是這塊晶元的名字,Myriad 1曾經被用在谷歌的Tango平板里、VPU則是Vision Processing Unit視覺處理單元的縮寫。

正如智東西此前一系列關於AI晶元的報道中提到的,現在的晶元/處理器實際上所指的是一個「處理器包」封裝在一起,這個計算包專業一點說叫SoC(System-on-a-Chip),高大上的說法是「計算平台」。

根據分工不同,很多專用功能的處理單元加進來,比如我們最熟悉的是GPU,現在這個包里的獨立單元數量已經越來越大,比如ISP(圖像處理)、Modem(通信模塊)、DSP(數字信號處理)、以及蘋果的A11、麒麟970中加入的神經網路引擎、NPU等(AI應用)不同的數據進來,交給不同特長的計算模塊來處理將會得到更好的效果、更高的能效比。

不過,雖然都是「U」,但VPU與GPU、NPU不同。它不是(或者說不只是)一個模塊,它本身就是一個SoC,內部集成有多個主控RISC的CPU、許多硬體加速器單元和矢量處理器陣列,專門為視覺海量像素設計的高性能影像信號處理器(ISP),以及豐富的高速外圍介面。

VPU針對視覺處理應用而設計,在性能、功耗和功能性方面都有特別的強化,使之更貼近於實際的應用需求。尤其是在功耗方面,按照Movidius CEO Remi El-Ouazzane的說法,相比能夠提供同等效果的GPU,Myriad 2的功耗低了最少10倍——對於Clips這樣一個重量僅為60克的小相機來說,功耗與續航問題必然是重中之重。

Myriad 2的晶元設計包括12個SHAVE 128位處理器+SIPP過濾器,前者對原始影像數據做計算處理,每顆處理器都運作在600MHz的頻率下,而且有超頻潛能;後者是SIPP是(Streaming Inline Processing Pipeline filters)硬體加速期的縮寫,可完成一些預設的影像處理任務,比如將來自不同類型攝像頭的數據融合到一起,或者將多個視頻內容接合到一起。此外,Myriad 2 VPU上還有2個32位RISC處理器用於晶元管理,有效降低延遲。

(Myriad 2的其他參數)

當然,除了傳統的影像處理能力外,Myriad 2最重要的就是AI能力,對於Clips來說,也就是相機的智能理解能力。除了晶元本身,Movidius還設計一系列的補充演算法與SDK,使得Myriad 2支持3D建模和掃描、影像搜索、室內導航、以及手勢輸入、臉部識別、實物探測等——想必這次和谷歌的合作也使得兩家共同研發了更多功能。

基於這樣的架構設計,Myriad 2晶元採用台積電28納米工藝製造、面積是6.5mm、厚度1mm,支持六個60幀全高清視頻信號輸入,而功耗在1.2W以內。

其實,這塊Myriad 2晶元在2014年就發布了,大疆Phantom 4無人機中就集成了這塊晶元。而且英特爾也在前不久(今年8月)推出了Movidius Myriad X新版VOU,性能效果都更為強大,至於為什麼沒有用在Clips上,可能是基於成本考慮、也可能是功耗考慮。(目前Myriad 2每塊售價已經降到了10美元以下)

結語:AI相機僅僅只是個開始

Clips看似個毫不起眼的小玩意兒,但不知道大家有沒有意識到,它是有史以來第一款完全由AI進行主動決策的消費級電子產品。從被打開的一刻起,人類就對它失去了控制,我們不知道它會選擇什麼場景進行拍攝、也不知道它為什麼選擇這個場景進行拍攝——就如同現在深度學習正在使用的種種神經網路一樣,我們知道它們的效果非常好,但我們至今不知道為什麼。

這既讓人興奮,又讓人不免有些恐慌。

可以看得出來,端智能、端AI已經是大勢所趨,無論是軟體上各種機器學習演算法的不斷成熟,還是硬體上各類高性能低功耗AI晶元的誕生,無不推動著「萬物AI」的腳步。繼谷歌Clips這款AI相機之後,我們不難想像還有AI咖啡機、AI麥克風、甚至AI耳環、AI皮帶的誕生。Clips的市場反饋好壞只會加速或暫緩這一趨勢,但終究無法終止它,這僅僅只是個開始。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 科客 的精彩文章:

有錢可能也買不到!韓媒:三星Galaxy X摺疊手機將限量生產
谷歌Chrome瀏覽器大份額領先,微軟Edge略尷尬
黑莓首款防水手機Motion泄露:大下巴設計,加入神秘按鍵
2017年全面屏手機盤點
升級Android R無壓力,谷歌承諾Pixel 2享3年更新支持

TAG:科客 |