當前位置:
首頁 > 新聞 > 3D視覺成為CV新風口,曠視做了這些來搶佔賽道

3D視覺成為CV新風口,曠視做了這些來搶佔賽道

2018年,3D視覺成為計算機視覺領域的一大風口。

2017年,蘋果率先推出了具備3D視覺功能的iPhone X,其「劉海屏」成為眾多廠商的仿效對象。而在今年9月,蘋果將一口氣發布三款帶有「劉海屏」的手機。同時,據機構預測,2020年全球智能手機端3D視覺硬體市場規模將到達99.25億美元,其中蘋果手機為31.48億美元,安卓手機為67.77億美元。

iPhone有自己搭建起來的軟硬體生態系統,以此來支持其3D視覺,那麼,安卓手機怎麼辦呢?3D視覺的機遇和挑戰還有哪些?

8月8日,曠視科技聯合3D產業中4家企業舉辦了以「實感世界——真3D就現在」為主題的研討會,對以上問題進行了深入的探討。


曠視的3D視覺軟硬體一體方案

3D視覺智能手機的風,無疑是iPhone刮起來的。

2017年9月,蘋果發布iPhone X,最大的亮點在於Face ID,被吐槽最多的「劉海屏」(原深度攝像頭系統)正是用來實現這一功能。在「劉海」區域,蘋果塞進了 8 顆感測器,除了麥克風、揚聲器、前置攝像頭、環境光感測器、距離感應器等我們熟知的部分,還集成了紅外鏡頭、泛光感應元件(Flood illuminator)、點陣投影器。感應器會投射人眼看不見的光,並讀取用戶的臉部 3D 幾何結構圖。蘋果甚至為此開發了一個神經引擎(Neural Engine),用神經網路處理圖像和點陣模式,來建立人臉數學模型。

原深度攝像頭除了可以做Face ID,還可以實現臉部動態AR貼紙,以及動態追蹤人臉表情的Animoji等。

這個原深度攝像頭包含了從基層晶元、演算法到應用的全部革新。蘋果為了做這個原深度攝像頭曾經花了十幾億美金買了十幾家公司,包括人臉識別、感測器、演算法等公司。在生產過程中也遇到了很多的難題,雷鋒網了解到,2016年時蘋果就做了四萬台iPhone X,但是實際落地的時候發生了很大的問題,所以硬生生拖到了2017年才發布。

蘋果在前置的原深度攝像頭領跑了所有手機廠商,ARKit也完全解鎖了後置攝像頭的潛力,甚至超過了早幾年就開始布局手機AR的谷歌。蘋果能做成ARKit的最大的優勢自然是:自己做硬體也自己做軟體,能夠快速地進行軟硬體的適配。

國內廠商做3D視覺則更沒法依賴谷歌,需要自己探索。2018年6月19,OPPO發布OPPO Find X機型,搭載了由曠視提供的3D結構光技術;2018年6月27日,vivo在MDC發布TOF 3D超感應技術,由曠視科技提供的3D人臉建模演算法支持。目前,曠視和更多廠商達成了合作。

吳文昊回想到為vivo提供解決方案的經歷:我們最早接觸的是vivo ToF這個項目,當時面臨了很多挑戰,首先,這其中的生態鏈和供應鏈確實太複雜了,項目開會的時候有來自歐洲、資本、美國10多家廠商,涵蓋感測器、模組、光電、晶元,做軟體的不懂硬體,做硬體的不懂軟體,如何把整個產業鏈串起來是最大的問題。

在這個過程中我們越來越深刻認識到,最後真正的落地一定是應用去驅動。拿刷臉支付舉例,應用場景決定了識別的精度、活體攻擊的能力防範等。所以演算法和軟體商其實是這個價值鏈的最上端,他們可以從上往下去驅動很多細節。

吳文昊介紹到,「手機3D視覺領域雖然已有多種類型的應用案例出來,但該領域包含演算法和模組的軟硬一體整體解決方案仍是缺位的,曠視科技正在嘗試一種從上往下的整合方案。」

由此,曠視發布了「軟硬一體移動端智能3D產品解決方案」。包括從3D應用到AI演算法、解決方案、感測器、晶元等。

3D應用層:人臉識別解鎖、3D人像光效、3D美顏、3D整形、AR遊戲、虛擬試穿等;

3D演算法:MegBrain深度學習引擎、3D識別/重建演算法、人臉識別、活體檢測、注意力檢測追蹤等、人像3D建模、人體3D建模。在這個領域與Bellus 3D、Altizure等企業聯合研發;

解決方案:根據不同應用場景中對深度計算、深度修復、深度優化、標定、畸變校正等能力的需求,設計基於雙攝、三攝、深攝的解決方案;

硬體模組:攝像頭、感測器、晶元等硬體模組的研發,曠視聯合艾邁斯半導體等3D硬體模組廠商展開合作,此外,還將聯合主要晶元廠商合作研發演算法適配性更強的晶元。

此前,在印象中,曠視更多是一家計算機視覺的演算法公司,而要做軟硬體一體的整合商,曠視如何能形成自己的壁壘呢?

吳文昊告訴雷鋒網,首先是公司的定位問題,你想不想從一家演算法/軟體廠商成為一個軟硬一體的解決方案提供商,願不願意去做這個改變,其次才是有沒有決心找到合適的合作夥伴,把這四層真正垂直整合起來。


智能手機3D視覺的機遇與挑戰

曠視要做軟硬一體的整合方案,為安卓陣營提供iPhone的3D視覺能力。但是,我們是否就只是為了造出一個iPhone X?這個領域的風口剛剛成型,有哪些機遇和挑戰呢?

現場參加討論的有四家3D視覺企業:Bellus3D、艾邁斯、珠科創新、疊境數字。Bellus3D是一家來自於美國矽谷的移動端3D面部掃描企業,專註於為手機等移動設備提供高解析度的3D人臉掃描、建模技術和產品;艾邁斯半導體是全球領先的先進感測器解決方案設計和製造商,有影像、光學、環境、音頻類四大感測器,核心技術之一是VCSEL;Altizure由香港科技大學教授權龍創辦,致力於將二維圖片還原為三維模型的實景三維全自動重建服務;疊境數字科技由麻省理工大學博士虞晶怡創立,建立了一套以光場採集、處理、顯示為核心解決方案。

這四家公司正涵蓋了曠視想要構建的軟硬一體解決方案的四個層面,從硬體到軟體到應用。

蘋果發布了iPhone X,耗資巨大,但是現在除了Face ID以外,還沒有別的殺手級產品。而吳文昊也一直強調,內容和應用會驅動3D視覺的產業鏈條發展。

Bellus3D執行總裁Eric Chen介紹了未來3D視覺可能的殺手級應用,包括:

VR里的人臉建模,可以把真實的人臉放進VR遊戲里,提升沉浸感。

3D視覺幫助用戶選配眼鏡,根據人臉的情況做完全的定製化,以後用手機就能配眼鏡。

AR試妝、試穿。

吳文昊認為新的殺手級應用有三個層面:

新的硬體形態,手機已經陪伴我們10多年,將來會有新的消費電子產品出現,我認為一定是以3D、AR為主要賣點的產品,這個離我們並不遙遠。

3D一定要跟智能化結合起來,AI+3D一定是非常大的殺手級應用場景。現在已經在做這樣的事情,像AI Camera拍張照片,我們識別理解這是藍天,這是草地。加上我們3D的物理信息,一定會做出非常好非常酷的拍照效果。

隨時隨地的產品,移動互聯網展現了隨時隨地鏈接上網的魅力,激發了電商、O2O、共享單車,當3D變得無處不在,我們可以隨時隨地對真實世界進行建模,這是非常酷的一件事情。

在討論iPhone X時,大家提到的更多是前置攝像頭,因為其發展要快一些,但是我們看到後置攝像頭也是未來的趨勢。疊境科技聯合創始人洪煦透露,目前有不少做後置攝像頭模組的廠商也找到疊境,我們現在跟曠視有合作,現在是秘密階段,但是很快會有應用出來。

在後置攝像頭這塊,先驅自然是谷歌Tango,谷歌Tango配置了能繪製完整3D的硬體和軟體,可以精確描繪關於周圍環境的3D地圖,能讓移動設備擁有和人類一樣的空間和運動感知能力。Tango開創了基於視覺的3D運動跟蹤和場景建模,谷歌為3D跟蹤和場景建模設計了感測器和移動計算平台。

然而,想要搭載谷歌Tango這一套解決方案,每家OEM都需要進行特定的感測器校準過程,會增加OEM廠商的成本,當時的應用也不成熟,使得不少廠商都拒絕了谷歌。(延伸閱讀:深度 | 手機AR,谷歌為何起了個大早,趕了個晚集)

目前,ARKit和ARCore已經搭載於上億的智能手機上,AR應用也越來越豐富,現在感測器技術也更加成熟,大家都期待著搭載深度攝像頭的後置攝像頭出現,能夠更好的理解和感知環境,提供更逼真的AR效果。此前,雷鋒網曾獲悉華為不僅在做前置的深度攝像頭,也在致力於後置深度攝像頭。

不過,我們現在依然不明晰的是:什麼樣的AR應用,能夠促使大家認為後置深度攝像頭是必不可缺的?谷歌Tango的主要應用是解決室內導航的問題,在室內無法使用GPS的時候,不依靠任何外部設備,就能提供設備的定位。這,似乎不是剛需。

這一波的智能手機3D視覺風口,受到了手機AR的影響,但是或許更深層次的是AI的發展。

權龍在雷鋒網舉辦的CCF-GAIR 2018大會上曾分享:計算機視覺下一步將走向三維重建。他談到:「當下因為深度學習技術的發展,人工智慧變得非常火熱,計算機視覺作為人工智慧的一個領域,也變得異常火熱。不過目前計算機視覺的研究和應用主要集中在『識別』,『識別』只是計算機視覺的一部分,如果要去做一些交互和感知,必須先恢復三維,所以在識別的基礎上,下一個層次必須走向『三維重建』」

當然,在3D視覺這個方面,深度學習會遭遇全新的挑戰,等待行業先行者迎擊。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

Nvidia專家加入引領變革,三星創新的自研GPU要威脅高通和蘋果?
不畏浮雲遮望眼,兩個AI新服務更能讓你愛上做有信仰的華為雲?

TAG:雷鋒網 |