大神問答：關於 ARKit 的 16 大問題解讀

科技 09-04

沉浸感按：本文作者系 Super Ventures 合伙人 Matt Miesnieks ，此前他曾通過《蘋果 ARKit 憑什麼碾壓對手？》一文詳細解釋了 ARKit 的工作原理，以及與 Tango、微軟 HoloLens 的不同之處。隨後他又發表了《ARKit 很厲害，但蘋果做 AR 眼鏡還需翻過這 8 座大山》。文中，他利用自己在行業內摸爬滾打的多年經驗，對真正的消費級 AR 眼鏡誕生路上的 8 座大山進行了梳理，同時還對未來一段時間內的技術發展脈絡進行了預測。這兩篇文章引起了廣泛的討論，因此 Miesnieks 專門搜集了 16 個網友提問並在今天這篇文章做了集中回答。

Q1：我同意您「追蹤系統已經進入商品化階段」的論斷。現在整個業界應該將注意力轉向有關交互的複雜問題了，它才是讓 AR 開發者頭疼的攔路石，我也是被交互問題搞得焦頭爛額的開發者之一。

A1：謝謝 Philip 的提問。交互確實是一個令人著迷但又非常難啃的硬骨頭。整個業界還沒有現成的技術標準可用，開發者只能自己騎驢找馬。AR 交互依然需要解決三大問題，它們分別是輸入（硬體、模式和多模 AI）、圖形界面和操作系統、應用和使用案例。

在我看來，現在談論圖形界面和應用這兩大塊還有些早，但絕對是個開始學習的好時機。以我的經驗來看（我老婆就是個 AR 交互設計師，目前正在 Adobe 負責 Design Lab 的工作，他們在思考沉浸式設計的的未來）解決了輸入後我們面對的第二大問題是如何將內容布局進一個 3D 場景中，畢竟開發者對這樣的場景沒有掌控力，而且這是前人沒做過的大課題。同時，我們還要讓內容有較強的易讀性，文字是黑體還是背的？是否開啟夜間模式？如何避免你錯過重要信息？設置多大的字體？字體是 2D 還是 3D？等等……

我現在就將精力集中在解決這些問題上，平台公司（如Hololens、蘋果和 Magic Leap 等）和在這些平台上搭建應用的開發者可能有機會趕上這個風口。

Q2: 2015 年 5 月，蘋果收購了新創公司 Metaio，該公司手握相當強悍的追蹤技術，Metaio 的技術是否也為 ARKit 的誕生立下了汗馬功勞？

WWDC 上蘋果還一併推出了 Metal 2，其圖形效能相比Metal提升高達10倍，這絕對不是巧合。ARKit 的橫空出世是否與 Metal 2 有關呢？

如果兩者有聯繫，安卓陣營的 GPU API Vulkan 是否也該儘快提供視覺和推理計算加速呢？

在我看來，蘋果確實有一定的技術優勢，但與當年 Mac 大戰 Windows 一樣，現在的安卓全球市場份額達到因 85%。因此如果整個安卓生態也能用上新的 API，就能進行快速追趕。同時，網頁端也能通過相同的方式進行 AR 大普及。

A2：關於蘋果和 Metaio 的問題，我沒有什麼內幕消息，不過我認為 Metaio 的代碼庫在平面檢測上對蘋果幫助不小。同時，它們在視覺追蹤器的定位上也幫了不少忙。眼下，FlayBy 是業內慣性追蹤器做的最好的廠商，而該技術是 ARKit 能實現驚人效果的基石之一。我認為，未來蘋果會基於現有的視覺慣性測量系統（VIO）打造更為完善的 SLAM 系統，到時 Metaio 的價值自然會提現出來。

關於 Metal 的問題，我們曾將 Dekko 的代碼移植進蘋果早期系統的通用圖形處理器中，隨後花了大量時間對其性能進行了測試。下面是我們得出的結論：

1. 藉助強大的慣性系統和良好的校準，視覺系統在運算上省了很多力。在 GPU 幫助下它們還能做一些特徵檢測和光束調整的工作。不過，真正起作用的還是硬體加速的 3D 矩陣運算，因此追蹤系統在這裡作用不大。

2. 解決了三維重構（在設備上進行密集的重構還很困難）問題後真正的好處才會大量出現。當然，我們還要在追蹤地圖上解決重新定位的問題（特別是在較大區域進行追蹤時）。

在你看來，安卓能憑藉 85% 的市場佔有率贏得這場 AR 之戰的最終勝利。不過我認為真正要緊的是：

時鐘同步的感測器中心必須融入所有設備（現在已經在許多新設備上實現了）；

慣性測量單元（IMU）校準和建模需要成為 OEM 商的默認設置，而這會對設備的製造成本和時間造成影響，是業界面臨的一大挑戰；

硬體加速隨後會佔據主導地位，驅動 AR 用戶體驗。值得注意的是，我們必須首先解決密集的實時單一三維重構和廣域本地化技術。搞定了它們，3D 場景語義自然就明了啦。

對頭戴設備來說，能耗問題相當重要，要提升設備的佩戴體驗必然會影響電池的大小。不過，現在預測此類設備搭載的晶元會向何種方向進化還為時過早（是採用 Movidius 的 CVGPU 還是 HoloLens 的 HPU ASICs，或是高通驍龍 835？）。

順便說一句，關於 Vulkan 和 WebVR/WebAR 未來的市場前景，我還有很多思考。為了這些問題我也和 OEM 商和風投們進行了大量交流。顯然，它們更偏向 Chromebook 風格的頭戴設備，因為這樣就不用開發新的操作系統了。不過，這樣的產品在追蹤和三維重構能力上有一定的缺陷。

Q3：確實，AR 不會像智能機一樣顯示個 4x6 的桌面圖標陣。我想我們需要可以一次看多個 APP 的方法。因此我們需要全新的 UI 架構。不過，在 web 端我更看好新型的「用戶代理」。

A3：這個問題問得好，在 AR 面臨的所有挑戰中，UI 最令我著迷，同時它也是最難解答的。在我看來，最終的 UI 基調會由輸入系統來決定。

其次，整體 UI 風格會保持高度的擬物化（至少在初期），這樣用戶才能更加直觀的理解這種虛擬的感覺。最後我想說的是，AR 的 UI 風格不會特別華麗，它與我們熟悉的設計會有較多相似之處。

Q4：在文章中你沒有明確解釋有關 MR 和 LiDAR 融合的問題。我迫切想知道關於高解析度內容和注釋系統的信息。

A4：由於功耗較高，LiDAR 恐怕難以融合進移動 AR 設備。把硬體問題放在一邊，我覺得你真正在乎的是系統是否能給應用開發者或內容創造者以真實世界的 3D 感知（這裡會提到密集 3D 重建 Dense 3D resconstruction，而不是我們使用的 Voxels 三維像素。通常，密集意思是各個立方英寸的三維像素，或者說 2D 攝像頭感測器上每個像素的三維像素。）更高的像素是可能的，但對於室外或室內場景，即便是每個面一英寸的三維像素，對 UX 來說都需要足夠高的解析度。

想營造這種 3D 感知，系統需要提供「幾何學」和「語義學」意義，舉例來說系統需要提供沙發的外形，也得提供一些證明它是沙發的標籤。

只要有兩個攝像頭（一個傳統的 RGB，一個景深攝像頭），就能完成密集的 3D 重建，Tango 和 HoloLens 都在使用這樣的解決方案。不過，兩套系統提供的都是簡化的幾何學意義，而只利用一顆 RGB 攝像頭就完成密集重構的技術現在還不成熟（至少還要等一年）。此外，這種解決方案對處理能力的要求市場上現有設備都無法滿足。

對 3D 場景的語義學理解也是個相當活躍的研究領域，但想出產品至少也得等一年。

Q5：蘋果可能會借 ARKit 完成對智能手機 AR 行業的早期統治，但非 iOS 用戶卻享受不到，這部分用戶甚至很長時間都用不上這項功能。那麼 ARKit 的誕生對安卓生態有什麼意義呢？谷歌需要快速轉變打法，推出廉價版的 Tango 嗎（本文發布時，谷歌推出了 ARCore）？

A5：在我看來，ARKit 的真正價值和意義在於它告訴 OEM 商（也就是 Android 和 HMD 商），當硬體性能過關後，只需給開發者提供一定的支持，他們就能進入深層的內容開發學習。

實話說，即使是一款能將 ARKit 性能發揮到極限的應用也並不完美，因為現在的應用依然要靠手持，沒有三維重構，輸入體驗也不怎麼樣。不過，有了 ARKit 開發者終於可以認識到除了一個好點的追蹤系統，AR 到底還需要什麼。

無論谷歌是否會推出輕量級的 Tango（本文發布時，谷歌推出了 ARCore），安卓 OEM 商們都有自己的小算盤，它們也想扼住命運的咽喉，推出自家的 ARKit，未來一場混戰不可避免。

Q6：我關注移動 AR 和 SLAM 已經一年左右了，但讀了你的文章我依然感覺醍醐灌頂。

我有兩個問題，第一個是 ARKit 會在 iPhone 7s 上調用第二個攝像頭嗎？第二個則是 ARKit 和 Tango 到底用了什麼演算法來避免物體移動帶來的 VIO 漂移？

A6：我覺得 7s 不會調用第二顆攝像頭（內部消息，至少在這一版本不會使用），不過在繪製初始 3D 地圖時，第二顆攝像頭可能會負責提高精度。當年 FlyBy 的初始系統就沒用到第二顆攝像頭。由於 ARKit 可以兼容傳統 mono RGB 攝像頭手機，因此它必須提供對立體聲硬體的特別支持。因此未來調用第二攝像頭也不是不可能。

對於問題中說到的「物體移動帶來的漂移」我不太理解。我想你說的可能是系統如何保持虛擬物體的位置，畢竟在 AR 場景中會有各種移動的物體「入侵」。廠商們實現這一效果靠的是以下這兩種方式：

1. 當場景動起來時，無論設備動不動，光學系統都會犯懵（當你站在一輛靜止的火車上，與另一列火車並排而立，一輛車動起來後你無法立即找出到底是哪輛車動了）。這個問題可以由慣性測量單元來解決，如果它探測不到加速，那麼你就是靜止不動的，移動的是場景。

2. 一般情況下，場景內都只有一部分在移動（如人走動、地面和建築靜止）。系統會盯著場景中的某些點，它會設定一些「可靠性得分」來測算某些點是否能確定設備的姿態。那些足夠可靠的點最後才會入選，而場景中移動的物體會被忽視。

Q7：一旦到了室外，景深攝像頭就不太靈光了，因為背景光中紅外光譜的變化會擾亂它的工作。不過，也有人不這樣認為，因為雖然我們發送的光子數量不多，但都是在極短的時間內完成的，因此某一點上產生的能量其實比太陽還高。以下為該理論的參考鏈接：

http://computerstories.net/new-technology-allows-for-outdoor-depth-sensing-cameras-16482

A7：這話說得有道理，但不是 100% 正確。如果發射器能散射出足夠的能量，那麼即使戶外光線較強設備也能正常工作。此外，我們也能使用立體紅外接收器（像 Intel 的 Realsense），這樣在戶外也能實現較好的 AR 效果（限定在一定的範圍內）。真正困擾研究人員的其實是功耗、成本和到底能應對多少戶外情況。因此現有技術下，研究人員還不願將景深相機加入消費級設備中去。

Q8：首先，我要贊一下那兩篇文章，因為終於有人指出計算視覺終將替代景深感測器了。鑒於模擬數據正在快速崛起，我相信這一天離我們不遠了。

A8：動態紅外感測器到底能不能勝任景深探測我也不敢 100% 確定。它們確實能解決一些 RGB 相機無法搞定的事情，比如光線較暗的房間、單色的表面和靜態物體的景深信息。在某些情況下，紅外線感測器還能解決生物追蹤的問題。雖然這些都是些邊邊角角的個案，但未來在降低成本和空間利用率上可能都會起到作用，不過想省電是沒戲了。

雖然未來不好預測，但可以肯定的是，景深相機的活未來 mono RGB 攝像頭都能替代。

Q9：我們準備為建築業開發一款 AR 應用並融入 Revit 模型，你覺得我們該選擇 ARKit 還是 Tango 平台呢？

A9：我認為你們做選擇應該基於下列考慮：

首先，你們希望用戶下載應用（選 ARKit）還是直接從你們手裡購買解決方案（選 Tango，順便售賣應用、手機、訓練教程和售後）呢？

其次，你的內容是否與三維世界有互動？如果有，只能選 Tango 了。當然，一年以後 ARKit 可能也會支持該功能。

當然，由於不太了解你的公司，因此我只能簡單推薦你們選擇 Tango 平台。這樣就能直接售賣解決方案並儘快找出產品在市場上的定位。如果你們的產品不能賣個高價，就說明它競爭力不夠。一旦 ARKit 開始支持你們所需的技術了，就能轉換平台了，到時可以通過低成本的「自助」應用來拓展市場。

Q10：你認為未來不同的頭戴或移動設備該怎麼同步坐標系？現有的應用需要多位用戶能同時看到並與相同的虛擬物體進行互動，這就需要整體坐標來保駕護航。未來，用光學感測器加複雜的數據處理能解決這一問題嗎？或者說我們還能拿出其他解決方案？

另外，你認為未來會有其他感測器平台融合進頭戴設備嗎？比如 LiDAR 或雷達？或者說未來我們會純靠攝像頭？在我看來，如果只靠光學解決方案，必然會遇到一些過不去的坎。

A10：關於你提到的多人聯機問題，我們在 Dekko 和三星都做過相關的解決方案，因此對這個問題我門清。這套系統肯定要用到絕對坐標，相對坐標就沒有那麼重要了。隨後，系統會在不同的設備間分享坐標（多玩家在線遊戲早就解決這一問題了）。

困難之處在於如何通過定位獲取絕對坐標。眼下，這一問題外還沒有單一的解決方案，只有能拿到更精確 GPS 數據和慣性測量單元的軍方才能做到。一般來說，系統開機後會定位在 0,0,0 坐標並獲取 GPS 讀數（精度為 10-20 米），隨後開始覆蓋 VIO 和 GPS 系統。

除此之外，系統還會抓取相機坐標系並利用天際線或地標對比 GIS 地理信息系統進行定位。這樣一來，用戶的絕對坐標值就會更加精確。不過，未來我們需要像素級的超精確定位，現在的技術雖然已經可以實現，但想迅速推廣還是有些不現實。

實話說我並不看好 LiDAR 或雷達的前途，因為它們會大幅提升設備的功耗和重量。大多數設備還是會選擇 VIO，當然有些設備會輕度使用景深攝像頭。GPU 的職責這是支持這些感測器完成地位和三維重構。此外，我們也不能忘了雲端 3D 地圖和訓練數據的巨大作用。

Q11：如果說校準是重中之重，那麼蘋果為什麼要費那麼大力將 ARKit 下放給 iPhone 6s 和 SE？最近蘋果還推出了機器學習框架 CoreML，它與 ARKit 是否有很多交集？

A11：蘋果為支持多款設備而付出了多少努力我不得而知，不過即使一併拉上了較老的 6s 和 SE，也不意味著蘋果每換一個機型就要重頭做起。

在打造 VIO 時，蘋果並未用上 Metal 或者 CoreML。由於慣性系統準確度很高，因此對 CPU 處理能力的要求並不高。此外，蘋果還要留著 GPU 渲染遊戲和應用呢。

Q12：文章寫的真不錯。為了更深的理解我還專門做了功課，結果發現 ARKit 用到的一些技術與蘋果在 iPhone 6 上引入的 Focus Pixels 技術有關。

A12：我也聽過這樣的論斷，至於蘋果是否用過我也不清楚。這項技術確實能提高景深估算的準確性，不過到底能提升多少我也說不清。同時，其穩定性也存疑，如果需要相機時刻保持穩定，其實用性就大打折扣了。對於蘋果這種軟硬體整合能力如此強悍的公司來說，將 Focus Pixels 技術用在追蹤器上確實有一定作用。

Q13：對於你文章中提到的價值主張我非常認同。在這裡我還想添加幾點自己的意見：

1. AR 將人們的精力從設備上轉移開，使他們能重新抬起頭與人面對面交流。AR 有潛力扭轉移動設備對傳統社交互動的破壞。我們手上的設備和社交應用引來了一場數字鴉片危機。我雖然像其他人一樣熱愛科技熱愛移動設備，但我也能毫不猶豫的遠離它們。

2. 一段時間以後，AR 就能讓我們看到並與一些現實世界無法見到的奇景進行交互，對此我非常感興趣。不過，人們擅長逃避，而空想主義有多種形態，我們有機會借 AR 打造一個比迪士尼更加天馬行空的世界。就這一點而言，我認為我們正站在一場大革新的門前。這場革新將顛覆我們的想像力，是留給子孫後代最好的遺產。

從個人層面來說，我非常希望開發者能真正成熟並拿出一些讓人眼前一亮的原型產品和體驗，這個行業里每個人的工作都是在添磚加瓦。

A13：上面提到的兩點確實很棒。關於讓人多抬頭，我覺得意義不大，因為人們還是會分心。我們確實可以面對面交流，但如果一方在做白日夢，這話也難說下去。AR 確實給了交互設計是一個好機會，我非常希望能參加到這場重大的實驗項目中去。

你提到的第二點我非常喜歡且贊同。實話說 AR 行業的野心比這個還大，它也確實能給我們的生活增光添彩，Dekko 也一直在朝這個方向努力，但技術環境卻一直不成熟。如果 AR 能最終成熟，兔子羅傑的故事拍成電影肯定比終結者或鋼鐵俠更加令人震撼。現在這項技術正處在關鍵的臨門一腳，我實在是等不急了。

Q14：蘋果現在在 Apple Watch 上用的「compute tethering」策略你怎麼看？iPhone 上 CPU/GPU 和 6D 感測器數據混合讓蘋果眼鏡成了渲染對象和屏幕。

無線數據的吞吐能力是個大問題，因此蘋果眼鏡自己也得有個 GPU，這樣才能完成壓縮數據流的渲染。

A14：我認為你提到的幾點從技術角度來看都非常現實。在我看來，iPhone 會長期扮演「外置處理器」的角色。從設計角度來看，蘋果不會一上來就把大量感測器和技術融合進頭戴設備中。它們還是會繼續擠牙膏的風格，讓用戶逐步適應並最終過渡到真正的 AR 世界。即使底層系統已經能提供追蹤等技術，AR 面對的一系列設計挑戰現在依然很難解決。

從技術角度來看，用戶的姿態估算可能會由頭戴設備上的專用集成電路完成，但渲染工作還是得靠智能手機。不過，以現有的無線網路來看，帶寬問題會成為一頭攔路虎。雖然一根電纜就能解決問題，但這樣的方案背離了我們的初衷。

Q15：數字與物理相結合確實很棒，但更為簡單的桌面 3D 也有三大優勢：1. 其社交和多人遊戲屬性更強，同一物理空間的利用率更高；2. 縮放和旋轉等動作更易改變語境且更容易實現相應的 VR/AR 效果；3. 桌面世界讓人更有參與感，而大多數軟體都沒有這些優勢。

A15：你提出的這些點都很有料。在桌面遊戲中，我們已經體驗到了社交 AR 帶來的益處。不過，我們的大量測試也證明，僅僅是縮放和控制攝像頭對桌面 AR 來說還遠遠不夠。此外，你還要時常改變設備的角度，而玩家通常比較懶。對於桌面 AR，我持觀望態度。要想更好地開發這種解決方案，手機就不能僅僅成為鏡頭或窗口，它還要親身參與成為遊戲手柄。在我看來，所有這些技術都必須遵循與現實世界互動的規律。在下一篇我將詳述這一問題。

Q16：1994 年，Paul Milgram 和 Fumio Kishino 將 MR 定義為「虛擬連續統一體極值間的任何地方」。2004 年，Doug A. Bowman （VR/AR 專家，2016 年加入蘋果）又將 MR 稱為「包含了虛擬環境和 AR 的連續統一體。連續統一體中環境的位置則體現了虛擬性的級別。」Bowman 去年年初還被蘋果招致麾下。

如今，微軟將 MR 做成了一個更具營銷意義的名詞，雖然它只是個術語而且重要性並不高，但其意義非常值得深度解讀。

A16：給 AR 等術語下定義我一直以來都是拒絕的，因為這實在是太學究了。在我看來，當用戶有了相關體驗，他們自然就能將相關術語概念化。能有越來越多的人意識到所謂的連續統一體我很欣慰。在我看來，上面兩個定義都沒問題，人們對產品的分類也越來越明晰。Doug Bowman 和 Mark Bilinghurst 都是我多年的老朋友，他們研究的領域也很類似，所以我知道 Doug 大體在研究什麼，但他在蘋果到底做了什麼我還真不了解。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 沉浸感 的精彩文章:

※照片/視頻/直播都弱爆了！Owlii要以實時全息傳送改變社交
※Leap Motion獲C輪5000 萬美元融資，欲在國內「開疆拓土」
※光是降價還不夠，Facebook 今年將推 VR 一體機，只賣 1000 多元
※酷！Normal VR創蘋果ARkit神用法，用AR展示HTC Vive頭盔內VR內容

TAG:沉浸感 |