這位被阿里挖來的亞馬遜最高級別華人科學家，聊了聊AI給新零售帶來的想像空間

知識 10-15

撰文 | 不走心

他曾是亞馬遜最高級別的華人科學家，他也是 1 年前轟動全球零售業的亞馬遜無人零售店項目 Amazon Go 的重要策劃者。而現在，他的身份是阿里巴巴 iDST 首席科學家兼副院長。

因此，在雲棲大會新零售峰會上，任小楓大概是談「人工智慧如何在新零售場景下進行應用」這個話題中最有話語權的科學家之一。

除了

向大家介紹了自己最為擅長的計算機識別技術，他也在演講中披露了自己對新零售諸多應用場景中的 4 個最感興趣也最看好的應用方向：

增強現實、智慧門店、機器人、可穿戴設備。

至於原因，請仔細閱讀任小楓在這次大會上由機器之能整理的全篇演講：

今天非常高興能夠有這個機會來這裡跟大家分享一下我的一些想法。

剛才看到天貓小店的視頻，非常好，它的存在已經給了大家很多想像的空間。也給大家描述了很好的未來。而作為一個技術人員，我平時大多數時間其實是在思考怎麼樣解決實際的技術問題，怎麼實現這個未來。

當然，解決問題也並不是工作的全部，有的時候確實也會想一下未來會是什麼樣子的，所以很高興有這個機會跟大家分享一下。

不過因為其實我在美國工作生活了很長時間，所以新零售這件事情很多時候對我來說也是一個迷，前面聽了曾教授也好，還有其它各位講的，我也學到很多。

怎樣去解開這個謎呢？我去看了一下前段時間阿里研究院有關於新零售的報告，那個對於新零售有一個非常全面的總結：新零售是以消費者體驗為中心的，數據驅動的泛零售的形態。

其實雖然是短短的一句話，但裡面有很多的信息。有一個比較難讓我們控制這個想像空間的是因為能夠應用的場景是非常的多，比方說批發零售、物流、娛樂、餐飲，其實就是說我們說到新零售有很多可以應用的地方。

但是我們看到這句話的描述中有幾個關健詞，一個是體驗、一個數據、一個泛零售。

從體驗來說我相信很多在座的比我會有更多想法，也有更多經驗去想怎樣才是更好的用戶體驗。而對我來說，因為我做的是人工智慧，特別是計算機視覺，想的則是怎麼樣能夠得到有用的數據。

從數據的角度來說，因為應用的場景很多，百貨公司、購物中心，便利店，甚至還有很多比方說是直播，視頻、電子商務。

從各個場景來看，買東西的本質，無非就是人和商品。我們做的事情就是去理解人，理解物，然後把人跟物聯繫起來，讓用戶更好和更快地找到他滿意的商品，把商品能夠更快更好的送到用戶的手裡。

從信息的角度來說，要得到關於人的信息或者關於物的信息，特別在很多線下的場景當中，我自己覺得計算機視覺或者用相機是非常好的方法。

比方說，視覺是通用的方法，有一個相機在裡面可以干很多事情，可以識別人、物、動作，也是非常高信息量的感知的方法，像現在比如 1080P 的視頻非常普及，1080P 的象素下面可以看到很多東西。

而它又是一種被動的方法，很多情況下原因是因為人是用眼睛感知的，所以這個世界實際上是為了我們的眼睛而設計的，從紅綠燈也好，標誌牌也好，很多商品的包裝，很多時候都是為了適應人眼，計算機視覺就是利用了這個世界設計的規律，然後試圖用同樣的途徑來得到更多的信息。

當然視覺它其實有很多問題，首先必須要有光照，比較好的光照才能夠得到比較好的信息。但這問題也不是太大，因為人的眼睛也需要好的光照才能看到。

另一個是遮擋，這是個比較大的問題。相機被擋住，後面的東西確實沒法看到。這個其實也是跟高信息量相關的，因為我們用的是可見光，波長很短，需要高信息量的時候沒辦法繞過前面的遮擋物。而計算機視覺應用最大的問題是它的精度，很多時候精度不夠，但是最近幾年有很大的改變，很大程度上來說精度並不是特別大的問題了。

下面我想介紹一下現在計算機領域的發展狀態，也讓大家對其有更好的了解，看看我們技術已經進步到什麼程度。

從物來說大家知道有一個非常有影響力的競賽是物體分類的競賽，一千個物體，所要做的就是給每一張圖打上一個標籤，知道它是什麼。這個是過去八年當中 ILSVRC 上面的進展，Y 軸描述是錯誤率，還是非常難的，最近這八年進步非常快。

2012 年的時候深度學習開始就是說在這個問題當中得到應用，在整個計算機視覺領域得到應用。2012 年之後，過去的六年當中精度一直在提高。

可以比較一下，有人測過人在這個問題的錯誤率是 5%，並不是計算機超過人，它也有各種各樣的問題。但在一定程度上，計算機在某些情況下可以達到人的精度。

光是一張圖一個物體並不是視覺唯一的問題，很多情況下需要處理一個複雜的場景，所以 ilsvrc 也有物體檢測的競賽，給你複雜的場景，需要找到各種各樣的物體，這個問題這幾年的進展也是很快的，當然深度學習是一個原因，當然數據其它的都是原因。

這個圖稍微複雜一點，因為檢測的問題來說，要做到正確的檢測需要有正確的標籤和正確的位置，檢測問題還有一個預值的問題，可以把預值調高，返回的問題少會錯失一些，調低返回的更多，但是會有一些誤解。

總的來說現在的 MAP，就是平均精度達到 0.75，這個確實跟人還有一定的距離。但是大家看一下這個圖，很多情況下還是能夠做的很好。像這個場景當中有很多東西，有人，有狗，有雨傘，後面還有一些比較小的東西，比如椅子，很多情況下都是能夠檢測到的。

大家再看一下這個語義分割的例子。很多情況並不是只是找邊框，這個問題在每個象素點上我們都去標註這個到底是什麼。這是自動駕駛的例子，演算法可以標樹、車、行人，還有各種各樣的在場景當中能夠碰到的物體，這也是一個已經能夠達到不錯的精度，現在用相機做無人車也是非常有意思的方向。

總之，對人來說，其實視覺也能夠做很多東西。這又是一個例子，這是一個多相機的跟蹤的例子，比方用八個相機，人在走動，很多情況下我們可以比較精準地跟蹤這些人，每時每刻知道這個人的地方。多相機的跟蹤可以做很多事，首先可以得到人的身份，可以知道這個人是誰，還有一個就是可以比較精準的得到這個人的位置。

大家知道室內定位，其實有很多方法，WIFI 也好，藍牙也好，超聲波。而精準定位，視覺能夠給我們一個至少是厘米級的定位的精度，很多情況下是很有用的。

不是說只是去檢測這個人在哪裡，在很多情況下，我想給大家看的是其實我們在很多情況下能夠做到對人姿態及各種動作的判斷——不光知道人在哪，也能知道眼睛、耳朵、肩膀、手臂是怎樣活動的。

即使比較複雜的場景下，即便人的動作變化很大，我們也一樣能夠去得到這些信息。人的姿態其實是一個對人理解的基礎。

這是一張圖片，就是其實是一個基於人姿態的動作識別。上面那個藍色的是我們想得到的東西，綠的是演算法的估計。這個相對來說是一個比較簡單的問題，這個視頻相對來說比較簡單，想給大家看一下，有了姿態之後，還可以在姿態的基礎上做一些動作的識別，物體的識別，很多情況下能夠識別人的動作。

如果我們往前展望一下，無論是一個室外場景也好或者室內場景也好，現在計算機視覺真的能夠做很多東西。

稍微誇張一下的說，其實很多情況下，我們看得見的事情，人能做的事情確實計算機現在都能做。在幾年前絕對不敢說這句話，但是現在演算法的發展也好，其它能力的提高也好，很多情況已經很接近了。

當然，從另一個方面來說，如果相機看不見的也沒辦法。這個也不是純開玩笑，因為從解決實際問題的角度出發，相機的布置其實是一個很重要的問題，你希望能夠有一個很好的布置，能夠在最大程度上得到你想得到的信息。

除了相機之外，其實我們還有很多別的問題需要考慮，比方說數據、計算量、成本，這些跟演算法需要結合在一起。我對視覺還是有非常有信心的，覺得有很多情況下很多事情都能做的。

回到新零售的討論，如果說新零售是一個數據驅動，其實也可以把這個說法做小小的修改，可以是用信息驅動的形態。怎麼說呢？有很多時候數據並不是現成的，有很多時候數據需要我們花力氣得到的，特別線下的場景當中，或者線上也好，很多情況用視覺或者其它得到對我們有用的信息。

說完了視覺，前段時間的進展或者技術，我也想跟大家說一下我自己非常感興趣的幾個應用方向，在這麼多的應用場景當中，我想提幾個自己比較感興趣的：

增強現實，智慧門店，機器人，萬能助手（可穿戴）。

想給大家看一下幾個例子，看看現在技術大概發展到什麼程度：

增強現實是現實世界跟虛擬世界的疊加。就像這個圖上顯示的，我們買傢具，可以拿 PAD 看家裡，可以把傢具放那邊。這裡面有幾個比較關鍵的問題，比如三維定位、三維建模，渲染。建模與渲染是比較簡單的問題，對定位來說現在也到了一個時候。

大家知道前幾個月蘋果公司發布了他們能夠在蘋果手機上面做到相當精準的實時的三維的定位，它的計算量都達到了使用的程度。

三維定位解決之後，其實增強現實能夠有很多應用的，給大家稍微看一下幾個例子。

這是一個例子是就是說是相當於幫助你去找東西，其實對我來說是一個很重要的事情。經常我太太讓我到店裡買東西，不知道在哪，我也不願意問人，要花很長時間。

如果有了定位技術，然後如果以這個店裡面商品的位置做一個比較精確的地圖，就可以想像可以用增強現實去做一些導引方面的東西。

當然其實我們也可以說在這個例子當中，增強現實不一定是非常關鍵的東西。回到剛才說的虛擬購物，也是大家經常說的東西，如果有了增強現實，可以在網上找到這些傢具可以放到家裡可以看大小，可以看搭配，很多情況下還可以看光影的效果等等。這個在現在也是一個可能也是一個比較成熟的，很多人可能有很多人在做，很多時候很快可以用到。

下一個想跟大家稍微討論一下的是智能門店，大家知道我以前是在亞馬遜的，我很幸運在亞馬遜 GO 項目開始的時候加入了進去，我們花了四年時間做了這麼一個店，還是非常興奮和自豪的。

我們解決的問題是在一個相對通用的場景下解決支付的問題，做到進去之後拿了直接走，不需要排隊結帳環節。

做了 4 年之後，現在每次買東西排隊都希望能夠把支付環節做好，省掉排隊跟結帳。雖然只是支付一個環節，但要做到高精度就有很多問題要解決，解決人的問題、商品的問題、動作方面的問題，知道人拿的什麼商品。

很多情況下可以想像成是一個相對通用的線下智能系統，如果有一個相機網路，可以做很多事情，可以用來跟蹤人，可以用來分析人流，可以看停留的時間，看有人有沒有拿東西，看了多久，有沒有放回去，可以用相機監控貨架。

如果跟身份結合，或者用人臉或者其它方式，可以做到很多個性化的體驗，能夠讓你在每時每刻在店裡面知道你是誰，提供個性化的服務。

支付肯定是一個方向，有很多情況下我們會思考很多事情在線上比較容易做的，像停留時間、個性化。現在到了一個其實我們在線下也能夠做類似東西的時候。

實際上，有些東西在線上不是那麼容易做的，比方說我們可以做表情識別，這是一個例子，就是我們可以通過對人臉的分析知道它是高興還是不高興，是生氣了還是無聊，其實很多時候這件事情都是可以做的。

因此，線下跟線上相比，有一些時候說不定真的有一些優勢。

回到這個線下系統，在不遠的將來可以看到像這樣通用的線下智能系統可以做很多事情，在一家小店鋪做一回事，但是在大的 shopping mall 場景下，裡面有各種各樣的店鋪，有比較大的空間，那個裡面的實現難度會再上一個大台階。

普通情況下是一回事，如果在一個比較擁擠的情況下，很多時候也是需要在演算法上，在數據上，或者其它方面花很大的力氣，但是在很多時候應該是在目前來說應該是已經是可見的事，能夠看得到的事情。

第三個提一下機器人，前面提的很多情況下只是感知，只知道那個人在哪裡，其實我們可以做一些交互，可以是語音的交互，也可以是顯示屏或者視覺上面的交互。從物理的角度來說，我覺得我對機器人還是非常感興趣的，機器人現在發展也是非常的快，大家其實已經看到了很多的例子。

這是一個 Boston 的例子，他們做了很長時間機器人，在控制上面做的很好。它可以做很多事情，可以在家裡走，這個是顯示一下它能夠做非常複雜的動作。

因為它有腿，它也有手，可以抓廚房裡面的一個杯子，當然這只是一個例子。其實很多人想做一個機器人，自動的幫你洗碗洗盤子，或者干其它家務，那個還有一定的距離，但是這個其實例子也說明了我們這個可能離將來並不是那麼遠。

這個是因為 Boston 他們主要做控制，視覺上沒有花太多功夫，不然可以識別那是個香蕉皮的。但是它可以爬起來，然後自己上樓梯。

所以機器人在將來，應該是一個非常有意思的方向，物流也好，門店也好，相信在將來肯定會看到更多機器人的應用。

最後一個是萬能助手，主要指的是可穿戴設備。

可穿戴設備是個人視角，跟門店不同，它可以記錄生活，識別環境，識別其它的人，也可以用來識別自己的動作狀態，可以作為一個助手跟你對話，給你提供信息，它其實是有很多事情可以做的。

譬如，Snap Sperctacles 前段時間出了一個比較好的眼鏡，可以比較好的記錄生活狀態。

谷歌其實好幾年前，就做谷歌眼鏡，後來沒有做成功，後來出了企業版，還比較有意思，可以幫工作人員在製造或者物流或者其它情況當中做很多事情，可以幫你識別，可以幫你掃碼。其實還有一個例子，他們當時是想說你有一個比較複雜的工作要接線，可以告訴你線怎麼接，幹什麼事情，這樣的設備在以後對大家是很有用的東西。

最後，大家應該都見過這個曲線，這是 Hype Cycle，就是每個技術，新產品，都要經歷這樣的發展階段：

開始大家非常興奮，一擁而上，很快達到頂點，再然後就要處理實際的問題，再往下走了，走到谷底，最現實的問題出來，大家才知道應該解決哪些問題，逐漸往上走。

剛才提到那幾個方向，增強現實其實已經在這個地方了，下面會看到比較多的應用；

而智能門店可能還是處在山頂附近，下面應該有很多東西要走；

而機器人或者可穿戴設備可能還會在更加遙遠的將來。

但是我有時候也需要想像一下五年以後，十年以後的樣子，這些也都是非常讓人感到激動的方向。

剛才提到很多應用當中，視覺是能夠起到非常關鍵的作用，能夠得到很多信息，因為它是通用的方法，能夠得到人物動作，很多東西能做的。

當然我們需要去得到相關的數據，很多時候很多演算法需要融合，需要跟其它的感測器進行融合。另外，很多時候也不光是感知的問題，我們需要去跟機器人或者其它交匯的方法融合，計算角度來說不見得都在雲上或者端上做，雲跟端也要融合。

除了這幾個問題之外，還有很多大家有的時候會提到的方向，譬如簡單的手勢識別、商品搜索、虛擬現實。

其實在新製造上面我自己也覺得人工智慧，計算機視覺有很多可能性的應用。我們經常說現在確實是一個技術發展非常快的時候，商業也是發展非常快的時候，我也是非常期待能夠成為這個當中的一部分，能夠跟大家一起努力，能夠建設一個更好的未來。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※這3個85後技術男，代表了中國科技圈的新生力量
※伯克利提出強化學習新方法，可讓智能體同時學習多個解決方案
※人工智慧如何幫你找到好歌：探秘Spotify神奇的每周歌單
※阿里巴巴iDST首席科學家任小楓聊了聊AI給新零售帶來的想像空間
※這3個「圍爐夜話」的85後技術男，代表了中國科技圈的新生力量

TAG:機器之心 |