商湯CEO徐立：AI城市中，基於GPU計算能力的人工智慧商業場景

最新 09-29

伴隨著人工智慧新一波的爆發，圖像識別等新技術的發展、GPU計算能力的提升，都對智慧城市進行了新闡釋。AI技術如何重新定義城市、交通、乃至個人生活？AI技術如何真正在智慧城市或者是人工智慧城市裡面取得突破？

在英偉達GTC 2017大會現場，商湯科技CEO徐立就此發表了相關看法。他認為，智慧城市是在整個城市服務水平的提升，我們理解的從工業城市到智慧城市的發展，是一個必然的趨勢。徐立還提出了在AI城市中，可能出現的幾個商業場景。

以下為徐立的演講全文，大數據文摘做了不改變原意的刪改：

非常有幸有機會在這裡跟大家分享商湯科技在智慧城市中應用的一點想法，講到智慧城市，或者是人工智慧城市，我們雖然做人工智慧，人工智慧城市到底是什麼樣的情況，也聽了幾位的演講，還是挺有感觸的，跟他們一直也交流在這一方面的心得，現在大家來看，人工智慧對這個行業的影響和變革，其實還是非常大的。

從我們現在的思考，從這一波技術帶來的變革，英偉達對整個行業的變化，現在進入了第四次工業革命的時代，包括說我們是大數據的變革，人工智慧的變革，引領的是整個行業的產業升級。放到更高的維度來看的，我們可以看到其實人類發生了幾次革命，農業革命帶來的是農業城鎮的建設和變化。再就是工業革命，形成的是物理的提升，有工業城市的建設。現在這一波是技術革命，包括數字，包括說數字化，包括說我們講的大數據，還有現在的人工智慧，必然會帶來整個城市的升級。如果我們對智慧城市從這麼一個角度來看，智慧城市其實是在整個城市服務水平的提升，我們理解的從工業城市到智慧城市的發展，是一個必然的趨勢。

數據是智慧城市一個很核心的標準

講到智慧城市，或者是AI City，我們也是處在一個比較模糊的狀態，因為智慧城市的定義是隨著時間變化而變化。剛才講的安防攝像頭，你要知道全世界的安防工作，每天都在使用。現在新興樓宇有大量的數字化攝像頭，在2020年就有十億隻攝像頭，對這個場景的捕捉，試想一下這個是一個非常大的數字化的場景。把所有的變成數字化，就變成了一個智慧城市，這個定義值得商榷。

其實智慧城市一個很核心的標準，就是數據，除此之外還得需要各式各樣的感測技術，你要對生活周邊所有的這樣的內容有所感知的時候，形成這樣一個感知網路，這是一個智慧城市。當這波人工智慧爆發的時候，對智慧城市進行一個重新的闡釋，現在的智慧城市跟人工智慧密切相關，用人工智慧驅動的方法對城市進行定義，對城市當中的個人生活進行定義，對城市當中和人和交際進行定義，對交通進行定義，以至於對整個國家進行定義。智慧城市從商湯科技的角度來看，我們在這兩年服務了這麼多企業，用人工智慧賦能下游企業的時候，我們發現它是一個動態演進的過程，定義也是隨著時間的變化而變化的。

2008年IBM最先提出了智慧城市的概念，各個端包含了三個部分，第一部分是智慧城市的定義需要更透徹的感知，要把數據傳回來。從攝像頭的建設，和個人感知器的建設，路邊有各種各樣的感測器，上面有攝像頭，還有各種聲音，氣味，煙霧的感測器，這些感測器達到了第一步是對現實世界場景的還原工作。有了這些工作，進入了第二個階段，也是十年前比較火的一個概念，有了4G、5G的感測器，然後要做數據之間的傳遞和數據之間的分享，才能形成一個大數據的集群。

我記得讀書的時候，2003、2004年的時候，翻開雜誌看到大數據，講了十年大數據，2013、2014年一直講big data，一直沒有起到實質性的作用，只是大量的數據放在那裡，這些數據到底能用在什麼，其實不清楚的。所以有了更透徹的感知和更廣泛的互聯互通，最關鍵的是背後的核心智能。三個要素，是獲取、連接和處理，這三個連接起來，我們認為是現在智慧城市所必須的先決條件。

講到中國，還是有非常大的魄力，任何一個西方國家在做人工智慧的規劃也好，在做智慧城市的演進也好，其實所有給的都是由第三方諮詢機構給出這樣一個建議，像埃森哲、普華永道每年都會給出關於人工智慧和智慧城市，給出對未來的預測，但沒有上升到國家政策，沒有國家在此傾注更多的指導意見。

在智慧城市方面，其實我們國家在2012年開始非常關注整個智慧城市的建設，當時聚焦在感測器連接，然後數字化。到了14年8月，國家出台了關於促進智慧城市健康發展的指導意見，給出了2020年的五年工作計劃，現在講到人工智慧這一波熱，政府在這一方面花了大量的心血，中國今年3月份，第一次將人工智慧寫出了工作報告，6月份出台了關於人工智慧規劃的白皮書，而且給出了2030年的整個人工智慧的規劃。所以從這一點上來講，國家的政策對於整個國家的智能化，智慧化和人工智慧有了一個非常大的進步。

GPU和人工智慧本身的關係

我們講一講GPU和人工智慧本身的關係，很多年前大家來看英偉達，很多人認為他是一家做顯卡，遊戲的公司，即使漸漸從原始的走向GPU通用計算，做的更多的是超算，還有大數據模擬。確實在那個階段，它和人工智慧的關係還是比較遙遠。現在來看，英偉達搭建的是跟人工智慧相關的平台，所以這一波人人工智慧的信息，和這樣的平台支撐是離不開的。我們講人工智慧興起是基於深度學習的演算法，其實是一種純數據驅動的處理程序。以前我們講深度學習之前有很多統計學習的演算法，還有專家系統，更多依賴於人的知識演算法。深度學習什麼時候發明的，1980年代有相關的神經網路，即使深度學習這個詞，完完全全是描繪現在的發展，2006年的時候就有了這麼一個學術的理論，並且是在實驗當中有一定成果，為什麼到現在2017年了，才形成了一個在這裡探討人工智慧的爆發對行業的影響，這當中的差距在什麼地方？其實主要有幾點：

第一點，在2006年的時候，行業的數據沒有這麼大的規模。那個時候才剛剛開始講大數據，數據比較小的時候，人的知識會起到非常重要的作用。我們要估計整個房間的年齡，數據比較少的時候，要對年齡做假設，做正態分布的假設，大家來聽的就是數據行業的人。數據大的時候，把所有人信息數據獲取了以後，可以做出更好，更精準的，針對於現實場景的分析，這就是數據大小帶來的需要不需要人介入。

第二，本身的計算能力不能處理純數據計算能力，這是GPU起到了非常重要的作用。之前我搜索了深度學習這個詞，深度學習以前一直是平的，從這個詞的誕生到2012年底都是一個平的，基本上沒有過多的搜索，2012年底的時候，突然之間有一個很高速的崛起，第一次用深度學習取得了大規模的視覺識別的突破，講的是計算機視覺，相當於是處理圖片視頻。然後第一次大規模的利用GPU，用了GPU來取代原有的CPU，這件事情非常了不起，以前能夠取得這樣的突破，微軟這樣的企業擁有大量的CPU的資源，CPU需要很多的機器連接起來，形成一個CPU集群，才能做深度學習的操作。所以人工智慧的爆發有點像大而美的事，這件事情確實很漂亮，只能是微軟做，谷歌做，Facebook，現在亞馬遜也在做。六塊GPU就可以相當於一千個節點的CPU，正因為這樣一件事情使得我們進入了一個新的時代，叫計算力的平民化的時代，創業企業能夠利用有效的資源，搭建一個更高速的迭代，所以在GPU應用在人工智慧和智慧城市的當中之後，能夠促進AI演算法的迭代。這兩個部分的疊加，才是2012年底為什麼會有一個新的突破。

平民化之後，大部分的企業有志於做人工智慧研究的企業有了很大的突破，在很多垂直領域把一個生產力工具超過人的極限，突破人的準確率，這才是這一波行業爆發的主要原因。

AI技術如何在智慧城市取得突破

AI技術如何真正在智慧城市或者是人工智慧城市裡面取得突破，我覺得任何一個公司都沒有辦法去真正闡述我們整個全局的照片，所以我們從中選取了一些角度和維度，這也是我們過去兩年商業化過程當中，提供了產品在打磨我們這樣一個系統過程當中，取得了一些進展。每個人的生活，對整個社會的商業場景，以及對整個城市管理會有不同維度的突破。我們既然是一家視覺公司，我們後面呈現都是以視覺和視頻，更好表達人工智慧是可以通過視覺更好的展現出來。

AI和個人生活，人工智慧到底有沒有在我們大眾發生，很多人講人工智慧很熱，但是在每個人的生活當中，其實並沒有產生影響，很多人說你這個行業非常熱，但是人工智慧對行業的普及還沒有到，請你談一談為什麼。我想說如果從個人的角度來說，我們每個人都或多或少對現有的這一波純數據的驅動人工智慧的改變或者是改造，比如說國產的華為、小米等手機，發現現在的拍照，已經可以做到了模仿卡片機。除此之外，現在能夠做到的是手機還能夠替代部分的單反效果，朋友圈曬的照片可以有變焦的操作，有非常淺的景深，這樣一款產品，某種意義上不是因為感測器的神經造成的，是因為背後人工智慧的演算法突破造成的，而且這個演算法是完全基於大量的數據迭代，所以在這個過程當中，已經用上了這一波人工智慧。如果手機上用了華為、小米的手機，你拍一張照片的時候，你會發現你和你的家人，甚至你朋友的照片，完全可以分開。我有三個小孩，其實長得還蠻像的，他們的照片用iPhone拍完，非常自動的歸為三類，這三類很準確，並沒有搞混淆。像這樣一種分類，場景標註的鏡頭，也是這一波人工智慧帶來的TO C端的產品突破。接下來一些產品都會有一些比較明確的變化，這是我們接下來手機上迎來比較大的突破。未來是手機刷臉解鎖，指紋會越來越少，變得不太重要。而人臉作為你的生物特徵，可以刷開你的手機，商湯科技將會和眾多手機廠商進行合作，提供刷臉的服務。

你用人臉作為你的一個密碼，是不是非常恐怖的一件事情，蘋果出現這樣一個功能的時候，很多人傳來這樣一個漫畫，太太跟先生說，先生你看一看我這條裙子好不好，看完之後，刷臉成功支付。你這個刷臉到底安全不？半夜睡覺的時候，別人拿我的臉刷一下，錢就付了。一方面對新生事物的好奇心，即使蘋果這個功能出來了以後，比傳統密碼多受到了60倍的攻擊，一看上指紋，指紋也能夠做支付，也能做解鎖，這個事情聽起來很神奇，所以有大量的攻擊。所以人臉一定會有同樣大量的攻擊，可喜的告訴大家，用一張照片，突然之間偷偷地解鎖，可能都會被擋住，背後有整個完善活體檢測的方案，包括反欺詐攻擊，甚至有一定的時間段，對用戶習慣的學習，最後給出一個比較有價值的判斷，你是不是你本人進行這樣一個解鎖。

有了背後的人工智慧數據的支持，人臉解鎖準確率要高於指紋的。這是兩年前我們完成了用人臉做金融的支付。人臉的解鎖某種程度上潛移默化進入了大家的產品中，一旦用到了終端手機，會受到大量的攻擊，這個是會經得起時間的考驗。

市面上沒有任何一款實時人臉關鍵部位驅動的特效，同時能夠做到低功耗的手機上，別人說加一些特效，說美顏和美白，還有大臉，還有瘦臉，背後大部分的演算法都是數據驅動和深度學習的方法，難點是在於說你用一個大數據學習的方法，你背後模型尺寸就非常大，這樣的演算法原本意義上只能用在大規模的伺服器，隨著網路壓縮的能力，可以把這一部分的能力遷移到大家的手機上，遷移到各種終端上，在這個終端上才能做到這麼長時間的使用。我們讓每個員工說出對這個平台的期望，有一個員工就提出了使用30分鐘不燙手，我要看這個APP開30分鐘不燙手，到最後我們發現在每秒實時的情況下，這樣一個APP確實是非常低功耗的效果，這確實是人工智慧演算法的突破。

未來其實人工智慧會帶來很大的突破，包括人和社會，人和多人的交互，其實無人駕駛就是其中的一個場景，大家聽了很多無人駕駛相關的進展和變化，無人駕駛會改變個人的出行習慣，以前開始的時候不能喝酒，未來不一定，要是有無人車的時候，開車和喝酒是完全不相關的事情。無人駕駛為什麼大家覺得比較可行，或者在規定的道路上能夠在幾年之內看到有比較明確前景的內容，是因為這一波的演算法是完全基於純數據驅動的演算法，而無人駕駛的數據積累是處在一個臨界點，可以大規模收集視覺數據。

我們講了對每個個人的影響，在這樣一個大的環境下，對商業的影響。現在互聯網企業擠壓傳統的商業，利潤都擠壓了，很多商店有這樣的困惑，我的東西應該怎麼擺，才能更有效，才能更好吸引客流。大的百貨商場，女士的東西都要往上走，走到兩三樓，走了一大圈，儘可能逗留，這樣擺是有什麼道理，很多是通過心理學，通過一些傳統的數據分析。目前我們的SenseGo系統就能解決這個問題，男女老少，年齡和身高都可以做測算，通過哪條路徑走過，最後到達出口，都有分析。還有對現有的商鋪進行分類，這樣一些智慧商業讓整個變局變得更準確。BAT都會說未來人工智慧發展到下一個階段，真的有可能進入到了計劃經濟的時代，很多數據都可以經過精確的計算，來給出一個更好的答案。

能夠有一個屏幕識別人，這個屏幕在商業顯示上有更好的操作，首先可以測顏值，我們辦公室有大的一面SenseU產品，是測大家的顏值。我們突然發現這樣一個測顏值的產品，非常有用，用來吸引客流。我們在一些展會部署SenseU的產品，會排著隊有人來測，昨天參加展會的同學第二天穿不同的衣服，打扮成不同的樣子，他要刷新自己的記錄，這是一個吸引客流的產品。這一款本身我們做純娛樂的時候，是不是可以做商業化的操作，我擺在一個商場裡面，他可以識別真正來裡面的人，還有測顏值。同時還可以給在座的人進行一些分流，可以知道哪些人是屬於哪個人群的。大家有一家公司是分眾傳媒，做廣告做得很好，分屏是物理位置，像SenseGo的屏根據人工智慧，根本把人分開，給大家推薦不同的商品和產品，除此之外還帶來更加豐富的應用場景，包括做商業的排隊，這是我們對商業改造的新零售的場景下的模式。

剛才是群像，群像之後有一個更精準的是身份認證，如果用手機的信用卡，各式各樣的設備，其實會有一個點，都需要進行實名認證，現在做互聯網的各種APP都需要視頻認證，中國身份ID是一個可以有價值，並且可以做區分的。目前商業場景中如果說能用到人臉，對個人精準化的描述，其實會帶來很大的應用。身份認證，中國移動在兩年之內幫他完成了三個億的實名認證，省去了很多櫃面的手續，提升了中國移動的效率。

我們在商業場景中還能做什麼樣的操作？這是我們做的一個視頻，通過人臉信息技術買單，可以輕鬆識別出來這個顧客，目前在南京蘇寧未來店的場所，可以知道第三方的VIP系統。有些場所人很多，怎麼樣去說服這些人去進行這樣一個VIP登記，我們服務的客單價很高的，比如說買樓，買車，其實顧客來了，超過兩次以上，就說明他可能對這些商品有興趣，每單成交的客單價很高，其實裡面帶來了很大的商業價值。假設一個人在商業環境下，重複在三個月之內，到達兩次或者三次以後，我自動分析成VIP系統，可以提供更精準的服務，上一次看的貨品，現在已經到貨了。現在有了這樣一個更精準的定向推送，我們來做很多的商業行為，就會變得更有效果。

最後講一下更高維度的城市管理，城市管理是真正的解決城市治理的問題，海康也提到了可以用人臉來部署在安防的情況下，進行更安全的監控。我們在重慶的一個區，部署了叫人臉對比的系統，40天識別了69個嫌疑犯。在廣州上半年的時間裡，我們的系統幫助他們破獲了200多起案件，它其實真正幫助我們現在城市變得更安全，很多人也會困惑，這麼多的攝像頭，大家有沒有隱私呢？實際上有了現在這些技術，確實是把大家的隱私做得更安全，因為傳統當中有一些攝像頭樓里的保安看，公安幹警看，很多都可以說這個鏈條上所有能夠涉及到這些數據的人，都可以查看原始的視頻，你的一舉一動都有人來看你的原始視頻，是不是非常恐怖？但是有了這個技術之後，可以把人臉變成一串條碼，不能恢復原來真實的人臉，不把真實的ID放上去，原始的數據不能被獲取，有了這樣人工智慧的技術，反倒是讓大家的隱私得到更好的保護。

如果看不到人臉的情況，一個人在多個攝像頭場景中出現過，他其實可以把這個人的軌跡進行還原，甚至還可以用人的自然語言，以前是用圖片，現在可以簡單說這個人穿灰色上衣，挎一個黑色的包，可以大幅度提升管理水平。其實某種意義上達到了一個新的高度的安全，就是用人工智慧的方法。

我們可以做到更好單人的檢測，多人的檢，人群的分析，這些事情用wifi的信號也可以完成，但是如果用人工智慧的演算法，不但能檢查出來人的密度，也可以知道某些地方有逆流，真正可能有預警的情況，極早的進行防範。並且還可以進行對人群軌跡的跟蹤和恢復，這是一個火車站的場景，可以檢測兩波，第一波是流動人流，第二波是靜態人群，大都站著不動的人，在火車站要引起警覺。

我們對於場景當中其他物體的識別，剛才講到對於人臉整個個人，還有人群，其實還有一個更高的維度，就是所有場景中的物體，可以把視頻當中所有的人、車、非機動車，車四千種車型，人40種屬性，都進行結構化的梳理，你可以降低存儲空間，如果每天的東西都存下來，存一個月，中國的硬碟可以大幅度的下降。未來只存儲結構化被認證的條目，那麼有了這些條目之後，你可以做到更好恢復原來的人、車、非機動車的軌跡，而且通過自然語言來進行管理。對於城市可以更有效緩解交通的壓力，更有效的恢復一個人的行為。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 大數據文摘 的精彩文章:

※如何訓練一個簡單的音頻識別網路
※2小時，從權游到自動駕駛，英偉達創始人黃仁勛北京演講說得最多的是「省錢」！
※吳恩達導師Michael I.Jordan剛去清華手寫版書講了三天課，這有一份他的課程筆記
※如何用「貝葉斯理論」優雅地決策？
※原創靈魂手繪，聊個5分鐘的人工智慧

TAG:大數據文摘 |