商湯科技徐立：AI 將在10 年內創造一個印度和中國的總產值

新聞 03-26

新智元報道

作者：肖琴

【新智元導讀】3月22日，清華大學《人工智慧前沿與產業趨勢》系列課程第二講開課，本講聚焦當前AI領域最火、落地應用最成功的計算機視覺，由商湯科技CEO徐立主講。徐立博士結合計算機視覺和人臉識別的具體應用，對AI的發展階段進行了回顧，並對計算機視覺的技術突破和行業需求作了一番深入的探討。新智元作為獨家合作媒體，帶來乾貨整理。

主講老師

雷鳴

天使投資人

百度創始七劍客之一

酷我音樂創始人

清華大學海峽研究院大數據 AI 中心專家委員

特邀講者

徐立

商湯科技聯合創始人 CEO

本科、博士分別畢業於上海交通大學和香港中文大學。擁有十餘年計算機視覺、人工智慧基礎研究和產品開發經驗。先後在摩托羅拉研究院、歐姆龍研究所、微軟研究院、聯想研究院等計算機視覺基礎研究機構訪問工作。

2014 年徐立作為聯合創始人創立商湯科技，任 CEO，研發人臉識別、圖像識別、視頻分析、無人駕駛、醫療影像識別等 AI 演算法，賦能 AI 於各行業。目前商湯已成為國內 AI 行業中，技術團隊規模最大及融資額最多的獨角獸企業。

3月22日，清華大學《人工智慧前沿與產業趨勢》系列課程第二講開課，本講聚焦當前AI領域最火、落地應用最成功的計算機視覺，由商湯科技聯合創始人、CEO徐立主講。在徐立博士講座之前，雷鳴老師先就計算機視覺技術作了一番概覽式的描述。他對計算機視覺技術提出如下獨創分類：

靜態技術：

人臉識別

物體識別

分割

描述

動態技術：

物體跟蹤

動作檢測

視頻描述

生成技術：

風格轉換

場景生成

視頻生成

計算機視覺的應用場景現在已經有很多，未來的更多應用需要大家的想像力。例如：

人臉識別認證：機場、酒店；手機銀行；公司考勤

安防：異常檢測；鎖定和追蹤

醫學影像：醫療診斷

工業農業：產品質量檢測；豬臉識別

金融：衛星圖像分析

徐立：人工智慧是一種生產力工具，10年能創造一個印度和中國的總產值

徐立博士的授課主題是《AI行業發展：未來已來，隱約可見》。徐立博士先從計算機視覺的角度講了人工智慧的三次浪潮。

這張圖大家可能在很多地方看過類似的，不過行業的發展並不是拿這樣一張簡單的圖就能把它的起起伏伏講清楚。計算機視覺是人工智慧的一個分支，但計算機視覺本身也有很多分支，每個分支的發展都是不一樣的。

從圖中我們可以很清楚地看到每一個高潮是在什麼地方，第一個高潮出現在1957年，第一個神經網路的發明；到1986年，BP演算法實現了神經網路的突破，人工智慧進入第二個高潮；再到現在，深度學習是高潮。

每個分支的高潮低谷又是不一樣的。計算機視覺在90年的時候處於低谷，那時候「模糊邏輯」大行其道。比如說有一個「電梯模糊」，你站在五樓按下電梯，電梯上到五樓卻沒有停，它繼續往上走。它的解釋是，它發現上面還有一個人在按電梯，它經過計算髮現先去載上面的乘客，再下來載你，這樣節能的效率更好。但是呢，這樣特別不人性化。所以呢，後來模糊邏輯就不行了，後來就不用了。

所以在每個時間點人工智慧都有自己的發展方向，但總體上是螺旋形。

那麼人工智慧是什麼呢？徐立博士給出的定義是，人工智慧是一種超越人的生產力工具。這一波AI的革命性是由於突然之間，人們發現技術能夠在工業的某條紅線上產生突破，形成了非常強大的生產力工具。所以它其實是一個artificial labor的問題。

那麼既然是生產力工具，讓我們來看一些數據：

到2035年，人工智慧有望推動世界勞動生產率提高40%以上。

這包括大部分沒有被人工智慧影響的企業、國家和地區。所以那些頭部的企業基本上就是勞動力被取代的模式，兩個人被一個人幹掉。所以我認為未來十年一個最大的問題是做人機融合，就是怎樣利用這些人。我們現在看到AI在某些產業已經代替了人類的勞動和工作，那麼人類所需要做的是怎樣駕馭機器，怎樣實現更好的生產率。至於機器有沒有情感，在什麼階段能把人全部取代，這不是我們這幫人研究的問題。

另一個數據：

到2030年，人工智慧將促使全球生產總值增長14%，為世界經濟貢獻15.7萬億美元的新增產值。

這相當於現在中國和印度生產總值的總和，即是說，用十年的時間就能新造出一個中國和印度。那麼這些新增產值從哪來的呢？還是來自於效率機器。所以未來在很多垂直行業，AI將代替更多的人類。

人工智慧發展的路徑：從技不如人到超越大眾、超越專家

徐立提出，AI作為一種生產力工具，可以分為三個階段：

第一階段：技不如人的階段。

10年前我也干這個行業，2006年的時候我發表了第一篇人臉識別的論文。那時候我也做同樣的事情，但是為什麼沒有發展的空間呢？十幾年前AI在安防領域、在電梯閘機等場景的應用都很廣泛，但是沒有現在這樣熱起來，很關鍵的一點就是那時候人臉識別根本就沒有工業應用的條件。當時有一個閘機卡扣用人臉識別，用的海外的產品，準確率是53%。這什麼概念呢？就是說系統可以告訴你這是什麼人，不是什麼人，但是你隨便猜的概率是50%，用人臉識別技術的準確率是53%。這就是很尷尬的產品。

所以說不是這個技術沒有革命性的貢獻，它是有的，最關鍵的是它要過了工業的紅線，才能達到工業應用的條件。

工業的紅線的定義就是人的準確率。就算當時有人臉識別演算法，跑了一遍之後還是需要人來看，因為它的準確率沒有人高。所以這算是人工指導的智能。需要用人的先驗知識，進行人工指導的智能，一般不能超越人。

第二階段：超越大眾。

就是說演算法要超越普通人的準確率。從這個角度講，人臉識別最先的應用就是替代大眾。比如安防攝像頭，每天2000小時的視頻需要人來看，那麼機器看的準確率高過普通人的時候，就可以找機器來看。這是非常大的需求。

再一個例子是金融。比如說上海有一家互聯網金融公司，創辦三個月已有3000名員工，我一問都震驚了，我說這發展太快了吧。他說不是，因為需要上傳各種證件，需要很多人來驗證這些證件。但是到現在，基本上已經不需要人來做這些事情，所有這些驗證都是機器來做。原因就是人臉識別已經過了那條工業紅線，機器做的已經能夠比普通人做得好，那麼幹嘛還浪費人力來做呢？

為什麼強調是超越大眾（普通人）呢？因為現在還是所謂大數據驅動的模式。以前是人工指導的智能，現在能夠處理大量數據之後，成為純數據驅動的智能，這樣帶來了超越大眾的可能性。

人的知識可以通過數據標註教給電腦。那麼什麼樣的數據最容易獲得呢？就是普羅大眾都會的事情。他們具備普通的知識，他們的知識可以通過數據標註傳達給電腦，只要有了這些標註的結果，你就可以教計算機學會。

第三階段：超越專家。

這個階段我們很多情況下都沒有達到。專家的知識很多情況下很難通過數據標註教給電腦。比如說金融交易，雖然很多交易都自動化了，但一些頭部的交易員還在，因為他們有特殊的知識，特殊的信息或者技能。

但AlphaGo是個特例。AlphaGo早期還處於中間這個階段，就是超越大眾。因為它是用人類的50萬棋譜來訓練的。後來它就脫離了棋譜，它在某種決策問題上，決策空間確定的情況下已經可以做到超越專家。

這就是人工智慧發展的三個階段，第二個階段只是實現artificial labor，第三個階段才能做到服務升級。現在大部分情況下我們還處於第一階段和第二階段之間。

中國AI實力全球領先，商湯創中國首個深度學習框架

有幾個數據能夠反映中國在人工智慧領域的實力是全球領先的。

2016年時中國的人工智慧專利的數量增長了70%，雖然總數量還是美國領先。另外在泛AI的學術頂會AAAI上，中國發表的論文數量佔據31%；具體在視覺這個垂直領域，CVPR論文的中國作者佔據40%，這也跟我們的認知是吻合的，不知道為什麼干視覺的都是中國人。

最後一個數據是商湯的，商湯創立三年來在CVPR發表的論文達到119篇，這是去年的數據。現在已經遠超了，因為今年CVPR我們有44篇入選。

所以說中國在計算機視覺這個垂直領域做得是不錯的，而且熱度很高。

下面這張是谷歌搜索Deep Learning的熱度圖，熱度越高顏色越深，可以看到深度學習在中國是很熱的。

說到深度學習，大家知道谷歌有TensorFlow，Facebook有Torch，伯克利呢有Caffe。所以商湯開發了自己的深度學習原創平台，叫Parrots。有了這個平台我們可以處理的東西就很多，當時在ImageNet，我們做了超過1000層的深度神經網路。我們有三大要素保障這個平台的優異性能，除了剛才說的超深網路，還有超大數據學習，我們有20億人臉數據同時訓練；此外還有複雜關聯應用的多模態數據學習。

深度學習，學習的是對事物的刻畫。普通的機器學習依賴專家知識，深度學習提供另外的可能性，學的是一種全局表達。這樣的學習可以帶來很強的對事情的描述。

計算機視覺的技術突破和行業需求：浸透衣食住行方方面面

計算機視覺的技術突破之一是「生成」。比如這張PPT中，我們給出一段文字描述「這隻小鳥有白色的胸部，淺灰色的頭部，和黑色的翅膀和尾巴」，計算機可以生成這隻鳥。「無中生有」，這非常厲害。

這很有意思，可以帶來很多想像力。技術突破是說每次都可以超越你的想像，達到更高的水平。

那麼行業需求是什麼呢？衣食住行，人們生活的每一個方面都受到計算機視覺技術的廣泛的影響。

舉一些簡單的例子：

衣：用文字可以生成你想要的衣服，只需要一張照片，每天可以隨時換衣服。這些都是生成的結果。

食：吃飯當中也有各種各樣可以利用計算機視覺的場景。比如說可以識別食物，計算食物的卡路里。

住：比如說人臉識別的閘機，這個已經非常普遍了。另外一個很大的應用場景時無人商店。

行：很容易想到的就算自動駕駛。可能有人說這還遙遙無期，但是在特定的情況下，慢速的自動駕駛很多已經可以應用起來。

視覺計算：成像、感知、識別、理解

成像、感知、識別、理解，這整一套就是視覺。那怎樣是又看又理解呢？我們剛才說過技術紅線，就是要超過人，就計算機視覺來說，技術紅線就是看清和理解都需要超過人的水平。

在「看清」這一點，機器很多情況下已經遠遠超過人。比如上面這張畫是一張明信片，畫的是一個城市，上面有這個城市的名稱。機器可以看出來：

機器能夠從單張照片裡面抓取很多信息，這很厲害。

機器在藝術創作方面也能做得很好。上面這張圖，左邊是人創作的，右邊是機器創作的，可以說機器畫的並不比人差。

機器也能夠對視頻進行藝術加工，例如視頻的風格化。

人臉識別應用場景案例：模糊——增強

怎麼在非常模糊的情況下如何識別？比如說上面這張圖，你們覺得像誰？

這對公安來說非常重要。

人臉識別技術在這方面非常厲害，它能把左邊這張模糊的圖增強。

不光是抓人，增強技術的應用非常廣泛。比如說日本有一個網站叫Waifu2x，可以利用圖像增強技術修復漫畫。

在深圳我們已經大規模部署人臉識別技術。再舉一個在實操中的應用的例子：我們將歷年在展館有案底的嫌疑人照片導入布控目標庫，建立布控任務，系統自動化比對出在逃的嫌疑人，在深圳文博會期間成功抓獲了25人。

對話環節

清華大學海峽研究院大數據 AI 中心專家委員雷鳴，商湯科技聯合創始人、CEO徐立，清華大學自動化系教授季向陽，軟銀賽富投資基金資深合伙人羊東就計算機視覺未來的突破點、商湯將技術成功落地的經驗、投資的經驗、創業的建議等問題進行了對話。

本系列課程在清華大學學堂在線的直播地址：

http://www.xuetangx.com/livecast/live_cast_chuangyedaoyin2018chun/livecast-reading/625/

關於清華大學《人工智慧前沿與產業趨勢》系列課程

本課程的主講老師為清華海峽研究院大數據 AI 生態專委會專家、百度七劍客之一、酷我音樂創始人雷鳴老師，校內指導教授為清華大學理學院院長、地球系統科學系主任宮鵬教授，地學系白玉琪副教授和計算機科學與技術系朱軍副教授。

課程已邀請到真格基金創始人徐小平、騰訊 AI Lab 主任張潼、商湯科技聯合創始人兼CEO 徐立、阿里雲量子技術首席科學家施堯耘、百度度秘事業部總經理景鯤、國際人工智慧聯合會理事會主席楊強等 20 多位大咖，包括 BAT 的 AI 業務負責人、知名 AI 企業創始人、AI 領域的知名教授等。

每節課還會現場開展一次 AI 細分領域的圓桌討論，由百度創始七劍客之一雷鳴老師主持，和主講嘉賓、教授、知名 VC 組成強大陣容，看大咖觀點碰撞，把論壇搬上講壇。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 新智元 的精彩文章:

TAG:新智元 |