將門CTO沈強：場景驅動結合軟硬創新，才能創造人工智慧新精彩

最新 09-26

2017年9月15日，由集微網、手機中國聯盟主辦，廈門半導體投資集團公司承辦的「集微半導體峰會」在廈門海滄舉行。此次峰會以「『芯』聯產業，積微成著」為主題，同期舉辦的人工智慧論壇專場，來自將門創投、碼隆科技、偉景智能、悅享趨勢科技和元鼎音訊的企業高層、人工智慧產業界的優秀人才等圍繞當前熱點話題、核心技術以及大家共同關注的市場動向，重塑熱點話題，解析趨勢變化，洞悉行業變革。

以下內容整理自將門CTO、將門創投創始合伙人沈強的發言實錄。

各位嘉賓，下午好！今天我們是在半導體峰會上討論人工智慧，我覺得是一個特別好的場合。因為人工智慧的大部分從業人員來源於軟體行業，而在半導體峰會這麼一個特別硬的會議上討論人工智慧，是軟硬雙方對話與合作的絕佳平台，而人工智慧軟硬雙方的創新合作必將創造出無限的精彩！

我們說當前人工智慧發展的三個核心技術要素是演算法、算力和數據。而從創新角度來講，人工智慧創新的主要方向是演算法、算力和場景。

現在我們已經可以看到，人工智慧不只是概念，而是已經開始逐步走入了各行各業，包括消費電子、健康、金融、零售等眾多領域。人工智慧滲透到行業里，正成為重塑每一個行業的關鍵力量。人工智慧變革行業的力量是通過多層結構來體現的。包括AI晶元在內的新計算基礎設施，深度學習演算法及在圖像語音等各領域內應用形成的支撐技術，這些都是人工智慧的基礎的技術層。

而人工智慧產生的業務價值是在體驗層表現出來的。這個AI體驗層可能是2B的體驗，也可能是2C的體驗，也就是其具體應用。而人工智慧技術體驗層的價值實現，離不開軟體與硬體的結合。無論是安防、無人機和未來可能有數萬億市場的自動駕駛，我們會發現他們這些實現，不斷實時收集大量的數據需要硬體感知層的支持，核心的數據處理需要適應於人工智慧計算特點的晶元支持，而智能計算的結果需要通過硬體實現的功能來展現。無論是對晶元的要求，對感測的要求，對功能體驗的要求，都為人工智慧和半導體行業結合提供了很好的契機。

場景創新

談到人工智慧的創新場景，這裡有一些大家耳熟能詳的應用領域，如智能安防、自動駕駛、無人機、智能音箱、機器人等。但是除了這些規模較大的場景，事實上我們要是仔細地挖掘人工智慧的商業價值，創新的場景其實是無處不在的。

我想講一個特別特別小的例子。前一段時間，我經常在外面出差，家裡沒有人，有件麻煩的事情，就是我家裡的貓沒有人照料。然後我就弄了一個自動寵物餵食機，這個設備能幫我每天按設定的時間和食量喂貓，毫無疑問這是一個極其細分的小市場。後來我遇到這家自動寵物餵食機公司的CEO，聊天的時候他跟我說人工智慧和寵物餵養有很大的關係。我就納悶了你每天定點投放食物跟人工智慧有什麼關係？他說有很多用戶是家裡會養多隻貓，不同的貓在不同的年齡階段，不同的身體狀況，每天進食的需求是不一樣的。比如用戶要管理貓的健康，要控制貓的體重，所以每隻貓要有個性化的餵養方案。這個自動餵食機其實已經配備了攝像頭，原本是給主人做遠程監控用的，現在要用這個攝像頭採集的圖像做智能餵養。別人都在做人臉識別，我要做貓臉識別——我要知道當前進食的是哪只貓，我要根據當前的情況給他個性化的提供餵食的服務。

所以說，即使是這麼小的一個場景，當我們結合上人工智慧的時候，我們也能夠創造出小場景里的商業價值。而這樣的場景是無處不在的。我們強調場景驅動，是因為場景是技術轉化為業務的關鍵點，再先進的演算法、再先進的算力，如果找不到場景落地，我們就很難把它轉化成商業價值。

演算法創新

場景的創新背後，要靠軟體硬體的創新支撐，我們先看軟體上的創新。近年來人工智慧技術的快速發展最主要是由深度學習推動的，這部分是演算法和軟體層面帶來的推動力，而深度學習的核心是基於深度神經網路的學習方法。

神經網路的歷史其實很悠久了，最早從1943年就提出了模擬神經網路，在過去的幾十年里神經網路的演進幾經興衰。1989年Yan Lecun發明了卷積神經網路，是今天如火如荼的深度神經網路的重要基礎，而Hinton教授於2006年正式提出了深度置信網路概念，並定義了深度學習這個新名詞。但深度學習的爆發是直到2012年才迎來了重要的轉折點，這一年Hinton教授將以卷積神經網路為基礎的深度學習框架運用到 ImageNet 大型圖像識別競賽上，獲得了空前的成功，深度學習從此也獲得了空前的關注。

ImageNet比賽，可以說是計算機視覺領域的奧林匹克競賽，是各種人工智慧技術的競技場。從這裡各年比賽的結果可以看到， 2015年其實是一個具有歷史意義的節點。我們人的眼睛識別物體的正確率，大約是在95%左右。而在2015年的ImageNet競賽上，微軟研究院通過深度高達152層的超級深的ResNet神經網路，首次實現了準確度高於人類的視覺識別能力，錯誤率僅有3.5%。這意味著在一些特定場景下計算機已經可以取代人工作了，巨大的商業價值從此開始被激活。

這些年來，新型神經網路結構不斷湧現，並且不斷朝著層數越來越深的方向發展， ImageNet競賽中所用到的神經網路深度，短短的5年間，層次從8層演進到了1000多層。而這些演算法和軟體上面的創新，進硬體也帶來了新需求。如此複雜網路的計算，無論是在伺服器訓練端還是在推理端，都需極其強大的計算能力，才能應付深度神經網路所需的計算複雜度。

深度學習的演算法可以用來處理圖像、聲音，以及自然語言處理。但是應用的最廣泛的領域是計算機視覺相關問題。計算機視覺可以抽象為幾類問題，圖像的分類、定位、檢測和分割。比如說這個圖片，分類回答的是這圖片是一隻貓還是一隻狗，定位則需要指出貓在圖片中的什麼區域出現，而檢測需要把不同的對象，多隻貓、多隻狗分開，而實例分割則需要區分出每個對象的像素邊界。這些基礎的計算機視覺演算法是各種人工智慧應用的基石，安防應用也好，機器人應用也好，背後都有離不開計算機視覺的支撐。

而計算機視覺和深度學習結合後，獲得了突飛猛進的發展。比如說物體識別的檢測演算法在PASCAL VOC數據集上的成績，過去用R-CNN演算法可以達到53.3%，而現在用Faster R-CNN可以達到83.8%。性能也從R-CNN的0.5fps提升到了YOLO的155fps。物體的實例分割方面，在COCO數據集上，分割精度也從2015年CVPR FCN的62.2%提升到現在的74.7%。在圖像分割延伸的應用就是對視頻的分割，現在深度學習也被應用到視頻分割領域中，識別出視頻中每一幀的各個象素是屬於哪個對象的。

這些都是傳統的計算機視覺問題，比如說我們常見的人臉識別、刷臉支付、手勢識別等應用，絕大多數都可以歸類為前面的這四類問題。而現在演算法層面的創新，也就是軟體的創新這一部分，我們看到了很多新的技術，能夠激活新的應用場景。比如說這裡我們看到的圖像、視頻到文字的轉換。反之一些新的演算法，已經開始在做文字到圖像的轉換，比如用戶口述一段話，系統把對應的圖像生成出來。這裡展示的是文字描述一架飛機在藍天裡面飛行，計算機自動給我生成這樣的圖片。這種不同媒體之間的轉換，使得我們能夠不僅僅智能化地消費數字內容，而且使得我們以全新的方式創造數字內容。

深度學習的創新，未來有幾個重要的演化方向，第一是從監督學習到半監督學習和無監督學習的演化。我們知道，監督學習是依賴於標籤過的數據進行訓練學習。今天我們在ImageNet里所看到令人激動的進展，都是利用標籤化以後的數據生成的。雖然基於標籤化數據的有監督學習方法獲得了不少進展，但是在我們看來這離支撐廣泛的細分場景應用是遠遠不夠的。為什麼呢？對大量的標籤數據的依賴是巨大成本，而這個成本是阻礙創新的。擁有海量數據的大型企業在人工智慧的發展過程中會佔據天然的優勢，但是細分場景的創新是需要依賴很多小微企業去實現的，我們怎麼使小微企業也能夠參與到人工智慧的創新進程中呢？不依賴於標籤化數據的半監督和無監督的學習是關鍵。

深度學習創新的第二個重要方向是減少對數據量的依賴，可以用較少的訓練數據就能獲得學習的能力。

如果人工智慧的演算法，能夠不依賴于海量的數據、不依賴於標籤過的數據，可以用廣泛存在的無標籤數據，就能夠大大的降低我們獲取數據的成本，本質上是使人工智慧變得更加民主，大企業和小企業有更加平等的權力參與到這個競爭當中。行業已經認識到不能滿足於有監督學習今天已經取得的成績，需要再往下的探索如何突破對數據的依賴，基於無標籤數據實現學習能力。

ImageNet競賽基於標籤化數據，今年也是它的最後一屆，而計算機視覺識別領域的頂級賽事WebVision的競賽就應運而生，它取代了ImageNet的競賽的主要特點是數據集是無人工標註的數據，這是一個意義非凡的轉折。可喜的是，由將門參與投資的碼隆科技獲得了今年WebVision競賽的全球第一名。

深度學習創新的第三個方向是從基本的識別、定位、分割等最基礎的感知能力向人類水平的認知理解演進。這裡我們看到的例子是基於條件生成對抗網路（CGAN）的自動圖像生成，我們看上面有幾句簡短的文字描述，也就是給出一個文本問題，下面的這個圖就是根據這個文字由CGAN演算法自動計算出來的一幅文字配圖。這裡我們可以看出人工智慧不僅可以用於認知已知的世界，還可以創造未知的世界。

生成對抗網路的應用有一個飛機製造商的應用案例。他們用生成式的對抗的神經網路來設計飛機的機翼。飛機的機翼的結構，有很多經典的設計方法，基本是通過工程正向推算，結合有限元分析方法來做設計。波音想，有沒有可能突破已有設計範式，設計出重量更輕，強度更高的機翼？過去都是基於經驗，人工設定設計方向，和已經有的工程理論的設計法，我能不能把它遷移到數據驅動的方法來進行設計？所以他們設計了一個深層次的對抗網路，由機器在沒有人為經驗限定的無限解空間裡面去探索機翼的最佳結構。令他們驚喜的是，就像阿爾法狗探索出了人所沒有想到的奇蹟一樣，這個設計程序探索到了一種完全新型的機翼結構，這個結構是他們無論如何都不會想到的的，機翼原來還可以做成這樣樣子，既能夠保持強度又能夠保持很輕的重量。

GIF/1K

MIT的人工智慧實驗室用CGAN開發了視頻預測技術。它解決的問題是說我給計算機很多的視頻來進行學習，但不做任何的標籤，然後計算機來觀察學習視頻內容各幀之間變化的趨勢是什麼。學完了之後然後給你一段新的視頻，當把視頻停下來的時候，它能夠預測未來兩三秒這個視頻會變成什麼樣子，它的下一幀下一幀再下一幀是什麼樣。這樣的預測能力不只是可以用在影視娛樂上，在一些關鍵場合的應用甚至能夠挽救生命。就比如危險預警---我們人的眼鏡和大腦互動，對很多危險情況具有判斷能力，好比說一個人在奔跑，前面有危險物品，我們能夠及時的發現並干涉。更嚴重的，例如前些年在新疆發生的嚴重的暴徒在公共場合的恐怖主義攻擊事件。如果我們能夠提前兩秒鐘、三秒鐘預知暴徒會往哪個方面施暴，並及時給予警告、制止的話，我們將能挽救幾條寶貴的生命。

GIF/1K

另外一個很有趣的例子是動作預測。這個是對抗式網路另外一個很好玩的應用。對抗式網路能夠看視頻的時候預測片中人員後續的動作。比如看到兩個人相向走過來，就能猜到下一步他們會伸出手來握手。看這段視頻，根據這段短暫的視頻，計算機就能推測到這兩個主人公會接吻。我們打開腦洞，這些技術能想到很多的應用。

再有一些演算法上的創新，包括在強化學習上的創新，這個是DeepMind公司做的，相信不少同學早年在紅白機上玩過打磚塊的遊戲。這個DeepMind公司基於強化學習技術開發了一個程序，在不了解遊戲規則的前提下，DeepMind讓程序通過一個攝像頭對著屏幕，觀察屏幕的變化，主動學習到遊戲的目標和遊戲的規則。然後給他任務要求儘可能的獲得遊戲的最高分。程序在一遍遍遊戲訓練的過程中不斷的領悟遊戲的技巧，在視頻中我們可以看到它從開始打得很爛到最後經過240分鐘訓練後成了頂尖高手，居然發現了可以在牆上打洞使小球在牆壁和四周反覆彈射而自動消滅磚頭。

GIF/1K

這些演算法和軟體上的創新實際上已經開啟了通往通用人工智慧道路的探索，激勵著我們創造未來的無限可能。我們也看到很多創業者在這方面的努力，特別的值得尊敬，他們所致力的頂尖演算法的突破，正是在給我們未來長期更多的應用場景提供不可或缺的槍支彈藥。

算力創新

演算法的發展離不開算力的發展。在算力這部分，智能晶元是人工智慧的基石。今天的機器學習不得不依賴於一個很強性的計算的基礎設施———深度學習的計算量太大了，需要有專門的計算架構來處理深度學習的工作負載。深度學習有兩種類型的計算任務，一是訓練一是推理，這兩部分都有很大的計算量。

大家能夠看到，NVIDIA股票兩年漲了七倍，原因就是人工智慧所需的計算推動了對更高速的計算架構的需求。在雲端的推理上面有很多，包括微軟、亞馬遜等等這些公司，都已經在構建基於FPGA的雲推理服務。設備端更是多種多樣，9月初華為宣布了跟寒武紀合作，在麒麟970手機晶元上面使用寒武紀提供的深度學習IP，提供深度計算加速的設施。英特爾花了100多億美金去買MobileEye以及Nervana Systems,Movidius等，都是因為人工智慧需要全新的硬體支持數據中心及端上的智能計算。

這個演進還在持續的進行中。我們看到，從原來我們用CPU，到現在多種途徑，用GPU用FPGA以及用專用的ASIC晶元，各種技術路徑可以說是百花齊放，以適合於不同的應用場景。在人工智慧晶元初創公司里有一個典型的代表是Wave Computing公司，用超並行的方法，在一個數據流晶元上集成了16000多個獨立的處理器，然後16個晶元作為一個組裝載到機器里，所以它的一台伺服器裡面就有25萬6千個核，這樣的架構創新是前所未有的。包括Google TPU在內的大小公司的創新，我們看到不停的在湧現出來，人工智慧晶元領域的創新將是人工智慧的大規模應用必不可少的前提條件和有力支撐。

而在數量最廣泛的設備端上的智能，人工智慧晶元已經在手機設備上應用了。蘋果iPhone X的CPU，A11仿生晶元中內置的神經引擎計算性能達到0.6TFlops，也就是說你手裡攥著的是一個每秒能進行6000億次浮點運算的高性能計算機!而剛剛宣布的華為智能手機晶元麒麟970，擁有每秒高達1.92萬億次的智能計算能力！但即使有這樣的計算能力，不斷增長的智能應用需求完全能夠吞噬掉這些新的架構給我們提供的計算量，所以我們也特別希望看到新的計算架構繼續不斷的湧現，能夠有更強大的計算能力，更低的功耗，以滿足即將出現的各種各樣的應用場景對巨大計算量的需求。

以上所有要素總結起來看，人工智慧領域中的演算法、硬體和應用場景的創新的三大主線，而這三方面的創新也是互為推動的。這也是今天我們在半導體峰會上談人工智慧的意義，人工智慧行業的發展離開了半導體行業這個重要的支柱，是不可能發展起來的。只有以場景創新為驅動，軟硬體創新為支撐，人工智慧才能創造出新的精彩。我們也十分本次論壇幫我們見證更多軟硬結合的人工智慧新精彩！

-END-

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 將門創投 的精彩文章:

※在深度學習大熱的同時，我們也要直面這六個挑戰……
※自動駕駛時代，我們需要的是全新的供應鏈和勞動力教育
※我們離自動駕駛電動汽車讓傳統汽車靠邊站的時代還有多遠？
※Google發布ARCore，上億台安卓設備即將擁有增強現實能力

TAG:將門創投 |