從學術研究到應用落地，這 6 位計算機視覺大咖在 CV 專場上都講了什麼？

新聞 07-01

雷鋒網按：2018 全球人工智慧與機器人峰會（CCF-GAIR）在深圳召開，峰會由中國計算機學會（CCF）主辦，雷鋒網、香港中文大學（深圳）承辦，得到了深圳市政府的大力指導，是國內人工智慧和機器人學術界、工業界及投資界三大領域的頂級交流盛會，旨在打造國內人工智慧領域最具實力的跨界交流合作平台。

雷鋒網 CCF-GAIR 2018 延續前兩屆的「頂尖」陣容，提供 1 個主會場和 11 個專場（仿生機器人專場，機器人行業應用專場，計算機視覺專場，智能安全專場，金融科技專場，智能駕駛專場，NLP 專場，AI+ 專場，AI 晶元專場，IoT 專場，投資人專場）的豐富平台，意欲給三界參會者從產學研多個維度，呈現出更富前瞻性與落地性相結合的會議內容與現場體驗。

6 月 30 日，CCF-GAIR 大會進行到第 2 天，計算機視覺專場如期舉行。本專場由兩大議題組成，分別是上午場「計算機視覺前沿與智能視頻」以及下午場「計算機視覺與醫療影像分析」。本文為計算機視覺專場上半場的精選內容。

在上午場的主題演講中，港科大電子及計算機工程學系助理教授、RAM-LAB 主任劉明擔綱主持。在他的串聯下，港科大教授權龍、曠視科技首席科學家孫劍、雲從科技聯合創始人姚志強、臻識科技 CEO 任鵬、雲天勵飛首席科學家王孝宇以及商湯聯合創始人林達華這些學術界、工業界的眾多大牛進行了 6 場深度分享，既有計算機視覺技術的前沿研究動態，也有相關技術落地的方向。

首先登場的是港科大教授權龍。

*香港科技大學教授、ICCV 2011 主席、IEEE Fellow 權龍

權龍教授今天分享的主題是「計算機視覺、識別與三維重建」，他主要從三個方面進行闡述，分別是計算機視覺的基礎、計算機視覺的變遷與發展，以及計算機視覺最新的進展。

他談到，當下因為深度學習技術的發展，人工智慧變得非常火熱，計算機視覺作為人工智慧的一個領域，也變得異常火熱。

人工智慧的目的就是讓計算機去看、去聽、去讀，其中一個重要的部分就是圖像。權龍教授認為視覺是人工智慧的核心領域，因為視覺佔據人類感官系統的 80%，也是最難做的一部分。他甚至認為計算機視覺是推動人工智慧「革命」的決定性技術。

接著，權龍教授簡單回顧了一下計算機視覺的變遷和發展。

在上世紀 70、80 年代，計算機視覺有了最初的發展，權龍教授表示他很有幸在 80 年代就參與了相關工作，那時候主要做一些簡單的物體分類工作，通過一些特徵點來做。

在 90 年代至 2000 年這段時間，變化發生了，以前都是提取一些特徵點，這些年大家開始回過頭來看幾何的問題，幾何就是「三維重建」，這就推動了很多工作以點為基礎，對點要做描述。這是推動計算機視覺發展的一個很重要的事情。

到了 2012 年以後，計算機視覺進入到卷積神經網路（CNN）時代，該領域發生了翻天覆地的變化，基本上是從特徵到各種不同的演算法，都被 CNN 一統。CNN 有一個好處，它是端到端的，它的實現是比較容易的。

而在談到計算機視覺的發展問題時，權龍教授表示，現在每個人都在做識別，但是它並不能代表所有計算機視覺，識別只是一部分。如果要去做一些交互和感知，必須先恢復三維，所以在識別的基礎上，下一個層次必須走向「三維重建」。

針對這個領域，權龍教授和他的研究團隊已經做了諸多的工作並取得了一定的成績，在 4 月份，他們拿下了兩個計算機視覺榜單的全球第一。

當然，目前在深度學習推動下的計算機視覺技術還有很多不足和挑戰，需要更多業內研究者不斷去探索，特別是在卷積神經網路發展走到更高維度的時候。

*曠視科技首席科學家、研究院院長孫劍

緊接著是曠視科技首席科學家孫劍上台，分享了他眼中的雲、端、芯上的視覺計算。曠視科技成立至今已有 7 年，一直專註在計算機視覺感知領域。

計算機視覺簡單來說就是讓機器能看，如果更進一步，機器能理解一張圖像或者一段視頻，我們能做什麼？針對這個問題，孫劍和曠視給出的答案是「賦能億萬攝像頭」，讓應用在所有領域的攝像頭都具備智能，無論是在雲、端還是晶元上。

孫劍表示，曠視始終在研究計算機視覺的幾個核心問題，包括分類、檢測以及分割，分別對一張圖、一張圖的不同區域和一張圖的每個像素做識別，其中，分類是最為核心的工作。如果輸入的是視頻，則需要利用幀與幀之間的時間關係來做識別。

孫劍簡要談及計算機視覺的歷史，在他看來，計算機視覺的發展就是研究圖像如何 Representation 的歷史。在 80 年代的時候，早期神經網路成功運用在人臉和文字識別上，但當時僅限在這兩個領域，所以很難去定義什麼是圖像 Representation。

2000年初，在深度學習流行之前，有一類方法比較熱，那就是 Feature-based，在圖片里抽取 Feature，然後對它進行分析，這是深度學習之前最好的方法。但這個方法最大的問題是它有兩個缺點：其一，它是整體的非線性變換，向量的變換次數是有限的；其二，裡面大多數參數都是人工設計的，包括 Feature。

今天轉到深度神經網路，這兩個缺陷都被彌補了。其一是整個非線性變換可以做非常多次，所以它有非常強的識別能力；第二是所有的參數都是聯合訓練的，這兩點讓深度神經網路真正能夠取得非常好的效果。孫劍在微軟時提出的 152 層的 ResNet，第一次在 ImageNet 上超過了人的能力。

從2012年開始，各種各樣的 Net 出現了。孫劍從計算平台的角度對這些 Net 做了一個簡單的分類，分別是雲、端以及晶元三個不同的計算平台。GoogleNet、ResNet 就是在雲上；谷歌 MobileNet 以及曠視在去年提出的 ShuffleNet 則屬於端這一類；還有一些 Net 則是在晶元上，比如說 BNN 還有曠視提出的 DorefaNet。

孫劍針對 ShuffleNet 的結構進行了較為詳細的介紹，該神經網路是專門為手機端設計的。今年他們還設計了第二版的 ShuffleNet，拋棄了分組卷積的思想，而是引入了一個新的方法，用非常簡單的結構來做。

針對目前分平台分別設計相關網路的現狀，孫劍相信未來會有一個「MetaNet」出現，能夠統一解決各個平台上的神經網路設計和優化問題。

最後，孫劍簡單介紹了曠視在雲、端、芯三個平台上做的計算機視覺的應用，包括人臉識別、車輛識別、人臉支付、智慧安防、智慧金融等等。

*雲從科技聯合創始人姚志強

雲從科技聯合創始人姚志強隨後上台分享了作為一家人工智慧視覺方案公司對於行業的理解和公司的進展。他認為人工智慧最大的作用在於充當巨大的計算資源、智力資源與廣泛應用之間的橋樑。2015 年成立至今，雲從科技已將企業的重要定位鎖定在人機交互領域，但對於人工智慧技術、服務和生態的理解經過了很多摸索。

姚志強認為，一家人工智慧企業需要彙集技術資源、數據資源、平台、入口和資金，才能得以快速發展，一些成熟的企業會開放一些技術給初創公司，使後者得以在其中的某個場景深耕。數據資源優勢的積累也很重要，另外還有平台資源，目前雲從的很多人工智慧服務通過雲平台開放。

目前，雲從在數據領域成立聯合實驗室獲取行業內部數據，並在對應行業的內部提供訓練和服務。雲從還與政府有大數據等合作。在銀行方面，姚志強介紹，雲從銀行已是行業第一大人臉識別供應商，並希望拉動更多生態銀行提供完整的智慧銀行服務。安防行業也有很多挑戰，出於安全性考慮，安防行業涉及到諸如信息獲取、加密、解密等複雜挑戰。

未來，雲從並非定位於一家行業化的公司，而是基於人工智慧、人機交互領域的公司，通過現有資源拓展更多行業，將更多行業和人連接起來。

*臻識科技聯合創始人兼 CEO 任鵬

臻識科技 CEO 任鵬聊了如何打造一款智能相機產品。臻識科技致力於將計算進視覺技術產業化，而智能相機作為載體，已經在諸如智能交通、智慧社區、安防等各個場景中得到應用。任鵬說，一款全智能相機，是要滿足一個場景應用感知需要的相機，而不同領域對場景的感知需求各不相同。

任鵬用「金字塔型」描述完整的感知應用場景，底層是像素，中間是對象，最上層是行為。但問題在於目前大部分應用停留在對象層，有很多還沒有解決像素層的問題，例如智慧城市用雲端識別結果做決策，但前端圖像模糊，識別有誤報，就會影響決策乃至系統運作效率。

總而言之，實現這種智能相機的落地包括三個難點：成像、演算法、製造。成像方面，目前智能相機成像評測行業標準缺失，其實除了解決硬體、結構、熱設計、光學等問題，ISP（Image Signal Processing，圖像信號處理）是相機的核心問題，智能相機與普通拍照相機最大的區別在於，智能相機的 ISP 開發核心要基於物體的感知。演算法方面，在嵌入式設備上開發智能相機，第一對於數據多樣性、均衡性、場景適應性的把控非常重要，第二晶元方案選型中有巨大挑戰。製造方面，供應鏈是不可規避的問題。

除了看好雙目深度攝像頭，臻識也在嘗試多感測器融合等更多的感知方案。

*雲天勵飛首席科學家王孝宇

雲天勵飛首席科學家王孝宇博士從其學術界到工業界的經歷分享了有關 AI 應用的重要看法。

王孝宇博士 2012 年便在 NEC 美國研究院進行無人車、人臉識別研究，之後與李佳等人聯合創建了 Snapchat 研究院，專註研究計算機視覺在手機終端上的應用。加入雲天勵飛後，主要聚焦 AI+ 新警務、AI+ 新社區、AI+ 新零售。

王孝宇博士認為，可以和人自由交流的強 AI 可能要到一百年後才能實現，眼下的人工智慧帶來的更多是基礎性能的轉變，擁有更大量的數據，建立更精確的模型，是目前人工智慧的最主要進展。

王孝宇博士以 Snapchat 與 Facebook 的競爭發展為例，講述了一個觀點，即技術發展的時間節點至關重要，技術不需要完全成熟才能落地，關鍵是提供用戶認可的產品；技術應用需要找到正確的角度和平台；演算法不等於技術，數據的重要性更為突出。

*商湯科技聯合創始人、港中文-商湯聯合實驗室主任林達華

香港中文大學資訊工程系助理教授、商湯科技聯合創始人、港中文-商湯聯合實驗室主任林達華教授在計算機視覺專場上發表了演講。

商湯一直深受資本的青睞，大家都很好奇這家創業公司為何能有這麼大的吸引力。林達華在現場表示，商湯能取得如今的成績，離不開其背後的香港中文大學多媒體實驗室 18 年如一日的潛心技術研究。

林達華提及海量數據、運用場景數據的積累，以及 GPU 的發展、計算能力大幅度的躍升，提供了演算法進步的基礎，在這個基礎之上帶來了今天人工智慧的成功和計算機視覺技術在眾多的應用場景的落地。

同時林達華回顧了計算機視覺在過去幾年的發展，他認為這項技術還有很多的事情可以做，還有很長的路需要走。他認為可以往提升計算機視覺技術的識別效率、降低數據成本、以及提高識別質量三個方向努力。

現階段，計算機視覺還是以粗放型的方法在發展，依靠堆積數據、堆積計算資源，獲得高性能。但未來還是需要進一步進行優化，他分享了商湯在視頻以及自動駕駛上的案例。此外，目前計算機視覺研究還是高度依靠人力進行標註，因此成本非常高。

林達華認為可以適當換思路，從數據、場景裡面去尋求裡面本身就蘊涵的一些標註信息。而針對計算機視覺識別的質量提升方面，還有更多的技術可能性需要去探索。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷鋒網 的精彩文章:

※繼語音服務閉環後，驀然認知又重磅推出智能家居IoT解決方案
※為應對自動駕駛、智能網聯和電氣化的汽車未來，大陸集團做了這些準備

TAG:雷鋒網 |