業界 | 英特爾中國研究院認知計算實驗室主任陳玉榮博士：如何擁抱視覺識別技術的低廉化

新聞 06-06

雷鋒網AI科技批評論按：5月30號，在台北世界貿易中心展館舉辦的台北國際電腦展上，英特爾中國研究院認知計算實驗室高級研究總監陳玉榮博士以《人工智慧與深度學習》為主題，分享了他們實驗室在視覺認知與機器學習方面上的研究成果。雷鋒網編輯對現場演講內容做了全程記錄。

英特爾中國研究院認知計算實驗室:

致力於視覺認知和機器學習前沿領域的科技創新，開發視覺內容理解和視覺內容創建的領先技術，從而在英特爾平台上實現視覺數據的智能處理並提供全新的用戶體驗。目前已經在CVPR, NIPS, IJCAI, ACM MM等國際頂級會議上發表多篇論文，並擁有數十項相關專利，並連續兩年摘得英特爾研究院全球最高獎Gordy Award (以英特爾公司創始人之一戈登·摩爾命名)。

業界 | 英特爾中國研究院認知計算實驗室主任陳玉榮博士：如何擁抱視覺識別技術的低廉化

陳玉榮博士，現任英特爾首席工程師/高級研究總監、英特爾中國研究院認知計算實驗室主任。目前，他主要負責領導面向英特爾智能計算的視覺認知（視覺分析和理解）和機器學習研究工作。同時他也是英特爾研究院「視覺理解與合成」全球研究規劃的共同負責人，主導和推動基於英特爾平台的智能視覺數據處理的技術創新。

以下是陳玉榮博士的現場演講，雷鋒網做了不改變原意的編輯

視覺理解在未來會有很大的市場需求

當今，視覺識別技術無處不在，且成本越來越低廉。這得益於視覺識別技術在深度學習方面的不斷突破。其中一個主要的推動力是視頻內容在互聯網所佔比例越來越高，大量的互聯網數據都是視頻內容。預計到2019年，互聯網內容中的77%將由視頻組成，視覺媒體公司的數量將會繼續增加，視覺內容數量也會持續增加。面對這一現象，主要的挑戰在於機器如何能夠識別並學習數量如此龐大的視覺內容，而這一問題的答案就在於視覺分析技術。視覺分析就是處理並理解視頻內容的過程，而這一技術發展的重點在於在識別過程中如何確定視頻內容中的對像並進行分類。

視覺理解的應用範疇

舉幾個視覺理解方面的例子，比如說，物體識別與辨認，情感識別，行動識別，語義分割，場景識別、幾何布局評估等等。其中，物體與動作的識別和檢測是視覺理解技術中最基礎的部分，視覺識別技術要求能夠識別出物體的形狀輪廓，而視覺檢測技術同樣要求能夠辨認出物體在進行怎樣的活動。視覺識別中要求能識別出物體以及物體數量，而進行視覺檢測時則需要更多的要求。舉個例子，當人在移動時經過攝像機，識別技術可以知道有人正在經過攝像機，而通過視覺檢測對它的動作進行分析，可以明白這個人是在拍照。以上的這些都是機器參與並進行識別的一部分。2012年實驗室新研發出的演算法使得識別準確率提高了40%，而另一項演算法使得在識別方面的準確率每一年都能夠提高30%-40%。在2015年，微軟的研究讓識別錯誤率降到了3.57%。這邊研究人員也在努力推進相關的研究，而研究的一個主要目的就是發展視覺理解。但這其中也包含一些基礎的內容，如CNN建構等。

業界 | 英特爾中國研究院認知計算實驗室主任陳玉榮博士：如何擁抱視覺識別技術的低廉化

英特爾中國研究院認知計算實驗室的主要研究成果

l 人像分析與情感識別

這項技術有著廣泛的應用前景，可以與任何智能設備配合使用，還可以與增強實現技術配合使用。在過去的幾年內，實驗室建立起了一套人臉識別系統，它利用了更加科學嚴謹的演算法，這一技術的發展基於英特爾本身，能夠完成人臉識別，表情識別，建立人像檔案等，我們改進了它的應用，拓展了它的應用範疇，提供了問題的解決方案, 我們同樣試圖完善我們的系統，讓它具備情感識別功能，因為在人像識別中，情感識別功能非常重要，它對於智能計算和智能系統的建立至關重要。實驗室發明了世界領先的ILC互動式人臉分析技術，它能夠捕捉面部的肌肉活動，基於這個識別方法，實驗室研究團隊獲得了2015情感識別挑戰大獎，這一獎項是主要是基於音頻視頻內容的情感識別。共有來自世界各地的74家隊伍參加了這次比賽，在多個挑戰項目中，基於音頻視頻內容的識別挑戰最有難度，因為它需要非常複雜的技術。

l 基於視覺認知的機器學習

基於視覺識別的深度學習，實驗室開發了高效的CNN演算法模型。這一技術非常有效，設計中各個元素在識別情感中彼此互補，在識別7種表情的任務中，準確率達到了53.8%，這得益於實驗室團隊在過去的四年中的努力。有人可能會問，視覺理解在視覺認知中只是一個最基礎的技術，那麼還有哪些是更具有挑戰性的任務呢？答案是機器學習、視覺分析和多模態情感識別。這是一個更為快速的功能，是一個基於目標檢測的方案。該方案十分重要，融合了各種高效的方法，靈活地應用了低端的邊角，中部的主體，和高端的晶元，在一個漂亮的二維空間里呈現出一個動態的圖像。因此能夠直接掃描和處理目標圖像。這個高效的方案可用於生成閱讀指南和目標檢測。這個方案有兩個優勢。首先，它擁有最先進的閱讀指南存儲功能，從指南中無法發現機器檢測正在運行的工作。其次，檢測工作能夠更有效利用空間，花費更短的檢測時間。這個方案顛覆了原本的連接金字塔，這一框架將基於地區和不基於地區的方法統一起來，彌補它們各自的劣勢，突破性地解決了兩個根本性的問題。首先，它的多維度目標定位功能憑藉倒轉的連接金字塔能夠檢測出不同維度的目標。其次，它有著高效的實體空間挖掘功能，以目標為網路的核心，顯著地減少了物體的第二空間。目標對象跨越的維度很大，該方案呈現出來的是對象的集合，呈現出倒置的圖像，不管是在精確度還是運行速度上，性能都是十分突出的。這也被今年的城市計劃報道了。

l 視覺分析和多模態情感識別

在分析視頻內容時，會對視覺, 說話方式, 語言, 甚至國籍進行識別, 以便於機器對於內容更好分析,這一技術讓自動為圖片和視頻內容添加說明成為可能，也讓視覺問答技術的發展成為可能，這都得益於實驗室的研究成果。而在視頻字幕和多模型分析方面，實驗室正在從事一個更為創新且富有挑戰性的任務，即密集視頻字幕的研發，這一任務旨在設計出一個具有多重視覺信息和多樣字幕狀態的視頻片段。實驗室研發出了一個人工智慧的密集視頻字幕方案，採用了國外視頻水平等級，融合多種設計方法。舉一些例子，在下面這個視頻中，可以製造出不同部分的描述。比方說在第一部分中，一個帶著墨鏡的女人正在給小孩子們拍照，而在第二部分一群人正在給馬拍照，然後在第三部分小孩子們正在接受採訪。另一段視頻，像觀眾們詳細描繪了這個船長的形象。這還有一個例子，它表明實驗室的方案可以製造出信息豐富場景多樣的視頻。實驗室可以設計出能夠採集每一秒鐘信號的模型。比方說，在前一秒一個男人正在喝酒，下一秒另一個男人在喝水，而在再下一秒，兩個男人就開始攀談了起來。程序的最後一個功能所帶來的甚至超越頂級的單個視頻字幕創造方案。大家可以看到展示的這個樣本短視頻中的底部有字幕出現。實際上研究人員可以在每個視頻中製作5個視頻片段。在這個視頻中，一個男人正在家裡做一個主題發表。如演講或非演講的表演形式都可以被展現出來。實驗室的這一努力縮短了人們了解圖像信息未知部分的距離。

總結

認知計算實驗室的研髮結果推動了數據處理成果的發展，通過研發創新、在多個平台間處理數據，研究人員運行了最前沿的演算法，進行了機器學習的研究，獲得了多個範式的視頻數據研發成果。這就是我今天的演講，感謝大家的參與。

via 雷鋒網編輯整理

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷鋒網 的精彩文章:

※美國發布狙擊無人機系統，掀起新一輪科技革命
※盤點日本那些著名的仿生機器人，酒店接待、主持節目
※以下這些奇葩新型網路釣魚，你可能會上鉤 | 揭秘黑產

TAG:雷鋒網 |

您可能感興趣

※虛擬現實技術與認知康復
※明略數據吳明輝：感知技術與認知技術結合才會有真正的人工智慧
※田剛健：俄羅斯國家認同底色中的文化認知意象
※認知科學視域中的康德倫理學
※《藝術的哲學》，幫你打開對藝術認知的任督二脈
※英特爾陳玉榮：情感識別認知計算的三年發展之路
※郭洪鈞：正確認知中華傳統文化中的精華與糟粕打通文旅產業的任督二脈
※《暗知識》：機器認知如何顛覆商業和社會
※書法藝術的認知與概念
※肖小河研究員：科學認知中藥安全性問題
※中國文化的真理認知水平高於西方
※知識管理系統認知
※武夷岩茶的認知
※三大核心技術領先世界未來中國核潛艇或顛覆認知
※科學領域對造物主認知的論辯與發展
※魏坤琳：認知科學助力終身學習
※認同教育和認知教育的關係
※普通大眾對武術的認知
※遠離認知誤區：骨科主任教您如何科學保養膝關節！
※皮亞傑的認知發展階段理論