優必選發力人工智慧亮相世界頂級計算機視覺盛會CVPR 2017

科技 08-01

近日，計算機視覺領域全球頂級學術會議CVPR在夏威夷落下了帷幕。CVPR是近年來計算機視覺領域全球最影響力、內容最全面的頂級學術會議和論文發布平台。隨著深度學習在圖像處理領域的應用熱潮，不僅在學術領域，越來越多的科技企業和業界研究機構也在將目光投向CVPR。

據悉，今年全球共有約90家企業參與到本次大會中。谷歌、微軟、Facebook、亞馬遜、蘋果等海外科技巨頭均有論文被接收，同時，騰訊、阿里巴巴等國內大型互聯網公司以及一些初創企業也參與了今年的CVPR ，中國AI力量的崛起成為行業熱議的話題。

其中，智能服務機器人行業的領導者優必選悉尼AI研究院也有兩篇論文入選CVPR 2017，同時在CVPR2017的兩個Workshop的比賽中獲得佳績，展現了優必選背後的技術創新之路。優必選悉尼AI研究院由優必選AI首席科學家陶大程博士領導，致力於機器視覺、機器學習和模式識別領域的探索和研究，是優必選機器人戰略布局的非常重要的一環。

基於低秩稀疏分解的深度模型壓縮演算法——On Compressing Deep Models by Low Rank and Sparse Decomposition

深度學習極大地促進了人工智慧的發展，同時它也帶來了新的挑戰：深度神經網路往往需要消耗巨大的存儲和計算資源。這極大地限制了深度學習在計算能力有限的平台（如移動手機）上的應用。深度模型壓縮旨在挖掘並去除深度神經網路中參數和特徵的冗餘信息，從而達到減少網路參數，降低存儲和計算量的目的。

以往的很多壓縮演算法基於低秩分解法和剪枝法，但是壓縮效果還有待繼續提升。這篇論文通過對參數矩陣的可視化觀察和研究，發現參數矩陣往往同時具備低秩與稀疏的性質。如圖1所示，低秩部分包含了大量的光滑分量，而稀疏部分含有諸如方向的重要信息。因此，優必選悉尼AI研究院提出了基於低秩稀疏分解的壓縮演算法。

優必選發力人工智慧亮相世界頂級計算機視覺盛會CVPR 2017

(a)參數矩陣 (b)近似矩陣 (c)低秩矩陣 (d)稀疏矩陣圖1. 參數矩陣的低秩稀疏分解，低秩與稀疏矩陣參數數目減少至原始矩陣的1/4

為了解決最終精度急劇下降的問題（如圖2），這篇論文進一步提出了一種非對稱的特徵重建方法，該方法使得壓縮網路的最終輸出與原始網路的輸出接近，從而降低精度損失。

優必選發力人工智慧亮相世界頂級計算機視覺盛會CVPR 2017

圖2.逐層的分解近似造成誤差累積

另外，這篇論文提出了一種新的GreBdec演算法，該演算法極大地加速了分解運算。它還顯著地降低了經過參數矩陣近似後的網路的精度損失（圖3）。同時,在精度損失很小的情況下，將AlexNet和GoogLeNet分別壓縮至原來的1/10和1/4.5（如表1）。

優必選發力人工智慧亮相世界頂級計算機視覺盛會CVPR 2017

圖3. 重新訓練前的壓縮率與精度對比，新的方法優於剪枝法和奇異值分解

優必選發力人工智慧亮相世界頂級計算機視覺盛會CVPR 2017

表1. 重新訓練後的壓縮率與精度對比

利用奇異值界定提升深度神經網路訓練效果和識別精度——Improving training of deep neural networks via Singular Value Bounding

深度學習是近年來圖像識別、語音分析、自然語言處理等人工智慧領域取得突破性進展的關鍵技術。但是，目前主流深度學習模型還是基於隨機梯度下降進行優化的。在優化過程中，對深度模型參數（權重矩陣）解的性質並沒有明確的認識和目標。基於以上考慮，本工作通過對深度線性網路的理論分析及深度非線性網路的實驗分析，大膽推斷在深度模型的整個優化過程中保持權重矩陣（近似）正交（如圖4所示），從而更有效地實現學習目標，提升網路的精度和泛化能力。同時，本工作進一步提出奇異值界定（Singular Value Bounding）的演算法，在不增加或少量增加計算量的情況下近似而快速地實現了權重矩陣的正交約束。

優必選發力人工智慧亮相世界頂級計算機視覺盛會CVPR 2017

圖4：深度網路權重矩陣流形優化示意圖（左）；本工作提出奇異值界定（Singular Value Bounding）演算法，近似而快速地實現了權重矩陣的正交約束（右）

批量標準化(Batch Normalization)是實現現代超深網路有效訓練的關鍵性技術，但其具有使得網路各層高維特徵空間各個方向信息（前向和後向）傳遞不均衡的潛在風險。基於與上文類似的考慮，本工作進一步提出了有界批量標準化（Bounded Batch Normalization）演算法，從而有效實現批量標準化技術和奇異值界定演算法的無縫連接。

本工作提出的奇異值界定和有界批量標準化演算法能夠用於包括卷積網路、殘差網路（ResNet）、寬殘差網路（Wide ResNet）、稠密連接網路（DenseNet）等在內的各種主流網路架構。在CIFAR和ImageNet等圖像識別標準評測資料庫上，奇異值界定和有界批量標準化演算法能夠對這些網路進行顯著且穩定的精度提升，並在CIFAR資料庫上取得目前世界領先的識別準確率。

優必選發力人工智慧亮相世界頂級計算機視覺盛會CVPR 2017

圖5：基於寬殘差網路（Wide ResNet），本工作提出的奇異值界定（Singular Value Bounding）和有界批量標準化（Bounded Batch Normalization）演算法取得在CIFAR圖像識別標準評測資料庫上領先的識別準確率

除了論文的錄用，值得一提的是，CVPR 2017有兩個Workshop，方便對應了兩個機器視覺的競賽，分別是ILSVRC 2017(ImageNet Large Scale Visual Recognition Challenge 2017)和VQA（Visual Question Answering）。

ILSVRC 2017就是著名的ImageNet的競賽，今年是最後一屆。其中任務三視頻物體檢測（Object Detection from Video）競賽的四個項目（包括給定訓練數據條件下的視頻物體識別、額外訓練數據條件下的視頻物體識別、給定訓練數據條件下的視頻物體識別/追蹤，以及額外訓練數據條件下的視頻物體識別/追蹤）中，優必選悉尼AI研究院與帝國理工學院組成的聯合隊伍IC-USYD都以領先第二名超過5%的成績取得了第一名。在VQA競賽中，優必選悉尼AI研究院與杭州電子科技大學、北卡羅來納大學夏洛特分校組成聯合隊伍HDU-USYD-UNCC，在來自全球最頂級的幾十支大學、研究機構和企業隊伍中獲得了第二名的成績，僅次於阿德萊德大學與微軟研究院組成的聯合隊伍。

ILSVRC 2017視頻物體檢測競賽主要考察在視頻里中獲取物體的能力，對於機器人而言這是一項非常重要的工作，例如它在行走過程中就能知道這個場景里有多少物體，有什麼物體。人眼看到的視覺不是一張張照片，而是連續的視覺的信息，未來機器人的視覺系統也將是對連續視覺的理解。試想一下，在家庭環境中，你可以對機器人說「請給我一杯水」，機器人理解了這句話之後，機器人在移動過程中，視覺系統就會尋找這杯水在哪裡，接著去取水並遞給你。

而VQA（視覺問答，Visual Question Answering）以一張圖片或者一段視頻和一個關於這張圖片形式自由、開放式的自然語言問題作為輸入，以生成一條自然語言答案作為輸出。簡單來說，VQA就是給定的圖片進行問答。這也是未來機器人通過視覺系統認知和理解世界，並與人互動的關鍵技術。VQA是一種涉及計算機視覺和自然語言處理的學習任務，也是近年來非常熱門的一個研究領域，也是AI落地的一項重要技術領域。

VQA系統需要將圖片和問題作為輸入，結合這兩部分信息，產生一條人類語言作為輸出。針對一張特定的圖片，如果想要機器以自然語言來回答關於該圖片的某一個特定問題，我們需要讓機器對圖片的內容、問題的含義和意圖以及相關的常識有一定的理解。VQA涉及到多方面的AI技術（圖1）：細粒度識別（這位女士是白種人嗎？）、物體識別（圖中有幾個香蕉？）、行為識別（這位女士在哭嗎？）和對問題所包含文本的理解（NLP）。綜上所述，VQA是一項涉及了計算機視覺（CV）和自然語言處理（NLP）兩大領域的學習任務。它的主要目標就是讓計算機根據輸入的圖片和問題輸出一個符合自然語言規則且內容合理的答案。

優必選發力人工智慧亮相世界頂級計算機視覺盛會CVPR 2017

與VQA類似——看圖說話（Image Caption）任務也同時涉及到CV和NLP兩個領域，但是與VQA不同的是看圖說話只需要產生對圖片的一般性描述，而視覺問答根據問題的不同僅聚焦於圖片中的某一部分，而且某些問題還需要一定的常識推理才能做出回答。例如圖2中的第一個問題，你能在這停車嗎？計算機需要讀懂這張圖片還有哪些地方可以停車，哪些地方不可以。而對於看圖說話，則只需要產生一條類似「花園的左邊有一輛車，後邊有一個消防栓」的描述即可。因此，VQA相比看圖說話在圖像語義的理解方面有更高的要求，因此也具有更大的技術挑戰。

優必選發力人工智慧亮相世界頂級計算機視覺盛會CVPR 2017

作為全球領先的人工智慧和人形機器人研發、製造和銷售為一體的高科技企業，從2012年成立至今，優必選已經推出了人形機器人Alpha 1、平台級智能機器人 Alpha 2以及面向STEM教育市場的Jimu機器人等多款產品。在今年的CES上，內嵌Amazon語音助手Alexa的人形機器人Lynx，以及商業服務機器人Cruzr也相繼亮相，而這些產品的背後擁有一支全球最頂尖的研發團隊。

在去年12月召開的人工智慧戰略發布會上，優必選宣布人工智慧和信息科學領域國際知名學者悉尼大學陶大程教授、清華大學趙明國教授等學者加盟。2017年，優必選與清華大學成立智能服務機器人聯合實驗室，與悉尼大學成立人工智慧研究院，在人形機器人驅動伺服、步態運動控制演算法、機器視覺、機器學習、情感識別、SLAM(即時定位與地圖構建)等領域深度布局。而通過在本屆 CVPR上的表現，優必選再次展現了其強大的研發能力，並將前沿研究成果實現商業轉化，同時通過商業化後的數據採集，不斷反哺前沿學術探索的發展策略。

更多內容，關注品玩微信號：

wepingwest限量開放入群申請……PingWest品玩的老朋友了？何不掃碼加客服進群聊

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 PingWest品玩 的精彩文章:

※「無現金社會」需要讓老年人也體面
※如果你卸載 Windwos 10 S 的預裝應用，可能就找不回來了
※HBO遭黑客襲擊，《權力的遊戲》的劇本被泄漏
※漫畫廣告被曝抄襲，魅族發表致歉聲明
※索尼1.43億美元收購動畫電影《你的名字》發行方

TAG:PingWest品玩 |

您可能感興趣

※夏普攜智能機器人亮相2018 CITE 夯實智能家居品牌根基
※LG V30升級版機型V30S亮相MWC2018
※360兒童春季發布會智能手錶X1 PRO亮相
※OPPO R15驚艷亮相
※常熟服裝城將攜手五大市場亮相為CHIC2018賦能原創力量
※OPPO攜R15旗艦新品重磅亮相CITE2018
※OPPO A3亮相工信部聯發科P60/跑分曝光
※360出征國際頂級安全峰會三大引擎亮相RSA 2018
※MWC2018：LG V30S ThinQ亮相人工智慧帶來全新玩法
※清華同方雲計算、人工智慧創新科技集中亮相2018CITE
※CES小試牛刀榮耀V10將再次實力亮相MWC2018
※51VR攜「3D+VR全屏無界」產品及「家居新零售」產品亮相GMIC 2018
※維信諾亮相CITE 2018，以「柔性AMOLED量產成果」助力顯示產業無界發展
※HTC驍龍855新機正在內部測試中預計明年CES展會亮相
※健康智能電器全面布局 TCL攜眾多新品亮相CITE 2018
※富士康攜手夏普亮相CITE 2018 8K生態全面助力中國智造
※大國品牌亮相CITE2018 TCL新品閃耀登場
※維信諾亮相CITE 2018, 以「柔性AMOLED量產成果」助力顯示產業無界發展
※LG V30＋α或亮相MWC2018 AI功能是亮點
※北京市博彙科技股份有限公司精彩亮相2018CCBN

優必選發力人工智慧 亮相世界頂級計算機視覺盛會CVPR 2017

優必選發力人工智慧亮相世界頂級計算機視覺盛會CVPR 2017