「CV學霸開講」卷積神經網路壓縮、多模態的語義分析研究

新聞 01-26

【新智元導讀】2017年度百度獎學金10位候選人中，人大的陳師哲和北大的王雲鶴所學專業主要集中在計算機視覺，本文將詳細呈現CV學子的求學經歷和研究感悟，並獨家分享他們和自己的學術大牛導師的相處軼事。

「CV學霸開講」卷積神經網路壓縮、多模態的語義分析研究

陳師哲同學在「多模態情感識別」和「視頻內容自然語言描述」研究方面取得了突出的研究成果，在領域頂級會議和期刊發表論文十餘篇，並在多項高水平學術競賽中取得優異成績，表現出很強的科研能力、實踐動手能力和科研潛力。

王雲鶴在神經網路加速壓縮方面做了深入研究。他提出利用離散餘弦變換將卷積神經網路預測過程中的卷積計算從空間域轉換為頻率域，在準確度只有輕微下降的前提下，預測速度大幅度提升、模型消耗的存儲大幅度降低。該方法極具創新性和實用性。

陳師哲：人民大學

「CV學霸開講」卷積神經網路壓縮、多模態的語義分析研究

人大信息學院直博三年級的學生，導師是金琴老師。我的研究方向是多媒體計算，通過多模態的語義分析實現更加和諧自然的人機交互，主要分為兩個方面：

1）客觀語義分析：根據視頻內容生成自然語言描述（video captioning），客觀地理解多模態視頻中的物體/動作/關係等等;

2）情感語義分析：多模態情感識別和理解（multimodal affective computing），通過不同模態分析人物的情感狀態從而更好地與人類交互。

階段性研究成果介紹：

1）視頻內容的自然語言描述生成（video captioning）

視頻內容的自然語言描述生成（video captioning）的研究目標是為視頻內容生成自然語言描述，這是視頻語義內容理解的最高目標之一。這一研究具有非常廣泛的應用價值，例如幫助視力有障礙的人群理解認識周圍的世界；更好地對互聯網視頻進行索引、存儲、分析和推薦，使得用戶能夠更好地瀏覽、選擇、搜索視頻內容等等。

目前圖片內容描述的自動生成（image captioning）已經取得了非常顯著的進步，但是和imagecaptioning相比，video captioning這一研究更為挑戰，主要的難點包括：

A. 多模態：視頻包含多種模態信息，例如視覺/聲音/文本等等。為全面準確理解視頻內容，我們提取了多模態特徵，提出多模態融合模型有效利用融合多模態。

B. 時序性：物體或事件的時間發展順序影響著對視頻內容的理解。因此，我們採用了時序模型和時序注意力機制對視頻的時序特性進行建模。

C. 主題廣：視頻的主題跨度非常廣泛，不同主題下，多模態融合策略和語言描述空間有較大差異。因此，我們提出隱含主題指導模型，自動挖掘視頻中的隱含主題，利用這些主題指導生成更準確和細節的描述。

我們的視頻內容描述模型在2016-2017年連續2年獲得了在國際多媒體頂級會議ACM Multimedia上由微軟組織的視頻內容描述挑戰賽MSR-VTT的冠軍，和2017年NISTTRECVID上舉辦的國際視頻內容描述冠軍。

2）多模態情感識別（multimodal emotion recognition）

理解人類的情感是構建自然的人機交互非常重要的一步。這一研究在服務/教育/娛樂/醫業等不同產業都有著非常廣泛的應用，例如通過對用戶的自動情感識別改善自動服務中對用戶的交互方式等等。

我們的研究主要致力於情感識別的兩大基本模型：離散情感識別和維度情感識別。主要的技術難點包括：

A. 情感特徵構建：人的情感是通過不同的模態信息反映的，包括面部表情/肢體動作/語音語調/說話內容/生理信號等等。因此，我們基於信號處理和深度學習等方法從不同的模態中提取情感區分力顯著的情感特徵。

B. 多模態情感特徵融合：不同模態特徵在不同場合情形下的可信度和情感表現力是不同的。因此，我們提出了條件注意力模型動態地進行多模態情感特徵融合。

C. 時序性：人的情感狀態是動態變化的，且非常具有時序依賴性。因此，我們提出了動態時序模型進行連續的維度情感識別。

與導師相處軼事：

1）治學嚴謹：從金老師身上我感受到的是一個學者嚴謹務實的態度。例如，在我最初論文寫作的過程中，她會跟我反覆斟酌論文的邏輯框架，每一個公式都會嚴謹地推算，每一個詞都會細細地推敲。當時距離論文截止日期非常近，我們就連續十多個小時在辦公室里討論和修改，最終呈現出令人滿意的工作。

2）工作投入：金老師對待工作熱情投入的態度給我極大的鼓舞。平時，我經常收到金老師在凌晨3、4點的工作郵件；去開會的旅途中，大家一般都選擇休息閑聊，而金老師卻仍然保持著積極的工作狀態，閱讀鑽研前沿論文；即使放假的時候，哪怕是春節等重大節日，金老師也依然會和我們保持緊密的聯繫，保證科研工作的推進。

3）關心學生：金老師不僅是我在學術研究中的導師，更是我人生生涯中的良師。有一次在論文死線前壓力大想放棄的時候，她沒有苛責我，而是非常溫柔地告誡我說放棄是很簡單一件事，並不會有有特別嚴重的後果，但是很多事情的機會就只有一次，錯過了就不能重來，為什麼不激勵自己堅持做完不留遺憾呢。

金老師在生活上也非常關心我。這次出國以後，有次和老師不經意聊天提到一件在國外不好買的東西，結果之後一起參加學術會議時她竟然就從國內帶過來送給我了。更讓我感動的是，即使在科研一線、百忙之中，金老師每年都會給學生髮去生日祝福。

王雲鶴：北京大學

北京大學智能科學系2013級直博研究生，我在神經網路加速壓縮方面做了深入研究，提出利用離散餘弦變換將卷積神經網路預測過程中的卷積計算從空間域轉換為頻率域，在準確度只有輕微下降的前提下，預測速度大幅度提升、模型消耗的存儲大幅度降低。該方法極具創新性和實用性。

深度卷積神經網路壓縮這個課題非常具有應用前景，因為深度學習模型在大多數任務（例如圖像識別、圖像超解析度等）上的精度已經達到了落地需求，但是它們的線上速度和內存消耗還沒有達到落地需求。

深度卷積神經網路已經在計算機視覺上得到了廣泛的應用，例如圖像分類、人臉驗證等。然而，大多數的卷積神經網路難以被應用在移動端設備上。例如，利用AlexNet或VGGNet對一張圖片進行處理需要消耗超過232MB的內存以及數十億次的浮點數乘法計算。因此，如何壓縮並且加速這些複雜的卷積神經網路是非常重要的一個研究課題。

為了解決上述問題，我的研究提出利用離散餘弦變換（DCT）在頻域上對卷積神經網路進行壓縮與加速。卷積核被看做小尺度的光滑圖像塊，每個卷積核在頻域上的表示被分解為共有部分和私有部分的和；共有部分用來指代每個卷積核與其他卷積核相似的方面，而私有部分用來指代其獨特的信息。

這兩個部分都可以通過捨棄大量微弱係數來實現壓縮和加速的目的。在標準數據集上的實驗證實了本研究所提出的演算法要優於其它演算法。

「CV學霸開講」卷積神經網路壓縮、多模態的語義分析研究

圖1: CNNpack演算法流程圖

「CV學霸開講」卷積神經網路壓縮、多模態的語義分析研究

圖2: CNNpack演算法的壓縮結果

深度卷積神經網路壓縮這個課題非常具有應用前景，因為深度學習模型在大多數任務（例如圖像識別、圖像超解析度等）上的精度已經達到了落地需求，但是它們的線上速度和內存消耗還沒有達到落地需求。然而，越來越多的實際應用需要用到這些深度學習模型，例如手機、智能攝像頭、無人車等。所以如何設計更輕便、更高精度的深度神經網路仍舊是一個亟需解決的問題。

很幸運在讀博期間能有兩個指導老師，第一個是北京大學的許超老師，印象最深刻的一句話是「磨刀不誤砍柴工」，曾經在一個小的數據集上跑檢索實驗需要半個小時，優化代碼後只需要兩分鐘，從此走向了一個略有強迫症性質的coding之路。許超老師給人的感覺很平和，正如他微信號的簽名一樣，「上善若水」，有次ddl前生病了，許老師說「生病了就好好休息，會議還有很多，我們去投下一個」，淚目。

另外一位是悉尼大學的陶大程老師，陶老師經常給予我非常大的鼓勵，印象最深刻的一句話是「anyway，雲鶴，我覺得你這個idea，very smart」哈哈。陶老師是一個在學術上非常嚴謹，成果非常多，業內知名的華人學者。最佩服的品質還是敬業，按道理，一個某種程度上來說功成名就的人，對每一個學生的每篇論文都認真修改。有時候自己讀了幾遍都沒發現的錯別字和語法錯誤都會被陶老師發現並作出修改。並且陶老師每天的工作時間超越了他的所有學生。

讀博最大的收穫就是提出了CNNpack演算法，發表在NIPS2016上，並于海思合作，第一次體會到了學術上的演算法可以受到工業界的關注。期間最大的困難在於深度學習的模型都需要非常大的計算量和計算資源，所以許超老師購置了新的伺服器，並把組內的計算資源都先優先給我使用，非常信任和認可我的工作。同時，結合傳統圖像壓縮和視頻壓縮的演算法，給出了很重要的演算法上的意見。

此外，現有的方法大多數都是在圖像分類的實驗上進行驗證的，例如VGGNet，ResNet等。實際應用中，神經網路的需求是多種多樣的，例如語音語義識別、物體分割等。這些模型具有和圖像分類神經網路不一樣的功能和結構，所以更具體的演算法也需要被提出。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 新智元 的精彩文章:

TAG:新智元 |