DeepMind AI 是如何識別音視頻概念的？

最新 10-13

來源 /TwoMinute Papers

翻譯 / 林立宏

校對 /J叔

整理 /雷鋒字幕組

AI 研習社出品系列短視頻《 2 分鐘論文》，帶大家用碎片時間閱覽前沿技術，了解 AI 領域的最新研究成果。

本期論文

Look, Listen and Learn

熟悉機器學習的朋友們對「監督學習」的概念一定不會陌生。顧名思義，監督學習就像是老師坐在學生一側，予以指導跟引路。同樣地，我們給演算法提供一堆的圖片或者其他問題文件，並且提供一些額外信息。然後給學習演算法一些它之前從來沒有見過的圖片，使其能夠正確地進行分類。

監督學習需要我們對數據集進行標註，在信息海量的互聯網時代，儘管我們可以通過研究人員乃至眾包的方式來對圖片進行標註，監督學習仍然算是一種費時費力的方式，如果有一種演算法可以「無師自通」，即便沒有標註，也能自主學習，豈不是要有效率得多？

本期論文就這一思路進行了進一步的探討和研究。無監督學習領域取消了標註的過程，直接給演算法一堆圖片或者其他的任意多媒體文件，沒有「老師」來監督這個過程，演算法自己學習。論文中這樣舉例：看到可視化子網這一層，演算法看到有人在彈手風琴時，神經元會變得非常興奮，每個神經元在層中都屬於不同的對象類，實在是了不起。

本期論文的第一部分表述道，無監督學習不僅能夠分類視頻幀，還能繪製語義熱圖，告訴我們，視頻中哪部分畫面跟我們聽到的內容是相關聯的。它們在視頻部分運行了一個視覺子網和一個用於學習聲音的分離的音頻子網，最後再將它們整合到一起。

由此我們進入到了論文中的第二部分，即演算法是如何猜中音頻和視頻是否相應的。演算法看到一個人在拉小提琴，它識別出視頻中的節拍，然後判斷出音頻跟視頻是否相對應。該音頻子網還學習了人聲，水聲，風聲，音樂聲，現場音樂會等等各種聲音，它聲音分類的水準已經十分接近人類了。這些不俗的研究成果，都要感謝scratch訓練處的兩個神經網路，它們並不是「監督學習」的成果，而是無師自通，大顯身手。

無監督學習在過去的幾十年里一直在持續發展，但是像本期論文這樣振奮人心的研究成果並不多見，可以說是意義深遠，希望在不久的將來，會有更多更好的研究成果，一直不斷推動機器學習領域的發展。