DeepMind提出對比預測編碼，通過預測未來學習高級表徵

知識 07-28

選自arXiv

作者：Aaron van den Oord、Yazhe Li、Oriol Vinyals

機器之心編譯

參與：Nurhachu Null、張倩

本文提出了一種通用的無監督學習方法——對比預測編碼，從高維數據中提取有用的表徵。該方法的核心是通過使用強大的自回歸模型預測潛在空間的未來，以學習高級表徵。論文證明，該方法能夠學習有用的表徵，在 3D 環境中的語音、圖像、文本和強化學習四個不同的領域表現出優異的性能。

1. 引言

在端到端的潮流下使用分層可微分模型從有標籤的數據中學習高級表徵是人工智慧目前最大的成功之一。這些技術使得人工設計的特徵很大程度上都顯得多餘了，並且也提升了好幾個實際應用中的當前最佳技術水平 [1,2,3]。但是，該領域仍存在很多挑戰，例如數據的有效性、魯棒性以及泛化能力。

提升表徵學習不太需要專門用於解決單個監督任務的特徵。例如，在預訓練一個模型用於圖像分類時，所產生的特徵能夠很好地遷移到其他圖像分類域中，但是缺少與顏色或者計數能力相關的信息，這些信息與分類無關，但是與圖像描述等任務相關 [4]。類似地，對轉錄人類語音有用的特徵可能不太適用於說話人身份驗證或者音樂流派預測。所以，無監督學習是實現魯棒和通用表徵學習的重要跳板。

儘管無監督學習非常重要，但是它還沒有取得與有監督學習類似的重大突破：從原始數據中對高級表徵進行建模還是很難得一見。此外，理想的表徵是什麼，以及在沒有額外的監督或者沒有某個特定的數據模態下的監督時，是否有可能學到這種表徵，這些並不總是非常清晰。

無監督學習中的一個常見策略就是預測未來的、缺失的或者上下文中的信息。這種預測編碼 [5,6] 的思想是用於數據壓縮的最古老的信號處理技術之一。在神經科學中，預測編碼理論認為大腦在不同的抽象水平預測觀察 [7,8]。無監督學習領域的最新研究已經成功地利用這種思想通過預測臨近詞來學習詞表徵 [9]。對圖像而言，從灰度值或者圖像塊的相對位置來預測顏色也被證明是有用的 [10,11]。我們假設這些方法是有效果的，部分原因是我們從中預測相關值的上下文經常是有條件地依賴於相同的高級別潛在信息。通過將此作為一種預測問題，我們自動地推理這些表徵學習感興趣的特徵。

在這篇論文中，我們提出了以下內容：首先，我們將高維數據壓縮到更加緊密的潛在嵌入空間，這個空間中條件預測更容易建模。接下來，我們在這個潛在空間中使用強大的自回歸模型來做多步未來預測。最後，對損失函數，我們依靠雜訊對比估計 [12]，這是與自然語言模型中用於學習詞嵌入類似的方式，需要整個模型以端到端的形式進行訓練。我們將最終的模型（對比預測編碼，CPC）用在了很多不同的數據模態中，包括圖像、語音、自然語言和強化學習，結果表明同樣的機制在每一個領域中都學到了有趣的高級表徵，而且優於其他方法。

圖 1：論文提出的表徵學習方法——對比預測編碼（CPC）概覽。儘管此圖僅僅展示了使用音頻作為輸入的情況，但是我們對圖像、文本以及強化學習都做了相同的實驗設置。

3. 實驗

3.1 音頻

表 1： LibriSpeech 數據集上的音素分類和說話人分類結果。音素分類共有 41 個可能的類別，說話人分類共有 251 個可能的類別。所有的模型都使用相同的結構和相同的音頻輸入大小。

表 2： LibriSpeech 數據集中音素分類的 ablation 實驗。論文的 3.1 部分會有更多細節。

圖 4：圖像對比預測編碼的可視化（這是圖 1 的二維適應）

3.2 視覺

表 3： ImageNet 無監督分類的 top-1 結果。由於架構差異，Jigsaw 無法與其他 AlexNet 結果直接比較。

表 4： ImageNet 無監督分類的 top-5 結果。之前使用 MS、Ex、RP、Col 得到的結果來源於 [35]，是這項任務上的最佳報告結果。

3.3 自然語言

表 5： 5 個常見 NLP 測試基準上的分類準確率。我們遵循與 skip-thought vector 一樣的遷移學習設置 [25]，使用 BookCorpus 數據集作為遷移源。[39] 是學習句子級別表徵的一種無監督方法。[25] 是一種可選擇的無監督學習方法。[40] 是使用層正則化迭代一百萬次訓練得到的 skip-thought 模型。

3.4 強化學習

圖 6： [49] 中使用的 DeepMind 實驗室中 5 個任務上的強化學習結果。黑色：分批 A2C 基準，紅色：輔助對比損失

論文：Representation Learning with Contrastive Predictive Coding

論文鏈接：https://arxiv.org/pdf/1807.03748.pdf

摘要：雖然監督學習在許多應用中都取得了很大進展，但無監督學習並沒有得到如此廣泛的應用，它仍然是人工智慧的一項重要而富有挑戰性的工作。本文提出了一種通用的無監督學習方法，從高維數據中提取有用的表徵，我們稱之為對比預測編碼。論文所述模型的關鍵思想是通過使用強大的自回歸模型預測潛在空間的未來，以學習這些表徵。我們使用一種概率對比損失，這種概率對比損失誘導潛在空間捕獲最有助於預測未來樣本的信息。採用負採樣也使模型易於處理。雖然之前的大多數研究都集中在評估特定模態的表徵上，但是我們證明，我們的方法能夠學習有用的表徵，在 3D 環境中的語音、圖像、文本和強化學習四個不同的領域表現出優異的性能。

本文為機器之心編譯，轉載請聯繫本公眾號獲得授權。

------------------------------------------------

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※CVPR十年軼事：走出象牙塔
※SHAI2018上海人工智慧大會——「聚焦人工智慧，助力創新創業」

TAG:機器之心 |