谷歌對無監督解耦方法進行了大規模評估，還開源了用來實驗的開發庫！

新聞 05-11

雷鋒網 AI 科技評論按：如何能夠以無監督的方式去理解高維數據，並進一步將這些知識提煉為有用的表示仍然是深度學習中的一個關鍵難題。該問題的一種解決方法便是解耦表示（disentangled representation），來自谷歌的研究人員不僅深入研究了目前最流行的解耦模型和多個解耦表示數據集，進行了大量實驗，還開源了他們的實驗庫「disentanglement_lib」。此外，與該實驗庫同時開源的還有一萬多個預訓練模型與完整的訓練測試流程。下面是雷鋒網 AI 科技評論針對這篇博客的部分編譯。

解耦模型能夠捕捉場景中互相獨立的特徵，即某種特徵不會由於其他特徵的改變而受到影響，實現特徵之間的解耦。如果能夠成功完成特徵的解耦表示，現實世界中機器學習系統（如自動駕駛汽車或者機器人）能夠將物體的屬性與其周圍環境分離，從而使得模型能夠泛化到其沒有見過的場景中。舉一個簡單的例子，一輛汽車在不同的天氣，光線條件或者地理位置等環境中，它的特徵應該是不變的，如果一個模型能夠將汽車的特徵與其背景環境的特徵解耦，那麼有理由認為，將這個汽車放在一個模型在訓練時完全沒見到過的環境中時，模型仍然能針對汽車捕捉到不變的特徵，這就意味著模型的泛化能力較強。儘管以無監督的方式進行解耦表示學習已經被用於好奇心驅動的探索（curiosity driven exploration）、抽象推理（abstract reasoning）、視覺概念學習（visual concept learning），以及強化學習中的域適應（domain adaptation for reinforcement learning）等領域中，但是目前並沒有對比不同方法的有效性和局限性的研究。

在「挑戰無監督解耦表示中的常見假設」(Challenging Common Assumptions in the Unsupervised Learning of Disentangled Representations，ICML 2019 ) 這篇文章中，谷歌的研究人員對最近的無監督解耦方法進行了大規模評估，對一些常見假設進行了實驗驗證，同時也對解耦學習的未來工作提出了一些改進建議。這次評估共訓練了超過 12，000 個模型，涵蓋了大多數主流模型和評價指標，在七個不同數據集上進行可重複的大規模實驗。同時，谷歌的研究人員也開源了此次研究中的代碼和超過 10，000 個預訓練模型。開源的 disentanglement_lib 庫能夠幫助研究人員輕鬆地復現和驗證他們的實驗結果。

論文地址：https://arxiv.org/abs/1811.12359
「disentanglement_lib」開源庫：https://github.com/google-research/disentanglement_lib

理解解耦

為了更好的理解如何將圖像的真實屬性以解耦的方式編碼為特徵，不妨先來看 Shapes3D 數據集中圖像的真值因素。在這個數據集里，如下圖所示，每一個圖代表了可能會被編碼進最終圖像的表示向量的一個因素，共有六種，分別是地板顏色、牆壁顏色、物體顏色、物體大小、物體形狀，以及觀察物體的角度。

谷歌對無監督解耦方法進行了大規模評估，還開源了用來實驗的開發庫！

打開今日頭條，查看更多圖片

Shapes3D 數據集真值因素的可視化：地板顏色（上左），牆壁顏色（上中）、物體顏色（上右）、物體大小（下左）、物體形狀（下中）以及觀察物體的角度（下右）。

解耦表示的目標是構建一個能夠捕捉這些解釋因素並將之編碼為一個向量的模型。下圖展示了一個具有 10 維表示向量的 FactorVAE 模型的結果。這 10 個圖可視化了十維向量每個維度所捕捉到的信息。從第一行的第三到第五張圖可以看到，模型成功地解耦了地板和牆壁顏色這一屬性，而左下方的兩個圖表明物體顏色和大小兩個屬性仍然糾纏在一起。

谷歌對無監督解耦方法進行了大規模評估，還開源了用來實驗的開發庫！

FactorVAE 模型學到的潛在維度的可視化（見下文）。模型成功地解耦了地板和牆壁顏色以及觀察物體的角度這三項真值因素（上右、上正中間以及下正中間），而物體顏色、物體大小、物體形狀三項真值因素（上左、下左兩張圖）則仍舊糾纏在一起。

大規模實驗的主要結果

儘管研究界已經提出了各種基於變分自動編碼器的無監督方法來學習解耦的表示，同時也設計了很多的度量標準來量化模型解耦的效果的好壞，但並沒有大規模的實驗研究以統一的標準評估這些方法。因此谷歌的研究者通過六種不同的最先進模型（BetaVAE，AnnealedVAE，FactorVAE，DIP-VAE I/II 和 Beta-TCVAE）和六種解耦評價指標（BetaVAE 評分，FactorVAE 評分，MIG，SAP，Modularity 和 DCI 解耦），提出了一個公平的，可復現的評價基準方案。此次評估，共在 7 個數據集上訓練和測試了 128，000 個這樣的模型。

此次研究的主要發現包括：

谷歌研究團隊沒有發現證據表明這些模型能夠以無監督的方式，可靠地學習到解耦的表示，由於隨機種子和超參數似乎比模型選擇更重要。換句話說，研究者即使訓練大量的模型，其中一些模型能夠學到解耦的特徵，這些解耦表示似乎無法在沒有真實標籤的情況下被識別出來。此外，在此次研究中，良好的超參數值並不適用於不同的數據集。這些結果與論文中提出的定理一致，該定理指出，如果沒有數據集和模型的歸納偏差（inductive biases），則無法通過無監督的方式學到解耦的特徵（即，必須對數據集做出假設，並融合到模型中去）
鑒於實驗中用到的模型和數據集，谷歌研究團隊無法驗證這種解耦表示是否對下游任務有用，比如利用解耦表示來使用更少的有標註數據進行學習。

下圖展示了實驗中的一些發現。不同運行中隨機種子的選擇對解耦評價指標的影響大於模型選擇和正則化強度。使用差的超參數但有較好隨機種子模型的運行結果可以輕易超過有良好超參數但隨機種子模型較差的運行結果。

谷歌對無監督解耦方法進行了大規模評估，還開源了用來實驗的開發庫！

左側的圖展示了不同解耦模型不同模型在 Cars3D 數據集上的 FactorVAE 分數分布。右側的圖展示了 FactorVAE 模型在不同正則化強度下的分數分布。主要的結論為這些提琴圖有很大程度的交叉，即所有的模型都很依賴於隨機種子的選擇。

基於這些觀察結果，谷歌的研究者提出了四個與未來研究相關的建議：

由於無歸納偏差的無監督解耦特徵學習是不可能的，未來的工作應該更清楚地描述所加入的歸納偏差，以及加入隱性或顯性監督的作用。
如何找到適用於多個數據集和無監督模型的歸納偏差仍是一個重要問題。
需要展示出學習到解耦特徵的具象化的實際好處。比較可行的方向包括機器人技術、抽象推理 (abstract reasoning) 和公平性分析 (fairness)。
需要在更多數據集上設計可復現的實驗。

開源的 disentanglement_lib

為了能夠讓其他人驗證此次實驗的結果，谷歌研究團隊還開源了用來進行實驗的開發庫：disentanglement_lib。它包含了上述涉及到的解耦方法、評價指標的開源實現、標準化訓練測試流程以及更好理解模型的可視化工具。

disentanglement_lib 有三個方面的優點：

首先，只需不到四個 shell 命令，disentanglement_lib 即可復現上述研究的任何模型。
其次，研究人員可以很容易的基於此研究進行修改，來驗證其他假設。
第三，disentanglement_lib 易於拓展，是一個好的入門解耦表示的方法，同時能夠很容易的使用這個庫來實現新模型，並將之與其他模型進行比較。

從頭訓練此次研究中的所有模型需要大概 2.5GPU 年的時間，對於一般研究者來說這可能是不現實的，因此谷歌同時開源了超過 10，000 個預訓練模型，可以與 disentanglement_lib 一起使用。

disentanglement_lib 允許其他研究人員將他們的新模型與的預訓練模型進行對比，並在各種模型上測試新的解耦度量標準和可視化方法，有望能夠推動該領域進一步向前發展。

via Google AI Blog ，雷鋒網(公眾號：雷鋒網) AI 科技評論編譯

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷鋒網 的精彩文章:

※3年心路總結王堅揭秘「城市大腦」產生的背後邏輯
※蘋果成為AWS大客戶，亞馬遜每月坐收3000萬美元

TAG:雷鋒網 |