當前位置:
首頁 > 新聞 > 雜訊預測的無監督學習——通往信息最大化的未來

雜訊預測的無監督學習——通往信息最大化的未來

雷鋒網按:本文由圖普科技編譯自《Unsupervised Learning by Predicting Noise: an Information Maximization View》,雷鋒網獨家首發。

這個標題是來自一篇近期在互聯網上流傳甚廣的論文——Bojanowski 和Joulin的《 Unsupervised Learning by Predicting Noise》 (2017)

Bojanowski and Joulin在論文中介紹了一種叫做「雜訊目標法」(NAT)的方法。它通過將數據映射到隨機採樣的雜訊向量,進行表徵學習。這個方法看似簡單,實際上功能非常強大,甚至還有超乎常理。

在這篇文章中,我把這個演算法重新解讀為「一個信息最大化的工具」。如果你願意從我的這個角度來考慮這個演算法,你就不難理解「雜訊目標法」了。

本文內容摘要

1、本文從informax(信息最大化)演算法入手,解釋如何最大程度地保留輸入數據信息,進而學習最優的密集表徵。

2、把表徵限制在一個單位範圍內,對於informax演算法框架十分有利,本文闡明了其中的原因。

3、一個分布均勻的確定性表徵是否存在,以及informax演算法標準是否達到了最大化,問題的答案非常明顯。因此,如果我們相信這樣的解決方法是確實存在的,那麼我們完全可以直接尋找接近均勻分布的確定性映射。

4、「雜訊目標法」(NAT)就是尋找一個在單位範圍的邊緣是均勻分布的確定性映射。具體來說就是,從統一樣本中,盡量縮小實際操作的「地球移動距離」(EMD)。

5、Bojanowski和Joulin在他們的論文中提到了隨機使用「匈牙利演算法」來更新分配矩陣,在本文的最後,我也對此作了簡單的闡述。

通過信息最大化進行表徵的學習

假設我們現在將要學習來自於一些 pX分布的數據 xn的一個密集表徵。通常情況下,表徵可以用一個隨機變數zn表示,這個變數作經過了一些參數分布條件

的採樣。

xn~pX

zn~pZ|X=xn

在變化的自編碼器中,這個參數分布條件

會被稱為「編碼器」或者是「識別模型」,又或者是「攤銷變化後端」。不過重要的是,我們現在是跟「編碼器」進行一對一工作,無需明確地指示出一個生成的分布

「信息最大化」原則的意思是一個好的表徵的信息熵是密集分布的,同時還要保留輸入X中儘可能多的信息。這一目標可以正式表達為:

表示「互信息」,

表示「申農熵」。

我還引入了下面的符號分布:

在實際中,這些「最優化問題」有可能是以各種不恰當的方式呈現的,所以這些問題本身也是存在問題的。

1、一般情況下,邊緣的熵是很難估測的。我們需要採取一種比較智能的方式來限制

,不需要對熵進行實際的計算。

2、如果一個表徵具有確定性和可逆性,那麼「互信息」在連續的空間內就是無限循環的,而這些最優化問題就會變得毫無意義。所以,為了使這些最優化問題變得有意義,我們需要確保那些病態的可逆行為永遠都不會出現。

為了解決以上問題,我們可以作以下的改變:

1、首先,運用勒貝格有限測度,把Z的定義域限制在的

子集範圍內,這樣一來,微分熵

在這個定義域內就會始終受到均勻分布的熵的約束。為了與論文內容一致,我們可以把表徵定義域限制在歐幾里得單位

的範圍內。

2、第二,嘗試把

和多雜訊表徵

表示雜訊)之間的信息最大化。我將假定

遵循了一種球狀的分布規則,而這個添加的雜訊在實際操作中,從任何給定的範圍

內,設定了一個

預測的上限(或者是設定了表徵可逆性的上限);從而也框定了「互信息」,把它限制在一個有限值內。那麼我們的最優化問題就變成了:

這個損失函數生成了一種直觀的感受:你可能正以一種非常隨機的方式,把你的輸入Xn在單位範圍內映射為Zn,但是這樣做,原始數據點Xn就會很容易從Zn的雜訊版——

恢復。換句話來說,我們是在尋找一個在某種程度上能夠抵擋加性雜訊的表徵。

確定和統一的表徵

我們能很輕易地指出是否存在至少一個表徵pZ|X;θ,這個表徵具備以下兩種特質:

第一,Zn是Xn的確定性函數;第二,

是在單位範圍內的均勻分布。

如果具備了以上特徵,那麼這個

就是信息最大化目標中的全局最優點。

但值得關注的是,這個確定性的表徵也許並不是獨一無二的,可能會存在很多很多好的表徵,尤其是當

時。

再看這樣的案例:假設X是一個標準的多元高斯,表徵Z是X的一個正常的正交投影。例如,針對一些正交轉換A來說:

Z在單位範圍內將會具備均勻分布,而這也是一個確定性的映射。因此,Z是一個信息最大化的表徵,它對任何同樣正交映射A都十分有利。

所以,如果我們假設只存在至少一個確定的、統一Px的表徵,那麼尋找確定的、能夠把數據映射為大致均勻分布的表徵就意義非凡了。


這才是「雜訊目標法」(NAT)的目的所在

為達到一個在表徵空間里均勻的分布,NAT採用的方法是使「地球移動距離」(EMD)最小化。首先,我們根據已有的數據點,隨機畫了儘可能多的均勻分布,我們把這些均勻分布看作Cn。然後,我們試著把每個Cn與一個數據點配對,直到Cn和對應的表徵

之間的「均方距離」達到最小值。一旦配對成功,已配對的表徵和雜訊向量之間的「均方距離」就能被視為測量分布均勻性的度量單位。確實,這是對「瓦瑟斯坦距離」(Pz分布和均勻分布之間的距離)的一種經驗性估測。

信息最大化的表徵就一定是好的表徵嗎?

過去的幾天,我做了太多這種類型的講話——什麼是一個好的表徵?無監督的表徵學習究竟是什麼意思?對於InfoMax表徵,你同樣可以提出這樣的問題:這是找到一個好表徵的最佳指導原則嗎?

還不夠。對於新手,你可以以任意的方式轉換你的表徵,只要你的轉換是可逆的,那麼「互信息」就應該是相同的。所以你可以在可逆的條件下對你的表徵做任何轉換,無需考慮InfoMax的目標。因此,InfoMax標準不能單獨找到你轉換過的表徵。

更有可能出現的是,我們在操作經驗中所看到的那些成功案例都是ConvNets與InfoMax原則聯合使用的結果。我們僅在ConvNet比較容易展示的表徵中,對信息進行最大化操作。

本文總結

NAT的表徵學習原則可以理解為尋找InfoMax表徵,即最大化地保留了輸入數據的信息的有限熵的表徵。在「卷積神經網路範例」中也存在類似的信息最大化的解讀,它根據數據點的雜訊版本來估測這個數據點的指數。在開始的時候,你肯定會認為這些演算法很奇怪,甚至是超乎常理的,但是如果我們把這些演算法重新理解為信息最大化工具,我們就會對他們有所改觀。反正至少我對他們是有了更深的認識和理解的。

特別內容:一些關於EMD隨機版本的小提示

以這種文字的方式實施EMD度量的難處在於,你需要找到一個最優的分配方案,分配好兩個實操經驗上的分布和尺度

。那麼為了迴避這個難題,作者提出了一個「最優分配矩陣」的任意更新升級,即所有的配對一次只進行一小批更新升級。

我並不指望這個「最優分配矩陣」能有多有用,但是值得一提的是,這一矩陣使這個演算法很容易陷入局部的最小值。假設表徵

的參數是固定的,我們變化、更新的只是其中的分配。我們來看下面圖形中的解讀:

雜訊預測的無監督學習——通往信息最大化的未來

在這個2D的球狀單位(圓圈)上的X1,X2,X3分別是三個數據點,這些數據點之間距離相等。是三個可能的雜訊分配,三者之間也是距離相等。C1,C2,C3很明顯,其中的最優分配就是把X1與C1配對,X2與C2配對,X3與C3配對。

假設,我們當前的映射是次優的,如圖中藍色箭頭指示的;而且我們現在只能在尺寸2的minibatch上更新分配。在尺寸2的minibatch上,我們的分配只有兩種可能性:第一,保持原來的分配不變;第二,把所有的點都互換,就像圖中紅色箭頭指示的。在上圖這個例子中,保持原來的分配(藍色箭頭)比互換所有的點(紅色箭頭)更可行。因此,minibatch的更新將會使minibatch演算法陷入這個局部的最小值。

但是這並不意味著這個方法沒有用。當

也同時被更新了的情況下,這個方法確實能讓演算法擺脫這個局部最小值。其次,batch的尺寸越大,就約難找到這樣的局部最小值,那麼演算法也就越不會陷入最小值。

我們可以轉換一種思維方式,把這個任意的「匈牙利演算法」的局部最小值看作是一個圖表。每一個節點代表一個分配矩陣狀態(一個分配排列),每一條邊對應一個基於minibatch的有效更新。一個局部最小值就是一個節點,這個最小值節點與其周邊的N!節點相比成本較低。

如果我們把原本大小為B的minibatch擴大到一個總樣本的尺寸N,那麼我們就會在圖中得到一個N!節點,而每個節點都會超出額度,達到

。那麼任意兩個節點連接的概率就是

。Batch的B尺寸越大,我們這個圖表就會變得越緊密,局部最小值也就不存在了。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

LSTM Networks 應用於股票市場探究
清華大學舒繼武教授:基於非易失存儲器的存儲系統軟體層優化 | CCF-ADL 火熱報名中
彭博分析師稱:2030年電動汽車價格將全面低於燃油車

TAG:雷鋒網 |

您可能感興趣

無監督學習最新研究:通過圖像旋轉預測為特徵學習提供監督信號
機器學習之監督和無監督學習
無監督學習新研究簡單的圖像旋轉預測,為特徵學習提供強監督信號
當前最好的詞句嵌入技術概覽:從無監督學習轉向監督、多任務學習
深度 | 當前最好的詞句嵌入技術概覽:從無監督學習轉向監督、多任務學習
通過大腦預測誤差來進行社會學習
人工智慧的熱點:深度強化學習正成為通往通用AI的關鍵
科技與傳統的完美結合 漢王智能學習燈深度測評
學習怎樣控制和預防焦慮感
神經進化是深度學習的未來
謝國彤:疾病預測的機器學習、深度學習和經典回歸方法
為什麼深度學習仍未取代傳統的計算機視覺技術?
會學習不疲倦的質檢員
機器學習中無監督與有監督的七大區別
大數據測試學習筆記之測試工具集
無監督學習在反欺詐中的應用
機器學習三兄弟概念大揭秘:「監督學習」「非監督學習」「強化學習」
有監督相似性學習:基於相似問題數據的對稱關係學習
徹底掌控自己情緒的最簡學習流程
跳出微軟研究院心向產品化,她如何推動無監督學習反欺詐技術的應用?