GMIS 2017大會鄧力演講：無監督學習的最新進展

新聞 05-27

全球機器智能峰會（ GMIS 2017 ），是全球人工智慧產業信息服務平台機器之心舉辦的首屆大會，邀請了來自美國、歐洲、加拿大及國內的眾多頂級專家參會演講。本次大會共計 47 位嘉賓、5 個Session、32 場演講、4 場圓桌論壇、1 場人機大戰，兼顧學界與產業、科技巨頭與創業公司，以專業化、全球化的視角為人工智慧從業者和愛好者奉上一場機器智能盛宴。

5 月 27 日，機器之心主辦的為期兩天的全球機器智能峰會（GMIS 2017）在北京 898 創新空間順利開幕。中國科學院自動化研究所複雜系統管理與控制國家重點實驗室主任王飛躍為本次大會做了開幕式致辭，他表示：「未來，人工智慧將幫助人類戰勝各種困難」。大會第一天重要嘉賓「LSTM 之父」Jürgen Schmidhuber、Citadel 首席人工智慧官鄧力、騰訊 AI Lab 副主任俞棟、英特爾 AIPG 數據科學部主任Yinyin Liu、GE Transportation Digital Solutions CTO Wesly Mukai 等知名人工智慧專家參與峰會，並在主題演講、圓桌論壇等互動形式下，從科學家、企業家、技術專家的視角，解讀人工智慧的未來發展。

上午，Citadel 首席人工智慧官鄧力發表了主題為《無監督學習的最新進展》的演講，他探討分享了無監督學習的優勢，並詳細介紹了隨機原始-對偶梯度方法（SPDG）與其優良的性能，下面我們將一起瀏覽鄧力老師的盛宴。

首先鄧力老師就介紹了無監督學習的概念和強大之處，鄧力表明無監督的學習範式即是深度學習當中的一種範式。也就是我們不給系統提供一個非常具體的信號，你只是告訴它一些信息，讓它以無監督的方式自己學習，能夠很成功地學到你讓它學的東西。

GMIS 2017大會鄧力演講：無監督學習的最新進展

鄧力今天跟大家介紹的一個主流的觀點就是，以預測為中心的無監督的學習的範式，在這個範式裡面我們能夠直接完成機器學習的目標，無論是預測還是其他的任務。因為，我們能夠直接把輸入放到系統裡面，然後利用無監督學習的機制（機器自己學習），而不需要人類給它一些標籤、標識，利用這種範式就能做出一些非常優良的預測。

隨後鄧力為我們描繪了監督學習如何使用分類器處理標註問題。我們知道監督學習的特點就是有大量的標註數據集，而最新的監督模型總是表現得比無監督預訓練模型更好。那是因為，監督會允許模型能夠更好的編碼數據集上的特徵。只不過當模型應用在其他的數據集上時，監督會衰減。

如下圖所示，鄧力首先展示的就是從成對輸入-輸出數據的分類模型。

GMIS 2017大會鄧力演講：無監督學習的最新進展

鄧力老師表明監督學習，即給機器出輸入、輸出的兩種數據，讓它自己去學習，這種情況下它肯定有一個映射了，一對輸入輸出就像一個老師，老師教給這個機器如何進行識別或預測。這個範式非常地成功，在人類已經應用的比方說語言識別和機器翻譯等等方面，都是用這種範式來做的。這種範式十分成功，都是用這種一對對映射的輸入輸出方式來訓練整個系統。

但是另一方面我們可以看到這種方法的成本還是很大的，我們需要給系統提供輸入跟輸出成對的數據。語音識別還好一點，但是其他的應用（比方說翻譯、醫療的應用、圖象識別、視頻相關的任務和醫學影像方面的任務），那麼這種映射的輸入輸出成對的訓練方法就太貴了，成本太高了。

GMIS 2017大會鄧力演講：無監督學習的最新進展

在介紹了監督學習的解決方案後，鄧力老師緊接著帶我們概覽了一遍傳統的無監督學習演算法。首先就是聚類這一大類，其又包含以下幾種方法：

K-均值聚類：該方法是一種通用目的的演算法，聚類的度量基於樣本點之間的幾何距離（即在坐標平面中的距離）。集群是圍繞在聚類中心的族群，而集群呈現出類球狀並具有相似的大小。K 均值聚類是最流行的聚類演算法，因為該演算法足夠快速、簡單，並且如果你的預處理數據和特徵工程十分有效，那麼該聚類演算法將擁有令人驚嘆的靈活性。
層次聚類：層次聚類最開始由一個數據點作為一個集群，隨後對於每個集群，基於相同的標準進行合并，重複這一過程直到只留下一個集群，因此就得到了集群的層次結構。次聚類最主要的優點是集群不再需要假設為類球形，另外其也可以擴展到大數據集。

其次主要介紹了密度估計類的模型，其中包括：

主題模型：即在機器學習和自然語言處理等領域是用來在一系列文檔中發現抽象主題的一種統計模型。直觀來講，如果一篇文章有一個中心思想，那麼一些特定詞語會更頻繁的出現。
生成對抗網路：GAN 由兩個彼此競爭的深度神經網路——生成器和判別器組成的。生成模型可以被看作是一隊偽造者，試圖偽造貨幣，不被人發覺，然而辨別模型可被視作一隊警察，努力監察假的貨幣。博弈中的競爭使得這兩隊不斷的改善方法，直到無法從真實的物品中辨別出偽造的。
變分自編碼器：VAE是一類重要的生成模型，現在廣泛地用於生成圖像。與GAN不同的是，我們是知道圖像的密度函數（PDF）的，而GAN並不知道圖像的分布。

鄧力老師隨後表明如果沒有輸入、沒有一個學習材料它怎麼學，所以說機器還得有一些學習材料，在這個範式裡面要給機器提供一些米、一些學習材料，而又不需要人類提供那些非常成本昂貴的輸入輸出的映射，那怎麼辦呢？

在這個世界上有充分的、多元的一些知識的來源，我們可以把它正和島一個整合的系統，然後給系統、給機器，這是一個非常大膽的說法，怎麼把世界上既有的多元化的信息分類到各個知識領域。

無監督學習分類器

GMIS 2017大會鄧力演講：無監督學習的最新進展

語言模型能從分離的語料庫中訓練,這樣就移除了成對數據（標註數據），也就不需要大量人力標註。

GMIS 2017大會鄧力演講：無監督學習的最新進展

我們假設是這樣做的，在這個實驗裡面我們使用語言模式的信息，既使是我們提供的序列作為輸入給這個機器，它出來的輸出還是不能給出一個明確的標籤，輸出只能給出一個非常泛泛的、很慢的人類語言的標籤。所以我們用真實的語言，我們用語言來作為機器學習的指導。那麼自然語言的數據可以是一個很困難的東西，但是我們可以單獨拿出來使用，不把這個自然語言和任何的圖象進行配對。為此我們就極大地降低了培訓的成本、訓練機器的成本。

GMIS 2017大會鄧力演講：無監督學習的最新進展

問題形式化為：

GMIS 2017大會鄧力演講：無監督學習的最新進展

原始問題的成本函數為

GMIS 2017大會鄧力演講：無監督學習的最新進展

該損失函數的問題：成本函數即使是線性模型也高度非凸性。

可以最優化這個目標函數，求出最優參數，然後就可以求出我們所需要的模型。所以鄧力老師跟大家來分享了一下這個成本函數，我們可以看到剛才已經講過了這個目標函數，最開始它是不好的，但是最後迭代以後它會越來越好。我們可以看到從網站裡面它跟你的數據訓練是不同的，所以這是很容易建造的，但是卻很難優化。

在鄧力老師的演講中，非常重要的就是採用SPDG在沒有標註的情況下學習如何做預測。那麼我們一起來看看鄧力老師如何將前面我們形式化的原始問題轉化為極小極大對偶問題，並採用隨機梯度下降來求得最優參數。（註：以下參考自鄧力等人今年發表的論文：An Unsupervised Learning Method Exploiting Sequential Output Statistics）

為了正確地將隨機梯度下降應用到前面我們形式化問題所得到的損失函數，即最小化損失函數：

GMIS 2017大會鄧力演講：無監督學習的最新進展