當前位置:
首頁 > 新聞 > GMIS 2017大會鄧力演講:無監督學習的最新進展

GMIS 2017大會鄧力演講:無監督學習的最新進展


全球機器智能峰會( GMIS 2017 ),是全球人工智慧產業信息服務平台機器之心舉辦的首屆大會,邀請了來自美國、歐洲、加拿大及國內的眾多頂級專家參會演講。本次大會共計 47 位嘉賓、5 個Session、32 場演講、4 場圓桌論壇、1 場人機大戰,兼顧學界與產業、科技巨頭與創業公司,以專業化、全球化的視角為人工智慧從業者和愛好者奉上一場機器智能盛宴。

5 月 27 日,機器之心主辦的為期兩天的全球機器智能峰會(GMIS 2017)在北京 898 創新空間順利開幕。中國科學院自動化研究所複雜系統管理與控制國家重點實驗室主任王飛躍為本次大會做了開幕式致辭,他表示:「未來,人工智慧將幫助人類戰勝各種困難」。大會第一天重要嘉賓「LSTM 之父」Jürgen Schmidhuber、Citadel 首席人工智慧官鄧力、騰訊 AI Lab 副主任俞棟、英特爾 AIPG 數據科學部主任Yinyin Liu、GE Transportation Digital Solutions CTO Wesly Mukai 等知名人工智慧專家參與峰會,並在主題演講、圓桌論壇等互動形式下,從科學家、企業家、技術專家的視角,解讀人工智慧的未來發展。

GMIS 2017大會鄧力演講:無監督學習的最新進展

上午,Citadel 首席人工智慧官鄧力發表了主題為《無監督學習的最新進展》的演講,他探討分享了無監督學習的優勢,並詳細介紹了隨機原始-對偶梯度方法(SPDG)與其優良的性能,下面我們將一起瀏覽鄧力老師的盛宴。

首先鄧力老師就介紹了無監督學習的概念和強大之處,鄧力表明無監督的學習範式即是深度學習當中的一種範式。也就是我們不給系統提供一個非常具體的信號,你只是告訴它一些信息,讓它以無監督的方式自己學習,能夠很成功地學到你讓它學的東西。

GMIS 2017大會鄧力演講:無監督學習的最新進展

鄧力今天跟大家介紹的一個主流的觀點就是,以預測為中心的無監督的學習的範式,在這個範式裡面我們能夠直接完成機器學習的目標,無論是預測還是其他的任務。因為,我們能夠直接把輸入放到系統裡面,然後利用無監督學習的機制(機器自己學習),而不需要人類給它一些標籤、標識,利用這種範式就能做出一些非常優良的預測。

隨後鄧力為我們描繪了監督學習如何使用分類器處理標註問題。我們知道監督學習的特點就是有大量的標註數據集,而最新的監督模型總是表現得比無監督預訓練模型更好。那是因為,監督會允許模型能夠更好的編碼數據集上的特徵。只不過當模型應用在其他的數據集上時,監督會衰減。

如下圖所示,鄧力首先展示的就是從成對輸入-輸出數據的分類模型。

GMIS 2017大會鄧力演講:無監督學習的最新進展

鄧力老師表明監督學習,即給機器出輸入、輸出的兩種數據,讓它自己去學習,這種情況下它肯定有一個映射了,一對輸入輸出就像一個老師,老師教給這個機器如何進行識別或預測。這個範式非常地成功,在人類已經應用的比方說語言識別和機器翻譯等等方面,都是用這種範式來做的。這種範式十分成功,都是用這種一對對映射的輸入輸出方式來訓練整個系統。

但是另一方面我們可以看到這種方法的成本還是很大的,我們需要給系統提供輸入跟輸出成對的數據。語音識別還好一點,但是其他的應用(比方說翻譯、醫療的應用、圖象識別、視頻相關的任務和醫學影像方面的任務),那麼這種映射的輸入輸出成對的訓練方法就太貴了,成本太高了。

GMIS 2017大會鄧力演講:無監督學習的最新進展

在介紹了監督學習的解決方案後,鄧力老師緊接著帶我們概覽了一遍傳統的無監督學習演算法。首先就是聚類這一大類,其又包含以下幾種方法:

  1. K-均值聚類:該方法是一種通用目的的演算法,聚類的度量基於樣本點之間的幾何距離(即在坐標平面中的距離)。集群是圍繞在聚類中心的族群,而集群呈現出類球狀並具有相似的大小。K 均值聚類是最流行的聚類演算法,因為該演算法足夠快速、簡單,並且如果你的預處理數據和特徵工程十分有效,那麼該聚類演算法將擁有令人驚嘆的靈活性。

  2. 層次聚類:層次聚類最開始由一個數據點作為一個集群,隨後對於每個集群,基於相同的標準進行合并,重複這一過程直到只留下一個集群,因此就得到了集群的層次結構。次聚類最主要的優點是集群不再需要假設為類球形,另外其也可以擴展到大數據集。

其次主要介紹了密度估計類的模型,其中包括:

  1. 主題模型:即在機器學習和自然語言處理等領域是用來在一系列文檔中發現抽象主題的一種統計模型。直觀來講,如果一篇文章有一個中心思想,那麼一些特定詞語會更頻繁的出現。

  2. 生成對抗網路:GAN 由兩個彼此競爭的深度神經網路——生成器和判別器組成的。生成模型可以被看作是一隊偽造者,試圖偽造貨幣,不被人發覺,然而辨別模型可被視作一隊警察,努力監察假的貨幣。博弈中的競爭使得這兩隊不斷的改善方法,直到無法從真實的物品中辨別出偽造的。

  3. 變分自編碼器:VAE是一類重要的生成模型,現在廣泛地用於生成圖像。與GAN不同的是,我們是知道圖像的密度函數(PDF)的,而GAN並不知道圖像的分布。

鄧力老師隨後表明如果沒有輸入、沒有一個學習材料它怎麼學,所以說機器還得有一些學習材料,在這個範式裡面要給機器提供一些米、一些學習材料,而又不需要人類提供那些非常成本昂貴的輸入輸出的映射,那怎麼辦呢?

在這個世界上有充分的、多元的一些知識的來源,我們可以把它正和島一個整合的系統,然後給系統、給機器,這是一個非常大膽的說法,怎麼把世界上既有的多元化的信息分類到各個知識領域。

無監督學習分類器

GMIS 2017大會鄧力演講:無監督學習的最新進展

語言模型能從分離的語料庫中訓練,這樣就移除了成對數據(標註數據),也就不需要大量人力標註。

GMIS 2017大會鄧力演講:無監督學習的最新進展

我們假設是這樣做的,在這個實驗裡面我們使用語言模式的信息,既使是我們提供的序列作為輸入給這個機器,它出來的輸出還是不能給出一個明確的標籤,輸出只能給出一個非常泛泛的、很慢的人類語言的標籤。所以我們用真實的語言,我們用語言來作為機器學習的指導。那麼自然語言的數據可以是一個很困難的東西,但是我們可以單獨拿出來使用,不把這個自然語言和任何的圖象進行配對。為此我們就極大地降低了培訓的成本、訓練機器的成本。

GMIS 2017大會鄧力演講:無監督學習的最新進展

問題形式化為:

GMIS 2017大會鄧力演講:無監督學習的最新進展

原始問題的成本函數為

GMIS 2017大會鄧力演講:無監督學習的最新進展

該損失函數的問題:成本函數即使是線性模型也高度非凸性。

可以最優化這個目標函數,求出最優參數,然後就可以求出我們所需要的模型。所以鄧力老師跟大家來分享了一下這個成本函數,我們可以看到剛才已經講過了這個目標函數,最開始它是不好的,但是最後迭代以後它會越來越好。我們可以看到從網站裡面它跟你的數據訓練是不同的,所以這是很容易建造的,但是卻很難優化。

在鄧力老師的演講中,非常重要的就是採用SPDG在沒有標註的情況下學習如何做預測。那麼我們一起來看看鄧力老師如何將前面我們形式化的原始問題轉化為極小極大對偶問題,並採用隨機梯度下降來求得最優參數。(註:以下參考自鄧力等人今年發表的論文:An Unsupervised Learning Method Exploiting Sequential Output Statistics)

為了正確地將隨機梯度下降應用到前面我們形式化問題所得到的損失函數,即最小化損失函數:

GMIS 2017大會鄧力演講:無監督學習的最新進展

我們需要轉換該損失函數以保證其隨t的累和為對數損失。為此,我們首先需要引進凸共軛函數這一概念。給定一個凸函數 f(u),那麼其凸共軛函數f * (ν)就定義為:

GMIS 2017大會鄧力演講:無監督學習的最新進展

此外,也可以表示為:

GMIS 2017大會鄧力演講:無監督學習的最新進展

若有函數 f(u) = ? ln u,其中標量 u>0,那麼其共軛函數為 f* (ν) = ?1 ? ln(?ν),其中標量v<0。因此根據上式定義,我們的函數和共軛函數有以下關係:

GMIS 2017大會鄧力演講:無監督學習的最新進展

其中,sup由max替代,因為上確界是可以用最大化達到的。隨後我們可以將上面的函數代入最開始的損失函數中,而根據拉格朗日對偶性,原始問題的對偶問題是極大極小問題,因此求解原始問題就等價於求解以下極小極大問題(min-max problem):

GMIS 2017大會鄧力演講:無監督學習的最新進展

其中

GMIS 2017大會鄧力演講:無監督學習的最新進展

,即V定義為所有對偶變數的集合

GMIS 2017大會鄧力演講:無監督學習的最新進展

。 Lt(θ, V )為第t個分量函數:

GMIS 2017大會鄧力演講:無監督學習的最新進展

極小極大問題方程的最優解(θ*,V*)即稱之為函數L(θ,V )的鞍點。一旦求得最優點 (θ*, V*),我們就能保留原始變數θ*作為模型學到的參數。

隨機原始-對偶梯度方法(Stochastic primal-dual gradient method /SPDG)

在上式極小極大問題等價優化式中,我們先關於θ極小化L(θ, V )和關於V極大化L(θ, V )以求得最優解 (θ*,V*)。這樣求得的參數θ即原始問題的最優化解。我們更進一步注意到原始問題的等價式極小極大問題現在是分量函數Lt(θ, V ), t = 1, . . . , T從1到T的累和。

GMIS 2017大會鄧力演講:無監督學習的最新進展

因此,關於θ的極小化和關於V的的極大化可以由隨機梯度下降解出,即L(θ, V ) 關於原始變數θ執行隨機梯度下降、L(θ, V ) 關於對偶變數V執行隨機梯度下降。這樣重複迭代的方式,即隨機原始-對偶梯度(SPDG)方法。為了計算隨機梯度,我們先將L(θ, V )的全批量梯度表示為:

GMIS 2017大會鄧力演講:無監督學習的最新進展

為了計算隨機梯度,我們將每個樣本

GMIS 2017大會鄧力演講:無監督學習的最新進展

[I的平均值由各自的隨機抽樣分量

GMIS 2017大會鄧力演講:無監督學習的最新進展

(或其小批量均值)替代,如此迭代重複下去(其中tm為集合{1, . . . , T}中的均勻隨機變數)。在上述演算法一中,我們使用小批量梯度概述了SPDG方法,其中梯度可以在 TensorFlow 實現中自動計算。此外,對偶變數

GMIS 2017大會鄧力演講:無監督學習的最新進展

的負約束(negative constraint)由於在極大極小問題中的內在 log-barrier

GMIS 2017大會鄧力演講:無監督學習的最新進展

而能被自動執行。因此,我們不需要獨立的方法來實現約束條件。

隨後,鄧力老師分析了對偶問題成本函數的損失表面,它表明對偶問題的損失表面具有更優良的性能,執行隨機梯度下降也能得到一個很好的最優解。

GMIS 2017大會鄧力演講:無監督學習的最新進展

最後,鄧力老師總結了本場演講的精要信息點:

GMIS 2017大會鄧力演講:無監督學習的最新進展

最後鄧力老師表明,無監督學習比監督學習更有趣,但是也更困難。我們可以使用更多的一些數據來進行學習,比如說像我剛才所說的 SPDG 方法,該方法不需要進行標記,但它可以直接進行學習來聽聲音的識別或者說做一些翻譯。這樣的一個線性的方式,我們也需要很多的發明來使無監督學習更加地有效。

鄧力說:「其實我們人類還是很有希望的,因為在未來有越來越多的技術以後,人類就可以有更多的價值。」他認為雖然監督學習很有希望,但未來的趨勢還是無監督學習。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

GMIS2017Schmidhuber演講:人工智慧改變一切
GMIS 2017 馬維英演講:信息流的未來與人工智慧的機會
GMIS 2017 YinyinLiu:演變的AI與模型俱進
GMIS 2017 Wesly Mukai:智能運輸的未來
GMIS 2017大會俞棟演講:語音識別領域的四項前沿研究

TAG:機器之心 |

您可能感興趣

「TFBOYS」「新聞」190314 王俊凱聯合國環境大會演講,全程英文演講致力環保
一文打盡 ICLR 2018:9大演講,DeepMind、谷歌最新乾貨搶鮮看
「一文打盡 ICLR 2018」9大演講,DeepMind、谷歌最新乾貨搶鮮看
數千人頂會的乾貨,ICML、CVPR2019演講視頻資源在此
2019台北電腦展AMD主題演講:不只7nm和銳龍3
OC5大會新增13個演講主題 VR遊戲開發商CCP以4.25億美元被收購
學習世界模型,通向AI的下一步:Yann LeCun在IJCAI 2018上的演講
NeurIPS 2018 今日開幕,7 場大會演講搶先看!
2019 台北電腦展 AMD 主題演講:不止新一代 Ryzen 處理器
AMD CEO蘇姿豐將在CES 2019發表主題演講,7nm CPU/GPU來了
vivo NEX雙屏版助力2018《時間的朋友》跨年演講
乾貨!CCF-GAIR 2019 第一天演講匯總,看懂中國人工智慧 40 年
LáSZLóG.BOROS教授將受邀在「2018年ICC&CMT&NCCM」做主題演講
何愷明CVPR演講:深入理解ResNet和視覺識別的表示學習(41 PPT)
Supercell 2018GDC演講:手游設計就像是叢林探險
RSA Conference 2018亞太及日本大會公布主題演講嘉賓陣容
Ian GoodFellow ICRL 2019 演講PPT
百餘位專家演講,2018 AIIA人工智慧開發者大會10月開幕
43位頂級學術IP演講全收錄,最值得收藏的30萬字「全文+PPT」精華 | AI科技評論年度特輯
30位重磅嘉賓+24場主題演講,市北·GMIS 2019 明日開幕