當前位置:
首頁 > 最新 > 深度森林最新進展,南京大學周志華教授MLA2017解讀,最新實驗結果挑戰深度學習

深度森林最新進展,南京大學周志華教授MLA2017解讀,最新實驗結果挑戰深度學習

【導讀】北京時間 11月5 日到11月6日,一年一度的「機器學習及其應用」(MLA)系列研討會在北京交通大學開幕,西瓜書《機器學習》作者、南京大學機器學習與數據挖掘研究所(LAMDA)周志華教授日前在第15屆中國機器學習及其應用研討會(MLA 2017)上的演講報告題目是深度森林初探,講述的關於他最新集成學習研究成果-深度森林,一種對深度神經網路可替代性方法,這是他和 LAMDA 博士生馮霽發表在人工智慧領域頂級會議IJCAI2017的論文《深度森林:探索深度神經網路以外的方法》(Deep Forest: Towards An Alternative to Deep Neural Networks),在投稿的IJCAI2017的原版論文中,只是在很小的minst數據集上進行了測試,最新版本arxiv論文中已經加入對cifar-10的圖像數據分類實驗。 最新實驗表明gcForest已經是最好的非深度神經網路方法。專知內容組整理出品。此外,請查看本文末尾,可下載最新MLA 2017 深度森林初探 slide。

Deep Forest: Towards An Alternative to Deep Neural Networks

周志華教授今天講述的是關於他最新集成學習研究成果-深度森林,周志華教授的個人主頁是:https://cs.nju.edu.cn/zhouzh/, 相信國內搞人工智慧機器學習的都知道周教授的名氣,在這就不多介紹了。下面開始介紹這次周老師的報告,由於筆者能力有限,本篇所有備註皆為專知內容組成員按照現場報告自行補全,不代表周志華老師本人的立場與觀點。

如今深度學習應用在各種領域,比如視覺,語音以及文本語言處理。而深度學習其實就是多層的神經網路。

美國工業和應用數學學會在今年6月份給出的定義是「深度學習是一類使用深度神經網路的機器學習方法」。

越來越深的網路層數,通常採用BP演算法以及其他的一些變體來訓練。

我們為什麼需要這麼深的網路?其中一種解釋是一方面,增加模型的複雜度,會改善學習能力,增加層數比單純的增加節點數要更高效。另一方面,增加模型的複雜度會增加過擬合的風險,在訓練過程中,很難來收斂到穩定的狀態,很難使用經典的反向傳播演算法。(需要許多tricks)

深度學習的三大支柱

1. 大量的訓練數據

2. 計算力

3. 訓練技巧(tricks)

對於深度神經網路來說,表示學習是很重要的。過去需要人工設計各種特徵,費時費力,現在利用深度學習可以端到端的學習新的表示方法。

這種表示學習的能力對於那些原始特徵不能夠在任務中充分表達特性的數據比較適用,比如圖像中的像素。

單隱層網路被證明具有通用逼近性質,可以擬合任意複雜的曲線。

並且,在實際中,一層層的堆疊設計也是很重要的。

決策樹和提升演算法也有類似的層次結構,但是他們卻沒有想深度網路那樣的建模能力。複雜度不夠,而且常常聚焦保持原始特徵。

從另外一個角度看,深度神經網路層層處理,可以看成是一個特徵轉換器,這種結構可以做到足夠複雜,同時也需要更多的數據。

實際中,深度模型的要點

1,層層處理;

2,特徵變換;

3,足夠的模型複雜度。

神經網路的缺點。

1. 太多的超參數需要調試,這其中包含各種調參技巧。而且很難復現別人實驗的結果。比如當幾個作者用了類似的CNN結構,如果他們使用了不同參數比如卷積層數,實際得到的模型是完全不同的。

2. 如果結構確定了模型的複雜度也就固定死了。

3. 需要大量的數據。

4.理論分析困難。

5.黑盒。

深度神經網路在許多任務上並沒有太多優勢,有時候甚至沒啥用。比如在Kaggle比賽中隨機森林和XGBoost通常效果更好些。

回顧下前面講到的深度模型。現如今深度模型就是深度神經網路:許多可微的非線性層組成的可以用反向傳播演算法訓練的多層結構。

然而實際上,並不是所有的性質都是可微的,有很多不可微的結構存在。這些結構自然不能有反向傳播訓練。

一個巨大的挑戰。如果深度模型包含不可微的部分(無法進行梯度反向傳播),他還依然有效嗎?

讓我們想想,模型中存在不可微結構的同時還要有這些特點,比如層層處理,特徵轉換以及足夠的模型複雜度 我們需要怎麼做才可以呢?

這就是我們提出的多粒度級聯森林,一種全新的決策樹集成方法,使用級聯結構讓gcForest做表徵學習。它有能和深度神經網路媲美的效果,同時超參數卻更少了,也可以根據數據量自適應模型複雜度。

要想在各種數據比賽中取得勝利,集成學習是一個不可或缺的大殺器。

這是因為,為了獲得幾個比較好的集成結果,每個個體需要有一定的差異性,當然啦個體的效果也不能太差了。

這其中,模型個體的多樣性事關鍵。個體學習器的進度越高,差異性越大,集成效果越好。

如何產生這種差異性的核心思想是加入一些隨機性。主要可以在這幾個方面操作,包括對數據採樣,輸入特徵,學習參數以及輸出特徵的操作。

關於集成學習的具體細節可以看周志華老師出版的一本專著。

講到正題,首先講下級聯森林。

深度神經網路中的表徵學習(representation learning)主要依賴於對原始特徵進行逐層處理。受此啟發,gcForest 採用級聯結構(cascade structure),如圖所示,其中級聯中的每一級接收到由前一級處理的特徵信息,並將該級的處理結果輸出給下一級。

每個級是決策樹森林的一個集合,即集成的集成(ensemble of ensembles)。我們包含了不同類型的森林來鼓勵多樣性,因為前面講到,多樣性是集成學習結構的關鍵。

給定一個實例,每個森林會通過計算在相關實例落入的葉節點處的不同類的訓練樣本的百分比,然後對森林中的所有樹計平均值,以生成對類的分布的估計。如圖所示,其中紅色部分突出了每個實例遍歷到葉節點的路徑。被估計的類分布形成類向量(class vector),該類向量接著與輸入到級聯的下一級的原始特徵向量相連接。例如,假設有三個類,則四個森林每一個都將產生一個三維的類向量,因此,級聯的下一級將接收12 = 3×4個增強特徵(augmentedfeature)。

下面講下多粒度的問題。(Multi-grained)

深度神經網路在處理特徵關係方面是強大的,例如,卷積神經網路對圖像數據有效,其中原始像素之間的空間關係是關鍵的。,遞歸神經網路對序列數據有效,其中順序關係是關鍵的。受這種認識的啟發,我們用多粒度掃描流程來增強級聯森林。如圖所示,滑動窗口用於掃描原始特徵。假設有400個原始特徵,並且使用100個特徵的窗口大小。對於序列數據,將通過滑動一個特徵的窗口來生成100維的特徵向量;總共產生301個特徵向量。如果原始特徵具有空間關係,比如圖像像素為400的20×20的面板,則10×10窗口將產生121個特徵向量(即121個10×10的面板)。從正/負訓練樣例中提取的所有特徵向量被視為正/負實例;它們將被用於生成如 2.1節中所說的類向量:從相同大小的窗口提取的實例將用於訓練完全隨機樹森林和隨機森林,然後生成類向量並連接為轉換後的要素。如圖所示,假設有3個類,並且使用100維的窗口;然後,每個森林產生301個三維類向量,導致對應於原始400維原始特徵向量的1,806維變換特徵向量。

但是當數據維度過高,將會產生過多實例和太長的向量而無法處理。

從多粒度到多級處理。假設有三個類要預測,原始特徵是400-dim,使用了三個尺寸的滑動窗口。

這是提出的總體結構。

提一些超參數的設置:在實驗中,gcForest對所有數據師兄相同的參數配置。而深度神經網路需要針對每個參數進行調試。

這是在圖像分類和人臉識別別數據上的實驗結果,可以看出gcForest在和其他經典方法比較中效果顯著。

這是一些在不同應用中的實驗結果:音樂分類,情感分類,手勢識別以及低維數據。提出的方法都領先於其餘傳統的方法。

這是是否包含多粒度掃描的結果,以及運行時間。

在論文之外做的更多實驗,在投稿的IJCAI2017的原版論文中,只是在很小的minst數據集上進行了測試,最新版本arxiv論文中已經加入對cifar-10的圖像數據分類實驗。 最新實驗表明gcForest已經是最好的非深度神經網路方法。注釋:當然圖像分類是是深度神經網路的拿手任務,gcForest結果還有些差距, 但是在其他很多領域深度森林有著用武之處。

如果進一步針對具體數據進行參數微調,gcForest能到更好的效果。

gcForest是集成方法的一次勝利。當然多樣性還是很重要的,我們使用了幾乎所有的用於保持個體學習器多樣性的方法。

論文下載:

https://arxiv.org/abs/1702.08835

特別提示-周志華老師深度森林報告下載:


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 實驗 的精彩文章:

解放孩子無窮創造天性,一個可以創造出任何東西的實驗室
騰訊安全玄武實驗室貢獻三大高危漏洞,再獲蘋果公開「點贊」
男子實驗製作一個小型水下迷宮再放進小魚仔,結果有趣的一幕發生了!
男子實驗乾冰遇水會是什麼樣的,直接把30磅的乾冰倒進了自家游泳池
這個實驗告訴你,為什麼買iPhoneX還需要買「保險+套」

TAG:實驗 |