「周志華深度森林第二彈」首個基於森林的自編碼器，性能優於DNN

新聞 09-28

1新智元報道

「周志華深度森林第二彈」首個基於森林的自編碼器，性能優於DNN

自編碼是一項重要的任務，通常由卷積神經網路（CNN）等深度神經網路（DNN）實現。本文中，我們提出了EncoderForest（簡寫為eForest），這是第一個基於樹集成的自編碼器。我們提出了一種方法，讓森林能夠利用樹的決策路徑所定義的等效類來進行後向重建，並在監督和無監督環境中展示了其使用情況。實驗結果表明，與DNN自編碼器相比，eForest能夠以較快的訓練速度獲得更低的重建誤差，同時模型本身具有可重用性和容損性。

如果上面這段話看上去似曾相識，比如關鍵詞「基於樹的」、「eForest」，還有「相比DNN，基於樹的方法更加……」的表述，你沒有弄錯，南大LAMDA教授周志華和他的學生馮霽又出手了。

今年早些時候，他們兩人的論文《深度森林：探索深度神經網路以外的方法》，在業界引發了不小的反響。在那篇論文中，周志華和馮霽提出了一種基於樹的方法gcForest——「multi-Grained Cascade forest」，多粒度級聯森林——通過一種全新的決策樹集成方法，使用級聯結構，讓gcForest做表徵學習。實驗中，gcForest使用相同的參數設置，在不同的域中都獲得了優異的性能，在大型和小型數據集上表現都很好。此外，由於是基於樹的結構，gcForest相比神經網路也更容易分析。

在gcForest論文中，作者寫道：「我們認為，要解決複雜的問題，學習模型也需要往深了去。然而，當前的深度模型全部都是神經網路。這篇論文展示了如何構建深度森林（deep forest），為在許多任務中使用深度神經網路以外的方法打開了一扇門。」

現在，他們在gcForest的基礎上，繼續探索DNN以外的方法，這次瞄準的是自編碼器。

繼續探索神經網路以外的方法，這次瞄準自編碼器

「周志華深度森林第二彈」首個基於森林的自編碼器，性能優於DNN

在最新論文《用決策樹做自編碼器》（AutoEncoder by Forest）中，周志華和馮霽提出了EncoderForest，也即「eForest」，讓一個決策樹集成在監督和無監督的環境中執行前向和後向編碼運算，實驗結果表明，eForest方法具有以下優點：

準確：實驗重建誤差低於基於MLP或CNN的自編碼器
高效：在單個KNL（多核CPU）上的訓練eForest的速度，比在Titan-X GPU上訓練CNN自編碼器速度更快
容損：訓練好的模型在部分受損的情況下仍然運行良好
可復用：在一個數據集上訓練好的模型能夠直接應用於同領域另外一個數據集

下面是新智元對最新論文的編譯介紹，要查看完整的論文，請參見文末地址。

首個基於樹集成的自編碼器模型 eForest

這一次，我們先從結論看起，再回過頭看eForest模型的提出和實驗結果。在結論部分，作者寫道，

在本文中，我們提出了首個基於樹集成的自編碼器模型EncoderForest（縮寫eForest），我們設計了一種有效的方法，使森林能夠利用由樹的決策路徑所定義的最大相容規則（MCR）來重構原始模式。實驗證明，eForest在精度和速度方面表現良好，而且具有容損和模型可復用的能力。尤其是在文本數據上，僅使用10％的輸入比特，模型仍然能夠以很高的精度重建原始數據。

eForest的另一個優點在於，它可以直接用於符號屬性或混合屬性的數據，不會將符號屬性轉換為數字屬性，在轉換過程通常會丟失信息或引入額外偏差的情況下，這一點就顯得尤為重要。

需要注意，監督eForest和無監督的eForest實際上是由多粒度級聯森林gcForst構建的深度森林在每一級同時使用的兩個成分。因此，這項工作也可能加深對gcForst的理解。構建深度eForest模型也是未來值得研究的有趣問題。

方法提出：一種可能是最簡單的森林後向重建策略

自編碼器有兩大基本功能：編碼和解碼。編碼對於森林來說很容易，因為單是葉節點信息就可以被視為一種編碼方式，而節點的子集甚至分支路徑都可能為編碼提供更多信息。

編碼過程

首先，我們提出EncoderForest的編碼過程。給定一個含有 T 顆樹的訓練好的樹集成模型，前向編碼過程接收輸入數據後，將該數據發送到集成中的樹的每個根節點，當數據遍歷所有樹的葉節點後，該過程將返回一個 T 維向量，其中每個元素 t 是樹 t 中葉節點的整數索引。

Algorithm 1展示了一種更具體的前向編碼演算法。注意該編碼過程與如何分割樹節點的特定學習規則是彼此獨立的。例如，可以在隨機森林的監督環境中學習決策規則，也可以在無監督的環境（例如完全隨機樹）中學習。

「周志華深度森林第二彈」首個基於森林的自編碼器，性能優於DNN

解碼過程

至於解碼過程，則不那麼明顯。事實上，森林通常用於從每棵樹根到葉子的前向預測，如何進行向後重建，也即從葉子獲得的信息中推演原始樣本的過程並不清晰。

在這裡，我們提出了一種有效並且簡單（很可能是最簡單的）策略，用於森林的後向重建。首先，每個葉節點實際上對應於來自根的一條路徑，我們可以基於葉節點確定這個路徑，例如下圖中紅色高亮的路徑。

「周志華深度森林第二彈」首個基於森林的自編碼器，性能優於DNN

其次，每條路徑對應一個符號規則，上圖中高亮的路徑可以對應以下規則集，其中 RULEi 對應森林中第 i 顆樹的路徑，符號「:」表示否定判斷：

「周志華深度森林第二彈」首個基於森林的自編碼器，性能優於DNN

然後，我們可以推導出最大相容規則（MCR）。從上面的規則集中可以得到這樣的MCR：

「周志華深度森林第二彈」首個基於森林的自編碼器，性能優於DNN

這個MCR的每個組成部分覆蓋範圍都不能擴大，否則就會與其他條件衝突。因此，原始樣本不得超出MCR定義的輸入區域。Algorithm 2對這一規則給出了更詳細的描述。

「周志華深度森林第二彈」首個基於森林的自編碼器，性能優於DNN

獲得了MCR後，就可以對原始樣本進行重建。具體說，給定一個訓練好的含有 T 棵樹的森林，以及一個有「周志華深度森林第二彈」首個基於森林的自編碼器，性能優於DNN 中前向編碼的特定數據，後向解碼將首先通過中的每個元素定位單個葉節點，然後根據對應的決策路徑獲得相應的 T 個決策規則。通過計算MCR，我們可以將返回給輸入區域中的「周志華深度森林第二彈」首個基於森林的自編碼器，性能優於DNN 。Algorithm 3給出了具體的演算法。