「業界」基於騰訊Angel的LDA*入選VLDB，超越微軟LightLDA

新聞 09-01

1 新智元報道

「業界」基於騰訊Angel的LDA*入選VLDB，超越微軟LightLDA

VLDB是資料庫領域的頂級會議之一，由VLDB基金會贊助，和另外兩大會議SIGMOD、ICDE 一起構成了資料庫領域的三大頂級會議。VLDB是這三個會議中公認含金量最高的，VLDB的論文接受率總體很低，必須是創新性很高，貢獻很大的論文才有機會被錄用。近年來，隨著大數據的發展，VLDB也從資料庫擴展到大數據相關的領域，但是依然保持高質量的把控。

《LDA*：A Robust and Large-scale Topic Modeling System》的主要內容，是研究如何在工業界的環境中建立一個大規模的主題模型訓練系統。論文由騰訊TEG數據平台部與北京大學、蘇黎世聯邦理工學院的研究人員合作完成。此前已有很多相關的系統工作，包括 YahooLDA，微軟的 LightLDA 以及 Petuum 等，但 LDA*解決了如何在複雜的數據環境中得到更魯棒的採樣性能，以及詞的傾斜分布帶來的網路通信這兩個難題。

在結合工程實現，LDA* 系統能夠勝過現有系統的10x，並已在騰訊內部使用，提供主題模型建模服務半年以上。

主題模型：用數學框架捕捉文檔潛在語義概率分布

主題模型（Topic Model）在機器學習和自然語言處理等領域是用來在一系列文檔中發現抽象主題的一種統計模型。一篇文章通常包含多種主題（比如「貓」、「狗」），而且每個主題所佔比例各不相同。主題模型試圖用數學框架來體現文檔的這種特點。

在主題模型中，每個文檔都被看成一個話題（Topic）的分布，每個話題都被看成一個在詞語上的分布（Topic Distribution of Words）。通過主題模型對文本進行建模，我們將文檔被表示成一個話題分布（Topic Probability），從而可以對文檔進行聚類等分析。最初是運用於自然語言處理相關方向，主題模型現在已經用於多個領域，比如推薦系統、廣告CTR預估，用戶興趣分類……

「業界」基於騰訊Angel的LDA*入選VLDB，超越微軟LightLDA

在工業界的場景下訓練主題模型，主要有三大難點：

第一個是訓練的數據規模非常大，2T大小的樣本的數據量，有3000億個Token，需要幾個小時內跑出結果；
第二個是需要處理的數據和參數十分複雜，而且在各種數據和參數配置下，都必須提供較好的性能；
第三點是所有的任務都是在一個集中的集群上運行，系統需要具有較高的可擴展性和魯棒性。

對此，LDA* 論文作者從模型和工程兩方面都進行了有針對的優化，讓 LDA*實現了廣泛的適用性和良好的性能。

同時，LDA* 構建於騰訊的大規模分散式機器學習開源平台 Angel 之上，得益於Angel的參數伺服器架構，良好的擴展性和編程介面設計，LDA* 可以輕鬆處理TB級別的數據和百億維度的主題模型，並保持良好的性能。

痛點1：模型採樣平衡性

求解主題模型的一個常用方法是吉布斯採樣。但是，在數據規模大及話題個數較多的情況下，原始的吉布斯採樣求解效率非常低下。因此，有很多研究工作考慮如何降低採樣演算法的複雜度。

目前，業界已有的 LDA 方法包括 AliasLDA，F+LDA，LightLDA 和 WarpLDA。其中，AliasLDA 和 F+LDA 利用主題模型參數的稀疏性質降低模型的採樣複雜度，也被叫做 Sparse-Aware Samplers；而 LightLDA 和 WarpLDA 則利用 Metropolis Hastings 方法，使每次採樣只需要 O(1) 的計算複雜度。

「業界」基於騰訊Angel的LDA*入選VLDB，超越微軟LightLDA

但是，O(1) 的採樣複雜度並不意味著更快的收斂速度。由於 Metropolis Hastings 方法中存在接受率，因此從概率的角度上來看，LightLDA 和 WarpLDA 需要多次採樣操作才能產生一個可接受的採樣樣本，從而發生一次狀態轉移；相比之下，AliasLDA 和 F+LDA 雖然每次採樣操作複雜度較高，但每次採樣都能夠產生一個樣本。

由此，論文作者發現，Sparse-Aware Samplers 和 Metropolis Hastings Samplers 之間存在一個 tradeoff，單一的一種 sampler 並不能適用於所有的數據集或者參數設置，只有發現這個 tradeoff 並有效地將這兩種 samplers 結合起來，才能達到最佳的性能。

「業界」基於騰訊Angel的LDA*入選VLDB，超越微軟LightLDA

為了發現這個 tradeoff，團隊做了詳盡的實驗，並找到兩種 samplers 的交叉點。基於這個交叉點，LDA* 有效地將 F+LDA 和 WarpLDA 結合起來，設計了一個新的 Hybrid Sampler。

實驗結果表明，Hybrid Sampler 在 PubMED 數據集上獲得與 F+LDA 相當的甚至更好的性能，而在騰訊真實數據集上也可以獲得比 WarpLDA 更好的性能。總的來說，Hybrid Sampler 在所有的數據集上和參數配置下，都能獲得最好的性能。

痛點2：非對稱結構，實現模型並行

主題模型的訓練常常需要大規模的數據集和較大的話題個數，因此大規模的主題模型常常使用分散式訓練。已有的主題模型系統，包括 LightLDA，YahooLDA 和 Petuum，都會採用參數伺服器的架構來進行分散式訓練。但是，由於詞分布的傾斜特性，標準的參數伺服器架構會在 Worker 端產生較大的網路通信開銷，幾乎每個 worker 都需要把整個詞-話題（Word-Topic）矩陣模型從 PSServer 上拉取下來，這個對性能會有很大的影響。

實際的測試下，大部分的網路開銷都產生於長尾的詞語，這些長尾的詞語產生的網路開銷，在數據量和模型參數較大時帶來了性能損失。LDA* 對於這類長尾詞語進行了特殊的處理，將一部分長尾詞語的採樣推送到 PSServer 端進行，避免了對詞-話題矩陣的拉取操作。在這樣的架構中，PSServer 不僅僅作為一個分散式存儲，還參與了一定的計算任務，在某種程度上實現了模型並行，也即論文作者提到的「非對稱架構」。

「業界」基於騰訊Angel的LDA*入選VLDB，超越微軟LightLDA