Alex Smola論文詳解：準確稀疏可解釋，三大優點兼具的序列數據預測演算法LLA

新聞 08-17

雷鋒網 AI 科技評論按：近日，ICML2017收錄的一篇論文引起了雷鋒網AI科技評論的注意。這篇關於序列數據預測的論文是 Alex Smola 和他在 CMU 時的兩個博士生 Manzil Zaheer 和 Amr Ahmed 共同完成的，後者目前已經加入谷歌大腦。

Alex Smola是機器學習界的重要人物，他的主要研究領域是可拓展演算法、核方法、統計模型和它們的應用，已經發表超過200篇論文並參與編寫多本學術專著。他曾在NICTA、雅虎、谷歌從事研究工作，在2013到2016年間任CMU教授，之後來到亞馬遜任AWS的機器學習總監。MXNet 在去年成為 Amazon AWS 的官方開源平台，而 MXNet 的主要作者李沐正是 Alex Smola 在 CMU 時的學生。

以下雷鋒網 AI 科技評論就對這篇名為「Latent LSTM Allocation: Joint Clustering and Non-Linear Dynamic Modeling of Sequential Data」（潛LSTM分配：序列數據的聯合聚類和非線性動態建模）的論文做具體的介紹。

研究背景

序列數據預測是機器學習領域的一個重要問題，這個問題在文本到用戶行為的各種行為中都會出現。比如在統計學語言建模應用中，研究目標是在給定的語境下預測文本數據的下一個單詞，這和用戶行為建模應用中根據用戶歷史行為預測下一個行為非常類似。準確的用戶行為建模就是提供用戶相關的、個性化的、有用的內容的重要基礎。

一個好的序列數據模型應當準確、稀疏、可解釋，然而目前所有的用戶模型或者文本模型都不能同時滿足這三點要求。目前最先進的序列數據建模方法是使用 LSTM（Long-Short Term Memory）這樣的 RNN 網路，已經有許多例子證明他們可以有效地捕捉數據中的長模式和短模式，比如捕捉語言中表徵級別的語義，以及捕捉句法規律。但是，這些神經網路學到的表徵總的來說不具有解釋性，人類也無法訪問。不僅如此，模型所含的參數的數量是和模型能夠預測的單詞類型或者動作類型成正比的，參數數量往往會達到千萬級甚至億級。值得注意的是，在用戶建模任務中，字元級別的 RNN 是不可行的，因為描述用戶行為的往往不是單詞而是 hash 指數或者 URL。

從另一個角度看這個問題，以 LDA 和其它一些變種話題模型為代表的多任務學習潛變數模型，它們是嚴格的非序列數據模型，有潛力很好地從文本和用戶數據中挖掘潛在結構，而且也已經取得了一些商業上的成果。話題模型很熱門，因為它們能夠在不同用戶（或文檔）之間共享統計強度，從而具有把數據組織為一小部分突出的主題（或話題）的能力。這樣的話題表徵總的來說可以供人類訪問，也很容易解釋。

LLA模型

在這篇論文中，作者們提出了 Latent LSTM Allocation（潛LSTM分配，LLA）模型，它把非序列LDA的優點嫁接到了序列RNN上面來。LLA借用了圖模型中的技巧來指代話題（關於一組有關聯的詞語或者用戶行為），方法是在不同用戶（或文檔）和循環神經網路之間共享統計強度，用來對整個（用戶動作或者文檔）序列中的話題進化變化建模，拋棄了從單個用戶行為或者單詞級別做建模的方法。

LLA 繼承了 LDA 模型的稀疏性和可解釋性，同時還具有 LSTM 的準確率。作者們在文中提供了多個 LLA 的變種，在保持解釋性的前提下嘗試在模型大小和準確率之間找到平衡。如圖1所示，在基於Wikipedia數據集對語言建模的任務中，LLA 取得了接近 LSTM 的準確率，同時從模型大小的角度還保持了與 LDA 相同的稀疏性。作者們提供了一個高效的推理演算法用於LLA的參數推理，並在多個數據集中展示了它的功效和解釋性。

柱狀圖是參數數量，折線是複雜度。根據圖中示意，在基於 Wikipedia 數據集的語言建模任務中，LLA 比 LDA 的複雜度更低，參數數量也比 LSTM 大大減少。

LLA 把分層貝葉斯模型和 LSTM 結合起來。LLA 會根據用戶的行為序列數據對每個用戶建模，模型還會同時把這些動作分為不同的話題，並且學到所分到的話題序列中的短期動態變化，而不是直接學習行為空間。這樣的結果就是模型的可解釋性非常高、非常簡明，而且能夠捕捉複雜的動態變化。作者們設計了一個生成式分解模型，先用 LSTM 對話題序列建模，然後用 Dirichlet 多項式對單詞散播建模，這一步就和 LDA 很相似。

假設話題數目為K、單詞庫大小為V；有一個文檔集D，其中單篇文檔d由Nd個單片語成。生成式模型的完整流程就可以表示為（上圖 a 的為例）：

在這樣的模型下，觀察一篇指定的文檔d的邊際概率就可以表示為：

式中，

就是文檔中給定某個話題下的前幾個詞之後，對下一個次生成話題的概率；

則是給定了話題之後生成單詞的概率。這個公式就展現出了對基於 LSTM 和 LDA 的語言模型的簡單改動。

這種修改的好處有兩層，首先這樣可以獲得一個分解模型，參數的數量相比 RRLM 得到了大幅度減少。其次，這個模型的可解釋性非常高。

另一方面，為了實現基於 LLA 的推理演算法，作者們用隨機 EM 方法對模型表示進行了近似，並設計了一些加速採樣方法。模型偽碼如下：

LLA變體

作者們認為，模型直接使用原始文本會比使用總結出的主題有更好的預測效果。所以在 Topic LLA之外，又提出了兩個變體 Word LLA 和 Char LLA （前文 a、b、c 三個模型），分別能夠直接處理原文本的單詞和字元（Char LLA自己會對字元串做出轉換，從而緩和 Word LLA 單詞庫過大的問題）。

實驗結果

在幾個實驗中，作者們把60%的數據用於訓練模型，讓模型預測其餘40%作為任務目標。同步對比的模型有自動編碼器（解碼器）、單詞級別LSTM、字元級別LSTM、LDA、Distance-dependent LDA。

柱狀圖部分的參數數量用來體現模型大小，折現的複雜度用於體現模型的準確率。可以看到，兩個任務中 LDA 仍然保持了最小的模型大小，而單詞級別LSTM表現出了最高的準確率，但模型大小要高出一個數量級；從單詞級別LSTM到字元級別LSTM，模型大小基本減半，準確度也有所犧牲。

在這樣的對比之下就體現出了 LLA 的特點，在保持了與 LDA 同等的解釋性的狀況下，能夠在模型大小和準確度之間取得更好的平衡（目標並不是達到比LSTM更高的準確率）。

其它方面的對比如下：

收斂速度 LLA的收斂速度並沒有什麼劣勢，比快速LDA採樣也只慢了一點點。不過基於字元的LSTM和LLA都要比其它的變體訓練起來慢一些，這是模型本質導致的，需要在單詞和字元層面的LSTM都做反向傳播。

特徵效率作者們做了嘗試，只具有250個話題的三種 LLA 模型都比具有1000個話題的 LDA 模型有更高的準確率。這說明 LLA 的特徵效率更高。從另一個角度說，LLA 的表現更好不是因為模型更大，而是因為它對數據中的順序有更好的描述能力。

解釋性LLA和LDA都能對全局主題做出揭示，LLA 總結出的要更加明確。如下表，LDA 會總結出「Iowa」，僅僅因為它在不同的文檔中都出現了；而 LLA 追蹤短期動態的特性可以讓它在句子的不同位置正確切換主題。

聯合訓練由於論文中的模型可以切分為 LDA 和 LSTM 兩部分，作者們也對比了「聯合訓練」和「先訓練 LDA，再在話題上訓練 LSTM」兩種不同訓練方式的效果。結果表明，聯合訓練的效果要好很多，因為單獨訓練的 LDA 中產生的隨機錯誤也會被之後訓練的 LSTM 學到，LSTM 的學習表現就是由 LDA 的序列生成質量決定的。所以聯合訓練的狀況下可以提高 LDA 的表現，從而提高了整個模型的表現。

論文地址：http://proceedings.mlr.press/v70/zaheer17a.html

雷鋒網 AI 科技評論編譯整理。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷鋒網 的精彩文章:

※打造「銀河艦隊」，他們還要成為首家批量生產自動駕駛汽車的公司
※平安產險開啟「AI+車險」理賠；歐洲醫院嘗試用 AI 檢測工作人員是否洗手 | AI 掘金晚報
※MIT TR 35揭曉：阿里巴巴王剛、吳翰清等六位華人當選，Ian Goodfellow上榜
※為了讓語音技能開發者賺錢，亞馬遜直接發現金了

TAG:雷鋒網 |

您可能感興趣

※對話IJCAI 11「卓越研究獎」得主Robert Kowalski：要實現真正的智能，AI必須兼具兩種思維
※對話 IJCAI 11「卓越研究獎」得主 Robert Kowalski：要實現真正的智能，AI 必須兼具兩種思維
※對話 IJCAI 11「卓越研究獎」得主 Robert Kowalski：要實現真正的智能，AI 必須兼具兩種思維
※學界 | 對話IJCAI 11「卓越研究獎」得主Robert Kowalski：要實現真正的智能，AI必須兼具兩種思維
※改裝檔案｜風格與色彩兼具的拿鐵Hookie R-NineT「Chameleon」
※精緻丨兼具時尚顏值與靚聲，Podspeakers MiniPod Bluetooth MK2
※科幻與復古兼具！adidas Twinstrike ADV 新品亮相
※兼具安全和功效，Dr.Jart+蒂佳婷推出Cicapair修復新生系列
※《Produce48》導師May J Lee是誰？美貌和實力都兼具的最強舞者！
※4倍快充兼具輕薄摩米士iPower minimal驚艷
※兼具功能與時尚！Taku Omura 將品牌 Logo 打造成居家用品
※Angelababy漸變裙出鏡兼具熱烈優雅
※兼具街頭氣質的奢侈品新貴！Louis Vuitton 19AW 首度曝光！
※網友真實體驗OPPO Find X：有趣使用兼具的AI語音助手
※禦寒與時尚兼具！BEAUTY＆YOUTH x Champion全新聯名系列曝光！
※Meridian：以子午線為主題，兼具神秘有趣感
※GPU Turbo2.0加持！EMUI 9深度體驗：優美與高效兼具
※兼具運動風和潮流感！Ambush x Air Max 180 黑色版本官圖釋出
※Nike Epic React，不少明星都喜歡這款時尚與機能兼具的新鞋！
※兼具格調和藝術，GF-寶格麗Diagono系列腕錶品鑒