當前位置:
首頁 > 最新 > LDA模型發展歷程

LDA模型發展歷程

主題模型是統計文本挖掘方法的一種,可以經過挖掘文本集合中的主題分布,按照不同文檔的主題分布理解海量文本信息。Deerwester等利用奇異值分解降低文本向量空間模型(VectorSpace Model)信息維度,提出了潛在語義分析模型(LatentSemantic Analysis, LSA),有效降低了海量文本中存在的數據雜訊並提高了檢索效率。Hofmann等人基於LSA方法提出了概率潛在語義分析模型(ProbabilisticLatent Semantic Analysis, PLSA),引入了潛在中間變數並對應於主題的潛在語義層,利用多項式分布描述詞頻向量,對於文檔主題的物理意義存在更好的解釋性。基於LSA和PLSA演算法模型對於文檔的分解,Blie等人於2003提出潛在狄利克雷函數模型(LatentDirichlet Allocation,LDA),該演算法全面利用貝葉斯模型對文檔進行建模,並解決了PLSA存在的參數過擬合問題。

LDA主題模型自建立以來收到廣泛的關注並被廣泛的應用於文本分析和數據挖掘中。Chen等人提出了一種改進的LDA 方法用於人臉識別;彭雲等人分析了中文商品評論中句法、語義和語境等多個方面的關聯並將其作為約束改進了傳統LDA模型,提出了一種對於細粒度情感詞特徵提取更有效的主題挖掘模型。Sun等人利用LDA計算特徵項語義分布並將之引入到文本分詞中,對於中文自然語言分詞有較好的效果。韓曉暉等人在Web低質量文本評論篩選問題中改進LDA模型,在精確率、查全率和F1值上均有較好的表現。Tasci考慮傳統的向量空間模型有較高的維度,利用LDA方案提取文本特徵越減維度並減少雜訊,有較好的文本分類效果。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 全球大搜羅 的精彩文章:

他管愛與不愛,你管做你自己
聰明的女人必須知道的十句話!

TAG:全球大搜羅 |