當前位置:
首頁 > 知識 > 綜述 | 常用文本特徵選擇

綜述 | 常用文本特徵選擇


微信公眾號


關鍵字

全網搜索最新排名


【機器學習演算法】:排名第一


【機器學習】:排名第二

【Python】:排名第三


【演算法】:排名第四




作者:ACdreamers


鏈接:http://blog.csdn.net/acdreamers/article/details/44661843




在機器學習中,特徵屬性的選擇通常關係到訓練結果的可靠性,一個好的

特徵屬性通常能起到滿意的分類效果。凡是特徵選擇,總是在將特徵的重要程度量化後再進行選擇,而如何量

化特徵的重要性,就成了各種方法間最大的不同。接下來就介紹如何

有效地進行文本的特徵屬性選擇。




文本分類

作為一種有效的信息檢索和信息過濾的關鍵技術,能按預定義的類別將待分類的文本進行歸類。文本

分類中常用到

向量空間模型(VSM)

,然而高維的向量空間模型嚴重影響了計算機的處理速度,因此需要對文

本的向量進行降維,那麼就需要對文本進行特徵屬性選擇。

目前在文本分類領域中常用的文本特徵屬性選擇演算法有:

TF-IDF

信息增益

卡方檢驗

互信息

等。




TF-IDF與特徵屬性選擇


TF即詞頻(Term Frequency)

表示詞條在某個文檔d中出現的頻率。

IDF即逆向文件頻率(Inverse Document Frequency)

,如果包含詞條t的文檔越少,那麼IDF值

越大,則說明詞條t具有很好的類別區分能力。



TF-IDF演算法的

主要思想是

:如果某個詞或短語在某一篇文章中的出現頻率TF越高,而且在其它文章中很

少出現,那麼認為此詞或者短語具有很好的類別區分能力,適合用來分類。舉個例子如下所示:


假設某篇文檔的總詞語數為100個,而「蜜蜂」出現了5次,那麼「蜜蜂」的詞頻就是0.05。如果「蜜蜂」這個

詞在100份文檔中出現,而文檔總數為1000000,那麼逆向文件頻率就是log10(1000000/100)=4。最

後TF-IDF的值為0.05 * 4 = 0.2。公式如下所示。




當然在統計之前必須要

過濾掉文檔中的停用詞

。當然TF-IDF的精確度有時候可能不太高,它仍有不足之處,

單純地認為文本頻率越小的單詞就越重要,而文本頻率越大的單詞就越無用,顯然這並不完全正確。


接下來就可以用上面所學的TF-IDF來對文本進行特徵屬性選擇了。計算出文檔中每個詞的TF-IDF的值,然

後按照降序排列,取前面的幾個詞作為特徵屬性。這裡由於只取前K大的,有比較優秀的

O(n)

演算法。




在文本分類中單純地用TF-IDF來判斷一個特徵屬性是否具有區分度是不夠的,原因主要有如下兩個


沒有考慮特徵詞在類間的分布


如果一個特徵詞在各個類之間分布都比較均勻,那麼這樣的詞對分類沒有任何貢獻;而如果一個特徵

詞集中分布在某個類中,在其它類中都出現但是出現的頻率很小很小,那麼這個詞能很好地代表這個

類的特徵屬性,但是TF-IDF不能很好地區別這兩種情況。


沒有考慮特徵詞在類內部文檔中的分布


在類內部文檔中,如果特徵詞均勻分布在其中,那麼這個特徵詞能夠很好地代表這個類的特徵,如果

只在幾篇文檔中出現,那麼不能夠代表這個類的特徵。




信息增益與特徵屬性選擇


關於信息增益的概念,在之前的《決策樹之ID3演算法》中已經說過。在信息增益中,重要的衡量標準就是

看這個特徵能夠為分類系統帶來多少信息,帶來的信息越多,那麼該特徵就越重要。

通過信息增益選擇的特徵屬性只能考察一個特徵對整個系統的貢獻,而不能具體到某個類別上,這就使得

它只能做全局特徵選擇,即所有的類使用相同的特徵集合。




卡方檢驗與特徵屬性選擇


卡方檢驗是數理統計中一種常用的檢驗兩個變數是否獨立的方法。在卡方檢驗中使用特徵與類別間的關聯

性來進行量化,關聯性越強,特徵屬性得分就越高,該特徵越應該被保留。


卡方檢驗最基本的思想是

觀察實際值和理論值的偏差來確定理論的正確性

。通常先假設兩個變數確實是獨

立的,然後觀察實際值與理論值的偏差程度,如果偏差足夠小,那麼就認為這兩個變數確實是獨立的,否

則偏差很大,那麼就認為這兩個變數是相關的。



在文本特徵屬性選擇階段,一般用「詞t與類別c不相關」作出假設,計算出的卡方值越大,說明假設偏離就

越大,假設越不正確。文本特徵屬性選擇過程為:計算每個詞與類別c的卡方值,然後排序取前K大的即可。


接下來,就來學習如何計算卡方值。




假設 n 個樣本的觀測值分別為 x1,x2,...,xn,它們的均值(期望)為 E,那麼卡方值計算如下


如果計算出的 X^2 值與事先設定的閥值進行比較,如果 X^2 小於閥值,則原假設成立,否則原假設不成立。



在文本特徵選擇階段,我們關心的是一個詞 t 與一個類別 c 之間是否獨立,如果獨立,則詞 t 對類別 c 完全

沒有表徵作用。然而,卡方檢驗也有缺陷,會對低頻詞有所偏袒,這就是著名的『低頻詞缺陷』,因此經常需要同詞頻綜合考慮來揚長避短。




互信息與特徵屬性選擇


其實互信息相比前面幾種特徵屬性選擇方法來說,效果是最差

的。

互信息

是事件A和事件B發生相關聯而提供的信息量,在處理分類問題提取特徵的時候就可以用互

信息來衡量某個特徵和特定類別的相關性,如果信息量越大,那麼特徵和這個類別的相關性越大。反

之也是成立的。計算方法如下




低詞頻對於互信息的影響還是蠻大的,一個詞如果頻次不夠多,但是又主要出現在某個類別里,那麼就

會出現較高的互信息,從而給篩選帶來噪音。所以為了避免出現這種情況可以採用先對詞按照詞頻排序

,然後按照互信息大小進行排序,然後再選擇自己想要的詞,這樣就能比較好的解決這個問題。




搜狗語料庫:



http://www.sogou.com/labs/dl/c.html




投稿、商業合作


請發郵件到:357062955@qq.com

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!

TAG: |

您可能感興趣

多元文化與本土文化的並存:選擇在新加坡讀博的理由
綜述論文:機器學習中的模型評價、模型選擇與演算法選擇
前任3:配偶選擇里的「達爾文主義」
全基因組選擇的應用
富學文,窮學理?家庭出身、文化資本和專業選擇
選擇凈水器的基本原則有什麼?
中國互聯網協會理事:比特幣並非「神物」,將遵從於「世俗」選擇和優勝劣汰規則
常用的SSL證書類型及選擇
初學古琴常見問題之譜本選擇
勒索病毒為什麼選擇用比特幣交贖金?
選擇太極之家 選擇文化與養生
文玩核桃的選擇方法及價格評論
常見眉粉怎麼用圖解 為自己選擇簡單而正確的方法
茶具的用途與選擇
搞事情?勒布朗主動選擇厄文 還讓杜蘭特維斯同隊
日本:兩家比特幣交易所選擇關閉監管合規
特朗普國情咨文稱中俄為「對手」 外交部:合作是唯一正確的選擇
木工鏤銑刀的基本術語和選擇要點
每日一課||春攝,選擇豎構圖的經典範本
GO語言用戶調查:更多程序員選擇在工作中使用該語言!