綜述 | 常用文本特徵選擇
微信公眾號
關鍵字
全網搜索最新排名
【機器學習演算法】:排名第一
【機器學習】:排名第二
【Python】:排名第三
【演算法】:排名第四
作者:ACdreamers
鏈接:http://blog.csdn.net/acdreamers/article/details/44661843
在機器學習中,特徵屬性的選擇通常關係到訓練結果的可靠性,一個好的
特徵屬性通常能起到滿意的分類效果。凡是特徵選擇,總是在將特徵的重要程度量化後再進行選擇,而如何量
化特徵的重要性,就成了各種方法間最大的不同。接下來就介紹如何
有效地進行文本的特徵屬性選擇。
文本分類
作為一種有效的信息檢索和信息過濾的關鍵技術,能按預定義的類別將待分類的文本進行歸類。文本分類中常用到
向量空間模型(VSM)
,然而高維的向量空間模型嚴重影響了計算機的處理速度,因此需要對文本的向量進行降維,那麼就需要對文本進行特徵屬性選擇。
目前在文本分類領域中常用的文本特徵屬性選擇演算法有:
TF-IDF
,信息增益
,卡方檢驗
,互信息
等。
TF-IDF與特徵屬性選擇
TF即詞頻(Term Frequency)
,表示詞條在某個文檔d中出現的頻率。
IDF即逆向文件頻率(Inverse Document Frequency)
,如果包含詞條t的文檔越少,那麼IDF值越大,則說明詞條t具有很好的類別區分能力。
TF-IDF演算法的
主要思想是
:如果某個詞或短語在某一篇文章中的出現頻率TF越高,而且在其它文章中很少出現,那麼認為此詞或者短語具有很好的類別區分能力,適合用來分類。舉個例子如下所示:
假設某篇文檔的總詞語數為100個,而「蜜蜂」出現了5次,那麼「蜜蜂」的詞頻就是0.05。如果「蜜蜂」這個
詞在100份文檔中出現,而文檔總數為1000000,那麼逆向文件頻率就是log10(1000000/100)=4。最
後TF-IDF的值為0.05 * 4 = 0.2。公式如下所示。
當然在統計之前必須要
過濾掉文檔中的停用詞
。當然TF-IDF的精確度有時候可能不太高,它仍有不足之處,單純地認為文本頻率越小的單詞就越重要,而文本頻率越大的單詞就越無用,顯然這並不完全正確。
接下來就可以用上面所學的TF-IDF來對文本進行特徵屬性選擇了。計算出文檔中每個詞的TF-IDF的值,然
後按照降序排列,取前面的幾個詞作為特徵屬性。這裡由於只取前K大的,有比較優秀的
O(n)
演算法。在文本分類中單純地用TF-IDF來判斷一個特徵屬性是否具有區分度是不夠的,原因主要有如下兩個
沒有考慮特徵詞在類間的分布
如果一個特徵詞在各個類之間分布都比較均勻,那麼這樣的詞對分類沒有任何貢獻;而如果一個特徵
詞集中分布在某個類中,在其它類中都出現但是出現的頻率很小很小,那麼這個詞能很好地代表這個
類的特徵屬性,但是TF-IDF不能很好地區別這兩種情況。
沒有考慮特徵詞在類內部文檔中的分布
在類內部文檔中,如果特徵詞均勻分布在其中,那麼這個特徵詞能夠很好地代表這個類的特徵,如果
只在幾篇文檔中出現,那麼不能夠代表這個類的特徵。
信息增益與特徵屬性選擇
關於信息增益的概念,在之前的《決策樹之ID3演算法》中已經說過。在信息增益中,重要的衡量標準就是
看這個特徵能夠為分類系統帶來多少信息,帶來的信息越多,那麼該特徵就越重要。
通過信息增益選擇的特徵屬性只能考察一個特徵對整個系統的貢獻,而不能具體到某個類別上,這就使得
它只能做全局特徵選擇,即所有的類使用相同的特徵集合。
卡方檢驗與特徵屬性選擇
卡方檢驗是數理統計中一種常用的檢驗兩個變數是否獨立的方法。在卡方檢驗中使用特徵與類別間的關聯
性來進行量化,關聯性越強,特徵屬性得分就越高,該特徵越應該被保留。
卡方檢驗最基本的思想是
觀察實際值和理論值的偏差來確定理論的正確性
。通常先假設兩個變數確實是獨立的,然後觀察實際值與理論值的偏差程度,如果偏差足夠小,那麼就認為這兩個變數確實是獨立的,否
則偏差很大,那麼就認為這兩個變數是相關的。
在文本特徵屬性選擇階段,一般用「詞t與類別c不相關」作出假設,計算出的卡方值越大,說明假設偏離就
越大,假設越不正確。文本特徵屬性選擇過程為:計算每個詞與類別c的卡方值,然後排序取前K大的即可。
接下來,就來學習如何計算卡方值。
假設 n 個樣本的觀測值分別為 x1,x2,...,xn,它們的均值(期望)為 E,那麼卡方值計算如下
如果計算出的 X^2 值與事先設定的閥值進行比較,如果 X^2 小於閥值,則原假設成立,否則原假設不成立。
在文本特徵選擇階段,我們關心的是一個詞 t 與一個類別 c 之間是否獨立,如果獨立,則詞 t 對類別 c 完全
沒有表徵作用。然而,卡方檢驗也有缺陷,會對低頻詞有所偏袒,這就是著名的『低頻詞缺陷』,因此經常需要同詞頻綜合考慮來揚長避短。
互信息與特徵屬性選擇
其實互信息相比前面幾種特徵屬性選擇方法來說,效果是最差
的。
互信息
是事件A和事件B發生相關聯而提供的信息量,在處理分類問題提取特徵的時候就可以用互信息來衡量某個特徵和特定類別的相關性,如果信息量越大,那麼特徵和這個類別的相關性越大。反
之也是成立的。計算方法如下
低詞頻對於互信息的影響還是蠻大的,一個詞如果頻次不夠多,但是又主要出現在某個類別里,那麼就
會出現較高的互信息,從而給篩選帶來噪音。所以為了避免出現這種情況可以採用先對詞按照詞頻排序
,然後按照互信息大小進行排序,然後再選擇自己想要的詞,這樣就能比較好的解決這個問題。
搜狗語料庫:
http://www.sogou.com/labs/dl/c.html
投稿、商業合作
請發郵件到:357062955@qq.com


※多元文化與本土文化的並存:選擇在新加坡讀博的理由
※綜述論文:機器學習中的模型評價、模型選擇與演算法選擇
※前任3:配偶選擇里的「達爾文主義」
※全基因組選擇的應用
※富學文,窮學理?家庭出身、文化資本和專業選擇
※選擇凈水器的基本原則有什麼?
※中國互聯網協會理事:比特幣並非「神物」,將遵從於「世俗」選擇和優勝劣汰規則
※常用的SSL證書類型及選擇
※初學古琴常見問題之譜本選擇
※勒索病毒為什麼選擇用比特幣交贖金?
※選擇太極之家 選擇文化與養生
※文玩核桃的選擇方法及價格評論
※常見眉粉怎麼用圖解 為自己選擇簡單而正確的方法
※茶具的用途與選擇
※搞事情?勒布朗主動選擇厄文 還讓杜蘭特維斯同隊
※日本:兩家比特幣交易所選擇關閉監管合規
※特朗普國情咨文稱中俄為「對手」 外交部:合作是唯一正確的選擇
※木工鏤銑刀的基本術語和選擇要點
※每日一課||春攝,選擇豎構圖的經典範本
※GO語言用戶調查:更多程序員選擇在工作中使用該語言!