特徵選取演算法-機器學習與數據分析常用術語(二)
前言
機器學習中模型演算法非常重要,是整個項目的靈魂,但是前面的演算法前面的分析處理步驟也尤為重要,沒有一個好的數據分析與處理,即使演算法在牛,相信得出來的結果也不盡人意,今天給大家介紹一下在數據分析與機器學習中有那邊特徵選擇的演算法,幫助大家在未來更好的挑選有價值的變數進行分析。
Feature Selection(特徵選擇演算法)
特徵選擇( Feature Selection )也稱特徵子集選擇( Feature Subset Selection , FSS ),或屬性選擇( Attribute Selection )。是指從已有的M個特徵(Feature)中選擇N個特徵使得系統的特定指標最優化,是從原始特徵中選擇出一些最有效特徵以降低數據集維度的過程,是提高學習演算法性能的一個重要手段,也是模式識別中關鍵的數據預處理步驟。對於一個學習演算法來說,好的學習樣本是訓練模型的關鍵。
互信息(Mutual Information)是資訊理論里一種有用的信息度量,它可以看成是一個隨機變數中包含的關於另一個隨機變數的信息量,或者說是一個隨機變數由於已知另一個隨機變數而減少的不肯定性。
2.DocumentFrequence(文檔頻率/詞頻)
TF-IDF(term frequency–inverse document frequency)詞頻--反轉文件頻率,是一種用於情報檢索與文本挖掘的常用加權技術,用以評估一個詞對於一個文件或者一個語料庫中的一個領域文件集的重要程度。
3.Information Gain(信息增益)
信息增益(Kullback–Leibler divergence)又叫做information divergence,relative entropy 或者KLIC。
在概率論和資訊理論中,信息增益是非對稱的,用以度量兩種概率分布P和Q的差異。信息增益描述了當使用Q進行編碼時,再使用P進行編碼的差異。通常P代表樣本或觀察值的分布,也有可能是精確計算的理論分布。Q代表一種理論,模型,描述或者對P的近似。
4.Chi-squared Test(卡方檢驗)
卡方檢驗是用途非常廣的一種假設檢驗方法,它在分類資料統計推斷中的應用,包括:兩個率或兩個構成比比較的卡方檢驗;多個率或多個構成比比較的卡方檢驗以及分類資料的相關分析等。
卡方檢驗就是統計樣本的實際觀測值與理論推斷值之間的偏離程度,實際觀測值與理論推斷值之間的偏離程度就決定卡方值的大小,卡方值越大,越不符合;卡方值越小,偏差越小,越趨於符合,若兩個值完全相等時,卡方值就為0,表明理論值完全符合。
5.Gini(基尼係數)
赫希曼根據洛倫茨曲線提出的判斷分配平等程度的指標。設實際收入分配曲線和收入分配絕對平等曲線之間的面積為A,實際收入分配曲線右下方的面積為B。並以A除以(A+B)的商表示不平等程度。這個數值被稱為基尼係數或稱洛倫茨係數。如果A為零,基尼係數為零,表示收入分配完全平等;如果B為零則係數為1,收入分配絕對不平等。收入分配越是趨向平等,洛倫茨曲線的弧度越小,基尼係數也越小,反之,收入分配越是趨向不平等,洛倫茨曲線的弧度越大,那麼基尼係數也越大。另外,可以參看帕累托指數(是指對收入分布不均衡的程度的度量)。
6.相關係數
相關係數是最早由統計學家卡爾·皮爾遜設計的統計指標,是研究變數之間線性相關程度的量,一般用字母 r 表示。由於研究對象的不同,相關係數有多種定義方式,較為常用的是皮爾遜相關係數。


TAG:機器學習 |