當前位置:
首頁 > 最新 > 一文看懂特徵工程在金融風控中的應用

一文看懂特徵工程在金融風控中的應用

在建模領域人們常說,數據和特徵決定機器學習的上限,而模型和演算法只是不斷地逼近這個上限。所以,特徵工程在建模中起到了決定性的作用。在金融實踐領域,雖然特徵工程得到了越來越多的重視,但是大家對特徵工程的理解,出於行業機密和特徵工程的複雜性等原因,一直沒有系統的定義與總結。本文以特徵工程在金融風控中的應用為切入點,對特徵工程的大致內容進行了概述。其中主要包括,特徵工程的定義、意義、方法理論等內容。


特徵工程是將原始數據,通過業務邏輯理解、數據變換、特徵交叉與組合等方式,量化成模型訓練和預測可直接使用的特徵的過程。其中主要包括了數據認知,數據清洗,特徵提取,特徵選擇四個部分。

a) 數據認知:基於實際業務場景理解數據內容,發現數據與研究問題的關係。

b) 數據清洗:對數據進行規整,移除重複變數、處理缺失、異常數據等。

c) 特徵提取:通過業務理解和技術實施,構造出描述研究問題的特徵。

d) 特徵選擇:在構造的特徵中篩選出最能刻畫研究問題的特徵。

數據認知和數據清洗需要基於具體的業務場景和數據具體分析,本文主要針對特徵提取和特徵選擇的常用方法做詳細說明。


風險控制作為金融的核心,一直備受關注。在傳統金融機構中,通過業務中的金融邏輯來反應借款人的風險是常用方法,例如:

通過收入水平評估償還能力,能力越大風險越小;

通過歷史還款記錄評估還款意願,記錄越好風險越小;

通過抵押物估值評估風險,估值越高風險越小。

這些基於業務的因果關係的應用能夠有效的對借貸過程中的風險進行控制,但這些信息的獲取並不容易。隨著金融互聯網化所產生的大量數據,給我們提供了新的方向,技術的發展也使得挖掘這些數據更深層的價值成為可能。特徵工程作為風控建模中處理和分析數據的重要部分,基於業務和技術,利用數據與信用的關聯度,創造大量刻畫用戶風險的特徵,從而提升風控模型的預測能力,使其能更有效地應用於金融信貸場景。


根據構建特徵的數據屬性和構建方法的不同,可將特徵大致分為兩類。一類是基於業務邏輯的業務特徵,另一類是基於數學變換、演算法衍生、特徵交叉與組合等無實際業務邏輯支撐的非業務特徵。

3.1業務特徵

業務特徵來源於實際業務場景中的數據,通過這些數據往往可以構造出大量的反應業務特點的特徵。本文將常見的業務特徵分為基本屬性特徵、基於詳單數據的特徵和關聯信息特徵三大類。

3.1.1基本屬性特徵

基本屬性特徵主要是對研究對象固有的性質和特點的描述,主要涉及身份信息、教育信息、工作信息等,基於這類記錄類信息通常解析其內容衍生出可用於量化描述或分類的特徵,例如:

3.1.2基於詳單數據的特徵

這類數據的分析,首先是基本特徵,而後統計和複雜特徵層層遞進,依據時間和空間的角度構造各種統計量,反應出研究對象的行為內容和穩定性。

3.1.3關聯信息特徵

關聯信息主要是通過社交數據建立人與人之間的聯繫,藉助知識圖譜的方法,對群體或節點的關聯路徑深度、關係類型、關係權重、關係密集度、關聯節點屬性等指標進行計算提取,將複雜的關係網路可視化。

基於構造的業務特徵進行數學變換、演算法衍生、特徵交叉與組合,衍生出具有新的含義的特徵和更利於模型計算,從而提升模型的預測能力。本文根據衍生前後特徵數量的變化將衍生方法分為1-to-1特徵衍生、1-to-N特徵衍生和N-to-N特徵衍生:

3.2.1 1-to-1特徵衍生

1-to-1衍生方法指對單個特徵進行處理輸出單個新特徵,主要方法有單變數函數變換、順序特徵、缺失特徵、分箱特徵和WOE轉換特徵。

1)單變數的函數變換,屬於一種數學變換。常用的變換函數有:

絕對值變換

平方、立方變換

對數變換

指數變換

倒數變換

但是,單變數的函數變換不適用於決策樹模型,決策樹模型在處理x、|x|和log(x)之間沒有差異。

2)順序特徵主要應用於對連續型變數的處理,按照一定順序對變數值進行排序,將其排序位置作為構造變數的取值。其優勢在於處理後的特徵具有魯棒性,不受極端值影響,例如一組收入數據為(2000,2500,3000,4000,50000),對應的順序特徵為(1,2,3,4,5)。

3)缺失特徵主要是對單個樣本數據在所有特徵上的缺失值統計,可理解為對用戶信息完備度的統計,需注意的是若該值過大或大部分重要特徵的值缺失則需要進行特殊處理,由於缺失值過多導致樣本信息的大量缺失,通常考慮刪掉該條記錄。

4)分箱主要應用於對連續變數的離散化和多分類值離散變數的合併。離散化後的特徵對異常數據有較強的魯棒性,不易受極端值的影響;且能避免特徵中無意義的波動對模型造成的影響,模型會更穩定。分箱方法可分為無監督和有監督兩大類,主要的無監督分箱法有等距劃分和等頻劃分,有監督分箱法有卡方分箱。

a)等距劃分:將變數的取值範圍分為k等份,每一份為一箱。

b)等頻劃分:將變數的觀測值個數分為k份,使得每份包含大致相同的實例數量。

使用python實現等距和等頻分箱如下:

但是這兩種做法都忽略了實例所屬的類型,實例落在正確區間里的偶然性很大。

c) 卡方分箱:以卡方檢驗為核心思想,將需要離散化的特徵實例進行排序,每一個實例屬於一個區間,通過計算每一對相鄰區間的卡方值並將其與設定的閾值進行比較,若所得卡方值小於閾值則說明這兩個區間具有非常相似的類分布,可以進行合併;反之,則不能合併。

卡方統計量的計算公式如下:

5)WOE轉換是一種有監督的編碼方式,將預測類別的集中度的屬性作為編碼的數值。通俗來講就是特徵取某個值的時候對違約比例的一種影響。

WOE的計算公式如下:

其中,Bi是第i組壞客戶數量,BT是整體壞客戶數量,Gi是第i組好客戶數量,GT是整體好客戶數量。

從公式來看,WOE反應的是特徵每個分組下違約用戶對正常用戶佔比和總體中違約用戶對正常用戶佔比之間的差異,從而可以直觀的認為WOE蘊含了特徵取值對於目標變數(違約概率)的影響。WOE的優勢在於將特徵的取值規範到相近的尺度上,且其值具有業務含義。

3.2.2 1-to-N特徵衍生

1-to-N衍生方法指對單個特徵進行處理輸出多個新特徵,主要方法有OneHot編碼和均值編碼兩種,它們都是用於對分類變數進行處理。

1)OneHot編碼主要應用於無序的分類變數,由於分類器往往會將此類數據默認為連續的有序變數進行處理,所以不能直接使用。如下圖在進模型訓練前對職業進行數值編碼,但職業為類別變數無大小之分,數值編碼後相當於對不同類別加了權重,對模型結果造成影響。

使用python實現OneHot編碼如下:

上述數值職業特徵在經過OneHot編碼後變成3個二元特徵,且這些特徵互斥,每次只有一個激活,這樣做不僅解決了分類器對於無序分類變數的處理,還在一定程度上起到了擴充特徵的作用。

2)均值編碼是針對高基數的類別特徵進行處理,當類別特徵的實例值過多時進行OneHot編碼容易引起維度災難,使得模型效果降低。均值編碼在貝葉斯的架構下,利用所要預測的目標變數,有監督地確定最適合這個定性特徵的編碼方式。它最大的特點是基於經驗貝葉斯方法利用已知數據估算先驗概率和後驗概率,通過對先驗概率和後驗概率做加權平均計算最終的特徵編碼值。

演算法詳情可參考論文:

http://helios.mm.di.uoa.gr/~rouvas/ssi/sigkdd/sigkdd.vol3.1/barreca.pdf

3.2.3特徵N-to-N特徵衍生

N-to-N衍生方法指對多個特徵進行處理輸出多個新特徵,主要方法有多項式變換和決策樹演算法衍生特徵。

1)基於多項式的變換,主要是對現有特徵進行多項式特徵組合形成新的特徵矩陣,形如,對X=(x1,x2)進行2階變換,輸出結果為:(1,x1,x2,x1^2,x1*x2,x2^2),常用於線性模型中達到非線性的效果。例如下圖中,在擬合中加入非線性項的擬合效果更好,但要注意多項式的階數,以防出現過擬合。

2)決策樹演算法衍生特徵,在決策樹的系列演算法中,每個樣本都會落入一個葉子結點上,將葉子結點作為新的特徵用於訓練模型,該方法源於facebook於2014年提出的應用於廣告推薦演算法的GBDT+LR模型。樹模型本身並不能產生特徵,但可以利用其演算法的特性產生特徵組合。該演算法在一定程度上彌補了人工組合特徵費時費力的缺陷。


引用自吳軍《數學之美》上的一句話:一個正確的數學模型應當在形式上是簡單的。我們希望能在構造的特徵中選出對目標變數有更好解釋的特徵,使得模型的泛化能力更強,所以特徵選擇的目標大致如下:

提高預測的準確性;

構造更快,消耗更低的預測模型;

能夠對模型有更好的理解和解釋。

特徵選擇在理論上有三種方法:過濾法、包裝法和嵌入法。

過濾法:按照發散性或者相關性對各個特徵進行評分,設定閾值,選擇特徵。

包裝法:根據目標函數(通常是預測效果評分),每次選擇若干特徵,或者排除若干特徵。

嵌入法:先使用某些機器學習的演算法和模型進行訓練,得到各個特徵的權值係數,根據係數從大到小選擇特徵。

下面簡單介紹這三種方法對應的實踐特徵選擇方法:

4.1 過濾法特徵選擇

IV值衡量的是某一個變數的信息量。

其中,Bi是第i組壞客戶數量,BT是整體壞客戶數量,Gi是第i組好客戶數量,GT是整體好客戶數量。

從公式來看,相當於是特徵WOE值的一個加權求和,其值的大小決定了特徵對於目標變數的影響程度。僅適用於目標變數為二分類的分類問題,其值越大表示該特徵和目標變數的關聯度越高。

IV值常用的閾值有:

4.2 包裝法特徵選擇

逐步回歸的基本思想是:將變數一個一個引入,每引入一個變數時,要對已選入的變數進行逐個檢驗。當原引入的變數由於後面變數的引入而變得不再顯著時,將其剔除。這個過程反覆進行,直到既無顯著的變數選入方程,也無不顯著自變數從回歸方程中剔除為止。逐步回歸選擇特徵在傳統風控建模中使用廣泛,但在數據維度很大的時候使用較為複雜,時間成本高。

4.3 嵌入法特徵選擇

1)正則項特徵選擇:L1正則方法具有稀疏解的特性,因此天然具備特徵選擇的特性,但是要注意,L1沒有選到的特徵不代表不重要,原因是兩個具有高相關性的特徵可能只保留了一個,如果要確定哪個特徵重要應再通過L2正則方法交叉檢驗, 若一個特徵在L1中的權值為1,選擇在L2中權值差別不大且在L1中權值為0的特徵構成同類集合。

2)樹模型特徵選擇:樹模型的學習演算法採用啟發式方法,以信息增益/信息增益比/基尼指數等指標作為選擇特徵的準則,遞歸地選擇最優特徵。RF、GBDT和XGBoost等演算法均可輸出特徵重要性得分,在實際應用中,通常邊調整模型邊選擇特徵,不斷縮小特徵集合提升模型訓練效果。


特徵工程是一場基於業務和技術的頭腦風暴+CPU高速計算的持久戰,沒有一種方法或技巧能夠一蹴而就地得到最好的效果,依然需要在面對具體問題時具體分析,不斷嘗試各種可能,才能得到更好的結果。另外,文中的許多方法還有進一步的探索空間,例如,均值編碼如何處理測試集中出現新的實例值;樹模型葉子結點的可解釋性等。

本文轉自:萬象信用


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 財世匯 的精彩文章:

TAG:財世匯 |