機器學習:信用風險建模中的挑戰,教訓和機遇
筆者邀請您,先思考:
1 如何量化信用風險?
2 機器學習如何服務信用風險?
由於數據可用性和計算能力的快速增長,機器學習現在在技術和業務中發揮著至關重要的作用。機器學習對信用風險建模應用程序有重大貢獻。 使用兩個大型數據集,我們分析了一組機器學習方法在評估中小型借款人的信用風險方面的表現,其中穆迪分析RiskCalc模型作為基準模型。 我們發現機器學習模型提供了與RiskCalc模型相似的準確率。 但是,它們比RiskCalc模型更像是一個「黑匣子」,機器學習方法產生的結果有時難以解釋。 機器學習方法可以更好地擬合解釋變數與違約風險之間的非線性關係。 我們還發現,無論使用何種模型,使用更廣泛的變數來預測默認值都會大大提高準確率。
介紹
機器學習是一種教授計算機解析數據,從中學習,然後對新數據做出決定或預測的方法。該機器不需要手動編碼一組特定的指令來完成特定的任務,而是使用大量的數據和演算法來「訓練」機器,以學習如何執行任務。機器學習與其低調的姊妹領域統計學習重疊。兩者都試圖從大型數據集中發現並學習模式和趨勢來進行預測。機器學習領域具有悠久的開發傳統,但最近數據存儲和計算能力的提高使它們在許多不同領域和應用中無處不在,其中許多領域和應用都非常普遍。蘋果的Siri,Facebook的feed和Netflix電影推薦都依賴於某種形式的機器學習。機器學習的最早用途之一是信用風險模型,其目標是使用財務數據來預測違約風險。
當企業申請貸款時,貸方必須評估企業是否能夠可靠地償還貸款本金和利息。貸款人通常使用盈利能力和槓桿作用來評估信用風險。盈利公司會產生足夠的現金來支付利息費用和本金。然而,槓桿率更高的公司擁有較少的資產可用來應對經濟衝擊。給定兩個貸款申請者 - 一個具有高盈利能力和高槓桿率,另一個具有低盈利能力和低槓桿率 - 那個公司信用風險較低?當銀行在信用風險評估過程中納入他們檢查的許多其他維度時,回答這個問題的複雜性就會增加。這些額外維度通常包括其他財務信息(如流動性比率)或行為信息(例如貸款/交易信用支付行為)。總結所有這些不同的維度到一個分數是具有挑戰性的,但機器學習技術有助於實現這一目標。
機器學習和傳統統計學習工具背後的共同目標是從數據中學習。這兩種方法都旨在通過使用訓練數據集來調查潛在的關係。通常,統計學習方法假設變數之間存在數學方程的形式關係,而機器學習方法可以從數據中學習,而不需要任何基於規則的編程。由於這種靈活性,機器學習方法可以更好地適應數據中的模式。圖1說明了這一點。
圖1 統計模型VS. 機器學習
在這個模擬示例中,第一個圖表顯示了數據點基於X和Y的實際分布,而紅色的點則被分類為默認值。 我們可以把它和地理地圖聯繫起來,其中X軸是經度,Y軸是緯度。 紅色區域代表高風險人口統計,我們看到更高的違約率。 如預期的那樣,線性統計模型不適合這種複雜的非線性和非單調行為。 隨機森林模型是一種廣泛使用的機器學習方法,具有足夠的靈活性來識別熱點,因為它不限於預測線性關係或連續關係。 機器學習模型不受傳統統計模型的一些假設限制,可以產生更好的人類分析師無法從數據中推斷出的洞察力。 在此,預測與傳統模型形成鮮明對比。
機器學習模型不受傳統統計模型的一些假設限制,可以產生更好的人類分析師無法從數據中推斷出洞察力。
機器學習方法
現在讓我們看看三種不同的機器學習演算法:人工神經網路,隨機森林和提升。
人工神經網路
人工神經網路(ANN)是生物神經網路的數學模擬。 它的簡單形式如圖2所示。在這個例子中,有三個輸入值和兩個輸出值。 不同的轉換將輸入值鏈接到隱藏層,將隱藏層鏈接到輸出值。 在底層數據上,我們使用反向傳播演算法來訓練人工神經網路。由於許多隱藏層和神經元的存在,神經網路可以很容易地處理解釋變數的非線性和交互效應。
圖2 人工神經網路
隨機森林
隨機森林結合了決策樹預測器,使得每棵樹依賴於獨立採樣的隨機向量的值,並且具有相同的分布。決策樹是隨機森林的最基本單位。在決策樹中,輸入被輸入到頂部,並且當它遍歷樹時,數據被分成越來越小的子集。在圖3所示的例子中,樹決定了基於三個變數的違約概率:公司規模;利息,稅收,折舊和攤銷前利潤(EBITDA)與利息費用的比率;以及流動負債與銷售額的比率。方框1包含初始數據集,其中39%的公司是違約者,61%是非違約者。 EBITDA利息支出比率低於2.4的公司進入方框2.方框2佔總數的33%,其中100%由違約者構成。其橙色表示較高的違約風險,而藍色表示較低的違約風險。隨機森林方法結合了許多樹的預測,並且最終決策基於獨立的決策樹的輸出的平均值。在這個練習中,我們使用幾棵樹的bootstrap聚合作為一個簡單的基於樹的模型的改進。
圖3 隨機森林
BOOSTING
Boosting類似於隨機森林,但基礎決策樹是根據其性能加權的。考慮一下盲人和大象的寓言,其中要求男人觸摸大象的不同部位,然後構造完整的圖像。盲人分成六批發送。第一組被引導到隨機選擇的點,並且每個人的(部分)描述評估它與實際描述的匹配程度。這個小組恰好給出了只有軀幹的準確描述,而對身體其他部分的描述是不準確的。注意到不完整的部分,當第二批盲人進入房間時,他們被引導到這些部分。剩下的批次重複這個過程。最後,通過按照它們的精確度對這些描述進行加權組合,並且在這種情況下也將身體部位的尺寸加以組合。最後的描述 - 組合 - 很好地描述了大象。
在Boosting中,每一個決策樹都與一群盲人相似,對大象的描述與解決預測問題是同義的。如果一棵樹將違約者誤認為是非違約者,反之亦然,那麼隨後的樹會對錯誤分類的觀察結果給予更多的重視。這種給錯誤分類區域增加權重(或在發送新組時增加方向)的想法是隨機森林和增強之間的差異。
穆迪分析風險計算模型
RiskCalc模型通過估計一組風險驅動因素的影響,為私營公司產生預期違約概率。它利用廣義加性模型(GAM)框架,在這個框架中,每個風險驅動因素的非線性變換被分配權重併合並成一個單一的分數。鏈接函數然後將組合得分映射到違約概率。
RiskCalc模型在預測私人公司違約時提供強大的表現。但是它與其他機器學習技術相比如何?我們使用三種流行的機器學習方法來基於RiskCalc樣本作為訓練集開發新模型。我們試圖回答以下問題:機器學習模型在默認預測中是否優於RiskCalc模型的GAM框架?當使用機器學習方法進行信用風險建模時,我們面臨的挑戰是什麼?哪個模型最健壯?哪種模型最容易使用?我們可以從替代模型中學到什麼?
結果
數據描述
為了分析這三種方法的表現,我們考慮兩個不同的數據集。 第一個數據集來自穆迪分析信用研究資料庫(CRD),該資料庫也是RiskCalc US 4.0企業模型的驗證樣本。 它只利用公司的信息和財務比率。 第二個數據集添加行為信息,其中包括信用額度使用情況,貸款支付行為和其他貸款類型數據。 這些信息來自貸款會計系統(LAS),作為CRD的一部分收集。 我們想要使用機器學習技術和GAM方法測試兩種數據集的違約預測能力。 圖4顯示了這兩個數據集的總結。
圖4 數據信息
模型性能
對於這兩個數據集,我們使用GAM模型的排序能力作為基準。 我們使用準確率(AR)統計來衡量等級排序能力。 圖5顯示了一組解釋變數。
圖5 PD模型的輸入可變描述
交叉驗證
由於機器學習提供了高水平的建模自由度,因此往往會過度使用數據。 如果模型在訓練數據上表現良好,但在評估數據上表現不佳,則模型過擬合了。 尋找樣本外預測誤差的標準方法是使用k-fold交叉驗證(CV)。 在k倍CV中,數據集被分成k個子集。 k個子集中的一個用作測試集,其他k-1個子集合成一個訓練集。 這個過程重複k次。 如果訓練樣本相對於測試樣本的精度比(模型性能的度量)較高,則表示過度擬合。 在這種情況下,我們對模型施加更多限制並重複交叉驗證,直到結果令人滿意。 在這個例子中,我們使用了五重交叉驗證。 圖6報告了五次試驗的平均AR。
圖6 模型性能
我們觀察到,對於兩個數據集,機器學習模型都比GAM模型好2到3個百分點。無論建模方式如何,當我們添加貸款行為信息時,準確率提高8到10個百分點。信用額度使用和貸款支付信息可以補充財務比率,並顯著提高模型預測違約的能力。
機器學習在哪裡勝出
機器學習方法在捕獲非線性關係方面特別有效。我們來仔細看看EBITDA與利息費用比率。直觀地說,這個比率與違約風險有非線性關係。在圖7中,我們將比率劃分為50個百分點,並計算預測違約概率(PD)和實際違約率的平均值。我們用x軸上的百分比與y軸上的默認率(以%表示)進行繪製。違約率隨著息稅折舊攤銷前利潤與利息費用比率的增加而下降。但是,在左側,EBIDTA變為負值時會出現拐點。當EBITDA為負時,由於利息支出減少使得比率更負,所以違約風險應該降低。從圖中我們可以看出,機器學習提升方法比GAM模型更準確地預測實際違約率,特別是在左側。我們也觀察到來自其他比率圖的類似行為。因此,我們觀察到機器學習方法的適度改進預測。
圖7 基於EBITDA的不同價值與利息支出比較機器學習和GAM PD水平
過擬合問題
儘管使用交叉驗證來盡量減少過度擬合,但機器學習模型仍可能產生難以解釋和捍衛的結果。 圖8顯示了兩種情況,其中由增強方法確定的PD與由GAM方法確定的PD明顯不同。
圖8 機器學習演算法的過擬合問題
在案例1中,資產回報率(ROA)低,現金與資產比率低,債務與資本比率高的公司被歸類為安全,隱含評級為A3。直觀地說,正如GAM所預測的那樣,該公司的PD應該反映更高的風險水平。類似地,案例2中,利息支出高,資產回報率高,留存收益高的公司利用助推方法歸類為Caa / C。在這兩種情況下,底層演算法的複雜性使得難以解釋boosting方法的非直觀PD。基於GAM模型的RiskCalc模型的結果更直觀,更易於解釋。
總結
本練習使用RiskCalc軟體的GAM模型作為基準分析三種機器學習方法的性能。機器學習方法可提供與GAM模型相當的準確率。與RiskCalc模型相比,這些替代方法更適合捕獲信用風險常見的非線性關係。同時,由於其複雜的「黑盒子」性質,這些方法所做的預測有時難以解釋。這些機器學習模型對異常值也很敏感,導致數據過度擬合和違反直覺的預測。此外,也許更有趣的是,我們發現擴展數據集以包含貸款行為變數可以使所有建模方法的預測能力提高10個百分點以上。
雖然我們研究的方法都有其優點,並且具有可比較的準確性水平,但我們相信,為了提高默認預測準確性並擴大信用風險建模領域的總體範圍,我們應該將重點放在數據維度上。除財務報表和貸款支付行為數據外,交易數據,社交媒體數據,地理信息和其他數據等附加信息可能會增加大量的洞察力。我們必須收集更多不同的非傳統數據,以進一步完善和改進我們評估風險的方法。
https://www.moodysanalytics.com/risk-perspectives-magazine/managing-disruption/spotlight/machine-learning-challenges-lessons-and-opportunities-in-credit-risk-modeling
數據人網是數據人學習、交流和分享的平台http://shujuren.org 。專註於從數據中學習到有用知識。
平台的理念:人人投稿,知識共享;人人分析,洞見驅動;智慧聚合,普惠人人。
您在數據人網平台,可以1)學習數據知識;2)創建數據博客;3)認識數據朋友;4)尋找數據工作;5)找到其它與數據相關的乾貨。
我們努力堅持做原創,聚合和分享優質的省時的數據知識!
我們都是數據人,數據是有價值的,堅定不移地實現從數據到商業價值的轉換!
加入數據人圈子或者商務合作,請添加筆者微信。


※人工智慧深度學習利用生成敵對網路的無監督目標定位純粹機器學習
※Facebook用機器學習鑒別假新聞,是否比人還有效?
TAG:機器學習 |