基於人工神經網路演算法的信用風險預測
技術前沿
作者:Shruti Goyal
編輯整理:蘿蔔兔
信用風險是指銀行向用戶提供金融服務後,用戶不還款的概率。信用風險一直是銀行貸款決策中廣泛研究的領域。信用風險對銀行和金融機構,特別是商業銀行來說,起著至關重要的作用,但是一直以來都比較難管理。由於技術的進步,很多銀行想要開發強大模型來預測和管理信貸風險。
為了預測信用風險,提出了一些方法,具體應用什麼方法取決於銀行和金融機構的複雜性以及貸款的規模和類型。最常用的方法是判別分析(Discrimination analysis),這種方法使用有助於決策的評分函數(score function)而有些研究院由於其限制性假設而對判別分析的有效性表示懷疑。由於變數間的正態性和獨立性,人工神經網路模型的建立克服了其它信用風險預測模型的缺點。
本文的目的是研究神經網路演算法解決信用風險預測問題的能力,衡量一段時間內貸款申請的信譽度。將前饋神經網路演算法應用於銀行住房抵押貸款應用的小數據集,預測信貸違約。模型的輸出將生成一個二進位值,作為分類器幫助銀行識別借款人是否會違約(違約的概率)。本文將採用實證的方法,討論兩個基於神經網路的模型,使用住房抵押貸款申請模型的驗證,並提供實驗結果。
方法
2.1數據
數據來自於kaggle.com的850萬條貸款數據。並從該數據集中隨機抽取了60000條樣本數據,並從80個屬性中選擇了適當的屬性(包括數字選擇整數以及和本文處理問題相關的一些屬性)數據集由以下變數組成:
因變數(Dependent Variable)
loan_status(0 and 1); 如果借款人會違約,則投資將是不良的,如果借款人不違約,那他將能夠償還全部貸款。所以0表示借款人違約,1表示借款人不違約。
獨立變數(Independent Variable)以下變數被視為獨立變數:
oan_amnt, funded_amnt, emp_length, Grade, funded_amnt_inv, term, int_rate, instalment, annual_inc, issue_d and application_type
2.2 模型
在這項研究中,使用了經典的前饋神經網路。前饋網路由具有10個輸入變數的輸入層,7個隱藏層和具有一個表示分類器的神經元輸出層組成。通過使用監督學習方式(反向傳播演算法)訓練網路。該演算法旨在優化神經元權重,使實際輸出和期望輸出之間的誤差最小化。權重將通過更新函數更新,其中f是學習係數,是隱藏層的輸出。演算法將一直有效,直到誤差足夠小。
對於圖3所示的神經網路演算法,需要仔細選擇參數,例如f的值,神經元的數量以及隱藏層的數量。在下圖中,每個層和權重之間的連接由黑線表示,並且藍線表示每個步驟中的偏差(模型的截距)。網路是一個黑匣子,訓練演算法可以在收斂時使用。此外,還從提取的數據集中為網路演算法創建了一個隨機樣本,建立訓練和測試數據集,分別用於訓練和驗證模型性能。
2.3實驗結果
將10個歸一化變數順序排列作為網路的輸入。網路的輸出是一個分類器,它產生0和1。首先,要檢查數據是否缺少數據點值,有沒有數據丟失,是否有必要修複數據集。輸入的相關矩陣如下圖:
數據集訓練完成之後,在測試數據集上進行測試。要根據其它輸入計算輸出,已使用計算功能。想網路層中添加了7個隱藏層,並創建了模型,生成了以下結果矩陣:
總共計算了6765次,直到誤差函數的結果小於默認閾值(0.01)。在實現經典前饋演算法之後,採用0.01學習率的反向傳播演算法實現了另一個模型。經典前饋演算法和反向傳播演算法具有相同的錯誤率,由此看來,經典模擬不如反向傳播演算法。
最後,用線性回歸函數glm比較兩種演算法的準確性,如果回歸函數的預測值大於0.5,則返回結果為1,否則為0。精度是通過引入錯誤分類誤差來計算的,混淆矩陣也是如下圖來計算的:
為了突出比較,線性回歸和神經網路的均方差如表3所示。從表中可以看出,兩個過程的均方差大致相同,因此兩個過程都在做相同的工作。MSE的偏差取決於訓練和測試分割。
結論
本文使用了人工神經網路和線性回歸模型來預測信用風險,數據都是kaggle.com上提供的貸款數據。兩個系統的效果都比較好,人工神經網路的準確率為97.67575%。除了對信用風險進行預測,還可以進行更多的工作,比如對債券公司發行的債券進行評級,用戶信用評分等等。
參考鏈接:
https://www.datasciencecentral.com/profiles/blogs/credit-risk-prediction-using-artificial-neural-network-algorithm


TAG:極驗 |