探索大數據技術在商業銀行信用風險監控領域的應用
隨著宏觀經濟下行,商業銀行信用風險不斷累積並加快暴露, 傳統的信用風險監控措施及管理流程較為單一、滯後與被動,難以適應日益複雜的外部經濟形勢和內部管理要求。為改變信用風險管理的現狀,中國銀行上海分行自2014年起著手建設信用風險預警監控管理系統,匯總整合內外部數據,通過編製專業化預警規則,利用科技手段全面、高效、主動地識別風險。系統投產後隨著歷史數據的累積、外部數據的拓展、預警規則的豐富,傳統數據分析技術手段的局限性逐漸顯現,採用分散式大數據技術勢在必行,是解決上述問題瓶頸的有效策略。
一、傳統信息處理技術應用於信用風險監控領域的局限性
1、數據管理成本高、可擴展性差
系統最初採用關係型資料庫解決數據管理問題,硬體配置為小型機及SAN存儲,由於應用場景需要長期歷史數據的累積,導致硬體開銷增加、數據處理效率下降,高成本的硬體追加投入和簡單的資料庫調優無法徹底解決日益增長的數據規模和傳統信息處理模式帶來的性能瓶頸。
2、半結構化、非結構化數據支持度低
為獲取外部負面信息,系統在隔離區的PC伺服器上部署外部信息採集服務,運用網路爬蟲技術,將互聯網的非結構化信息進行結構化轉換後,寫入關係型資料庫進一步分析加工。這種信息處理模式在實際運行中產生了大量基於資料庫的I/O請求,快速消耗系統資源,使伺服器長期處於滿負荷運作狀態,仍無法適配互聯網的更新頻率和時效。
3、數據檢索效率受限
系統需實現基於大數據量、組合條件的在線檢索,在關係型資料庫中只能通過分表、分區等解決方案,以犧牲一定的使用便利性、增加維護成本為代價,但查詢響應效率仍無法滿足日益增長的需求。
二、引入大數據技術的信用風險預警系統技術框架
鑒於上述局限性,中國銀行上海分行對原有預警系統的技術平台進行了重新規劃,從單一依靠關係型資料庫的模式,轉型為融合Hadoop分散式大數據技術與集中式關係型資料庫技術相結合的模式。引入大數據平台後的預警系統架構如圖1所示。
1、銀行外網區
在外網中可以訪問的外部數據來源,根據數據獲取方式的不同,分為:(1)網路輿情:採用定向爬蟲,通過互聯網連接各大網站進行頁面抓取;(2)其他數據:通過其他非自動渠道獲取的外部結構化數據。
2、DMZ區
指架設在銀行非安全系統和安全系統之間的緩衝區,外部數據採集模塊部署在該區域,運用網路爬蟲技術,定時向外網的指定網頁實施定向爬取,解析後暫存至DMZ區伺服器。採集伺服器之間可做集群或負載均衡。
圖1. 引入大數據技術的預警系統架構圖
3、銀行內網區
指銀行內部的網路區域,基本包含Hadoop大數據基礎平台、預警系統及其關聯的周邊系統。其中Hadoop大數據平台在邏輯架構上主要包括:(1)分析伺服器:用於對爬取到的非結構化數據按照一定規則、語義進行拆分、篩選,組合成有效數據;(2)存儲伺服器:一方面用於將分析伺服器產出的有效數據進行存儲,一方面對於應用系統提供的結構化數據進行格式化存儲;(3)發布伺服器:支持具有相關許可權的用戶進行數據維護和人工運營。
三、大數據技術支持下信用風險預警系統轉型方案
基於上述技術框架,中國銀行上海分行搭建了分行級Hadoop大數據基礎平台,將預警系統中數據量大、處理速度慢、查詢效率低的模塊遷移到大數據平台存儲、運行和管理,逐步減輕關係型資料庫的運轉負荷。
1、大數據平台搭建
大數據基礎平台採用了星環TDH技術架構,其中:
Hadoop提供基礎的分散式文件系統作為存儲引擎,YARN作為資源管理框架,提供了數據的採集、存儲、數據同步、批處理、工作流分析以及全文搜索功能;Inceptor提供高速SQL分析和R語言數據挖掘能力,可建立高速可擴展的數據倉庫、數據集市,結合多種報表工具提供互動式數據分析、即時報表和可視化能力。提供完整ANSI SQL支持以及PL/SQL過程語言擴展,支持複雜的數據倉庫類分析應用;Hyperbase是融合了多種索引技術、分散式事務處理的實時NoSQL資料庫;Elastic Search簡稱ES,是基於Lucene的搜索伺服器,提供分散式多用戶能力的全文搜索引擎,能夠達到實時搜索,穩定,可靠,快速,安裝使用方便的全文索引功能,實現通過Elastic Search對Hyperbase中的數據進行全文檢索。
2、外部數據採集模塊改造
原有技術架構是以隔離區的爬蟲伺服器為獨立建設單位,每一個爬蟲伺服器擔負著爬取、解析、去重、運維、發布等多種功能,這種方案隨著業務量的提升,存在著明顯的成本以及效率瓶頸。通過將現有的關係型資料庫與大數據平台相結合,充分利用Hadoop的分散式存儲、雲計算技術,從數據結構、流向、存儲、解析等多方面進行改造,可大幅提高外部數據採集模塊的運行效率。改造後的技術框架如圖2所示:
圖2.外部數據採集模塊新架構圖
(1)數據爬取
隔離區PC伺服器上的關係型資料庫僅將用於存儲調度運營參數,基於Java技術的爬蟲服務在採集互聯網信息後,不再做結構化轉換,而是直接輸出文本文件,從而大大降低爬蟲伺服器的工作壓力,僅保持對外部數據的不間斷捕捉,不會對其內部資料庫和I/O讀寫產生大量負荷。
(2) HDFS臨時存儲
使用sftp將爬蟲伺服器生成的文本文件傳輸至Hadoop集群某個節點的特定目錄下,並登陸到該節點,進入指定目錄,將目錄上傳至HDFS。
(3)Inceptor外表創建及入庫
在Inceptor服務下創建Text文本表並指定相應的HDFS文件,由於Text表只能存放當日的文本數據,還需創建相應的ORC表,將Text表的增量數據導入ORC表做歷史數據儲存。
(4)Hyperbase永久存儲
為實現快速檢索,需對爬取的數據創建相應的Hyperbase表,並對相關欄位創建全文索引或者全局索引。針對預警系統的應用場景,為了能從大量外部數據中快速精準地完成關鍵字匹配,採用了IK分詞技術,將關鍵字配置到分詞詞典中,在創建索引的過程中對相關欄位進行IK分詞,可大幅提高後續檢索效率。
(5)使用Elastic Search完成數據篩選
數據導入Hyperbase表後會在ES服務中自動生成相應的ES索引數據,對ES服務發送查詢請求後,ES會依據相關的快速排序演算法,在較短時間內返回查詢結果。針對預警系統的應用場景,即可實現從大批量的長文本網頁信息中,根據客戶名單以及負面關鍵字的不同組合,生成業務所需的預警信息。在原有技術架構中,這一功能在爬蟲伺服器上通過「關係型資料庫+Solr」技術實現,引入Hadoop大數據平台之後轉變為「Inceptor+Hyperbase+Elastic Search」的實現模式。Elastic Search是更契合大數據平台的原生工具,不僅能較好地覆蓋Solr的原有功能,而且更適配現有大數據平台的技術架構。
為了驗證大數據技術對外部數據採集模塊的性能提升效果,進行了相同業務場景運行在兩種技術架構上的對比測試,結果如下:
結果表明:利用「Inceptor+Hyperbase+Elastic Search」做外部數據檢索,準確性與「關係型資料庫+Solr」基本一致,但效率方面有明顯改善。
將大數據技術應用於外部數據採集模塊的改造,不僅減輕了爬蟲伺服器的工作負載,而且提升了大量結構化預警數據的產出時效。同時這種技術架構又具備靈活的可擴展性和較高的系統健壯性,硬體和開發維護成本也大幅降低。
3、在線查詢的性能提升
預警系統面向用戶的最基礎、直觀的功能是預警信息的查詢和展現,系統投產以來數據快速堆疊,目前最大數據量的在線查詢功能需查詢客戶風險全局視圖,該視圖是對8張表執行left join後生成,共計近2000萬條數據記錄,根據複合查詢條件返回結果,平均需耗費30多秒。為改善查詢效率,中國銀行上海分行嘗試藉助大數據平台的全文搜索引擎Elastic Search來提升基於大數據量的在線檢索,並取得了較為理想的效果。
首先,將生成視圖的多張源數據表在大數據平台上創建相應ORC表,並實現每日數據同步。其次,按照視圖的數據結構,在大數據平台上創建Hyperbase表,並將作為查詢條件的欄位創建為索引欄位。參照視圖的定義,將多張ORC表進行關聯查詢後生成結果,插入Hyperbase表,並在ES服務中生成索引數據。最後,修改應用系統的查詢頁面,通過調用ES提供的API來獲取查詢結果。
為了能夠直觀體現Elastic Search對查詢性能的提升,以該視圖查詢功能為例,針對新舊兩種技術架構進行了極端情況的對比測試,結果如下:
通過改造前後的對比發現,利用Elastic Search的客戶端做大數據量的在線查詢,能從效率上有顯著提升。
4、ETL過程性能優化
關係型資料庫的ETL一般以存儲過程實現,預警系統在處理複雜邏輯(多個Cursor游標和多個SubSQL子查詢嵌套)以及大數據量(1000萬以上)的加工時,往往運行時間較長(>2小時),影響ETL的整體進度。
引入大數據平台技術之後,中國銀行上海分行考慮將複雜邏輯的存儲過程移植到大數據平台上運行。具體步驟是:(1)進行表結構的遷移,在Hadoop平台建立相應外表,用於數據查詢。(2)建立ORC表,從外表插入數據至ORC表,並根據需要進行數據分桶。(3)根據大數據平台的技術規範改寫原存儲過程,Inceptor中存儲過程的寫法雖與Oracle基本一致,但仍存在差異。例如:由於分散式資料庫不支持自增序列Sequence,須自行構造唯一流水號;在大數據平台中編寫存儲過程應盡量不使用游標,直接使用一個完整的複雜sql處理所有業務邏輯,等等。
根據上述方案,對預警系統中某條針對客戶歷史交易數據的分析指標進行了測算:從一年的交易流水記錄中,生成每家客戶的前十大交易對手名單,在原有的關係型資料庫上需要運行7個小時以上,在大數據平台上可能僅需10分鐘左右,可大幅提升ETL效率。
四、總結
經過各方面探索後發現,基於Hadoop的大數據技術能非常好地解決商業銀行在信用風險監控領域遭遇的痛點,從根本上突破預警系統現有架構的瓶頸與局限性,將風控工作的及時性從事後提升至事中甚至事前。同時也發現,大數據技術並不是對傳統資料庫的完全替代,兩者更有所長、相輔相成,應根據業務場景的需要,實現兩種數據處理技術的互補,最大化發揮各自的效能,服務於商業銀行的風控領域。
文章來源:中國銀行股份有限公司上海市分行
發表於:《中國金融電腦》 2017年07期


TAG:星環科技 |