當前位置:
首頁 > 最新 > 淺談大數據技術在防通訊詐騙領域的實踐

淺談大數據技術在防通訊詐騙領域的實踐

近年來,通訊詐騙案件持續增長,所涉及用戶不斷增多,嚴重影響了人民群眾的合法權益,破壞了社會穩定。上海聯通積極承擔企業社會責任,以大數據平台及高效能機器學習為依託,研發了海盾防通訊詐騙系統。

該系統能夠全區域、全天候、全時段的對通訊詐騙行為進行監控、精準識別並及時干預,有效控制詐騙行為對用戶的危害,從源頭上對詐騙行為進行治理。

總體介紹

1

數據存儲與採集

(1)離線數據

海盾基於Hadoop大數據框架,以Hive為數據倉庫,底層使用MapReduce作為數據批量計算處理框架,以HDFS作為數據文件系統,通過Zookeeper進行任務分配調度。

(2)實時數據

海盾利用實時處理技術,對用戶通話行為指標和尼爾森徵信信息進行加工計算,同時藉助模型演算法預測疑似詐騙碼號,進而推送用戶群給前端進行實時停機操作。

2

數據處理

(1)指標的選取

基於商業理解,數據理解,並結合與業務部門訪談,業務人員溝通、文獻探索和工信部與公安局的反饋數據,初步確定了詐騙系統指標體系。指標體系共59個欄位,其中用戶的基本信息指標有25個,用戶業務信息指標有34個。

(2)衍生指標生成和重要指標篩選

①對重要風險點進行打標

通過數據分析發現,詐騙用戶和正常用戶在終端、地區和套餐三個指標具有明顯的差異性,所以我們對這三個指標計算信息價值(IV)和證據權重(WOE),根據計算的結果判定出高危終端、高危地區和高危套餐,這三個指標作為衍生指標進入模型。

②根據信息價值(IV)、證據權重(WOE)篩選出重要的指標屬性,最後確定了31個重要指標。最終,指標體系主要由外呼頻次、異常指標、基本特徵、異地行為、衍生高危指標五大部分構成。

3

數據挖掘


①隔離森林演算法

隔離是指將異常樣本與其他樣本分離開來,隔離樹就是基於異常數據的個數明顯少於正常樣本,且異常數據在屬性值上與正常樣本明顯不同這兩個性質,即異常樣本少且不同的特性。為了克服隔離樹魯棒的特性,將多棵隔離樹結合起來,來增強演算法的穩健性,即構成隔離森林演算法。

在隨機產生的二叉樹中,樣本被迭代分區,異常樣本被辨別出的路徑明顯少於正常樣本,也就是異常樣本更趨向於靠近樹的根節點。如下圖,其中是正常點,位於數據比較稠密的區域,且與周圍樣本偏差不大。為異常數據,位於數據集中比較稀疏的區域且明顯偏離於大多數樣本點。

從上圖(a)、(b)中可以發現樣本需要12次迭代分區才能將其隔離出來,而樣本需要4次迭代分區就可以將其隔離出來。圖c表示隨著隔離樹的增加,正常點與異常點被檢測出來的平均路徑長度,即正常點檢測的路徑長度明顯大於異常點檢測的路徑長度。例如當存在1000顆決策樹時,正常點與異常點被檢測出來的平均路徑長度分別為4.0與12.8,因此根據樣本被多棵隔離樹檢測出來的平均長度作為樣本異常的判斷,當樣本被隔離出來的平均路徑越短或異常得分越高,樣本為異常點的可能性越大。因此通過計算與樹跟的平均路徑長度來判斷異常數據。

②極端隨機森林

極端隨機森林是在隨機森林的基礎上,隨機的選擇樣本的屬性進行分裂,從而對數據進行分類的方法。決策樹是一種簡單且被廣泛應用的分類方法,根據已經樣本,學習分類模型,從而達到對未知樣本進行分類的目的。

對處理後的數據運用極端樹作為基分類器,對非詐騙用戶(正常且非詐騙用戶類和異常且非詐騙用戶類)進行欠採樣作為負類,將全部詐騙用戶(異常且詐騙用戶類和異常且詐騙用戶類)作為正類樣本進行組合學習,訓練得50個分類器,並將其放入數組中進行保存,以備每日預測調用。利用訓練階段得到的組合分類器,對本月每天的樣本進行檢查,並投票得出預測結果。

③邏輯回歸

同時採用邏輯回歸演算法對輸入用戶特徵進行線性組合,這種演算法的專長是預測事件,利用最大似然估計法對參數進行計算,平衡處理正常和異常用戶,更精準預測出疑似詐騙用戶,該方法易於理解與實現,在業務場景中應用性強。

(2)業務規則

基於業務分析,我們初步篩選出一定的規則,滿足該規則的用戶初步確定為詐騙分析群體,並將此規則稱為負面清單。在此基礎上判斷是否滿足高危地區漫遊停機規則以及業務停機規則,剔除一部分不合理用戶,輸出業務規則停機用戶。

4

數據安全

海盾的數據安全管控體系自下而上,分別從基礎設施安全、平台安全、數據安全、應用安全四層面實施管控:

在基礎設施安全層面,主要分為網路安全、訪問控制、OS加固三個方面。在平台安全層面,海盾為Hadoop配置了Kerberos認證協議,基於密鑰在開放的網路中提供認證以及用戶和伺服器的單點登錄(SSO),為Hadoop確保MapReduce和HDFS請求以適當的授權級別執行提供了基礎。數據安全層面,負責整個系統中數據採集、存儲、加工、輸出的安全。數據採集方面,海盾按數據涉密情況及數據分布,對數據分為5個安全級別,對採集過程實行分級審計。數據存儲方面,海盾提供標準加解密調用介面,通過數據加密保障存儲安全。應用層面上,海盾通過數據模糊化顯示的Desensitization功能包實現對客戶識別信息模糊化處理,並提供標準脫敏介面,可自定義隱去位數與位置,支持數字、漢字、英文字元等格式。

5

可視化展示

該系統有效規避了以往傳統IT開發項目周期長、變更不靈活、可視化效果不夠好、第三方依賴度高等缺點,45天就完成了包括整體項目設計、開發及部署上線在內的一系列工作。大屏展示如下圖所示:

建設成效

1、工信部詐騙騷擾號碼通報排名降幅明顯

截止2018年3月底,上海聯通12321通報騷擾/詐騙移網號碼數量已從2017年3月份峰值344件次/月,降至2018年3月份28件次/月,移網號碼百萬用戶舉報從年初全國排名第2位下降到2018年4月的20位之外,並於2017年7月實現全國排名下降到前5位之外的目標。

2、監管、執行效果

截止2018年3月底,防通訊詐騙專項工作通過海盾系統累計關停號碼132732個,同期累計簡訊諮詢用戶數69065個,累計關停投訴用戶數8466個,累計復機用戶數47202個,其中投訴佔比僅6.3%,關停號碼誤差率較低。

通過對國際漫遊異常通話監控生成報表供分析執行。截止2018年3月底,累計實施監控約11萬次,其中高危國家和地區約6.5萬次,非高危國家和地區約4.5萬次,分析疑似號碼超500個,結合人工撥測,實施異常號碼關停累計462個,其中申訴復機僅40個,誤差率小於8.75%。

記得關注我們哦~


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 全球大搜羅 的精彩文章:

怎麼判斷一個男人是不是暗戀你?
2018年3月29日,時尚圈發生了什麼事?

TAG:全球大搜羅 |