打擊羊毛黨:無監督學習在金融業務場景的研究與應用
機器之心專欄
甜橙金融人工智慧研究院
基於甜橙金融的業務場景,作者分享了他們使用無監督學習打擊套利欺詐行為的解決方案。
一.業務場景
風控 (風險控制) 伴隨著金融業誕生之初就與之相伴. 傳統金融業常見的風險類型包括身份盜用, 釣魚, 盜卡盜刷等. 到了移動互聯網時代, 金融風控也遇到前所未有的挑戰, 行業內湧現出各類新型的錯綜複雜的欺詐手段. 2018 年中國信通院和騰訊聯合發布的《數字金融反欺詐》報告分析了 18 年金融業的黑產事件, 總結出當前互聯網金融欺詐的幾個趨勢 [1]:
- 趨勢一: 用戶個人信息泄露助長了網路黑產的氣焰. 僅 2018 年, 國內即發生多家重要機構或企業客戶信息泄露事件, 泄密數量總計超過 60 億條.
- 趨勢二: 針對金融 APP 的木馬攻擊呈現高度定製化趨勢. 該類攻擊主要通過木馬發起偽冒交易操作, 由於攻擊來自用戶本人設備, 使得金融行業傳統防控手段難以在第一時間控制.
- 趨勢三: 生物識別技術引入新的風險點。人們已發現利用 GAN 生成的「萬能指紋」可以輕鬆騙過指紋感測器; 僅使用在社交媒體上找到的照片就可以在很多平台上解鎖人臉識別. 生物識別技術帶來便利的同時也帶來了額外的風險點.
- 趨勢四:「羊毛黨」造成的損失日益嚴重.
報告中列舉了 2018 年發生的多起較嚴重的職業『羊毛黨』套利事件: 某」羊毛黨「發現國內某知名電商平台存在漏洞, 利用這個漏洞可以無限制領取 100 元無門檻全場通用券, 於是他通過手中大量該電商賬號領券, 並以每張券不足 1 元購買 100 元話費或 QQ 幣的形式套現. 最後為了逃避被追責, 該『羊毛黨』將漏洞發到羊毛群中, 引發大量」羊毛黨「瘋狂薅羊毛, 最終造成電商平台巨額損失. 據官方通告, 損失在千萬元級別;
某著名咖啡企業推出拉新活動, APP 新註冊用戶即可免費領取一張兌換券, 在線下門店兌換任意一杯當季特飲. 無數專業的「羊毛黨」利用自動註冊機, 後台自動調用二維碼平台進行註冊領券, 短時間內獲取數十萬張電子兌換券, 其成本僅為 0.1 元, 然後「羊毛黨」通過網路渠道以便宜價格進行傾銷變現. 僅僅一天時間, 該企業 APP 虛假註冊量已達到 40 萬, 保守估算, 其的損失可能高達千萬元.
數據顯示截止到 2018 年 6 月, 我國網路黑產從業人員已超 150 萬人, 據估計造成的損失規模高達千億元級別. 其中職業「羊毛黨」群體造成的損失占很大比例且其欺詐形式日趨隱蔽, 最常見的欺詐形式如下圖展示。
例如, 一位用戶到某電商或支付平台上領取了一張 5 元代金券, 到指定商家消費購買 10 元價值的商品, 實際只需支付 5 元, 另外 5 元用現金券抵用. 最後平台方將與商戶間結算. 這類活動一方面讓廣大用戶獲得了切實的優惠, 一方面幫助平台公司提升用戶質態, 打磨產品, 也為國內消費升級提供多元化渠道, 因此這類活動多有裨益.
然而, 這些活動背後的用戶卻不都是活動的目標用戶, 而是存在一群職業套利群體. 他們通過機器人, 註冊機, 模擬器, 貓池等多種形式在平台上註冊大量虛假用戶賬號, 利用這些賬號在活動期間大量領券, 最後通過多種渠道變現. 這類欺詐行為一方面令大量真實用戶無法享受活動優惠, 另一方面也使得平台方營銷活動的效果大打折扣, 進而浪費社會資源. 因此這類行為對社會, 對企業, 對個人的利益都造成了很大損害.
為應對這類套利欺詐行為, 當前常用有兩種策略: 一種是基於規則的策略. 通過事後數據分析以發現風險事件的特徵掌握其規律, 隨著一定階段的積累, 往往可形成一套專家系統, 其內部針對一筆交易可能多達上千條規則條件以評估該交易的風險係數, 實踐也證明這類策略直觀有效, 多數金融企業至今還較依賴這類專家系統.
但到了移動互聯網時代, 信息瞬息萬變. 基於規則的策略相對滯後的特性面對層出不窮的欺詐手段也愈發顯著, 而此時基於機器學習模型的策略可以很好的補足傳統規則策略的短板. 目前常見的機器學習演算法模型有 Bayesian 網路, Tree based 模型, Clustering, Reinforcement learning 及近幾年快速發展的 Deep Learning 等, 而近幾年機器學習在金融領域的應用也不乏成功案例。
但在群體套利場景下應用機器學習存在幾個挑戰: 首先, 數據標籤極難獲取, 而在當前主流的大數據擬合小目標的監督式建模框架下, 通過人工標註會耗費大量的人力物力資源; 其次, 特徵空間高維且稀疏, 這給模型訓練增添了很大障礙; 最後, 模型的效果很大程度取決於特徵的完備性, 而特徵工程往往強依賴業務經驗, 開發出一個有效的特徵可能會需要一個人或團隊花上幾周甚至幾個月的時間. 因此, 如何在高基維空間下, 無監督式學習與識別這類群體性顯著的高危群組並發掘其背後的風險特徵, 是業內一直在探索的問題.
二. 對抗式自編碼器 (Adversarial AutoEncoder)
最早的自編碼器 (AutoEncoder) 提出主要為解決數據降維問題. 傳統的自編碼器由兩塊結構相互對稱的網路組成: Encoder 和 Decoder, 且均為全連接網路. Encoder 的輸出是一個任意指定長度的向量 (一般遠小於輸入數據維度) , 稱為隱變數 (Latent Vector) . 隱變數輸入 Decoder 網路後生成重構數據, 自編碼器訓練的目標函數即最小化重構誤差.
傳統自編碼器存在幾個問題. 首先, 它訓練得到的是一個無結構化的隱式空間, 即輸入樣本間結構化信息在隱式空間將丟失; 其次, 全連接網路設計下的自編碼網路在實踐中被證明具有較大局限性.
因此, 學術界在傳統自編碼網路基礎上提了多種改進, 相繼提出了基於卷積神經網路 (CNN) 的自編碼網路, 基於長短時記憶網路 (LSTM) 的自編碼器, 深度信念網路 (DBN) 自編碼, 稀疏自編碼 (Sparse AutoEncoder) , 差分自編碼 (Variational AutoEncoder) , 對抗自編碼 (Adversarial AutoEncoder) 等等. 它們的應用也從最初的數據降維到近幾年的圖像降噪, 去水印, 數據壓縮, 數據生成等等.
Adversarial AutoEncoder 是一類生成式概率自編碼器, 它在傳統自編碼器的基礎上利用對抗生成網路約束 Encoder 輸出的隱含層擬合任意一種指定的先驗數據分布 [2].
對抗自編碼器訓練在傳統自編碼器訓練基礎上加入了一個對抗式訓練環節, 如此設計的好處是訓練中只需要從先驗數據分布中採樣, 而無需 access 先驗分布的實際函數形態即可約束隱式空間, 因而在實際使用中可以為對抗自編碼網路指定更加複雜的先驗分布.
三.甜橙金融的解決方案
面對海量數據且標籤未知的情況下, 如何更高效的識別惡意套利群體? 從上一節的內容中可以發現, 對抗自編碼器能夠通過非線性變換將高基維空間下的原始數據映射至低維空間得到一個隱式表徵 (Representation), 同時保留空間的結構化信息. 因此, 圍繞對抗式自編碼網路我們的實踐方案是: 表徵學習. 具體流程:
- 數據準備階段. 對數據進行預處理, 剔除無效數據, 並對特徵進行輕度加工以貼合給定的目標場景.
- 表示學習階段. 將準備好的數據輸入對抗自編碼器進行訓練, 目的是提取輸入數據的隱式表徵以供下一階段使用. 該階段下隱向量長度是較重要的超參數.
- 聚類階段. 用高斯混合模型 (Gaussian Mixture Model) 對隱變數進行不同程度的聚類. 最後得到不同大小的群組進入分析階段.
- 分析階段. 在早期分析階段, 聚類得到的群組所依賴的特徵不一定能夠準確貼合給定的目標場景, 而此時的問題很大概率是出現在數據準備階段. 藉助樹模型可觀察各群組區分度高的特徵, 進而對輸入數據進行必要的調整, 直至數據質量足夠貼合目標場景. 經過多次調整後的數據處理後得到的各群組已具有較高的價值, 也可令風險排查更具條理. 此時可對可疑的群組進行數據抽樣, 交由運營的同學進行核實, 若一個群組幾次採樣得到的數據中均存在高比例賬號被確認是套利用戶, 該群組即可被標註為高危群組並進行相應處理; 最後, 套利群體的欺詐模式, 特別是發現未知的行為模式, 對風控來說具有更大的意義. 因此對得到的高危群組, 與其他排查後被認為是正常的群組分別進行標註, 再通過樹模型訓練即可得到套利群體的顯著性特徵.
四. 實驗結果
我們在公司往年的一次營銷活動數據上應用這套方法.
上圖展示的兩組數據分別是在限定對抗自編碼器隱變數長度為 50 維和 100 維的情況下, 輸出高斯混合聚類 50 和 100 個群組得到的結果, 其中紅色代表的是套利賬號, 藍色代表的是正常賬號.
從兩組數據的混淆矩陣可以看出在隱空間大小為 50 和 100 的情況下, 高斯混合聚類模型輸出 100 個群組取得的結果均略優於 50 個群組的結果. 在隱變數長度為 100 的情況下, 高斯混合聚類模型輸出 100 個聚類得到的 Recall 接近 53%, 略優於 50 個聚類得到的 48%, 但 FPR (False Positive Rate) 也比自編碼器隱變數長度為 50 的時候高了一倍. 這個結果在沒有用任何數據標籤的情況下, 是個不錯的開始.
隨著業務的運行, 我們公司得以積累一定量的數據標籤. 如何更有效的利用這些數據標籤呢? 如果直接應用到監督式學習, 仍面臨極嚴重的類別不平衡問題, 導致分類器的性能很差. 另一方面, 結合業務場景, 若將這類組織特性較強的群體套利問題轉換為二分類問題, 易丟失數據間的關係型信息. 因此, 我們維持原有方案框架, 但是將標籤數據用於對抗自編碼器以期進一步提升隱向量的表示能力, 將無監督的對抗自編碼網路換成半監督的對抗自編碼網路並應用到給定場景中.
對抗自編碼的半監督學習在論文 [2] 中也有介紹. 它將原先 Encoder 輸出由一個隱變數改成了兩個, Decoder 網路 利用這兩個隱變數進行數據重構. 此外增加兩個獨立的對抗網路分別對兩個隱變數正則化, 約束一個隱變數服從標籤數據類別分布, 另一個服從預先指定正態分布.
此時通過對抗自編碼器半監督學習得到的隱向量代入前述方案應用到同一批營銷活動數據當中.
對抗自編碼網路隱向量空間長度為 100, 高斯混合模型聚類 30 個群組, 分別用了 1%, 5% 和 10% 標籤數據用於訓練. 結果數據顯示使用 10% 標籤數據, 召回率可達 87%, 同時 FPR 還控制在較低水平. 可以明顯看出, 用了 10% 標籤得到的結果優於 5% 並優於 1% 得到的結果.
而對比兩次實驗結果, 半監督對抗自編碼在這個場景下取得的效果優於無監督的對抗自編碼網路.
關於甜橙金融:甜橙金融是中國電信布局互聯網金融和金融科技的重要板塊, 是唯一入選國務院「雙百行動」和發改委第四批混改試點的金融科技企業. 近年來, 甜橙金融在大數據, 人工智慧, 雲計算等金融科技前沿領域積極探索創新, 以金融科技賦能業務創新, 實現了高速度規模發展. 甜橙金融著眼於技術人才培養和前沿領域技術, 不斷推進產, 學, 研融合發展的同時, 也在持續為行業輸出甜橙金融的科技方案!
參考文獻:
- [1] 騰訊&中國信通院. 2018.11. 數字金融反欺詐-洞察與攻略. http://www.caict.ac.cn/kxyj/qwfb/bps/201811/t20181127_189555.htm
- [2] Makhzani, A., Shlens, J., Jaitly, N., Goodfellow, I., & Frey, B. (2015). Adversarial autoencoders. arXiv preprint arXiv:1511.05644.


※準備程序員面試?你需要了解這 14 種編程面試模式
※如何寫最高端的代碼?Facebook教你怎樣用機器學習做代碼搜索工具
TAG:機器之心 |