當前位置:
首頁 > 新聞 > 電商交易欺詐層出不窮,如何用深度學習系統布下天羅地網?

電商交易欺詐層出不窮,如何用深度學習系統布下天羅地網?

雷鋒網 AI科技評論按:交易欺詐對電子商務帶來了巨大的威脅,來自清華大學交叉信息研究院博士後、物理學博士王書浩近日在AI研習社的青年分享會上介紹了基於循環神經網路的交易欺詐檢測系統——時間偵探(CLUE),他重點講解了電商欺詐檢測這一場景下的三個主要技術難點:非平衡樣本學習、實時檢測系統、增量模型更新。

以下為他的分享內容,雷鋒網 AI科技評論編輯整理如下:

很高興在這裡與大家分享我們跟京東金融合作的一篇論文,這篇論文已經被ECML-PKDD2017接收。我們的工作一句話就可以概括,即通過深度學習的方法來進行電商欺詐的檢測。我想講的更多的是從工業落地的角度,去建立一套完整的系統來解決問題。

研究背景

首先介紹一下背景。在電商網站裡面,我們經常會遇到兩種欺詐。第一種欺詐是指用戶的賬戶被竊取了,竊取者可能還會得到用戶的支付密碼,之後他很有可能登錄這個用戶的賬戶進行一些欺詐活動,比如說會購買一些商品進行變現,間接的把用戶賬戶里的餘額取走。第二種是現在黑市上可以買到一些假的卡片,比如說假的信用卡,如果這個人能夠註冊一個新的賬戶,然後把卡綁定到他的賬戶名下,他就可以使用這個卡來買商品,然後把商品進行變現。

這兩種欺詐有一個共同點,即欺詐用戶都會進行商品的購買和變現。這些欺詐用戶的行為是不是有一些共同的特點,是否可以通過一種手段去觀察整個瀏覽路徑?我們通過交易之前發生的一系列的動作,可以判斷出這個用戶到底是正常用戶還是被懷疑為欺詐的用戶。

上面這個表左邊展示的是正常用戶的瀏覽路徑,可以看到這個用戶最後買了一個128G的wifi版玫瑰金iPad Pro,整個瀏覽路徑非常有規律。對於欺詐用戶而言,看右邊這兩個用戶,從統計上來說有兩個比較鮮明的特點。第一個是用戶非常簡單粗暴,購買的都是一些虛擬物品,因為虛擬物品可以隨時變現。第二個是用戶的瀏覽行為沒有邏輯性,他首先訪問京東,然後搜索蘋果,瀏覽了一堆蘋果的商品,但可以看到瀏覽的這些商品沒有太大的關聯性,我們系統中會記錄這是一次欺詐行為。

整個系統的中文名叫做時間偵探,時間是指觀察用戶在整個瀏覽序列裡面的時序數據,然後用深入學習的辦法來對它進行建模。我們所能拿到的數據就是京東上產生的用戶的瀏覽歷史,再加上我們的系統去觀察,之後系統會給出對整個瀏覽行為的風險判定,我們得到的其實是風險評分。處於用戶隱私角度的考慮,我們的瀏覽歷史裡面沒有關於這個用戶ID的任何信息。

技術挑戰

一個非常直接的挑戰就是我們拿到的樣本是一個非常不平衡的樣本,這就是所謂的非平衡樣本的學習問題。從上面這幅圖中可以明顯看到欺詐用戶和正常用戶的佔比大概是千分之一, 非常小。在研究過程裡面,我們固定了千分之一的欺詐佔比,又稱異常佔比。異常佔比小的問題會對系統的學習造成很大的干擾。

第二個非常嚴峻的問題就是訪問量太大了。京東現在有超過2.2億的活躍用戶,單就PC端來說,每天session的數目大概都是在千萬的量級,真正發生交易的session數目大概也有百萬量級。這個系統其實只看發生交易的session,一天大概要處理掉百萬的訪問,這對系統壓力是非常大的。

在欺詐領域還有一個非常有意思的現象。欺詐其實是人產生的,既然有人在,整個欺詐行為就會隨時間發生變化。上面這幅圖裡展示的就是欺詐用戶喜歡購買的商品。比如在1月份可以看到欺詐用戶特別喜歡2號商品,但隨著時間發展,到10月份時,這些用戶對2號商品就沒那麼感興趣了。我們的系統需要去適應用戶行為的改變,我們需要周期性的對模型進行不斷的更新。

建模方法

接下來講對這個問題的建模方法。我們文章裡面只是做了一個欺詐檢測,但出現的建模方法同樣可以用在商品推薦或是商品建模等其他領域,包括用戶畫像。

細化我們面臨的問題。上圖展示的是用戶在京東的整個瀏覽行為序列,首先訪問主頁,他可能會看一些促銷頁,然後可能會看一些列表頁,然後瀏覽各種商品,最後進行結算。可以注意到在整個URL裡面,商品列表頁和商品的詳情頁是最難編碼的。

我們的伺服器在用戶每次點擊的時候都會記錄下這些信息,比如用戶IP,訪問了哪個URL,包括用戶瀏覽器、操作系統的信息。對這些信息進行編碼之後就可以讓機器去學習。

怎麼進行編碼?其實模型輸入的並不是原始信息,在實際操作過程中需要用一些方法來把這些信息變成機器能夠認識的信息。我們採用的方法比較簡單。可以先忽略URL,進行One-Hot編碼。One-Hot編碼指的是在一個向量裡面只有一位是1,其他的位都是0。

在用戶瀏覽行為里有一個非常重要的信息叫停留時間,停留時間比較難獲取,我們採用了統計上比較符合常理的做法——把下一個頁面點擊的時間和上一個頁面點擊的時間減一下,然後認為是用戶在這個頁面上整體停留時間。

對URL的編碼我寫了兩種編碼方式,在URL裡面很多頁面都可以歸為Category或Item這兩個門類。商品的列表頁和詳情頁實在太龐大了,如果用one-hot編碼將是一個非常大的數目。

京東上商品的瀏覽特別符合非常陡峭的冪律分布,我們可以對採集到session裡面的大部分瀏覽行為進行item編碼,如果瀏覽的商品沒出現在編碼過的item裡面,我們就單獨進行編碼。

我們編碼採用的方式是Item2Vec,這種方法的思路和Word2Vec一樣,Word2Vec相當於把出現在相同語境下的詞之間的距離進行最小化。Item2Vec是先給這個商品賦一個隨機向量,然後根據商品在不同語義中出現的情況,對我們賦的向量進行優化。我們在研究中採用了一個25位的向量,能覆蓋大概90%我們所研究的商品。上表展示的就是Item2Vec的一個結果。

我們來看一個更為廣泛的例子,隨機在三個品類裡面找出若干個商品,然後進行Item2Vec編碼再進行降維。我們採用了汽車用品、手機和附件、個人護理這三個類別。可以看到這三種類型的商品在這個二維的空間裡面比較明顯的被分割到三個不同的區域,這說明Item2Vec的有效性還是很強的。我們做的Item2Vec編碼參考的完全是用戶的瀏覽行為,沒有跟商品的標題做語意上的匹配。

我們可以把URL的編碼劃分成三部分,第一部分是URL的類型,第二部分是category,第三部分是item Vector。我們把所有用戶的點擊行為做完了編碼之後,每一次點擊都可以得到一個編碼後的向量,用戶的整個瀏覽行為就可以看成一個向量的組合,最後我們再從數據表裡面去找這個session是正常的還是被舉報過的。

還有一個問題需要解決。在訓練神經網路的時候,每一個session的長度都可能是不固定的,可能第一個session的點擊數是六個,第二個session的點擊數只有三個,那麼怎麼來處理這種不相等的問題?首先我們確定一個最大點擊數目,在文章中我們設置這個數目為50,也就是說從checkout的頁面往前數50個點擊,進行一個截取之後,然後把長度沒有達到50的後面全都補0。在取最後結果的時候,一定要在checkout位置去取,如果在最後一個位置取的話,會出現錯誤。

最後把這些送到RNN裡面學習。我們在研究裡面採用的框架是TensorFlow,所用到的東西都是TensorFlow定義好的。我們採用的是如上圖LSTM的結構,可以採用多層的LSTM結構。

如何解決技術難題

接下來講一下怎麼去解決剛才說的那些技術難題。

第一是解決非平衡樣本問題。在這個工作裡面採用兩個比較簡單的方法,第一個方法是從數據的層面,我們直接把正常用戶的數目隨機減去4/5。對於欺詐用戶,我們沒有做任何操作。在訓練數據里原來的佔比是1‰,經過採樣之後把數目調整到5‰。在驗證集和測試集上還是保持原來1‰的佔比。

在模型層面,我們採用Thresholding法,它的思路非常簡單。我們的模型是一個二分類問題,要麼欺詐,要麼正常,模型輸出的是一個連續變數,如果更偏重於1,我們認為它是欺詐用戶的可能性更大。

第二個問題就是如何解決龐大的訪問量,我們整個系統的架構如上圖所示。架構分成兩部分,下面是訓練,上面是進行預測,訓練採用的是Tensorflow,預測用了Tensorflow Serving的開源模塊。下面是模型進行滾動更新的部分,更新後的模型會送到上面,然後會有QA模塊進行決定是否切換掉現有的模型。

我們有兩種模型更新的辦法——全量數據更新和增量數據更新。全量數據的好處在於每次模型優化能夠達到一個比較好的結果,增量數據的好處是不需要把歷史數據全都拿過來。從時間上來看,增量更新會比較節省時間和計算資源,我們在這個研究裡面採用的是增量更新的辦法。

研究成果展示

最後給大家展示一下我們研究的一些結果。

對於非平衡樣本問題,用PR曲線能有效的看出模型性能。圖中是初期的一個結果,現在的準確率比圖中高很多。採用4-64的性能最好。

我們還有一個更詳細的表,固定recall是30%,異常佔比為1‰。可以看到隨著層數的增加,性能還是有一些增加的,但是隨著unit數目的增加,在有些地方可能就會產生一些過擬合。

如上圖,通過跟傳統的一些方法的對比也展示了RNN的優越性。

我們也做了一些實驗來對比增量模型更新與全量模型更新。我們把數據分成若干時間段,然後用下一個時間段來測試當前時間段模型的性能,橙色線是初始的模型,我們只用第一個時間段的數據訓練好模型,後面不進行優化,可以看到橙色線跟另外兩條線的差距越來越大,也即隨著用戶行為的變化,第一個時間段訓練的模型越來越不能在實際中使用了。

結果展示

最後展示的是我們做的比較有意思的一個結果。這幅圖裡用戶的行為可以比較明顯的區分出來。例如右上角,這部分樣本表示在session裡面沒有發現用戶在瀏覽商品,而直接進行了付款,這是為什麼?因為我們並沒有把用戶從第一個商品瀏覽到最後全部採集下來。後續我們把用戶的瀏覽行為拼接起來,找到之前的session,這樣的話性能會更好。

雷鋒網 AI科技評論。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

自動駕駛時代,內飾設計的變化能否改變我們的乘坐體驗?
人工智慧將輔助規劃長江新城;「濟寧智慧醫療平台」啟動,16家醫院可掃碼支付
人工智慧將輔助規劃長江新城;「濟寧智慧醫療平台」啟動,16家醫院可掃碼支付| AI 掘金晚報
Uber在倫敦運營執照被吊銷,競爭對手 mytaxi 宣布立刻打折
計算晶元革命來臨?英偉達谷歌入局緊逼英特爾

TAG:雷鋒網 |