DataVisor進軍中國，AI如何引爆金融科技？

最新 03-12

文|薈智小姐姐：涵傑西

?Data Visor 火了？

成立四年的DataVisor，獲由紅杉中國領投的四千萬美元C輪融資，進一步拓展無監督機器學習檢測方案在全球各個領域的深入應用。主要領域：無監督學習演算法，再結合監督學習、自動規則引擎，為客戶提供多應用場景的保護，包括大量虛假賬戶註冊、賬號盜取、欺詐交易、身份盜用、洗錢交易、假冒評估、垃圾郵件、虛假安裝推廣等。

DataVisor拉開序幕

DataVisor的聯合創始人謝映蓮和俞舫兩人離開微軟，於2013年年底在美國矽谷山景城成立了專註於人工智慧反欺詐的公司DataVisor。頂著名校和矽谷精英光環的她們「出走」微軟的消息很快在技術圈傳開，很多朋友紛紛發來賀電並「質問」她們，「為什麼現在才出來？」這體現在DataVisor剛成立不久就有美國本土的投資機構找上門來，也包括不遠千里赴美尋求合作的第一個客戶——陌陌。謝映蓮和俞舫運用獨創的無監督學習演算法幫助陌陌建立了基於行為識別的全方位反欺詐檢測。

有了陌陌打開局面後，DataVisor在美國迅速簽下眾多知名客戶，諸如遊戲公司IGG、美食點評網站Yelp、圖片社交軟體Pinterest，同時還包括世界500強的銀行和金融機構。2016年11月，正式進入中國市場後，在國內建立合作的公司包括大眾點評、獵豹移動、今日頭條等。DataVisor獨創的無監督學習演算法，目前在全球範圍內是獨一無二的，可以保護客戶免受虛假賬戶註冊、賬號盜取、欺詐交易、身份盜用、洗錢交易等不良行為的攻擊。

三大技術構建護城河

「人工智慧產業發展有四個維度：場景、大數據、計算能力與演算法。大數據是基礎，計算能力是前提，演算法靠人才。在細分場景已經確定的前提下，大數據非常重要。而這部分需要行業頂級專家的深度參與，通過大數據的清洗、標籤，把行業頂級專家的知識轉移給機器，從而讓人工智慧站在巨人的肩膀之上。」

在現實中，各行業或許擁有較多的數據積累，但帶標籤的數據卻很少，需要依賴行業頂級專家的深度參與，人力限制是一方面，另一方面是有標籤的數據較難得，拿到之後通常也存在滯後效應，無法檢測新型的未知類型的攻擊。而標籤數據的及時性和準確性，直接影響模型的效果。無監督學習已經無法滿足現狀，從業者開始應用無監督學習來應對這種情況。

無監督機器學習引擎

DataVisor解決方案的核心是DataVisor的無監督機器學習（UML）引擎。它可同時分析數十億賬戶與事件，使得我們無需標籤和訓練數據，能自動發掘惡意賬戶間的可疑關聯和相似度，並即刻檢測捕獲整個欺詐團伙。

DataVisor一般通過挖掘平台用戶的三類數據：賬戶註冊信息、行為信息以及其他信息（IP、地理位置、設備等）。「下一步，把該平台一段時間內進行同一行為的用戶放在一起來檢測，聚類分析，發現賬號間的相似性和相關性，形成單個用戶畫像。」比如，當一個新用戶註冊時，平台無法獲知更多信息，但是聯繫所有用戶時，可能有一些用戶使用非常相同或相似的頭像、名字、手機型號等，行為就凸顯出來了。

謝映蓮：目前無監督機器學習在實際應用中比較少，難度是在於如何設計演算法、體系架構以及保障演算法的效果。

自動規則引擎

另一個也在無監督學習體系下的技術是自動規則引擎。傳統規則引擎都是人工調試，DataVisor在此基礎上利用機器學習技術，挖掘出了很多欺詐群組，而每個群組都有一條或者多條規則，那麼如何將這些結果轉化成人類可以理解的規則，以滿足監管或者其他需求呢？

自動規則引擎將機器學習模型的能力與規則引擎的可解釋性進行結合。它使用無監督機器學習引擎的輸出，來自動生成並維護易於理解的規則，能提高檢測性能，同時降低人工維護成本，並及時更新與淘汰現有規則。

全球智能信譽庫

此外，他們還打造了DataVisor 全球智能信譽庫，為上述技術提供數據支持。主要通過挖掘、整合攻擊信號，並進行二度計算，提煉出更具有代表性的信號。據稱，資料庫擁有來自不同領域超過20億用戶的欺詐行為數據，如IP地址、UA信息、郵箱域名、設備類型等。

基於以上三種技術加全球智能信譽庫，他們開發了用戶分析平台。由於該平台本身就具有通用和可延展性，所以能夠與不同的數據、不同的使用場景掛鉤對接，也就出現了八大應用場景。

進軍中國，引爆金融科技

那麼在實際應用，DataVisor是如何結合應用場景，為客戶提供服務的呢？

謝映蓮表示，第一階段非常重要的工作就是幫助客戶梳理和清洗數據，數據的質量與演算法的好壞也是密不可分。雖然DataVisor會面臨數據全面與準確性的挑戰，但她也指出，各機構關於數據的意識已經比較強烈，「會有一些（數據梳理）基礎，雖然參差不齊。」

下一步是理解客戶的業務場景和需求痛點，「將我們的演算法和對方數據相結合，幫助客戶解決實際問題。」上述完成後，需要對相當於技術框架和產品進行調試，根據客戶反饋進行一到兩次調優，然後進入產品上線階段。

客戶可以通過DataVisor用戶界面、用戶分析控制台獲取檢測結果，或者通過DataVisor結果API批量導出或實時傳送檢測結果，或者直接購買規則自行建冊。根據客戶不同的業務需求，DataVisor數據分析平台提供多種類型部署選項，包括內部部署、SaaS服務和私有雲部署。

互聯網服務和移動App的飛速發展，一方面給我們提供了豐富多彩的服務，另一方面也給服務提供商帶來了很多挑戰，如互聯網上新一代欺詐攻擊頻發，包括垃圾廣告、賬號盜取、假新聞、假評級、假評論和假貸款等。

互聯網欺詐攻擊主要有四大趨勢：多種欺詐行為、複雜的欺詐產業鏈、潛伏期變長和各種欺詐輔助工具。互聯網上的欺詐早已從單一欺詐向大規模團體欺詐轉變，欺詐團伙掌握海量賬號，首先偽裝成正常用戶，再通過大規模欺詐達到商業目的。

除此之外，反欺詐要面對的是整個灰色產業鏈。其中不同的團體各有分工，各個團體分別專註於自己擅長的部分，比如盜取賬號、刷機、人工驗證等。同時大規模欺詐還具有潛伏性，即所謂的「養號」，偽裝成正常用戶，有的甚至養號一年之久，再進行欺詐行為。

欺詐群組舉例：欺詐交易群組、促銷欺詐群組。

欺詐檢測技術的發展經歷了以下幾個階段：

黑名單、信譽庫和設備指紋，這種方法的缺點是覆蓋率和準確率有限，而且虛擬機等可逃避設備指紋監測；

規則系統，這種方法需要深入了解欺詐模式，但不能夠有效應對不斷變化的欺詐手段；

有監督的機器學習，這種方法的缺點是需要大量人工標註數據，只能檢測同種特徵行為的欺詐。上述的這些做法都只發現了欺詐行為的冰山一角，而從一個群體行為來看，才有可能發現數據內部的真實特性。

在當今的大數據時代，面臨幾十億用戶的數據，相應的特徵量級可能達到千億甚至萬億，如何高效處理並挖掘數據也是一項很大的技術挑戰。Datavisor的大數據體系架構採用了很多開源技術，數據層包括在線的監控和離線的加密存儲，分析層包括分析、計算和檢索，使用Spark、HBase和Elasticsearch等開源技術。

Datavisor研發了一套無監督欺詐檢測系統，這也是目前世界上最先進的欺詐檢測技術。除此之外，還採用了無監督欺詐檢測和有監督機器學習相結合的方式，一方面可以通過無監督欺詐檢測去發現欺詐團伙，另一方面將新發現的欺詐賬號作為標籤輸入，用於機器有監督訓練檢測模型。

無監督欺詐檢測系統具有以下特性：

1.自動挖掘和檢測各種已知、未知的欺詐行為；

2.自動產生標籤，用於機器有監督訓練檢測模型；

3.自動產生規則，免除費時的人工規則調整，更具可解釋性（針對金融行業的痛點）。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 中科薈智 的精彩文章:

※每天被大媽圍攻搶菜，最火生鮮店：錢大媽

TAG:中科薈智 |