跳出微軟研究院心向產品化，她如何推動無監督學習反欺詐技術的應用？

新聞 01-26

技術的深度應用在給人類帶來「光」的同時，也有「暗」在生長。科技風險已成為各行業主要的風險之一，從電信詐騙，到釣魚木馬、買賣個人信息，再到如今有組織的羊毛黨，欺詐者一直在開拓攻擊手段和領域，這也要求著安全和風險分析技術的更迭換代。

近年來不斷發展的大數據與人工智慧技術，逐漸成為風控與反欺詐從業者的有力武器。成立四年的DataVisor打出「無監督學習演算法」這一旗幟，再結合監督學習、自動規則引擎，為客戶提供多應用場景的保護，包括大量虛假賬戶註冊、賬號盜取、欺詐交易、身份盜用、洗錢交易、假冒評估、垃圾郵件、虛假安裝推廣等。

創始人、CEO Yinglian Xie （謝映蓮）畢業於卡內基梅隆大學計算機系並取得博士學位，有超過十年的安全領域行業經驗，一直致力於打擊大規模網路線上攻擊，此前任職微軟矽谷研究院。近日，她與雷鋒網進行了一次深入的訪談。

三大技術構建護城河

跳出微軟研究院心向產品化，她如何推動無監督學習反欺詐技術的應用？

「人工智慧產業發展有四個維度：場景、大數據、計算能力與演算法。大數據是基礎，計算能力是前提，演算法靠人才。在細分場景已經確定的前提下，大數據非常重要。而這部分需要行業頂級專家的深度參與，通過大數據的清洗、標籤，把行業頂級專家的知識轉移給機器，從而讓人工智慧站在巨人的肩膀之上。」清華教授鄧志東告訴雷鋒網。

在現實中，各行業或許擁有較多的數據積累，但帶標籤的數據卻很少，需要依賴行業頂級專家的深度參與，人力限制是一方面，另一方面是有標籤的數據較難得，拿到之後通常也存在滯後效應，無法檢測新型的未知類型的攻擊。而標籤數據的及時性和準確性，直接影響模型的效果。無監督學習已經無法滿足現狀，從業者開始應用無監督學習來應對這種情況。

顧名思義，無監督學習可以不依賴於標籤和訓練數據，自動挖掘新攻擊。當攻擊快速變化時，也能自動繼續跟蹤挖掘。「它最大的好處是，化『被動跟著敵人跑』，為『在攻擊發生之前或同時做出反應』」，謝映蓮說，並且還能檢測潛伏期賬戶，起到提前預警作用。

據介紹，DataVisor一般通過挖掘平台用戶的三類數據：賬戶註冊信息、行為信息以及其他信息（IP、地理位置、設備等）。「下一步，把該平台一段時間內進行同一行為的用戶放在一起來檢測，聚類分析，發現賬號間的相似性和相關性，形成單個用戶畫像。」比如，當一個新用戶註冊時，平台無法獲知更多信息，但是聯繫所有用戶時，可能有一些用戶使用非常相同或相似的頭像、名字、手機型號等，行為就凸顯出來了。

謝映蓮告訴雷鋒網，目前無監督機器學習在實際應用中比較少，難度是在於如何設計演算法、體系架構以及保障演算法的效果。

另一個也在無監督學習體系下的技術是自動規則引擎。傳統規則引擎都是人工調試，DataVisor在此基礎上利用機器學習技術，挖掘出了很多欺詐群組，而每個群組都有一條或者多條規則，那麼如何將這些結果轉化成人類可以理解的規則，以滿足監管或者其他需求呢？

據稱，他們會總結規則的相似性，並用統計原理對規則的生成進行嚴格的測試，從而使之既有解釋性，又能滿足平台的需求。

「總的來說，這三種技術有著不同的作用，形成互補。有監督學習在有標籤的情況下，能夠挖掘出有規律的特徵，與無監督學習可以結合利用。而自動規則引擎主要就是滿足解釋性需求，並且減少人工調試的繁瑣和錯誤率。」

此外，他們還打造了DataVisor 全球智能信譽庫，為上述技術提供數據支持。主要通過挖掘、整合攻擊信號，並進行二度計算，提煉出更具有代表性的信號。據稱，資料庫擁有來自不同領域超過20億用戶的欺詐行為數據，如IP地址、UA信息、郵箱域名、設備類型等。

基於以上三種技術加全球智能信譽庫，他們開發了用戶分析平台。由於該平台本身就具有通用和可延展性，所以能夠與不同的數據、不同的使用場景掛鉤對接，也就出現了八大應用場景。

進入中國，發力金融

那麼在實際應用，DataVisor是如何結合應用場景，為客戶提供服務的呢？

謝映蓮表示，第一階段非常重要的工作就是幫助客戶梳理和清洗數據，數據的質量與演算法的好壞也是密不可分。雖然DataVisor會面臨數據全面與準確性的挑戰，但她也指出，各機構關於數據的意識已經比較強烈，「會有一些（數據梳理）基礎，雖然參差不齊。」

下一步是理解客戶的業務場景和需求痛點，「將我們的演算法和對方數據相結合，幫助客戶解決實際問題。」上述完成後，需要對相當於技術框架和產品進行調試，根據客戶反饋進行一到兩次調優，然後進入產品上線階段。

客戶可以通過DataVisor用戶界面、用戶分析控制台獲取檢測結果，或者通過DataVisor結果API批量導出或實時傳送檢測結果，或者直接購買規則自行建冊。根據客戶不同的業務需求，DataVisor數據分析平台提供多種類型部署選項，包括內部部署、SaaS服務和私有雲部署。

據稱，DataVisor的客戶有如美國最大點評網站Yelp、Pinterest，以及財富500強金融機構等。2016年11月，正式進入中國市場後，在國內建立合作的公司包括大眾點評、獵豹移動、今日頭條等。

DataVisor還表示下一步將會發力金融行業。據謝映蓮介紹，當前與金融機構的合作主要集中在賬號保護、信貸申請、交易結算和反洗錢方面。以前述財富500強公司為例，該公司在超過200個國家提供服務並且已經進入金融服務行業超過100年，DataVisor主要為其提供反交易欺詐服務。該欺詐與風險策略總監能夠在欺詐者發起攻擊前數天或數小時檢測到他們，使欺詐交易損失減少超過30%。

另外，美國最大的商家結算支付平台在採用DataVisor一站式風險數據分析平台後，實時阻止了17%的交易糾紛欺詐，每年平均為平台商戶節省超過5萬美元。

而說到國內風控市場，儼然一片紅海，相關技術提供商已經不勝枚舉，漂洋過海的DataVisor如何在競爭中佔據一席之地？

「市場廣闊，難免會有競爭，但我認為這會是良性競爭」，謝映蓮持著樂觀的觀點，「市場不同的參與者會起到不同的作用，有些專做白黑名單、識別指紋這些信號類型的工作，有些像我們提供演算法和平台，都是在完善生態系統。」

她表示，內部有很多華人工程師，中國也是公司未來的戰略重點，並透露了DataVisor國內發展計劃。首先，會繼續提高無監督機器學習技術的智能化，使之能匹配適用更廣泛的場景，減少人工干預。其次，根據客戶需求，進行本地化調整，比如說，對中文語言文字處理的優化；另一方面，國內有較多羊毛黨、刷機行為，規模性更強，會考慮中國的攻擊特點進行調整。

心向技術產品化

「經過微軟的多年經驗，意識到無監督學習的重要性，大家覺得以前的方法是『頭痛醫頭，腳痛醫腳』，而透過互聯網上支付、刷單行為，我們看到本質其實是賬號層面的欺詐。所以我們誕生一個想法——解決賬號生命周期中存在的各種欺詐。」

謝映蓮向雷鋒網描述其立項創業的心路。她表示，微軟研究院有很好的研究氛圍，但是對個人來講，並不滿足於通過和微軟各個部門合作進行的局部創新。其中的「她們」還包括聯合創始人兼CTO俞舫，同樣來自微軟矽谷研究院。

「反欺詐行業一個特點是，對手在不斷變化，問題不是靜止的。我們在不停地追求新技術應對攻擊，另一邊又在將這種技術能力產品化，兩個過程都充滿著挑戰性，也讓我非常興奮。」

這些或可總結為支持她過去十年以及未來可能的數十年，從事該行業的動力。

==============全文完==============

【今日福利】比特幣等虛擬貨幣的波動性總是出乎人意料，資本和人心難以捉摸，但價格的另一影響因素卻樸素得多——技術和應用價值。這也是2017年區塊鏈行業的關鍵詞。過去的一年，在眾多大小公司湧入區塊鏈，POC項目和代幣遍地開花的同時，也有一些先行者呼籲，「不要為了區塊鏈而區塊鏈」。

技術的發展永無止境，在這條探索的道路上，我們看到的不只是屍骨，還有正在建造的座座豐碑。2017年，雷鋒網(公眾號：雷鋒網)曾與數十家區塊鏈行業傳統企業、新創公司進行對話，並報道。現在我們選取了其中8家代表性機構的實踐案例，包括工商銀行、招商銀行、平安集團、銀聯、螞蟻金服等，彙編成特輯報告。除此外，還有20+智能金融公司案例，涵蓋普惠金融、風控信貸、財富管理等議題。

以下為特輯部分目錄：

● 世界經濟論壇報告：全方位評估Fintech將如何顛覆金融業競爭格局，包括路徑、模式和終局

● 前瑞銀大牛：區塊鏈如何變革傳統金融兩大應用模式？

● 區塊鏈+金融，帶你直擊實踐應用中的需求和痛點

● 比特幣、以太坊、區塊鏈、代幣、ICO，你需要知道的一切都在這了

戳這裡 https://www.leiphone.com/specialEdition/detail/s/5a4c9564b9e38 ，查看雷鋒網Fintech年度特輯全文。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷鋒網 的精彩文章:

※開啟新零售模式，佛系90後奇點無人汽車展廳揭幕

TAG:雷鋒網 |