金融人群系統-VSP
背景
從2016年起,唯品金融大數據從電商平台開始不斷拓展新的業務領域,在金融、支付、物流、廣告各個領域衍生出許多產品,依託商城為主體的電商平台,海量的優質用戶與高頻應用必然會產生大量的數據。
目前唯品金融的數據量級已經達到eb級別,每天以pb量級的單位增長著。實時計算日常運維要求秒級內延遲,今年的11.11大促更是達到了歷史峰值。
實時計算在唯品金融大數據內部廣泛應用,隨著新經濟體的出現與發展,唯品會/京東/騰訊的強強聯手,技術的革新和高品質用戶需求的提升,數據量的增大對實時計算的實現、性能提出了更高的要求。
以此為背景,我們調研發現有如下具體的需求場景
瀏覽行為數據
根據用戶位置、實時瀏覽軌跡、商品價格變化等實現精準推薦、廣告
營銷場景數據
實時獲取運營情況,實時決策支持,比如調整運營策略,活動促銷等
主動反饋數據
Top排行榜: 評論、點贊、分享、交互等。
應用自營數據
唯品花活動,唯品花生態圈數據流量情況。
為滿足商城以上需求場景、多方應用的打通和相互調用。主要是依據數據和運營的具體情況,根據不同的定向條件篩選用戶人群,比如對用戶的興趣,用戶的消費能力,瀏覽行為,徵信,是否有轉化等等多個維度進行描述。同時,也會對不同的行業比如金融,廣告,徵信等劃分不同的定向條件運營。
簡言之:如何通過各種標籤把一個人描述出來
我們的系統叫做:金融人群系統(VSP),它由6個核心組件組成
Strom:提供分散式實時數據計算服務
Hadoop與hive:提供著大數據的運行環境與離線計算數據支持
kafka:高吞吐量的分散式發布訂閱消息系統
redis:基於Key-Value,高性能的內存資料庫,主要存儲storm計算結果
VSP運營管理後台:運營配置管理,主要支持人群/屬性計算策略配置
這篇文章,將向您介紹金融人群系統(VSP)有哪些特點,並了解實時計算、消息系統、和流計算結果存儲服務,金融大數據運營管理系統怎樣相互支持運作的。
1
實時數據接入
巧婦無米之炊,架構之初,我們首要解決的問題是找到一套標準的技術流程來解決實時數據接入的問題,目前支持數據接入方式有三種: JDBC , KAFKA , VDP
方式一:JDBC
通過JDBC方式獲取資料庫變化記錄
優點:適用多種資料庫
缺點:強依賴訂閱表中必須有update_time欄位並且update_time必須要根據表欄位變化而變化,只適用於部分屬性計算規則,如:最大值,最小值,覆蓋更新計算策略,但不適用於拼接(或)求和這些計算策略;
方式二:KAFKA
由業務方主動拋消息,VSP訂閱這些消息來進行實時計算
優點:由業務方主動拋消息,VSP直接訂閱,不需要依賴數據update_time
缺點:依賴業務方拋消息及時準確,跟JDBC一樣,只適用於部分計算規則
方式三:VDP
通過公司的VDP系統,訂閱資料庫的binlog消息
優點: 通過解析binlog,把update/insert/delete 操作的數據都會拋到VMS,支持更多的計算規則,包括最大值,最小值,覆蓋更新,求和,拼接屬性計算策略
缺點:依賴公司VDP系統支持解析的數據binlog版本,目前支持mysql主流版本binlog的解析
vdp架構插圖
2
Strom實時流水線上的藝術
上文中我們提到了實時數據的接入,還需具備有實時計算數據的能力,Storm擁有低延遲、高性能、分散式、可擴展、容錯等特性,更匹配唯品金融大數據嚴格的技術標準,未來的擴展和升級更方便。
以下是金融人群系統-實時計算模塊STORM架構圖
3
實時計算策略
1
數據維度
在實際計算過程中,根據不同的維度對數據進行了劃分,並在劃分數據集上進行計算。數據維度主要支持以下五種
移動設備IDmid維度
商戶IDsid維度
待擴展...
uid維度商城用戶ID
cid維度cookiesID
pid維度臨時維度ID
2
計算策略
計算策略函數,與取值策略函數,都可以自定義函數策略。
我們採用配置化的形式來支持多種形式的函數篩選處理過程,經VSP管理後台配置之後即可在實時拓撲計算里使用
最大值:
計算用戶最大的訂單金額
覆蓋更新:
獲取用戶最新變化的手機
求和:
適用於統計類,如:計算訂單總金額
最小值:
獲取用戶首次登記時間
字元拼接:
歷史數據拼接,如統計已有未用25元紅包,需要把當前用戶下所有紅包記錄拼接起來
3
指標取值策略
策略觸發是經過一系列的演算法分揀和模型。單純的數據只是一些位元組的流入,在流經拓撲計算鏈路過程中必須通過對數據的清洗去除數據中的雜質,提取特徵數據
介面--通過介面方式獲取值,如:跨庫查詢
欄位取值--直接通過表某一欄位取值
Avaitor表達式--可通過表的某幾個欄位進行條件運算
4
金融大數據運營管理系統
運營管理系統主要用於配置與監控實時屬性、離線屬性、人群等功能,它提供了統一UI管理我們的各種標籤。相當於智慧中心,協調Storm裡面的運算。下面簡要介紹其中的5核心個功能
功能一:屬性/人群規則配置
管理屬性規則求和,最大值,最小值,覆蓋,拼接配置
功能二:屬性/人群數據監控
主要提供以下幾種報表
1、提供屬性修正監控報表 2、VSP-API調用場景報表 3、人群總數統計報表 4、實時屬性計算最近一次變化展示報表
功能三:屬性/人群灰度規則配置
1、支持對屬性/人群標籤進行灰度開放,如灰度10%、30% ,最小支持百萬分比的灰度開放
2、支持在一個活動灰度的基礎上,再做二次活動灰度(offset)
3、支持灰度白名單配置,配合驗收灰度
功能四:白名單配置
主要支持驗收屬性/人群標籤
功能五:動態離線人群配置
根據配置離線屬性,動態生成離線人群數據調度和推送任務
業務價值
1
金融-優惠獨享活動
1、獨享專場內的轉化率提升400%
2、避免了紅包重複發放,降低成本
3、為其它人群提供最重要最基本的屬性,提高延展性
2
風控-風控信用決策
風控審批通過率提升3~5%,欺詐風控得到有效控制
3
商務-廣告流量運營
1、二次曝光人群的【曝光→首單轉化】提升13.7%
2、三次曝光人群的【曝光→首單轉化】提升63.6%
SUMMARY
Vsp能夠很好的滿足企業級實時計算的需求,它能夠使用較少的資源來快速響應各種人群標籤的處理,可直接通過配置計算策略就可以實現一個屬性的開發,目前vsp支持了唯品會用戶級別的服務,與上億的數據流計算。如是否開通唯品花,支持實時埋點數據,在活動,風控,金融,3個方面發揮著非常顯著的成效,再後面的不斷開發積累和進化完善中,我們還將支持離線人群的計算,更多的自定義屬性。
TAG:唯品金融大數據 |