Kaggle:一套完整的網站流量預測模型
今天給大家推薦的是一個名叫Kaggle的網站流量預測項目,本項目採用Python語言開發,可以給大家的流量預測建模提供一些思路。
項目地址
【GitHub傳送門】
數據模型
Kaggle的訓練數據集由大約14.5萬套時間序列組成,每一套時間序列代表的是每天不同維基百科文章頁的瀏覽次數,時間記錄的周期為2015年7月1日到2017年9月10日。而我們的目標是為了預測2017年9月13日到2017年11月13日之間每天的頁面瀏覽量。其中,需要檢測的流量包括移動端、桌面端以及爬蟲流量。
註:模型的評價指標為SMAPE。
測評方法
使用了一個單一的神經網路來對14.5萬套時間序列進行建模,該模型架構跟WaveNet非常相似,主要由擴展卷積和因果卷積網路組成,整個概念如下圖所示:
為了讓數據模型適應並生成整個64天的相干預測值,我們還需要對模型進行一些修改。為了在條件信息不足的情況下盡量減少錯誤序列信息的生成,我們採用了一種「序列-序列」的方法,其中的編碼器和解碼器不會共享參數。這樣一來,我們就可以在模型生成長序列的情況下讓解碼器來負責處理積累的雜訊了。
下面給出的是一些樣本預測,並演示了一些可以捕捉和預測的網路模型。其中,預測值為黃色,灰色的是真實數據值,Y軸為對數變換:
配置要求
12 GBGPU(建議)+Python2.7
Python數據包:
numpy==1.13.1
pandas==0.19.2
scikit-learn==0.18.1
tensorflow==1.3.0
* 參考來源:github,FB小編Alpha_h4ck編譯,轉載請註明來自FreeBuf.COM


※晶元漏洞:Meltdown的POC公開;英特爾發布測試結果;IBM 等發布更新
※遭遇史上最大加密貨幣被盜案,日本Coincheck將自己掏錢彌補
TAG:FreeBuf |