當前位置:
首頁 > 最新 > SPA大賽:如何預測移動 App 廣告點擊率

SPA大賽:如何預測移動 App 廣告點擊率

更多騰訊海量技術文章,請關注云加社區:https://cloud.tencent.com/developer

作者:周鴻宇

1 問題描述

計算廣告是互聯網最重要的商業模式之一,廣告投放效果通常通過曝光、點擊和轉化各環節來衡量,大多數廣告系統受廣告效果數據迴流的限制只能通過曝光或點擊作為投放效果的衡量標準開展優化。騰訊社交廣告發揮特有的用戶識別和轉化跟蹤數據能力,幫助廣告主跟蹤廣告投放後的轉化效果,基於廣告轉化數據訓練轉化率預估模型(pCVR,Predicted Conversion Rate),在廣告排序中引入pCVR因子優化廣告投放效果,提升ROI。本題目以移動App廣告為研究對象,預測App廣告點擊後被激活的概率:pCVR=P(conversion=1 | Ad,User,Context),即給定廣告、用戶和上下文情況下廣告被點擊後發生激活的概率。

2 數據概覽

提供的數據主要有以下幾種:

1 訓練數據文件(train.csv),其中用戶、APP等信息為獨立文件

2 用戶基礎特徵文件(user.csv),包含用戶的年齡性別等

3 用戶App安裝列表文件(user_installedapps.csv)

4 用戶App安裝流水文件(user_app_actions.csv),提供了訓練數據開始時間之前16天開始連續30天的操作流水,即第1天0點到第31天0點

5 App特徵文件(app_categories.csv),提供了每種APP的特徵。

6 廣告特徵文件(ad.csv)

7 廣告位特徵文件(position.csv)

3.1 初賽數據描述

測試數據從訓練數據時段隨後1天(即第31天)的廣告日誌中按照與訓練數據同樣的採樣方式抽取得到。需要根據訓練數據所給出的信息,對數據集中Label -1的待預測信息進行預測。

3.2數據預處理

數據的預處理主要通過pandas實現,主要包括了平滑,採樣,將數據分級操作。預處理的目的主要是解決以下問題:

1 不同量綱

2 信息冗餘

3 定性信息量化

4 缺失值處理

5 提高信息利用率

第一個版本數據處理代碼如下:

3.3 問題分析

有這麼一句話在業界廣泛流傳:數據和特徵決定了機器學習的上限,而模型和演算法只是逼近這個上限而已。

由於數據集裡面特徵較多,對時序的要求不是很高。於是重點放在了特徵的分析與選擇上。開始特徵選擇使用了sklearn裡面的feature_selection模塊。

但是這個模塊跑起來比較占內存電腦實在不給力,特徵多起來之後程序運行非常耗時。之後改用pandas直接進行一些統計分析。

同理對每個數據集都進行如上處理。特徵的選擇主要關注幾點:特徵是否發散:如果一個特徵不發散,例如方差接近於0,也就是說樣本在這個特徵上基本上沒有差異,這個特徵對於樣本的區分並沒有什麼用。特徵與目標的相關性:這點比較顯見,與目標相關性高的特徵,應當優選選擇。除方差法外,本文介紹的其他方法均從相關性考慮。選擇方法主要使用Filter方法。

3.4數據探索

訓練模型使用了xgboost,由於github上開發團隊把windows文件夾給刪了,裝這個演算法庫還破費了一些時間。裝上以後簡單跑了一下效果還不錯:

Xgboost的調參網上也有一些博客講,通用的方法是使用cv函數,確定幾個重要參數的範圍。根據cv函數的返回分數調整。另外feature_important分析也很重要,正好在這個函數裡面一起看了。

![](//blog-10039692.file.myqcloud.com/1496979354955_4341_1496979370748.jpg)

在這些之後模型的精度也就到極限了,再想提高就需要從特徵中重新挖掘可用的信息了。我想到的是交叉統計。直接把id特徵相乘,之後再對id乘積的表格中的個數進行統計,這樣就增加了一倍多的特徵,成績也有所上升。之後根據編碼的原理,把特徵進行分級編碼,得到一些有效的維度,也還比較有效

4 總結

實際上我們可以使用sklearn完成幾乎所有特徵處理的工作,而且不管是數據預處理,還是特徵選擇,抑或降維。如果電腦給力的話,可以用它很方便的完成。在這期間有很多不會的,還需要再磨鍊一下水平,有時候哪塊不會就拿IRIS(鳶尾花)數據集開刀。學會了再拿到比賽里用。最後發現其實不一定要使用各種特徵,因為各個特徵也有有隨機因素在裡面的,如果把特徵用的很多,最後模型都不知道擬合到哪去了,關鍵還是結合賽題背景。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雲加社區 的精彩文章:

遊戲差異更新—BSDiff演算法解析

TAG:雲加社區 |