你問我答：十問機器學習

最新 03-16

更多騰訊海量技術文章，請關注騰訊雲+社區：https://cloud.tencent.com/developer

由美團點評技術團隊發布在騰訊雲+社區

原文標題：十問機器學習

本文中的問題精選自上期【你問我答】——深度學習專題中讀者的提問。【你問我答】是由美團點評技術團隊推出的線上問答服務，你在工作學習中遇到的各種技術問題，都可以通過我們微信公眾號發問，我們5000+工程師會義務為你解答，歡迎大家踴躍提問。高質量、定義清晰的問題會優先獲得解答。

Q1：您好，有一個問題想請教一下。這裡有一批用戶的App行為數據，但是有些存在缺失，怎樣從相對完整的用戶行為數據中，推斷出用戶缺失的那部分行為數據？思路是怎樣的？

A：如果缺失的用戶行為數據是數值型，可以建立預測缺失數據的模型，用已有數據訓練模型，然後預測結果填充；如果不是，比如埋點統計的用戶操作行為之類的，可以通過統計已有數據的分布規律，用隨機函數+規則去填充。

Q2：第一，想問下特徵提取以及如何刪除一些無用的特徵。第二，美團點評都使用了哪些推薦系統演算法？

A：1. 特徵提取的關鍵在於理解業務數據和業務邏輯，這樣才能分析出哪些因素與預測目標相關，另外某些場景還需要對原始特徵進行特定的數學變換才能更好地應用。特徵篩選可採用的策略比較多，比如樹模型、L1正則化等等，主流工具是XGBoost。 2. 美團點評的推薦系統里，召回主要是融合協同過濾、位置、搜索查詢、實時用戶行為等演算法。排序主要採用Learning to Rank技術。

Q3：機器學習的最優新手路程是什麼，有沒有一套標準的書的欄目？

A：建議看李航的《統計學習方法》打好基礎，配合視頻coursra《Machine Learning》。喜歡看視頻的同學可以看下台大林軒田的兩套視頻。之後，開始找一些簡單的競賽題目（基礎的點擊預估）練手，推薦工具：pandas，sklearn。

Q4：機器學習模型篩選特徵一般怎麼做？

A：我了解到的篩選特徵有兩大類，第一類是用固定的評價指標衡量特徵對數據的描述能力，例如使用ID3決策樹對數據進行分類，就能利用IC3內部的信息增益機制知道哪些特徵能夠很好的區分數據（信息增益最大），然後用篩選出的特徵子集放到自己的模型里訓練；第二類是利用模型的反饋來篩選特徵，例如向初始為空的特徵子集中不斷添加能夠最大提高模型預測能力的特徵，直到添加的特徵對模型的預測能力幾乎沒有提升為止。同樣逐步刪除特徵是該類方法下另一種比較常見的選擇特徵方式。兩大類方法的區別是第一類速度快，但是缺少反饋，第二類結果比較好，但是速度太慢。

Q5：L1正則可以獲得稀疏解的數學原理是什麼？

A：從梯度下降方法看，由於L1範數的梯度恆定，帶來的懲罰效果與位置無關，從而更容易將原損失函數懲罰到0。

Q6：文本分類有什麼比較好的演算法嗎？性能能明顯超過tfidf/word2vec + linearsvm/bayes這類傳統方法的，謝謝~

A：還是強推一波textCNN，如果embedding那段訓練數據量不夠，可以使用word2vec代替，效果還是很不錯的。

Q7：請教一下，搜索排序的樣本集怎麼取？我理解模型的作用是對全部返回的item進行排序，但訓練的時候卻只用了曝光出來的數據，已經使用了線上模型的排序結果，這樣會不會造成越是線上模型認為重要的特徵越會被低估重要度？召回層和排序層的區分是想解決這個問題嗎？

A：一般訓練是這樣，但是特徵提取有泛化性，所以沒曝光的結果也可以被很好地學習。召回更多是希望減少精排計算量，又儘可能不損失用戶感興趣結果。

Q8：請教一下，基於wide&deep的推薦排序模型那塊，訓練集的特徵標註是通過人工標註還是其他方式？

A：W&D推薦標註都是基於用戶行為數據自動標註的。

Q9：以前做視頻中的目標檢測，用VIBE演算法就能取得較好效果，現在都用深度學習做嗎？

A：視頻中的目標檢測，目前深度學習方法在該領域佔據統治地位，ILSVRC 2016 VID比賽的前五名都是深度學習。VIBE的實時性不錯，但性能和深度學習比還是有明顯差距的。

Q10：想問一下有沒有人使用過FM模型來算點擊率的？有沒有哪些開源工程化的代碼可以參考呢？

A：Kaggle上面有一些點擊率的比賽，都有公開的代碼，可以參考一下 Criteo Display Advertising Challenge 和 Avazu Click-Through Rate Prediction等。