三言兩語推薦系統之二——數據預處理

最新 05-24

上一篇我們主要講了一下爬蟲的整體結構，在獲取數據之後，我們需要對數據進行一個預處理操作，其主要目的是清理掉異常的數據，使其不會進入到我們的推薦系統裡面，這樣我們推薦系統的數據才會幹乾淨凈，由此產生的推薦內容才會稱心如意。

那何為臟數據呢？在不同的場景會有不同的定義，我這裡列舉幾個針對內容推薦類系統的臟數據，其餘領域請自由發揮。

第一類：數據欄位缺失的數據。

數據都是由欄位組成，內容中存在很多我們需要的欄位，但是卻沒有值，這樣的數據就是數據欄位缺失的數據。舉個最簡單例子，如果我們抓取了一個網頁，想拿到網頁的內容，最後卻發現格式化之後的數據內容欄位居然是空的，那豈不是竹籃打水一場空，那我們肯定是不需要這個數據了，果斷拋棄，這樣的數據就屬於數據欄位缺失的數據。

第二類：低質量的數據。

數據質量的高低很難有一個理性的評價。低質量有的時候是很難定義的，針對不同的人群，不同的人，不同的場景，判斷一個內容是好是壞都會有不同的標準。所以考慮這個問題的時候，主要考量的是內容本身，以及內容的生產者。對於內容本身而言，如果一個內容本身主題就很分散，而且語句不通，那可以認為是低質量的內容。對於內容生產者而言，如果他產生的內容大家都不喜歡看，評論都是持否定的態度，那我們也可以認為這是低質量的內容。這一塊如果要做得複雜一些是可以通過演算法訓練模型來去判斷的，這樣可以綜合的考慮更多的因素。

第三類：低俗內容（我們要做一個正能量的推薦）

低俗內容也許很有市場，但是我們要傳播正能量，所以我們不堅決杜絕成為低俗內容的搬運工，於是乎，碰到這些內容我們就要堅決果斷的剔除掉。最簡單的方式就是創建一個低俗詞詞庫，只要內容中包含這些詞，我們就可以認為是低俗的內容，然後拋棄它。

第四類：無效內容和過期數據

內容的有效性判斷也是預處理中非常重要的環節。內容的有效性，包括內容的真實性，內容的時效性等等。

內容的真實性是一個比較難判斷的方面，因此很多公司提供了不同的方式來去處理這些內容。比如，Google為新聞搜索增加真實性檢查工具，微軟也做了這方面的工作。不過要完全杜絕它還是有一定難度的，更多的還是要發動群眾的力量，大家來去舉報抵制不實內容，做到不傳謠不信謠，那麼謠言不攻自破。

之後是時效性，有些內容可能只有在某個特定的時候大家才會感興趣，過了這段時間大家的興趣就會驟減，比如新聞，娛樂圈的八卦等等。所以在推薦的時候也需要進行內容時效性的判斷，最簡單的方式就是判斷內容中是否有跟時間相關的內容，有的話提取出來，然後給出相應的判斷，當然這一塊也可以通過演算法的方式來去做。

關於內容類數據預處理的方式今天就介紹到這裡了，去除了這四類雜質數據，我們的訓練樣本才會幹乾淨凈。下一篇，我們會介紹針對內容去重，一大波演算法公式襲來，你期待了嗎？反正我是等不及了，哈哈。我們下次見。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 倘使我是蟹 的精彩文章:

TAG:倘使我是蟹 |