當前位置:
首頁 > 最新 > 三言兩語推薦系統之二——數據預處理

三言兩語推薦系統之二——數據預處理

上一篇我們主要講了一下爬蟲的整體結構,在獲取數據之後,我們需要對數據進行一個預處理操作,其主要目的是清理掉異常的數據,使其不會進入到我們的推薦系統裡面,這樣我們推薦系統的數據才會幹乾淨凈,由此產生的推薦內容才會稱心如意。

那何為臟數據呢?在不同的場景會有不同的定義,我這裡列舉幾個針對內容推薦類系統的臟數據,其餘領域請自由發揮。

第一類:數據欄位缺失的數據。

數據都是由欄位組成,內容中存在很多我們需要的欄位,但是卻沒有值,這樣的數據就是數據欄位缺失的數據。舉個最簡單例子,如果我們抓取了一個網頁,想拿到網頁的內容,最後卻發現格式化之後的數據內容欄位居然是空的,那豈不是竹籃打水一場空,那我們肯定是不需要這個數據了,果斷拋棄,這樣的數據就屬於數據欄位缺失的數據。

第二類:低質量的數據。

數據質量的高低很難有一個理性的評價。低質量有的時候是很難定義的,針對不同的人群,不同的人,不同的場景,判斷一個內容是好是壞都會有不同的標準。所以考慮這個問題的時候,主要考量的是內容本身,以及內容的生產者。對於內容本身而言,如果一個內容本身主題就很分散,而且語句不通,那可以認為是低質量的內容。對於內容生產者而言,如果他產生的內容大家都不喜歡看,評論都是持否定的態度,那我們也可以認為這是低質量的內容。這一塊如果要做得複雜一些是可以通過演算法訓練模型來去判斷的,這樣可以綜合的考慮更多的因素。

第三類:低俗內容(我們要做一個正能量的推薦)

低俗內容也許很有市場,但是我們要傳播正能量,所以我們不堅決杜絕成為低俗內容的搬運工,於是乎,碰到這些內容我們就要堅決果斷的剔除掉。最簡單的方式就是創建一個低俗詞詞庫,只要內容中包含這些詞,我們就可以認為是低俗的內容,然後拋棄它。

第四類:無效內容和過期數據

內容的有效性判斷也是預處理中非常重要的環節。內容的有效性,包括內容的真實性,內容的時效性等等。

內容的真實性是一個比較難判斷的方面,因此很多公司提供了不同的方式來去處理這些內容。比如,Google為新聞搜索增加真實性檢查工具,微軟也做了這方面的工作。不過要完全杜絕它還是有一定難度的,更多的還是要發動群眾的力量,大家來去舉報抵制不實內容,做到不傳謠不信謠,那麼謠言不攻自破。

之後是時效性,有些內容可能只有在某個特定的時候大家才會感興趣,過了這段時間大家的興趣就會驟減,比如新聞,娛樂圈的八卦等等。所以在推薦的時候也需要進行內容時效性的判斷,最簡單的方式就是判斷內容中是否有跟時間相關的內容,有的話提取出來,然後給出相應的判斷,當然這一塊也可以通過演算法的方式來去做。

關於內容類數據預處理的方式今天就介紹到這裡了,去除了這四類雜質數據,我們的訓練樣本才會幹乾淨凈。下一篇,我們會介紹針對內容去重,一大波演算法公式襲來,你期待了嗎?反正我是等不及了,哈哈。我們下次見。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 倘使我是蟹 的精彩文章:

TAG:倘使我是蟹 |