當前位置:
首頁 > 最新 > No.56推薦系統概述

No.56推薦系統概述

GIF/184K

轉載聲明

本文為燈塔大數據原創內容,歡迎個人轉載至朋友圈,其他機構轉載請在文章開頭標註:

轉自:燈塔大數據;微信:DTbigdata

編者按:燈塔大數據將每周持續推出《從零開始學大數據演算法》的連載,本書為哈爾濱工業大學著名教授王宏志老師的扛鼎力作,以對話的形式深入淺出的從何為大數據說到大數據演算法再到大數據技術的應用,帶我們在大數據技術的海洋里徜徉~每周五定期更新

上期回顧&查看方式

在上一期,我們學習了分類演算法——Naive Bayes的相關內容。PS:了解了上期詳細內容,請在自定義菜單欄中點擊「燈塔數據」—「技術連載」進行查看;或者滑到文末【往期推薦】查看。

NO.56

推薦系統概述

Mr. 王:在現在的網路購物平台和電影、圖書分享平台中,還有一類非常廣泛存在的機制——推薦機制。

小可:在我打開的購物網站右側經常有一列推薦購買的商品,它們往往和我以前購買過的商品非常相似,或者是同一個品牌,或者是同一種類型的商品,或者是廣受大家歡迎的商品。

Mr. 王:今天我們就來討論關於推薦系統的問題。在很久以前,對於零售商來說,貨架上的商品可能只有少數幾種,當用戶提出一個需求時,零售商將商品全部拿出來放在桌面上供用戶選擇也是非常容易的。但隨著互聯網逐漸發達起來,以及各種網路購物平台的興起,商品不再是一種稀缺的資源,網路使零成本產品信息傳播成為可能。這也就導致了商品信息在網路上過剩的情況。

小可:是啊,現在購物平台上的商品真是太豐富了,每當我打開一個購物網站,搜索一個關鍵詞時,就會有超過10 頁的內容被檢索出來。

Mr. 王:不過經常網購的人會知道,第二頁以後的內容,往往就很少去看了。

小可:是啊,多數人是不會把找出來的10 頁內容都看完的,太浪費時間了,大多數時候我只看第一頁。

Mr. 王:不僅僅是在網路購物平台上,在電影和書籍這樣的交流平台上也是如此。現在網路上的影片非常多,書籍也非常多,當我去搜索一個類別時,比如輸入「科幻,美國,1990年以後」這樣的關鍵詞之後,也會產生大量的檢索結果。此時也存在影片或者書籍信息過剩的問題。包括在XBOX 和STEAM 這樣的遊戲平台上,將哪些遊戲推薦給用戶;在ZAKER、今日頭條這樣的新聞資訊平台中,選擇將哪些消息推送給用戶;在YouTube 這樣的視頻網站中,如何去發現用戶喜歡的視頻,並推薦給用戶,都是平台不得不考慮的問題。就如你說的一樣,在平台向用戶推送了大量的信息之後,多數人會去看的信息只有前幾頁甚至只有第一頁,他們不會看完所有的檢索結果。現在我們就要考慮一個問題,既然用戶並不關心所有的檢索結果,而只關心放在最前面的那些結果,那麼一個購物平台的設計者就要研究應該將哪些內容放在最前面;如果採用只返回檢索結果的一部分的策略,要考慮的就是將哪一部分返回給用戶。所以在這些平台中,需要設計一個「推薦系統」。

小可:的確,各大網站和平台都有自己排序機制,這都是推薦系統在發揮作用吧。

Mr. 王:從用戶角度來看,你見過哪些推薦系統呢?

小可:隱性的有比如檢索結果的排序;顯性的就像淘寶網右側的推薦列表、要目列表;音樂軟體中常見的有熱歌TOP 100、最流行、最新上載;還有像Amazon、京東這樣的網站會根據用戶最近的訪問情況和之前的購買情況,對每個用戶進行個性化定製,推薦用戶可能會喜歡的商品。

Mr. 王:好,接下來我們就來研究這些推薦系統的原理,看看這些推薦系統內部使用了怎樣的方法,從而實現高準確度的推薦。首先我們要看看一個推薦系統的模型是怎樣的。對於一個推薦系統來說,兩個基本的要素就是用戶集X和項目集S。在一個電影推薦平台中,X 就是訪問網站請求推薦,並且對電影進行評分的那些用戶的集合;S 就是影片的集合。於是我們給出一個評估模型,稱作效用矩陣。在效用矩陣中,每一行是一個用戶,每一列是一個項目,每一個數據記錄著某個用戶x ∈ X 對某個項目s ∈ S 的一個評分。比如下圖:基於效用矩陣,我們提出效用函數的概念。在不同的系統中,效用函數的定義可能不完全相同,但其都符合效用函數u :X×S R 這種形式。其中R 是評分集,它是一個完全有序集。常見的R就比如在電影評分中那種0 ~ 5 星的形式,或者簡單一點,就是[0,1] 之間的一個實數等。

形成並使用效用矩陣模型的主要步驟如下:

(1)收集已知評分形成效用矩陣。在實際應用中,就涉及如何去收集這個效 用矩陣

中數據的問題。

(2)根據已知的評分推斷未知的評分。這是使用效用矩陣的關鍵,當效用矩陣中的數據已

經收集好之後,我們如何利用效用矩陣進行用戶推薦。這裡不難想到,用戶喜歡的影片應該是

自己沒有評分過,而且別的用戶評分比較高的那些影片。

(3). 評估推斷方法。單單給出推薦還不夠,還要考慮如何去評價推薦結果,以便能夠改

進推薦系統,從而提供更加優質的推薦服務。

小可:一般來說,推薦系統都如何去構建效用矩陣呢?

Mr. 王:本質上,效用矩陣的構建就是去收集大量的用戶評分,然後將評分填到矩陣中去。常用的收集用戶評分方法有顯式評價和隱式評價兩種。在顯式評價中,要求用戶直接對項目給出評分。這種方法在實際中並不總受用戶歡迎,有些用戶比較喜歡評分和寫影評工作,而有些用戶會覺得進行評分是一項很麻煩、累贅的工作,對自己是一種困擾。而在隱式評價中,不直接向用戶索求評分,而是從用戶的行為中學習其評分。比如在網路購物中,就可以根據用戶以往的購買習慣,推測用戶喜歡什麼樣的商品,從而給出推薦。就是基於這樣一種思想,用戶購買意味著用戶對這件商品給出了較高的評分。當然這不是絕對的,用戶不購買就代表低評分嗎?這似乎也不一定,所以在這樣的應用環境中,「什麼代表低評分」也是一個值得思考的問題。

小可:嗯,很多用戶確實不太喜歡對他們所選擇的每項目都進行評分,在音樂平台上,如果我每聽一首歌系統都要提示我給出一個評分的話,也確實挺麻煩的。

Mr. 王:正是由於用戶有這樣的看法,導致大多數人沒有評價過大多數項目,換句話說,大多數項目是沒有人進行評價的。這就導致了效用矩陣U 往往是非常稀疏的。另外,推薦系統還存在「冷啟動」的問題。一些新推出的項目是沒有評分的,它們剛剛出現在平台上,用戶還沒來得及對它們進行評分;相應的,平台對於新用戶的喜好也是認識不足的,因為平台中沒有任何關於新用戶的歷史數據。這也是兩個比較棘手的問題。

小可:嗯,這些問題在實際的系統中的確非常常見,那我們該如何去解決這些問題呢?

Mr. 王:接下來就介紹幾種在實際中常常用到的推薦方法,看看它們是如何有效應對這些問題的。

下期精彩預告


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 燈塔大數據 的精彩文章:

年薪50萬的BD&AI人才將在第五屆CCF大數據與計算智能大賽中脫穎而出
DeepMind到底是如何教AI玩遊戲的?
為網路新人而準備——七步理解深度學習

TAG:燈塔大數據 |