當前位置:
首頁 > 最新 > 初識個性化推薦系統

初識個性化推薦系統

為什麼需要個性化推薦?

科技進步帶來的是更大程度地提高效率和生產力已經是無可爭辯的事實。

隨著時代變遷的廣告業,從廣播、電視業廣告的輝煌,到互聯網門戶時代的banner廣告和狂轟亂炸的edm,再到了搜索引擎和移動互聯網時代的推薦位廣告,隨著人們的數據可被記錄並且計算,也隨之產生了計算廣告學這門新興學科。

從廣撒網的廣告形式到精準地捕捉到用戶的需求,並且呈現給用戶更加恰當的廣告,給互聯網公司帶來了巨額的廣告收入,這中間推薦系統功不可沒。

早期的門戶網站充斥著banner廣告,並沒有精準觸達用戶

電商的推薦系統則幫助電商網站大大提高銷售額,亞馬遜通過個性化推薦系統能夠提高35%的銷售量。

在2016年,推薦演算法能夠為Netflix節省每年10億美元。讓其中的冷門內容也能夠發揮作用,需要依賴基於用戶習慣數據的個性化推薦系統——利用個性化推薦,相比簡單展示最受歡迎清單,觀看率提升3-4倍。

推薦系統的核心思想

凱文凱利曾經在《失控》中曾經說到蜂群的故事:

蜜蜂看到一條信息:「去那兒,那是個好地方」。它們去看過之後回來舞蹈說,「是的,真是個好地方。」 通過這種重複強調,所屬意的地點吸引了更多的探訪者,由此又有更多的探訪者加入進來。按照收益遞增的法則,得票越多,反對越少。漸漸地,以滾雪球的方式形成一個大的群舞,成為舞曲終章的主宰,最大的蜂群獲勝。

凱文凱利用超級有機體可以來形容蜂群。同樣,這個詞也可以來形容整個互聯網上的人群。他們在網路上留下的痕迹可以說是無意識的,但是也帶有了某種「集群的意識」。

扯遠了,還是來看看互聯網集群智慧的例子:

Wikipedia-用戶貢獻內容:Wikipedia是一件集群智慧的典型產物,它完全由用戶來維護,因為每一篇文章都會有大量的用戶去進行修改,所以最終的結果很少出現問題,而那些惡意的操作行為也會因為有海量的用戶的維護而被儘快地修復。

Google-利用海量數據進行判斷:Google的Pagerank演算法的核心思想是通過其他網頁對當前網頁的引用數來判斷網頁的等級,這種演算法需要通過海量的用戶數據來進行。

協同過濾

說到個性化推薦最常用的設計思想,不得不說說協同過濾,它一種在做個性化推薦時候的方法論。

因為如果僅僅按照單一的熱門推薦,網路的馬太效應(指強者愈強、弱者愈弱的現象)就會明顯;且長尾中物品較難被用戶發現,造成了資源浪費。而協同過濾問題恰恰解決了用戶的個性化需求(用戶更願意打開自己感興趣或者熟悉的內容),使得長尾上的物品有了被展示和消費的可能性,也使得馬太效應相對弱化。

協同過濾包括兩種類型:

1.Item-CF(基於物品的協同過濾):

小明在網站上看了《超人歸來》的電影,系統就會推薦與這部電影的相似的電影,比如《蜘蛛俠2》給小明。這是基於電影之間的相似性做出的推薦。(注意:兩部電影時間的是否相似是由大量用戶是否同時都看了這兩部電影得到的。如果大量用戶看了A電影,同時也看了B電影,即可認為這兩部的電影是相似的,所以Item-CF仍然是基於用戶行為的。)

騰訊視頻中,當觀看《超人歸來》時系統推送的電影

2.User-CF(基於用戶的協同過濾):

小明在購物網站上買了一副耳機,系統中會找出與小明相似的「近鄰好友」他們除了買耳機之外,還買了什麼。如果與小明相似的「近鄰」小華還買過音箱,而這件東西小明還沒買過,系統就會給小明推薦音箱。這是基於用戶之間的相似性做出的推薦。

註:這裡的CF=collaborative filtering

而這兩種類型的協同過濾都是要基於用戶行為來進行。

而除了協同過濾之外,還有基於內容的推薦、基於知識的推薦、混合推薦等方式。

物以類聚,人以群分。

這句話很好地解釋了協同過濾這種方法的思想。

亞馬遜網站上對圖書的推薦 -基於Item-CF

前一陣參加pmcaff的人工智慧產品經理的活動,主講人香港中文大學的湯曉鷗教授(目前人工智慧視覺方面的頂級專家)說,目前機器視覺領域可以通過社交網路照片或者個人相冊中的圖片的學習,可以做到預測個人徵信。與誰的合影,在什麼地方拍照都成為了機器預測個人特徵的判斷因素。

這也是利用了「人以群分"的常識,只是加上了高大上的機器視覺技術而已。

機器學習與個性化推薦的關係

什麼是機器學習?《集群智慧編程》這本書里是這麼解釋的:

機器學習是人工智慧領域中與演算法相關的一個子域,它允許計算機不斷地進行學習。大多數情況下,這相當於將一組數據傳遞給演算法,並由演算法推斷出與這些數據的屬性相關的信息-藉助這些信息,演算法就能夠預測出未來有可能出現的其他數據。這種預測是完全有可能的,因為幾乎所有非隨機數據中,都會包含這樣或那樣的「模式(patterns)」,這些模式的存在使機器得以據此進行歸納。為了實現歸納,機器會利用它所認定的出現數據中的重要特徵對數據進行「訓練」,並藉此得到一個模型。

機器學習本質上是從數據中構建模型來進行「數據預測」或者「下決定」的事兒,而個性化推薦系統的本質,也是預測用戶可能感興趣的事兒。機器學習可以用來做個性化推薦系統,也可以做其他類型的預測,比如金融欺詐偵測、安防、股票市場分析、垃圾email過濾等等。

這張圖很好地解釋了機器學習的工作過程。機器學習分為無監督學習和有監督學習兩種,也有延伸出增強學習和半監督學習的方法。

Hadoop與Mahout

那些推薦演算法這裡不再贅述,但是大數據技術方面的基礎知識,作為小白還是需要要有所了解。

眾所周知,推薦系統的數據處理往往是海量的,所以處理這些數據的時候要用到像Hadoop這樣的分散式處理軟體框架。

Hadoop是一個能夠對大量數據進行分散式處理的軟體框架。 Hadoop 以一種可靠、高效、可伸縮的方式進行數據處理。

Hadoop是一個生造出來的詞,而Mahout中文意思就是象夫,可以看出,如果把大數據比作一隻大象的話,那mahout就是就是指揮大數據進行運算的指揮官。

Mahout 是 Apache Software Foundation(ASF) 旗下的一個開源項目,提供一些可擴展的機器學習領域經典演算法的實現,旨在幫助開發人員更加方便快捷地創建智能應用程序。

其目的也和其他的開源項目一樣,Mahout避免了在機器學習演算法上重複造輪子。

參考資料

《集群智慧編程》-Toby Segara

《煉數成金推薦系統課程》

《失控》-凱文凱利

《機器學習的本質是人類學習?5大要素詳解個性化推薦的商業化之路》-紀達麒

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 點海創新 的精彩文章:

TAG:點海創新 |