當前位置:
首頁 > 科技 > 「極客公開課·知乎 Live」5 分鐘帶你複習個性化推薦演算法

「極客公開課·知乎 Live」5 分鐘帶你複習個性化推薦演算法

這是極客公園「極客公開課 · Live」2017 年第一期的活動,來自 Hulu 北京研發中心的研發總監周涵寧 Eric,和我們分享了在視頻產品中的推薦系統模型,以及他在 Hulu 的相關技術產品經驗。


  • 什麼是「極客公開課」?

1 位技術產品大牛和 10 位優秀技術產品人圍繞技術產品相關話題,面對面深度分享和討論,共同創造更優的知識與更高的學習效率。

而現在,這種深度的交流方式屬於每一個人,知乎 Live 同步線上實時問答,隨時隨地參與提問互動,與數百人共創一本知乎 live 版的「課堂筆記」

每周 1 次,全年 50 場,極客公開課,推動產品人的自我迭代

以下為本期課堂筆記精華摘要:

什麼是推薦系統?

最早的視頻推薦系統,我們可以追溯到街角的「錄像店」——在那裡你可以租賃到自己喜歡看的碟。但是有了視頻網站後,用戶便可以在家通過 APP 打開智能電視,或者直接上網,找到他要看的視頻、電影。所以推薦系統首先要讓用戶「能夠」找到他想看的內容,其次,在找的過程中,還要讓用戶找的更爽。比如有個用戶進來看了一堆內容,那麼我們把他看的所有的歷史行為,嵌入到推薦引擎當中去。這個推薦引擎就會生成個性化的頻道,下次這個用戶再登錄,或者都不用下一次,過 5 分鐘之後,他看到的內容就會根據他最近發生的歷史行為發生變化,這就是推薦系統的基本邏輯。

  • 基於用戶行為的推薦的局限性

剛剛說的這種方法叫基於用戶行為的推薦,當然是有一定局限性的。比如你只有一個用戶行為的時候,你就不知道他會不會看一個從來沒人看過的內容,這其實就是長尾問題。當你可以積累越來越多的用戶,用戶的歷史行為會有助於你對長尾內容的理解。

  • 基於用戶行為的三代推薦系統模型

推薦系統最終可以抽象成一個優化目標的問題。

我們要想一想,這個推薦系統到底在為誰服務?實際上它在為三類不同的利益相關方在服務:

第一個:用戶。用戶是為了能夠更方便找到他想看的東西。

第二個:平台本身。平台希望連接服務提供商、內容提供商和用戶,他希望賺錢。

第三個:內容提供商,因為內容提供商如果能有更多露出,他在這個渠道上,就會獲得點擊量或者/和品牌效應,那麼他就可以通過一些方法變現,無論是廣告的方法還是在一些離線渠道收買的方法。

所以一個推薦演算法要同時服務三個利益各不相同的相關方,這本身導致了一個矛盾性。

協同濾波

最早的演算法其實比較簡單,叫協同濾波。就是相似的人,我會給他相似的內容,那麼怎麼定義相似的人呢?那就是他們之前具有相同的行為,但這個地方就變成了一個死循環。

後來有人想到一個方法,就叫協同濾波,就是用一個 interactive 的方法去 train,兩邊互相學,然後收鏈,這是一個比較標準的方法。那麼在我們的系統裡面用了大概接近 7、8 年吧,也比較成功。

我們每一個展示叫一個 train,比如 Top picks for you 這是一個最標準的 record train,就是推薦 train.

第二個是 you may also like,你可能也會喜歡,這也是一個推薦的 train。

第三個就是一個子類別。一般大的類別就是言情、動作片,其實這個類別我們還分了一些小類別,比如說這個叫做法庭判案,實際上是動作片下面的一個主類別,這個也可以用推薦演算法來產生。

這個叫 auto play,現在國內大多數網站都會有的功能,你看完了一個就自動播下一個,這個也是根據推薦演算法來產生的。

矩陣分解

現在的產品中我們使用的是矩陣分解的方法。

其實從 Netflix 以後大家就已經意識到矩陣分解是一種很有效的建模方式,它的基本原理就是把用戶作為一個維度,內容作為一個維度,然後建一個二維的矩陣,把這個二維的矩陣找到一個低維的表示,這可能只有 50 或者 100 維,這個個數還是跟內容一樣,所以每個內容有一個 100 維的小的表示,每個用戶也有一個 100 維的小的表示。這兩個作為一個點擊,可以恢復出原來的東西。

為什麼這樣就能工作呢?詳細講解請見知乎 Live

Nade - 深度學習推薦引擎

我們下一代的推薦引擎是用深度學習的方法,具體的方法叫做 Nade,它其實原來是在文本的 top model 裡面的一種方法。我們有一個專家是跟著 Nade 的發明人做博士畢業的,所以他對 Nade 特了解,他來到我們公司之後,就發明了 CF-NADE。這是我們 Hulu 自己發明的一種方法。

其實這個原理也不是很難,就是我們把這個 Nade 看成一個黑箱,基本的想法就是用 Nade 來訓練一個用戶的表示和一個內容的表示,但是這個表示可以不像矩陣分解那麼死,因為它結合的時候不再是一個代數的點程,而是基於一個神經網路的,實際上帶來了更多的自由度。

基於內容的推薦

我們現在在做的一個事,是去了解一個視頻里每一幀他大概的情感是什麼?你要說很複雜的情感現在也很難準確辨別,所以我們做的方法是先做一個 Face Detector,然後再把臉上的表情識別出來,現在也有一些很多現成做表情識別的東西。我們認為表情代表的場景的情感,大家可以看到下面有一些結果。

我們還會藉助視頻和音頻相融合的方式。它有三套方法,一套是基於 CNN 的,一套是基於 RNN 的,還有一套是基於 SVM 的,一共是三套方法,我們會在三套方法中做一些融合。

如何說服用戶?

剛剛講的所有模型,其實最後歸根結底是「做展示」,無論是用貨架的方法來展示,還是用自動播放的方法來展示。但是這個展示的有效性很大程度上是取決於你有沒有打動用戶,你要給她一個很好的理由。我們試圖給出一些推薦的理由,比如我們給這個用戶推了這個劇,我們會說是因為你看過他的前傳,這樣的話用戶會覺得,你確實是有道理的。還有一個是增強用戶對系統的信任,如果你的系統是黑盒,扔出來一堆劇說看吧,那估計很難說服用戶。

大家可以回想一下,在錄像店的體驗,如果是那種小店的話,你跟那個店主特別熟,他給你推一個張媛又拍了一個新片你可以看。你會知道,他真的知道你了解你,給你推這個東西,我們想達到的就是讓計算機能夠被用戶所信任。

當然大家可能覺得這個跟人編輯還是有很大的差距,所以我們還在繼續努力。這裡面也用到一些基本 CNN 的東西。所以深度學習在我看來就是一個工具,你可以用來做很多的事,掌握好這個工具,靈活性更大。

Hulu 的直播新嘗試

剛才大部分講視頻點播的場景,其實 HuLu 今年 6 月會做一個新功能:直播,這是一個很大的 feature,我們和美國四大電視台都有合作,直接把直播內容拿過來。每一個都是電視台正在播的節目,它跟歌華有很大的區別,你可以做搜索,你可以根據類別來分,已經完全把頻道的概念淡化了,但你還是可以根據頻道做一些瀏覽,並且可直接瀏覽,比如我想看現在所有的動作片,不管是哪個台播的,都可以直接看到。

我們的願景是說,到了互聯網時代,我們想要把電視台的概念完全透明化。它只是這個時間在播這個內容,對於這些內容應該怎樣重新組合,完全應該是我們個性化推薦演算法的責任,我們來給每個用戶定製一個電視台,這是我們的願景。

更多關於「直播」這個場景下,需要考慮的因素、需求、以及正在嘗試使用的研究方法,可以移步「極客公開課知乎 Live」>>>>

關於冷啟動

講到冷啟動,我們思路是在點播里,SVOD 是對點播的縮寫,LIVE 是直播的縮寫。在點播里我們有用戶行為,那麼根據一定的原數據,我們把用戶行為 push 到一個直播的庫里。

具體的方法,我們會拿到每個劇的一些描述,包括 title、actor 是誰,我們會把這種描述用 NLP 的方法,也是用詞向量的方法,把它變成一個這叫 description embedding,然後可以度量相似度。有了相似度之後,我們可以把一個點播劇和一個直播劇的相似度,做一個關聯。

實際上我們剛才講到的冷啟動問題,就是你怎麼把用戶在一個已知庫上的行為,就是綠色的矩陣,擴張到一個不斷有新劇出來,藍色的更大的矩陣?這個矩陣的行和列,就是劇跟劇之間的關係,所以當你的劇集從已知兩萬劇的小庫,變成一個 10 萬劇的大庫時,你就是要從綠色的矩陣到藍色的矩陣當中。

我們用的方法就是基於源數據方法,你就可以產生一跳,比如這是一個 LIVE 的劇,這是一個 SWA 的劇,你想他們這些相關性,這一跳用得是原數據的方法得到的,那這個數就不是零了。

然後知道這個數之後,你想知道同樣這個劇和另外一個 SWA 裡面劇的關係的時候,你可以藉助這兩個劇在這個矩陣里的關係,就是給他乘一下,然後再乘一下,你就可以到它下一個數。這是一個比較簡單的描述,當然具體的做法比這稍微複雜一些。

以上就是本次公開課的所有關鍵內容。據說接下來,Hulu 將會和 IEEE 聯合舉辦 Hulu 演算法公開賽,公開賽於 3 月 11 日開始報名,4 月 3 日會向參賽者發布數據集,5 月 17 日為提交結果的截止日期。感興趣的同學,可以點擊報名網站查看詳情: http://t.cn/R6fXVF6

本次課程完整筆記與 PPT,請點擊「極客公開課·知乎 Live」第一期或掃描下方二維碼查看獲取:

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 極客公園 的精彩文章:

線上線下齊聯動 戰旗創新布局遊戲直播
基因編輯領域的最大爭議塵埃落定,華人教授戰勝美女對手
近千萬人選擇的汽車「黑科技」:不充電的混合動力汽車
亓磊:生命可被編程嗎?
人臉識別新利器:格靈深瞳這個新產品能讓你在 50 米內無處遁逃

TAG:極客公園 |

您可能感興趣

知乎 Live 探索知識市場新玩法,推出七天無理由退款等機制
Python 編寫知乎爬蟲實踐
Python編寫知乎爬蟲實踐
美版知乎Quora開測視頻問答服務 搶奪YouTube用戶
為了打造一個知識市場,知乎 Live 也支持 7 天無理由退貨了
關鍵詞:樂視網拖欠版稅、騰訊雲開放8個海外數據中心、知乎上新視頻創作分享、FaceTime將引入沉浸式AR體驗
知乎讀書周紀念價 Live——?打開大腦的正確姿勢
如何用 TensorFlow 搞定知乎驗證碼;深層神經網路的致命問題詳解
swagger-decorator:註解方式為 Koa2 應用動態生成 Swagger 文檔-知乎專欄
知乎Live上線一周年 「知識付費」的摸索才剛開始
知乎 Live 一年了,它開始支持「七天無理由」退款服務
知乎要做短內容啦 開始測試新功能「想法」
小米MIX2贏了iPhoneX?看知乎網友都怎麼說
蘋果要分走「讚賞」的30%,知乎映客已更改付費規則
知乎的價值源於哪裡?優質內容+深度UGC互動
知乎VS頭條:APP要做好!品牌域名更不能少!
知乎內測新功能,一個有想法的「想法」
美國版「知乎」一鳴驚人,擊敗Snapchat位居app排行榜第一
知乎公告應蘋果要求將收iOS用戶32%讚賞手續費