當前位置:
首頁 > 最新 > 今日頭條首次公布演算法原理,稱並非一切交給機器

今日頭條首次公布演算法原理,稱並非一切交給機器

資深演算法架構師曹歡歡講解今日頭條演算法原理

來源丨今日頭條(ID:headline_today)

1月11日,一場問診演算法、建言演算法的 「讓演算法公開透明」 分享交流,在北京今日頭條總部舉辦。資深演算法架構師、中國科學技術大學曹歡歡博士,介紹了今日頭條的推薦演算法原理。同時,解答大家對演算法的疑問,接受大家對演算法的建議。

「演算法分發並非是把所有決策都交給機器,我們會不斷糾偏,設計、監督並管理演算法模型。」曹歡歡希望這次分享能讓更多的人理解演算法,並共同參與到演算法模型的制定中來。此外,他還重點講解了今日頭條的內容安全機制及相關舉措,公開了風險內容識別技術以及泛低質內容識別技術。

今日頭條副總編輯徐一龍表示,演算法也是一種「法」,演算法和法律法規一樣,如果施行的好,都很高效,也都要求透明。

中央電視台、新華社、人民日報等媒體機構從業者,和阿里、騰訊、百度、美團、新浪、網易等科技公司的演算法工程師、產品經理等100多人,參加了活動。

1.

資訊推薦系統本質上要解決用戶、環境和資訊的匹配。

今日頭條演算法推薦系統,主要輸入三個維度的變數。

一是內容特徵,圖文、視頻、UGC小視頻、問答、微頭條等,每種內容有很多自己的特徵,需要分別提取。二是用戶特徵,包括興趣標籤、職業、年齡、性別、機型等,以及很多模型刻畫出的用戶隱藏興趣。三是環境特徵,不同的時間不同的地點不同的場景(工作/通勤/旅遊等),用戶對信息的偏好有所不同。結合這三方面緯度,今日頭條的推薦模型做預估,這個內容在這個場景下對這個用戶是否合適。

2.

點擊率、閱讀時間、點贊、評論、轉發,這些都是可以量化的。但一個大體量的推薦系統,服務用戶眾多,不能完全由指標評估,引入數據以外的要素,也很重要。有些演算法可以完成,有些演算法還做不到、做的不好,這就需要內容干預。

3.

沒有一套通用的模型架構,適用所有的推薦場景。我們需要一個非常靈活的演算法實驗平台,這個演算法不行,馬上試另一個演算法,實際上是各種演算法的一個複雜組合。西瓜視頻、火山小視頻、抖音短視頻、悟空問答,都在用頭條這一套推薦系統,但具體到每套系統,架構都不一樣,需要不斷去試。

4.

演算法推薦要達到不錯的效果,需要解決好這四類特徵:相關性特徵、環境特徵、熱度特徵和協同特徵。

相關性特徵,解決內容和用戶的匹配。環境特徵,解決基礎特徵和匹配。熱度特徵,在冷啟動上很有效。協同特徵,考慮相似用戶的興趣,在一定程度上解決所謂演算法越推越窄的問題。

5.

今日頭條有一個世界範圍內比較大的在線訓練推薦模型,包括幾百億特徵和幾十億的向量特徵。

完全依賴模型推薦成本過高,因此有了簡化策略的召回模型。基於召回策略,把一個海量、無法把握的內容庫,變成一個相對小、可以把握的內容庫,再進入推薦模型。這樣有效平衡了計算成本和效果。

6.

在今日頭條工作前三年,我收到用戶反饋最大的一個問題,就是,「怎麼老給我推重複的?」

其實,每個人對重複的定義不一樣。有人昨天看到一篇講巴薩的文章,今天又看到兩篇,可能就覺得煩了。但對於一個重度球迷來講,比如巴薩的球迷,可能恨不得所有的報道都看一遍。解決這個,實際上需要精確抽取文本特徵,比如哪些文章說的是一個事兒,哪些文章基本一樣等等。

文本特徵對於推薦的獨特價值在於,沒有文本特徵,推薦引擎無法工作,同時,文本特徵顆粒度越細,冷啟動能力越強。

7.

語義標籤的效果,是檢查一個公司NLP(自然語言處理)的試金石。

頻道、興趣表達等重要產品功能,需要一個有明確定義、容易理解的文本標籤體系。所以,在隱式語義特徵已經可以很好地幫助推薦,且做好語義標籤需要投入遠大於隱式語義特徵的情況下,我們仍然需要做好語義標籤。

8.

除了用戶的自然標籤,推薦還需要考慮很多複雜的情況:

1)過濾雜訊:過濾停留時間短的點擊,打擊標題黨;2)懲罰熱點:用戶在熱門文章上的動作做降權處理;3)時間衰減:隨著用戶動作的增加,老的特徵權重會隨時間衰減,新動作貢獻的特徵權重會更大;4)懲罰展現:如果一篇推薦給用戶的文章沒有被點擊,相關特徵(類別、關鍵詞、來源)權重會被懲罰;5)考慮全局背景:考慮給定特徵的人均點擊比例。

9.

比起批量計算用戶標籤,採用流式計算框架,可以大大節省計算機資源,可以准實時完成用戶興趣模型的更新。幾十台機器就可以支撐每天數千萬用戶的興趣模型更新,99%的用戶可以實現發生動作後10分鐘模型更新。

10.

影響推薦效果的因素有很多,我們需要一個完備的評估體系,不能只看單一指標,點擊率、留存、收入或是互動,我們需要看很多指標,做綜合評估:兼顧短期指標和長期指標,兼顧用戶指標和生態指標,注意協同效應的影響,有時候需要做徹底的統計隔離等。

有人問,所有的這些指標,能合成唯一的一個公式嗎?我們苦苦探索了幾年,目前還沒有做到。

11.

很多公司的演算法做得不好,不是人的問題,是實驗平台的問題。

如果A/B Test,每次數據都是錯的,不是這兒錯就是那兒錯,總上不了線,這個事就廢了。而一個強大的實驗平台,可以實現每天數百個實驗同時在線,高效管理和分配實驗流量,降低實驗分析成本,提高演算法迭代效率。

12.

頭條現在擁有健全的內容安全機制。除了人工審核團隊,我們還有技術識別。包括風險內容識別技術,構建千萬張圖片樣本集的鑒黃模型,超過百萬樣本庫的低俗模型和謾罵模型等,以及泛低質內容識別技術。

我們一直按行業最高的標準要求自己。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 傳媒圈 的精彩文章:

2017年這些媒體負責失敗,2018年誰負責成功

TAG:傳媒圈 |