當前位置:
首頁 > 知識 > 專訪新浪微博黃波:千人千面,機器學習賦能用戶信息流消費

專訪新浪微博黃波:千人千面,機器學習賦能用戶信息流消費

黃波,微博機器學習平台技術負責人、資深架構師,負責微博機器學習平台和Feed演算法系統。他畢業於中科院計算所,參與研究了高性能計算和演算法優化;並曾供職於百度,參與開發了分散式文件系統。2010年加入新浪微博,目前專註於機器學習、深度學習、高性能計算、大數據處理等領域,致力於打造機器學習平台和深度學習平台,將機器學習技術和分散式計算應用於微博 Feed信息流、推薦、反垃圾等業務場景。

跬步千里,微博深入應用新興技術

新浪對於大數據和人工智慧技術的應用,最早可以追溯到2008年,並且隨著技術的深度應用在不斷發展完善。

2008年左右,新浪開始搭建Hadoop集群,建立信息系統收集公司級的基本數據,奠定了大數據系統的基礎。2009年起,隨著微博的興起和壯大,越來越多的用戶、內容和行為等業務數據沉澱下來,奠定了大數據的業務數據和業務場景基礎。2011至2012年,微博開放平台讓微博數據和第三方數據能夠互通。2013至2014年,成功構建了大數據Darwin平台,用於梳理和挖掘用戶數據及行為數據,刻畫了微博用戶的用戶畫像,並對微博短文本進行分析理解,形成了內容標籤等內容理解體系;同時在技術上,以分散式離線處理為基礎,成功引入了實時流計算,讓數據能更快發揮價值,從而更好地服務於業務。2015年起,微博大數據和Feed、熱門微博等業務充分結合;2016年,開始強調機器學習和人工智慧挖掘數據價值的能力在業務中的作用,並開發搭建微博的機器學習平台和深度學習平台。

毋庸置疑,大數據、機器學習、人工智慧已經逐漸滲透到了微博的各大業務中。然而,這一過程中不可避免地遇到了一些技術挑戰。黃波表示,分散式離線計算技術的挑戰就是其一,因此微博緊跟業界Hadoop生態的發展,由Hadoop 1.0升級到Hadoop 2.0,引入Hive、Pig、Sqoop、HBase、Yarn、Spark等組件,解決了大數據離線處理的問題。其次是實時流計算技術的挑戰,基於此微博選擇了依靠開源社區的發展,包括Storm、Spark Streaming等技術的發展和成熟。「目前遇到的最大問題是大規模機器學習和深度學習技術」,為了從容應對這一難題,微博一方面持續深入和阿里雲的合作,引入數加、EMR、HPC、PAI等成熟系統來加快技術發展速度,另外一方面還依靠了開源社區的Glint、Angel、Spark、Tensorflow等機器學習技術,自研和完善參數伺服器WeiPS、機器學習編程框架WeiFlow來滿足微博機器學習和深度學習平台的業務需要。

千人千面,人工智慧助力億級規模的用戶畫像

數據是人工智慧的基礎。微博充分發揮了作為社交媒體的先天優勢,以其平台所擁有的億萬級圖片、視頻和文本數據,刻畫出了微博龐大的業務體系和用戶畫像。

黃波介紹,微博數據有內容數據和用戶數據這兩類。內容數據包括圖片、視頻和文本等。對於這類數據的處理方法,一是將內容數據映射到微博內容標籤體系(微博內容標籤體系分為三級內容標籤,例如:一級的體育;二級的籃球;三級的金州勇士等),可解釋性強,但存在一定歧義,準確性有待提高。另一種處理方式是對內容做embedding,通過embedding向量做匹配或推薦,能夠對內容更深入地理解,但是解釋性較差。內容數據還有一個獨特的點是內容發布人,即發博者。在長期的實踐中可以發現,社交網路和社交媒體中的發博者有著相對穩定的特徵,在業務場景下簡單有效。用戶數據包括用戶靜態數據和用戶行為數據,通過挖掘用戶性別、年齡、地域、註冊時間、賬號類型、是否橙V等靜態特徵構建用戶靜態畫像,通過分析用戶在業務產品中的特定行為來構建用戶行為畫像,例如用戶一級興趣標籤、用戶實時興趣標籤等。

以上所述的內容數據和用戶數據就是業界常說的特徵,通過與模型的結合,能為微博Feed信息流、熱門微博等場景帶來顯著的效果提升。在這其中,人工智慧技術的部署應用,也為微博的整體技術架構帶來了深刻的變化。

人工智慧技術的引入,讓微博的離線系統、實時系統、在線系統融合得更加緊密。在線系統的業務數據化為機器學習提供了最基礎的業務樣本數據;離線系統的模型訓練充分利用了分散式計算能力,加強了對大數據的處理和理解;離線訓練出的模型載入到在線系統並應用於業務系統中,能夠為業務發揮作用;同時,實時系統不僅可以提供實時特徵,而且還能提供機器學習在線訓練服務,有效保障了特徵和模型的時效性,從而良好保障了業務效果。以微博Feed信息流為例,基於對內容數據的充分理解和對用戶畫像的精確刻畫,利用大規模機器學習模型排序能夠有效控制大量低質內容,深入挖掘出用戶感興趣的個性化內容,從而改善微博Feed信息流的用戶體驗。

此外,微博特別設立的機器學習實驗室也在深入研究人工智慧技術潛在的應用價值。「追蹤前沿技術,保持技術領先;落地微博業務,體現技術價值」,這是微博機器學習實驗室的初衷和使命,其主要的研究方案包括機器學習演算法、推薦演算法、自然語言理解、計算機視覺、語音識別、機器學習系統、分散式計算系統、高性能計算系統、大數據技術等。黃波提到,目前在大規模機器學習排序演算法、深度學習排序、深度學習推薦、文本處理、圖片識別、機器學習平台、深度學習平台等方面都已經取得了不錯的進展,特別是微博大規模機器學習排序演算法在微博Feed信息流、熱門微博中的應用和全量上線,取得了顯著的效果。

返璞歸真,技術落地創造實踐價值

時下的社交媒體大趨勢,都在致力於通過大數據、人工智慧來更全面地了解用戶畫像、更深刻地理解內容、更細緻地結合業務場景,從而提高信息分發效率,為用戶提供更好的內容消費體驗。

微博實踐表明,人工智慧技術能夠更好地促進產品和業務的發展。在微博,大數據、人工智慧等新興技術廣泛地應用到微博Feed信息流、熱門微博、Push消息推送、圖片推薦、反垃圾等業務中,並取得了不俗的效果。產品和業務目標的理解是基礎,在目標理解的基礎上再將產品場景、業務目標、用戶行為、內容數據等數據化。數據化之後,技術人員利用大數據策略、機器學習模型等方法擬合或逼近業務數據目標,這個過程通常需要藉助大規模分散式計算和高性能計算來迭代逼近。同時也要求儘可能早地將這些策略或模型灰度上線到線上系統中,便於收集灰度測試數據,對比評估業務線上效果。數據化是指產品全流程的數據化,包括機器學習模型上線灰度對比的數據,用數據來說明效果。

在本次雲棲大會上,黃波將分享微博機器學習平台、深度學習平台的架構和實踐,介紹其在微博信息流產品中的實戰解讀,同時介紹平台搭建中的經驗教訓,向業界分享微博在機器學習和深度學習方面的最新進展。同時,黃波也希望可以藉助這次機會和業界深入交流,獲得更多業界經驗來完善內部系統及平台,更好地為微博業務服務。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雲棲社區 的精彩文章:

一副漫畫解讀阿里雲無線網路體系產品:雲AP
專訪iDST NLP負責人——淘寶內容搜索、評價歸納的幕後英雄
Python高性能計算庫——Numba
神經網路中的造物者-GANs
阿里雲PCDN新亮點 自動調用HTTPDNS 解決域名劫持困擾

TAG:雲棲社區 |