阿里媽媽首次公開新一代自研智能檢索模型
阿里妹導讀:阿里搜索直通車廣告業務有著巨大的體量和影響力,其技術工作具有非常高的挑戰性。本次阿里媽媽在WWW 2018公開的新一代智能檢索模型工作,是搜索直通車演算法團隊的同學一次從實踐出發,將技術創新和業務訴求相結合的範例。
作者:閆肅,林偉,吳天舒,肖道銳,吳波,劉凱鵬
WWW大會(The International World Wide Web Conference),是一年一度關於互聯網未來發展方向的首要國際學術會議,旨在聚集世界各地學術界和工業界的精英,一起進行關於網路演進、相關技術標準化等前沿話題的分享與討論。
WWW 2018將於4月在法國里昂舉辦,其中阿里巴巴一篇介紹搜索直通車新一代智能廣告檢索模型的論文《Beyond Keywords and Relevance: A Personalized Ad Retrieval Framework in E-Commerce Sponsored Search》以其獨特的原創性被大會收錄,評委一致認為該方法是對傳統搜索廣告檢索框架的重新定義。這篇論文將在會議上進行口頭報告。
搜索直通車是阿里巴巴為淘寶和天貓賣家量身定製,按點擊付費的效果營銷工具,其承載的淘系搜索廣告業務是阿里巴巴電商生態體系下的最重要業務之一,在創造整個集團主力營收的同時,也承擔著重要的生態調節功能。本次阿里WWW 2018論文,是搜索直通車首次公開其自研的新一代智能檢索模型,價值巨大。
阿里搜索直通車廣告業務有著巨大的體量和影響力,其技術工作有著非常高的挑戰性。面對淘系搜索廣告業務場景中真實存在的各種痛點和挑戰,阿里技術一線的同學們不斷地進行技術探索,通過一次次的技術突破和創新,解決了大量的業務難題。本次阿里媽媽在WWW 2018公開的新一代智能檢索模型工作,就是搜索直通車演算法團隊的同學一次從實踐出發,將技術創新和業務訴求相結合的範例。
圖1:「新一代」搜索廣告智能檢索框架
在論文中,阿里的技術同學突破了以「關鍵詞」和「相關性」為核心的傳統搜索廣告檢索框架,提出了新一代的搜索廣告智能檢索模型。新一代搜索廣告智能檢索模型引入用戶行為異構圖挖掘、機器學習等相關技術,通過模型學習的方式智能構建索引,解決了傳統搜索廣告檢索系統不能解決的種種痛點,在搜索直通車業務線上取得了出色的效果,給廣告商、用戶和平台帶來了三贏。
圖2:搜索廣告系統由三方參與:廣告商、用戶和系統平台
在搜索廣告系統中,每一次搜索廣告的展示、點擊和轉化都需要三個參與方(廣告商、用戶和平台)的密切合作。平台是用戶搜索請求和廣告商投放的廣告之間的橋樑,進行著流量匹配、廣告展現等工作。其中,廣告檢索模塊負責理解用戶的搜索意圖,快速準確地從海量廣告中檢索出一個小規模的高質量廣告候選集。廣告檢索模塊需要兼顧系統的效果與效率,因此在演算法工作中存在著巨大的技術挑戰。
在傳統的搜索廣告系統中,廣告商必須為自己的廣告選擇競價關鍵詞。平台進行廣告檢索時會受到競價關鍵詞的約束。如果廣告商沒有事先為廣告購買相應的關鍵詞,那麼即使用戶搜索請求與廣告緊密相關,平台也不會檢索回這些廣告。但是,受限於市場信息的缺失和投放管理的巨大成本,廣告商有時並不能及時準確地為自己的廣告選擇出最合適的關鍵詞。在這種情況下,廣告檢索演算法不能實現最優的流量匹配,給廣告商、用戶和平台三方均帶來了損失。
此外,傳統的搜索廣告檢索模型只關注於搜索請求與廣告之間的相關性;這往往和平台的目標(RPM、CTR、GMV等)並不完全一致。如何在考慮相關性的同時,兼顧平台目標和用戶體驗,是廣告檢索模型需要解決的巨大難點。
近年來,越來越多的個性化信息被引入電商搜索廣告系統,如用戶在平台上的瀏覽、點擊、交易等行為。一方面,這些個性化信息能夠幫助廣告檢索模型更好地理解用戶的搜索意圖。但另一方面,個性化信息也給廣告檢索帶了新的挑戰:面對從各種複雜豐富的個性化信號通道檢索回的廣告,檢索模型需要能夠高效、準確地對其按照統一標準快速排序。這個問題,在目前已知的工作中,均沒有得到有效地解決。
圖3:用戶行為異構圖圖示例。圖中包含了三種節點:用戶搜索信號、廣告檢索鍵和廣告。用戶搜索信號和廣告檢索鍵之間的邊表示改寫,廣告檢索鍵和廣告之間的邊表示廣告海選。
面對上述傳統搜索廣告檢索系統中存在的各種難題和挑戰,阿里媽媽搜索直通車演算法團隊的同學提出了一種創新的搜索廣告智能檢索系統。新的智能檢索系統首先使用用戶在平台上的歷史行為構建出一張龐大複雜的用戶行為異構圖。異構圖中節點分別表示「用戶搜索信號」、「廣告檢索鍵」和「廣告」,邊分別表示「用戶搜索意圖信號改寫」關係和「廣告召回」關係。接著,檢索系統面向平台RPM、CTR等指標,學習異構圖中邊的權重,挖掘出重要的改寫關係和廣告召回關係。
這樣,通過對異構圖的深入挖掘,檢索系統同時進行了「用戶搜索意圖信號改寫」和「廣告召回」兩個檢索子任務的統一聯合學習。最後,檢索系統根據模型的邊挖掘結果,自動構建相應的「改寫索引」和「廣告召回索引」。通過兩個模型智能構建的索引,檢索系統將用戶行為異構圖和模型挖掘結果存儲下來,實現了對線上搜索請求的高效檢索。由於新的智能檢索模型不再強制要求廣告商購買關鍵詞,所以新的檢索系統使用OCPC策略,在保證廣告商ROI的基礎上,決定廣告的點擊收費。
圖4:用戶行為異構圖龐大複雜,包含上百億的節點和上千億的邊
圖5:在考慮相關性的同時,模型智能構建的線上龐大索引兼顧了平台收益和用戶體驗
阿里媽媽搜索直通車業務有著巨大的體量和規模龐大的用戶數據,因此新的智能廣告檢索模型在實際落地過程中,也面臨著各種技術挑戰。例如,在新的廣告檢索系統中,用戶行為異構圖龐大複雜,包含了上百億的節點和上萬億的邊,使得模型訓練非常困難。為了兼顧檢索系統的的效果和性能,阿里技術同學提出了多種異構圖初始化方法,在盡量保留重要關係的前提下,實現了對異構圖的剪枝,給模型的訓練提供了良好的起點。
又例如,在搜索廣告檢索階段,為了提高檢索效率,模型無法獲取足夠多的信息或者使用過於複雜的特徵。因此,在新的檢索模型中,阿里技術同學有針對性地設計了兩種「粒度」不同特徵:稀疏特徵和連續特徵。前者是一種細粒度的特徵,保證了模型效果;後者則是一種粗粒度特徵,用於提高模型的覆蓋能力和穩定性。
圖5:離線模型效果
圖6:出色的線上效果
新的智能搜索廣告檢索模型,在搜索直通車平台上取得了出色的效果,給廣告商、用戶和平台帶來了三贏:新的檢索模型通過OCPC的方式自動為廣告出價,在保證了廣告商的ROI前提下,把廣告商從繁重的買詞任務中解放了出來;通過引入豐富的個性化信號,新的檢索模型能夠更好地理解用戶的搜索意圖,達成更準確的流量匹配,提升了用戶體驗;新的檢索模型不再單純以相關性為目標,而是綜合考慮平台的目標和用戶的體驗,提升了平台收益,也維護了平台的生態環境。
阿里媽媽在WWW 2018論文中公布的新一代搜索廣告智能檢索模型,不僅僅是國際一流的學術成果,更是搜索直通車演算法團隊的一線技術同學,以技術為驅動,服務廣大淘寶、天貓用戶和賣家的真實實踐。
你可能還喜歡


TAG:阿里技術 |