KDD2017:阿里論文解讀,深度學習、大規模圖計算等
5篇論文,基於真實的業務場景或數據樣本,涵蓋深度學習、大規模圖計算、商品智能排序等多個領域
新智元 KDD 專欄
來源:阿里集團和螞蟻金服
編輯:聞菲
【新智元導讀】2017 年的數據挖掘頂會 KDD 開幕在即,新智元帶來阿里集團和螞蟻金服在本屆會議發表的 5 篇論文。其中,介紹阿里內部分散式學習系統「鯤鵬」的論文,還有淘寶智能排序演算法 CLOSE 的論文,都將以口頭報告的形式發表。
GIF/38K
KDD 的英文全稱是 Knowledge Discovery and Data Mining,即知識發現與數據挖掘,由美國計算機協會 ACM 下的數據挖掘分會舉辦,是國際數據挖掘領域的頂級會議,每年有大量來自世界各地的學術界和工業界人士參與此盛會。KDD 2017 共吸引全世界 1144 篇論文投遞,收錄 216 篇,包括清華、中科院、阿里在內的中國大陸學術界和工業界共被收錄 25 篇。
在 2017 國際知識發現與數據挖掘大會(KDD)全球論文投稿中,阿里集團和螞蟻金服共有 5 篇論文被大會收錄,都在應用 Track(大會接收論文分 Research Track 和應用 Track),涵蓋深度學習、大規模圖計算、商品智能排序等多個研究領域,基於真實的業務場景或數據樣本,文中部分方法結論已經在業務中運用。
例如,深度學習語義建模研究中提出了一種新的文本語義編碼演算法 conv-RNN,該模型在參考了較為常用的文本語義編碼模型循環神經網路與卷積神經網路的同時,進行了進一步的文本語義編碼優化,實現更為精準的文本分類和問答匹配,已經應用於阿里的智能音箱產品。
2 篇應用 Track 口頭報告:展現大規模真實系統中的實際應用
鯤鵬:基於參數伺服器的分散式學習系統及其在阿里和螞蟻的應用
KunPeng: Parameter Server based Distributed Learning Systems and Its Applications in Alibaba and Ant
作者:周俊、李小龍、趙沛霖、陳超超等
近年來,由於大數據(TB 甚至 PB 量級)和大模型(數千億甚至上萬億參數)的出現,無論是學術圈還是工業界,都亟需並行機器學習的能力。雖然有一些現有的分散式計算系統,如 Hadoop 和 Spark,它們為了支持機器學習演算法並行化,提供了一些同步和粗粒度運算符(例如,Map,Reduce 和 Join 等),能夠在一定程度上解決一些中小規模的問題,但這些系統很難讓開發人員設計出更有效率且支持更大規模的機器學習演算法。這促使我們設計一個通用的分散式平台,稱為鯤鵬(KunPeng)。它結合了分散式系統和分散式優化演算法的特性,處理複雜的大規模機器學習問題。
鯤鵬的架構:鯤鵬建立在阿里巴巴集團內部的大規模分散式 Apasra 平台上面,Robust Failover、Backup Instance,以及 DGA for Scheduling & Synchronization
具體來說,鯤鵬不僅封裝了數據/模型並行、負載平衡、模型同步、稀疏表示、工業容錯等特性,而且還提供了易於使用的介面,以使用戶能夠聚焦在機器學習核心邏輯上,降低使用成本並提升效率。在上千億樣本/特徵的數據集上,測試結果表明,這樣的設計在機器學習上帶來了引人注目的性能改進,大幅提升了 LR、FTRL、GBDT、FM 和深度學習等演算法的規模跟效率。鯤鵬已經在包括阿里巴巴的雙11、廣告、推薦、螞蟻金服交易風險估算等上百個真實場景上線,並取得了令人鼓舞的效果。
實驗中,鯤鵬在訓練時間和存儲方面都優於 Spark 和 MPI。
多層級聯學習在大型電商排序系統的應用
Cascade Ranking for Operational E-commerce Search
作者:劉士琛、肖非、歐文武、司羅(阿里集團)
在大數據時代,大量應用都會涉及到對海量項目進行排序的工作。我們一方面需要得到盡量準確的排序結果,另一方面希望保證系統的性能以及用戶的體驗。過往大量的工作都集中在演算法準確性方面(如各種 learning to rank 的方法);只有不多的工作會考慮計算的性能,而且基本停留在小數據集和研究階段。在電商場景,商品總量很多的同時(十億級),query 的相關商品也可能很多(千萬級)。在在線請求非常高的情況下,計算性能是必須考慮的,尤其是在「雙11」等場景下請求量會數倍的增長。
為了同時保證排序的效果和效率以及用戶體驗,本文設計並實現了一種級聯式搜索 CLOES:它的主要思想是將以此排序分成多個階段,各階段使用逐漸複雜的特徵去得到逐漸準確的結果;在靠前階段使用簡單特徵過濾顯然不合要求的結果,在靠後階段使用複雜特徵辨別難以區分的結果;除此以外,演算法結合電商場景的特殊性,嚴格限制了返回結果的延遲以及返回商品的數量,以保證用戶的搜索體驗。離線實驗驗證了演算法的正確性以及有效性,對比傳統的方法能提升準確率的同時大幅提升了計算性能;在去年雙11,在新增了大量準確又耗時的計算特徵(包括強化學習和深度學習特徵)的情況下,演算法極大保證了引擎的效率,使排序對引擎的壓力下降 40%,同時排序效果有一定提升。(※該論文也有海報展示)
3 篇海報展示:智能調價演算法、用戶行為預測、問答及分類
淘寶展示廣告中的 OCPC 智能調價演算法
Optimized Cost per Click in Taobao Display Advertising
作者:朱晗、靳駿奇、李晗(阿里集團)
針對傳統廣告系統中廣告主對粗粒度流量進行固定價格競價的模式,該論文創新性提出了一種新的 OCPC(Optimized Cost per Click)智能調價演算法。該方法智能調整每個流量上的廣告主出價,實現更優的流量價值匹配,明顯提升了廣告主收益和廣告系統的分配效率。同時立足於健康的經濟生態和可持續的長遠收益,該方法亮點在於不單優化了客戶價值,還實現了用戶體驗、平台收益的整體優化和經濟福利的權衡分配。該項技術現已在淘寶展示廣告主要場景上全面應用並取得了明顯的效果提升。
基於大規模圖計算的本地演算法對展示廣告的行為預測
Local Algorithm for User Action Prediction Towards Display Ads
作者:楊紅霞(阿里集團)、Yada Zhu(IBM Watson),Jingrui He(亞利桑那州立大學)
用戶行為建模在計算廣告中是至關重要的,它通過跟蹤用戶的在線行為建立用戶的產品,然後根據用戶的興趣和需求提供相關的廣告。準確的模型將導致更高的定位精度,從而提高廣告效果。直觀上,類似的用戶往往對展示的廣告具有類似的行為(例如,展示、點擊、轉換)。然而,據我們所知,以前的工作沒有太多明確地調查各種類型的用戶行為的相似之處,並且將它們納入廣告響應目標和預測中,主要是由於問題規模過大。
為彌合這一差距,本文中,我們使用二分圖來表示歷史用戶行為,其中包括用戶節點和廣告客戶活動節點,以及過去反映各種類型的用戶-廣告營銷活動交互的邊。基於這種表示,我們研究了用戶行為建模和動作預測的隨機步行本地演算法,其計算複雜度僅取決於輸出群集的大小,而不是整個圖形。我們的目標是通過利用歷史用戶-用戶 (user-user),廣告系列活動 (campaign-campaign) 和用戶-活動 (user-campaign) 交互來改善行為預測。特別地,我們提出了伴隨 ADNI 演算法的二分圖 AdvUserGraph。
ADNI 將 NIBBLE 演算法擴展到 AdvUserGraph,並且能夠將由感興趣的用戶組成的本地群集發現到特定的廣告客戶活動。我們還提出了ADNI的兩個擴展,提高了效率。所提出的演算法的性能表現在合成數據和世界領先的需求側平台(Demand Side Platform),表明它們在預測極少數事件的有效性。
一種新的語義編碼模型及其在智能問答及分類中的應用
A Hybrid Framework for Text Modeling with Convolutional RNN
作者:王成龍、姜飛俊、楊紅霞(阿里集團)
在本文中,我們研發了卷積迭代神經網路(conv-RNN)的通用推理混合框架,用於文本的語義建模,無縫集成了從卷積和復現神經網路結構中提取語言信息的不同方面的優點從而加強新框架的理解力。此外,基於轉換 RNN,我們還提出了一種新穎的句子分類模型和一個基於句子的答案選擇模型,分別具有加強力的句子匹配和分類。我們在各種各樣的數據集中驗證了所提出的模型,包括兩個具有挑戰性的答案選擇任務(AS)和用於句子分類(SC)的基準數據集。據我們所知,AS 和 SC 目前是最為完整的比較結果。我們在這些不同的挑戰性任務和基準數據集中經驗性地展示了轉換 RNN 的優越性能,並總結了對其他最先進技術方法的表現的見解。
【號外】新智元正在進行新一輪招聘,飛往智能宇宙的最美飛船,還有N個座位
點擊閱讀原文可查看職位詳情,期待你的加入~


※攻陷Dota2:馬斯克的OpenAI自學習機器人完虐人類玩家
※Adobe首席科學家王珏加盟曠視科技,主管曠視美國研究院
※Science專訪谷歌Magenta負責人:AI創作焦點是機器學習演算法
※「Nature」破譯大腦:追蹤15000個神經元繪製最詳細神經迴路圖
TAG:新智元 |
※ICLR 2019論文解讀:深度學習應用於複雜系統控制
※CVPR 2018 中國論文分享會 之「深度學習」
※何愷明ECCV 2018教程:深度學習就是表示學習(41PPT)
※港版iPad Pro2018(11寸+256g)4G版深度體驗評測
※AI與深度學習-2017年總結
※CWUR 2018-2019世界大學排名深度解析,附法學、商學專業排名
※華為雲刷新深度學習加速紀錄:128塊GPU,10分鐘訓練完ImageNet
※NeurIPS2018時間檢驗獎論文回顧:為什麼深度學習適合大規模數據集
※2018 秋季伯克利大學 CS 294-112 《深度強化學習》學習小組成員招募
※全網獨家!2018 MIT 6.S094 中文譯版「深度學習和自動駕駛課」
※CVPR 2018|論文:北京大學計算機研究所深度跨媒體知識遷移方法
※2018年興奮點:TOP15深度學習應用!
※一文概述 2018 年深度學習 NLP 十大創新思路
※NVIDIA GTX1070 8GB公版顯卡/吃雞遊戲/GPU深度學習 1080 1060現貨
※17.3英寸的萬元遊戲本上手指南,Dell G7-7790的深度測評
※深度學習時代行將結束!16625篇論文揭示25年來AI進化規律
※ICRA 2018論文全概覽:接收率40%,深度學習/運動與路徑規劃領跑機器人會議
※ArcGIS 10.6 影像集成深度學習和立體測圖
※大屏影音,強勁性能:Dell 燃7000 7572筆記本電腦深度解讀
※小米MIX 2S 深度評測 驍龍845、全面屏2.0、AI雙攝真的好用嗎?