當前位置:
首頁 > 新聞 > 專訪演算法天才蓋坤:AI在阿里媽媽廣告業務的應用

專訪演算法天才蓋坤:AI在阿里媽媽廣告業務的應用

由中國計算機學會(CCF)主辦,雷鋒網和香港中文大學(深圳)承辦的CCF-GAIR全球人工智慧與機器人峰會終於悉數落幕。

專訪演算法天才蓋坤:AI在阿里媽媽廣告業務的應用

阿里媽媽精準展示廣告技術總監蓋坤

在大會第三天的機器人專場上,阿里媽媽精準展示廣告技術總監蓋坤作為主場演講嘉賓,為大家帶來了《互聯網大數據下的模型結構挑戰》的演講。在演講中,蓋坤對Kernel方法、Tree based方法等經典模型在互聯網大數據下存在的問題進行了介紹,並就其提出的MLR模型和深層用戶興趣網路做了深入淺出的講解。

阿里媽媽:阿里巴巴的主要變現來源

蓋坤所屬的阿里媽媽,是阿里巴巴集團的大數據營銷推廣平台。

2007年,阿里媽媽正式上線。據一項數據表明,該平台每天有超過50億的推廣流量,能完成超過3億件商品的推廣展現。10年以來,阿里媽媽早已成為阿里集團變現的主要來源之一。除了由阿里旗下的優酷、土豆、淘寶、天貓、支付寶、UC瀏覽器、高德地圖等公司聚合而成的全域大數據的助力之外,當然還離不開AI演算法在廣告系統中的應用的支持。

說到AI演算法,自然免不了蓋坤負責的精準定向檢索及基礎演算法團隊的貢獻。該團隊的目的在於幫商家更準確地預測用戶的行為,從而實現更精準的廣告投放。

2011年,剛進阿里的蓋坤提出了分片線性模型MLR,這對當時主要使用簡單線性模型來預測CTR的業界來說,因為極大地提高了CTR預估的準確性而頗具意義。幾年來,MLR模型已經被廣泛應用在直通車定向和鑽展業務中。

近期,蓋坤又帶領團隊在CTR預估方面推出了一個新的模型結構——深層用戶網路興趣分布,即利用深度學習在用戶的歷史行為和廣告CTR預估之間建立部分匹配,匹配度越高的歷史數據對預估結果的影響越大。其具體介紹可看雷鋒網此前報道和蓋坤本人在這次CCF-GAIR大會上的演講。

在蓋坤主題演講結束之後,雷鋒網也帶著一些重點問題旋即對其進行了採訪,以下是採訪實錄:

阿里媽媽利用AI演算法在廣告業務的應用

雷鋒網:阿里媽媽在把AI演算法運用到廣告業務領域都做了哪些工作?取得了哪些成就?

蓋坤:跟機器學習相關的,一個是典型的CTR預估模型。預估模型需要對流量的價值進行拆分和預估,這也是廣告價值售賣的基礎,比如點擊收費、轉化收費、展示位置收費各不一樣。這是阿里媽媽最基礎的一層。

在此之上,還有一些自動化的方法。我們做了一些客戶端的工具,借之賦能廣告主去自由地表達自己的要求。比如,CTR、AOC,質還是量等等,從而實現事前的預估和事後的洞察。這類自動化方法,跟傳統的機器學習不完全一樣,更多還是偏向優化和統籌分化類。這類方法有兩個重點:

其一,事前預估。比如我們會用自動化方法提前把流量和廣告主的價值和匹配度預估出來,從而與客戶目標達成一致,實現定價保量。再對其使用運籌、優化的方法去做事前的分配。

其二,在事中環節採取實時控制策略。因為流量一直隨時間而變化,所以事前不可能實現完美的預估。在此其中,我們運用了很多黑盒測試,也採用一些白盒測試等機智類方式去解決。對於黑盒測試,我們主要集中在強化學習上——即整個序列如何建模能夠達到最終預期目標或者長期收益的最大化。

雷鋒網:現階段在預測CTR的準確性上,主要存在哪些阻礙或限制因素?

蓋坤:CTR預估,在工業界上來說,一般會有AOC等指標,這些指標的上限都挺高的。如,按照AOC的理論上限「1」這點來衡量,實際上在各個公司也就做到0.7或者0.8左右,反正離上限總有個Gap。不過,實際做到什麼程度不僅和技術能力有關,也跟數據特性有關——有的技術本身就難區分,而容易區分的數據能達到的指標相應也就更高一點。

如果我們能百分之百預估CTR準確性的話,淘寶網根本不會給用戶展示其任何不想點的東西,百度也不會給大家展示不需要的信息。

但就現階段而言,理論空間上,大家離這個目標還有很遠的距離,雖然每年技術上都有進步。而在現實應用中,一般是用一套模型的一套方法論加上配套的特徵工程,上下游的處理,以及前後的迭代優化,以讓這個方法論達到一個上限。但是,一種方法論在某個時期都會達到一個上限。

就像我在CCF-GAIR演講中提到的,線性模型本身就有限制,雖然它已經有配套的工程能力和特徵處理能力去補足了這個缺陷,但還是會對其有所制約,所以很難去突破它現在的狀態。如果要說突破的話,更多的要從模型設計變化去做突圍。比如,從線性模型到非線性模型,或者到更複雜的非線性模型。

雷鋒網:與CTR預測準確性緊要相關的,還有圖像素材的識別和投放精準度兩項因素,阿里這邊在圖像素材的投放效果的技術判斷上做到哪一步了?之後會有更深入的計劃嗎?

蓋坤:在這一塊,我們已經做了一套深度興趣神經網路。對深度興趣神經網路而言,其傳統的做法可能是直接搬遷,比如Embedding、全連接、CNN、LCM,這些都不是在互聯網大數據下提出來的。雖然可能部分適用,但並不是最適合這個狀態的網路結構。

剛才在主題演講里,我已經講了一部分利用該模型做的工作,即我們會根據數據來定製網路。(雷鋒網註:蓋坤在演講中表示,深度興趣網路利用深度學習在用戶的歷史行為數據和要預估的廣告之間建立了聯繫,其利用權重調製變成子序列,再在子序列上做Pooling建模,將歷史行為的興趣向量和目標廣告的興趣向量連接起來,通過簡單的多層全連接,從而實現二者的部分匹配,匹配度越高的歷史數據就對CTR預估的結果影響越大。)

後續,阿里還希望利用技術驅動業務本質形式的變化,而不只是效率的提升。目前,我們在做的Uni Marketing 全域營銷,就是希望用戶不管是從淘寶,還是從淘寶關聯的場景,或是從阿里關聯的有關公司,都能和阿里的數據進行持續性的交互。通過前後一致的關係序列,在本質上提升用戶體驗。當然,我們希望能在全域營銷的基礎上去做建模,全面提升用戶的體驗和營銷能力的提升。

雷鋒網:您之前提出來的MLR模型,已經在那些廣告業務領域被應用?

蓋坤:這幾年在直通車定向、鑽展等類型的應用上,都是以MLR為主模型進行迭代,其中模型又包括特徵工程和優化。MLR也是這幾條業務線獲得盈利的主要推動因素之一。

和Google、Facebook和亞馬遜的演算法比較

雷鋒網:就Google、Facebook和亞馬遜三家巨頭而言,他們在測量CTR的準確性上也做了很多努力,在您看來,阿里媽媽的測量演算法和他們相比,側重點有何不同?存在哪些優勢和劣勢?

蓋坤:先舉一個例子:目前國內的移動支付比很多國家做的都好。但是前幾年的信用卡時代,中國是遠遠落後於國外的。

同理類推到CTR演算法上,我個人認為,這反而是阿里的一個機會。前幾年,尤其是在邏輯回歸時代,很多公司積累的演算法功力都是很高的。但是在新的浪潮里,中國在深度學習的改造上,在業界來說還比較新。所以,我們希望能夠像移動支付一樣,找到趕超的機會。而阿里的優勢在於,其負擔更小,所以前進的更快。

目前來看,在CTR預估技術的提升這一塊,阿里在非線性模型里已經比較領先了。

雷鋒網:看大家在知乎上的討論,普遍認為亞馬遜的推薦演算法更好,您作為專業人士,怎麼看待這樣一個觀點?阿里和亞馬遜相比呢?

蓋坤:推薦演算法其實應該是另一個部門在負責,我主要在精準廣告技術這一塊。就阿里整個業務形式而言,其實對廣告變現還不那麼急迫。所以在預期的業務走向上會更加正向,更重要的還是在商業化土地上先做好技術演算法和變現能力。而且,現階段推薦演算法的商業化率在推薦場景里並不夠。

說到和亞馬遜的比較,核心來講還是要聚焦在指標定義上。我們原先定的指標維度會稍微單一一點。目前來看,我們對指標也在慢慢拆解。這個拆解包括對業務的認知,即到底什麼是用戶體驗,認知背後也需要技術能力。其實用戶體驗並非直接反應在數據里,它需要從中去學習和抽取。

而推薦演算法上來講,大家其實都差不太多,但是有的在指標優化的專註度上來講會更高,這樣也直接造成用戶體驗上的偏差。

阿里和亞馬遜相像的地方在於。不僅是在高舉未來的AI或雲計算的目標,也會就目前正在使用的業務領域會去做一些新技術的結合。

那些問題

雷鋒網:就一些用戶的體驗來看,淘寶和天貓的「猜您喜歡」和推薦系統中,用戶已購買的產品依然會出現在推薦欄里,或者用戶無意點擊的產品也會被多次推薦。對於這項功能,是否已有相應的解決辦法來作優化?

蓋坤:這個問題關係到兩點。

第一是指標導向問題。用戶已消費的產品依然會推送在列表裡,可能會造成不太好的用戶體驗。但從數據上來看,實際上這一塊的用戶CTR非常高,比其他幾類寶貝的平均CTR都要高。很多消費者可能心裡在罵,但還是忍不住去點。所以,單從數據上來講,如果用用戶CTR這個指標來衡量指標的話,就很容易陷入滿足感的誤區。

第二是技術能力還需要積累。當換了一個新的指標之後,Label 就很難去定義,還需要模型去學習。所以這件事對模型,對整個技術要求都非常高。雖然整個業界在其中也有一些啟發性的方法,但是還暫時沒有一個系統性的方法來解決。

雷鋒網:在淘寶上,仍然存在很多無良商家利用圖片嵌入違規信息來變相宣傳,針對此類問題,你們是怎麼解決的,效果怎麼樣?

蓋坤:這個問題主要集中在NLP和圖像技術上。我們希望藉助二者的力量像人類一樣去理解廣告主不符合規定的行為。其實整個淘寶的生態市場特別多,從管控難度來講,是非常大的。因為我們不僅要給幾百萬商家提供平台,還要知道他們都做了什麼,有哪些是不對的行為,這對技術的要求就更高了。

所以,我們也期望發展AI技術來解決這一問題。目前我們主要利用兩種方式去解決這一問題:


業務方向:用規則約束;對商家進行引導。

技術基礎:利用NLP的技術,再對其做推進。

雷鋒網:現在很多用戶畫像因為Cookie或追蹤工具被平台或商家利用,用戶隱私被侵犯,同時作為一名普通消費者和技術開發者,你怎麼去看待這個問題?有否改善的方法?

蓋坤:在我看來,數據互通可能會給未來孕育一種更好的生活方式。從這個方面來講,積極意義很大。當然,在這其中,用戶的隱私也需要被考慮其中。

從個人經驗來看,公司或者平台絕對不對去關注某單個用戶的行為,而是在模型中盡量做一個隔離。如果我們對用戶行為做一個更泛化的興趣點的話,其實對用戶隱私能起到保護作用。在數據交換時,也會對其進行加密。

如果說,用戶隱私可能會涉及風險環節的話,其最可能和公司內部有關。因為公司與公司之間的戰略是完全對立的,每家公司都把數據當做自己最大的資產,所以不用擔心數據會在這些環節被泄露。但就內部而言,比如說,UC、優酷等都屬於阿里,在這些平台之間互通數據,我們也會做一些用戶隱私保護的措施。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

AI催生教育行業「焦慮症」,加拿大高校用機器人教學來解
如果不了解這個「自動駕駛大腦」,那你可能真的談不上了解奧迪 A8
集黑科技於一身的全球首款自動駕駛量產車——奧迪A8背後的Audi AI
勁爆!實測目前最火的人臉識別技術
清華計算機系舒繼武 CCF-ADL 講習班下篇:持久性內存存儲系統的研究與挑戰

TAG:雷鋒網 |

您可能感興趣

ARM回應「暫停與華為業務」報道:不便評價,公司遵守美國法律
雷軍約談MIUI負責人 表示將向廣告業務「開刀」
挑戰搜索營銷業務難關,IJCAI 2018阿里媽媽國際廣告演算法大賽杭州落幕
巴菲特:人工智慧對全球公司的業務影響巨大,我無法預測它的未來
eSIM業務的真正未來!
千視通CTO胡大鵬:解讀AIoT無感通行園區的演算法與業務邏輯
速貸公司CEO:騎士隊老闆已蘇醒 公司業務一切正常
尷尬了!迪士尼官方聲明:從未與VIPKID有任何層面的業務合作關係
阿里巴巴CTO:阿里的技術已經在驅動業務
假的 中興闢謠手機業務出售傳聞:華為OPPO否認參與談判
氪信CEO朱明傑:AI如何應對金融另類大數據業務挑戰?
阿里雲真的比IBM雲業務大嗎?
AI應用現狀報告:人工智慧進入業務融合階段
經典笑話:白天給一大娘辦業務
沃爾瑪也想擴大廣告業務,整合了數字廣告與門店廣告業務團隊
業務好演技佳,這些韓國演技豆你知道嗎?
迪士尼中國:從未與VIPKID有任何層面的業務合作關係
英特爾晉陞三名副總裁,表彰他們的營銷、FPGA及法律業務貢獻……
業務介紹
為什麼說Web應用程序對您的業務很重要