當前位置:
首頁 > 新聞 > 一人隊勇奪冠軍:IJCAI 2018 阿里媽媽國際廣告演算法大賽圓滿落幕

一人隊勇奪冠軍:IJCAI 2018 阿里媽媽國際廣告演算法大賽圓滿落幕

6 月 5 日,IJCAI 2018 阿里媽媽國際廣告演算法大賽在杭州落下帷幕。本屆比賽於 2018 年 2 月啟動,吸引了 50 個國家和地區,超過 6000 名選手報名參賽。最終,由選手花志祥一人組成的「DOG」隊從 8 支決賽團隊中脫穎而出,獲得了冠軍。他和獲獎的其他四支隊伍也同時贏得了前往瑞典斯德哥爾摩參加 IJCAI 2018 大會的資格。

一人隊勇奪冠軍:IJCAI 2018 阿里媽媽國際廣告演算法大賽圓滿落幕

冠軍獲得者花志祥與賽會評委合照

本次活動是阿里媽媽攜手 IJCAI 2018 大會,以及阿里雲天池平台共同啟動的國際廣告演算法大賽。比賽共吸引了 6137 名選手,其中海外地區選手 729 人,範圍則覆蓋了 50 多個國家和地區。在初賽海選之後,賽會從複賽 TOP20 的隊伍中產生了 8 支隊伍進入決賽。在賽事結束後,所有獲獎團隊分享了共計 37,000 美元的獎金池。

貼近實際的賽題設置

作為阿里經濟體舉辦的大型數據競賽,本次大會的賽題自然也選擇了其積累深厚的領域之一——電商廣告點擊。眾所周知,阿里等科技公司在過去幾年中一直試圖採用深度學習、在線學習、強化學習等人工智慧技術預測用戶的購買意向。然而,作為一個複雜的生態系統,電商平台中的用戶行為偏好、商品長尾分布、熱點事件營銷等因素依然給轉化率預估帶來了巨大挑戰。如何高效準確地預測用戶的購買意向,是人工智慧和大數據在電子商務場景中需要繼續解決的技術難題。

本次比賽中,賽會方以阿里自有的電商廣告為研究對象,提供了基於真實場景(經過脫敏處理)的數據,參賽選手們需要通過人工智慧技術構建預測模型,預估用戶的購買意向。即給定廣告點擊相關的用戶(user)、廣告商品(ad)、檢索詞(query)、上下文內容(context)、商店(shop)等信息的條件下預測廣告產生購買行為的概率(pCVR)。

這是度量營銷效果、商家投入產出比的重要指標。結合業務場景和不同的流量特點,比賽定義了兩類挑戰:

1. 日常的轉化率預估

2. 特殊日期的轉化率預估

機器之心發現,這次演算法大賽使用的數據集既貼近實際,也體現了難度:其中包含七天的正常時間數據,以及其後時長為一天的購物節峰值數據。初賽訓練數據 48 萬,測試數據集 6 萬;複賽的訓練數據集 1000 萬,測試數據集則為 173 萬。

這次競賽向全社會開放,各個大學、科研單位,以及來自科技公司的開發者們組成了多個三人以內的團隊報名參賽。在入圍決賽的 8 支團隊中,我們也可以看到選手不僅有來自大型科技公司的研發人員,也有來自各個高校的在校學生,其中還包括幾名本科生。

本次國際演算法大賽的評委包括:悉尼科技大學數據科學學院院長張成奇、康奈爾大學威爾醫學院助理教授王飛、上海交通大學助理教授張偉楠、國家科技部雲計算專家組成員/天壤智能創始人及 CEO 薛貴榮、阿里巴巴研究員吳波、阿里巴巴資深演算法專家楊紅霞、阿里媽媽資深演算法專家劉凱鵬等人。

6 月 5 日,決賽隊伍的成員們在位於杭州西溪的阿里巴巴總部進行了最終答辯。

獲獎團隊

這次大賽不僅為各位數據科學高手提供了展示自己實力的舞台,也是一個開發者之間互相認識、互相交流的好機會。據機器之心了解,在參與決賽的隊伍中,很多團隊是幾名強手在線上認識並組成的隊伍:他們原本互相併不認識,數據競賽讓他們彼此成為了朋友。

在 6 月 5 日下午最終的答辯之後,賽會最終選出了比賽前三名與兩個獲得「創新」特別獎的隊伍。

由中科院計算所、香港科技大學的庄曉敏、張衛民、李昊陽組成的團隊,以及吉林大學、山東大學、中南大學的李強、沈冬冬、蔣浩然所組成的團隊獲得了本次比賽的特別獎。

來自浙江工業大學陳波成、中南大學羅賓理、天津大學吳昊所組成的團隊獲得了三等獎。

來自工業界的選手周耀、李智和郭鵬博組成的團隊獲得了二等獎。

最終,一等獎由同樣是來自工業界的花志祥獲得。「冠軍團隊讓人眼前一亮地使用了遷移學習的方法,簡單有效且思路清晰。」大賽評委,阿里巴巴資深演算法專家劉凱鵬表示。

作為本次大賽的冠軍獲得者,花志祥已經是一名數據競賽的「老手」,他已有 Kaggle Grandmaster 稱號,並位列 Kaggle 總榜第 12 位。本次比賽之前,他也在天池平台上獲得過五個數據競賽的第一名。

「最簡代碼」方案獲勝

在決賽的答辯環節中,花志祥分享了自己的獲勝方案。

根據初賽、複賽組委會提供的數據,選手認為數據呈現了某次購物節前七天,和購物節當天消費者行為和店鋪點擊/購買數據的狀態——消費者的購物數字在前七天保持穩定,在購物節前一天略有下降。在購物節當天,消費數量突然暴增。而比賽的要求是預測購物節期間的消費數據。這種特性也成為了比賽的難點:如何利用常規日期的消費習慣預測購物節。

在分析了數據之後,花志祥決定使用遷移學習的觀點,利用前七天普通日和購物節當天上午的銷量訓練模型,其結果作為 feature。隨後建立一個新的模型來預測購物節後期,即第八天下午的銷量。

一人隊勇奪冠軍:IJCAI 2018 阿里媽媽國際廣告演算法大賽圓滿落幕

上圖所示為獲勝方法的主要結構,其中 Level-1 和 Level-2 表示兩個 LightGBM 模型的處理過程。Level-1 將使用預熱期的所有數據對這一時期的購物行為建模,並將它在購物節當天的預測作為第二個模型的輸入,這樣就能避免預熱期與購物節之間的劇烈變化。此外,第一個模型的輸出特徵還為第二個模型提供先驗知識,因而能與當天的數據一起更高效地建模購物行為。

值得注意的是,和入圍決賽的所有其他模型集合方法不同,獲勝模型僅使用了 LightGBM,並取得了最優的效果。

在模型之外,花志祥還介紹了針對數據處理的思路。在特徵工程上,選手參考了四種特徵:統計特徵、時差特徵、排序特徵、表徵特徵。其中統計特徵即瀏覽商品數等用戶行為的統計特徵,時差特徵即用戶兩次購物行為之間的時長,排序特徵即用戶與商品的交互次數。在表徵特徵中,選手使用了詞袋和其它統計數據找出重要的屬性及選手的特徵。這些獨特的特徵工程確保了機器學習模型能正確地對用戶購物行為進行建模。

最後,獲勝演算法的核心代碼很短,只有一頁。

一人隊勇奪冠軍:IJCAI 2018 阿里媽媽國際廣告演算法大賽圓滿落幕

在決賽中,花志祥展示的獲勝模型代碼。

未來展望

決賽中,我們發現很多隊伍都展示了多模型集合的方法,這也是目前各大數據競賽中普遍出現的方法。不過,最終排名第一的方法為我們帶來了新的思路。

在參與這次比賽的過程中,參賽者們對於電商用戶行為分析任務有了更深入的理解,也對多種不同機器學習演算法進行了實踐。一些參賽者表示,在未來,他們還希望繼續合作,嘗試對自己的模型做進一步優化。另一方面,輕量化的數據分析框架也可以被應用於工業應用中,為企業帶來實際的收益。

一人隊勇奪冠軍:IJCAI 2018 阿里媽媽國際廣告演算法大賽圓滿落幕

據悉,本次比賽的最終頒獎儀式還將於 7 月在瑞典斯德哥爾摩的 IJCAI 2018 大會上舉辦。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

阿里巴巴論文:基於交替方向法的循環神經網路多比特量化
9天後,機器之心和編程大神、科技先鋒們在2050大會等你

TAG:機器之心 |