重磅！NeurIPS 2018 AutoML中國隊伍表現強勢！Phase1冠亞季隊伍聯合經驗分享

知識 12-09

機器之心專欄

作者：羅志鵬、陳相寧、方鑫

近期，NeurIPS 2018 AutoML 挑戰賽公布了最終結果。本次競賽由第四範式、ChaLearn、微軟和阿卡迪亞大學聯合舉辦，專註於終生機器學習領域。競賽總共分為兩個階段，Feed-Back 階段及 Blind-Test 階段，在 Feed-Back 階段，微軟與北京大學組成的 DeepSmart 團隊斬獲第一名，MIT 和清華大學組成的 HANLAB 斬獲第二名，南京大學 PASA 實驗室斬獲第三名。Blind-Test 階段由 Autodidact.ai、Meta_Learners、GrandMasters 斬獲前三名。

Feed-Back Top3 隊伍介紹

DeepSmart 隊伍：

羅志鵬：微軟 Bing 搜索廣告演算法工程師，北京大學軟體工程專業碩士，專註於深度學習技術在 NLP、廣告相關性匹配、CTR 預估等方面的研究及應用。

黃堅強：北京大學軟體工程專業碩士在讀，擅長特徵工程、AutoML、自然語言處理、深度學習。

DeepSmart 隊伍曾經獲獎記錄：

CIKM Cup 2018 1st place

KDD Cup 2018 (Second 24-Hour Prediction Track) 1st place

KDD Cup 2018 (Last 10-Day Prediction Track) 1st place

Weibo Heat Prediction 1st place

Shanghai BOT Big Data Application Competition 1st place

Daguan text Classification 1st place

MIT HAN LAB 隊伍：

陳相寧：清華大學大四本科生。

韓松：麻省理工大學助理教授。

HAN Lab (Hardware, AI, and Neural-nets) 專註於深度學習的硬體軟體協同優化，高性能、低功耗的 AI 處理器以及高效 AI 模型的設計自動化。

H: High performance, High energy efficiency Hardware

A: AutoML, Architectures and Accelerators for AI

N: Novel algorithms for Neural Networks

S: Small models, Scalable Systems, and Specialized Silicon

PASA (formly Fong)（南京大學 PASA 實驗室團隊）隊伍：

PASA 團隊研究方向包括 AutoML 演算法研究與系統實現, 團隊提出的基於強化學習的 AutoML 演算法和框架曾獲得 PAKDD2018 AutoML2 Challenge Feed-back phase 1-st place and Blind-test phase 3-rd。

大賽簡介

在人工智慧的時代，許多實際應用程序都依賴於機器學習，然而這些程序的開發人員卻並不都具備專業的機器學習演算法研發能力，因而非常需要部署AutoML演算法來自動進行學習。此外，有些應用中的數據只能分批次獲取，例如每天、每周、每月或每年，並且數據分布隨時間的變化相對緩慢。這就要求 AutoML 具備持續學習或者終生學習的能力。這一類的典型問題包括客戶關係管理、在線廣告、推薦、情感分析、欺詐檢測、垃圾郵件過濾、運輸監控、計量經濟學、病人監控、氣候監測、製造等。本次 AutoML for Lifelong Machine Learning 競賽將使用從這些真實應用程序中收集的大規模數據集。相比於與之前的 AutoML 比賽，本次比賽的重點是概念漂移，即不再局限於簡單的 i.i.d. 假設。要求參與者設計一種能夠自主（無需任何人為干預）開發預測模型的計算機程序，利用有限的資源和時間，在終身機器學習環境下進行模型訓練和評估。

本次比賽分為 Feed-Back 階段及 Blind-Test 階段：

Feed-Back 階段: 反饋階段是代碼提交的階段，可以在與第二階段的數據集具有相似性質的 5 個數據集上進行訓練和測試。最終代碼提交將轉發到下一階段進行最終測試。

Blind-Test 階段：該階段不需要提交代碼。系統自動使用上一階段的最後一次提交的代碼對 5 個新數據集進行盲測。代碼將自動進行訓練和預測，無需人工干預。最終得分將通過盲測的結果進行評估。

大賽結果

圖 1：Feed-Back 階段排行榜

榜單鏈接：https://competitions.codalab.org/competitions/20203#results

從 Feed-Back 榜單來看 Top3 隊伍取得了非常優異的成績，特別是 DeepSmart 隊伍在 5 項任務上取得了 4 項第一，1 項第二的好成績，其中 4 項任務表現尤為突出。

圖 2：Blind-Test 階段排行榜

上圖分別展示了 Feed-Back 階段及 Blind-Test 階段的排行榜。值得注意的是，在 Feed-Back 階段的 Top6 隊伍中有 5 支隊伍並未進入 Blind-Test 階段的排行榜。本次 AutoML 競賽在時間及內存上有很大的限制，其中兩個階段在內存上都限制為 16G，Feed-Back 階段 5 個任務限制總時間為 7800 秒，Blind-Test 階段 5 個任務限制總時間在 10400 秒以上。比賽說明中明確 Blind-Test 與 Feed-Back 的數據是可比的，在 Feed-Back 階段中 Top 隊伍都能在限制的時間和內存內完成 5 項任務的建模，然而在 Blind-Test 中 Feed-Back 階段具有領先優勢的 Top 隊伍在 Blind-Test 中因在某個數據或者特徵量相對較大的任務上沒能在限制的內存之內完成 AutoML 的整個建模流程，因此在 Blind-Test 中無得分，儘管 Feed-Back 階段 Top 隊伍做了許多優秀的工作，但最後 Top 隊伍還是無緣 Blind-Test 榜單。

本次比賽在五個不同數據集上以AUC作為評分指標，以 5 個數據集的平均排名作為排行榜排名，在 Blind-Test 階段，切換到五個不同的數據集。對比 Feed-Back Top3 隊伍與 Blind Test Top3 隊伍的成績，從平均 Rank 指標上 Feed-Back Top3 均值為 2.8，Blind Test Top3 隊伍的均值為 8.467，相當於整體實力要至少落後 5 個隊伍；從平均 AUC 指標來看，Feed-Back Top3 隊伍最差成績比 Blind Test 最好成績差3.864%。從每項任務的 AUC 來看，Feed-Back Top3 最好成績比 Blind Test 最好成績分別高4.43%、3.85%、5.71%、12.47%、8.39%。AUC 指標是一項相對而言很難提升的指標，通常在競賽中 top 隊伍只能在該指標上拉開千分位、萬分位的差距，而 Feed-Back Top3 在 5 項任務中領先 Blind-Test 階段 Top 3 隊伍3.85-12.47%，具有非常明顯的優勢。所以 Feed-Back 階段的 Top 隊伍的方案具有非常重要的價值。所以主辦方也非常認可 Feed-Back 階段解決方案的價值，向前三名分別授予了獎牌和證書，並且邀請他們參加 NeurIPS 會議進行解決方案分享。在本篇文章的後文，Feed-Back Top3 隊伍將分享他們隊伍在這次比賽中的經驗。

經驗分享

DeepSmart：

我們團隊基於所給數據實現了一個 AutoML 框架，包括自動特徵工程、自動特徵選擇、自動模型調參、自動模型融合等步驟，並且利用了多種策略對運行時間進行了有效的控制，以確保解決方案能在限制時間內通過。儘管我們在 Feed-Back 階段使用內存的峰值只有 8G, 但是出乎我們意料的是，最終我們的解決方案卻由於內存不足而無緣最終排行榜。

自動特徵工程：目前，在大部分機器學習工業界應用中，數據和特徵對於模型往往是最為關鍵的，在現有的 AutoML 框架中，大部分特徵的提取是通過數值特徵進行高階組合，它們的模型很難提取出跟時序問題或者概念漂移有關的關鍵特徵，這也是我們取得不錯效果的重要原因。然而現實中存在大量的時序問題，而且往往帶有概念漂移。我們構建的自動特徵工程不僅是基於數值特徵做橫向高階組合，同時我們基於分類變數、數值變數、時間變數、多值分類變數自動提取跨時間和樣本的橫向及縱向高階組合。我們借鑒了之前多次比賽經驗，如何處理數據和不同類型的特徵才能表現得更好，這次競賽，一方面是我們不斷強化提升的過程，同時也是我們總結的過程。這是我們團隊所做出的不同於以往模型的自動特徵工程方案，同是也是我們在比賽中能取得顯著優勢的重要因素。

自動特徵選擇：高階組合往往容易導致生成大量特徵，但我們通過構建自動快速特徵選擇來提取重要特徵，這能極大地加速我們的特徵工程，同時也極大地減少模型所使用的特徵總量。

自動模型調參：我們採用 GBDT 模型，通過驗證集調整模型學習率、葉子結點、樹的深度等，由於時間有限，我們只能進行較少次的模型調參及驗證，這三個參數對於 GBDT 的影響較大，能取得較為顯著的效果提升。由於數據是極度不平衡的，有的數據集甚至只有幾千個正樣本，負樣本卻能達到幾十萬個。所以，我們在樹提升的過程中使用了不同的行採樣方法。在現有的樹提升模型中，他們對正負樣本採用同一個行採樣率來控制採樣。我們使用不同的正負樣本行採樣率，以使得模型可以使用足夠多的正樣本和合適的負樣本。它不僅可以大大減少模型的運行時間，同時模型也可以取得更好的效果。

自動模型融合：基於所給時間，我們使用不同的行採樣及列採樣來訓練多個不同的模型，這不僅僅更加充分的利用了樣本，也使得每個模型使用的數據和特徵具有充分的差異性，同時大大減少了過擬合的風險。

MIT HAN LAB：

針對終身學習的 task 下，提出 Hierarchical Ensemble Successive Halving（HESH）。將 GBDT 中的 tree boosting 類比神經網路學習中 back propagation，創新性的將 Successive Halving 運用到 GBDT 中，高效篩選出最優的模型以及超參數。HESH 只基於當前 batch 建立新 model，不涉及數據集的存儲與繼承，保證速度與高效性。另外，HESH 運用兩級 ensemble selection，當新 batch 到達，首先調整底層 ensemble 權重適應當前 concept，同時剪枝模型自適應超參數。之後建立頂層 ensemble 融合歷史模型，有效提取適應當前 concept 的信息。通過模型剪枝以及兩層自適應集成學習，HESH 能夠有效進行終身學習中的模型篩選以及調參，並解決潛在的概念漂移問題。

提出基於強化學習的自動特徵工程框架。自動構建並篩選特徵。針對數值特徵，主要是加減乘除變換；針對類別特徵，主要是 value_count 以及 groupby 變換。Automated Feature Engineering 利用 controller 預測變換序列，接著運用 policy gradient 更新 controller。為了應對緊缺的時間，reward 信號被重新設計成為全新的 feature importance 函數，在不需要訓練模型的情況下就能有效推斷 feature 的價值。實驗證明，自動特徵工程對於最終的性能帶來了較大提升。

PASA (formly Fong)：

本屆 AutoML 比賽和之前 AutoML 比賽最大的區別主要存在兩個方面：一是輸入數據集的特徵具有較強的多樣性，而且需要選手自行處理輸入數據集的特徵；二是需要處理 Lifelong mechine learning 場景下的概念漂移（concept drift）問題。首先，在特徵工程方面，PASA 團隊運用了自動化特徵編碼、自動化特徵組合以及自動化特徵選擇等方法實現特徵的設計和提取。其次，在處理概念漂移方面 PASA 團隊通過設計在線增量學習框架捕獲長期的 concept 和短期的 concept，並採用基於時間窗口的自適應模型加權集成學習演算法提升預測性能，集成學習的基學習器可採用梯度提升樹模型。

除此之外，為了提升演算法的通用性，PASA 團隊在模型自動選擇和超參調優方面也做了一定的優化。因篇幅有限，不再贅述，歡迎感興趣者與南京大學 PASA AutoML 團隊交流。

總結

近幾年來，AutoML 發展十分迅速，人們期待它能夠將機器學習從業者從解決繁冗複雜的數據預處理、特徵工程、模型選擇、模型調參過程中解放出來，更加專註於自己的目標，同時也為非專業人士帶來方便可用的自動化機器學習工具；同時，AutoML 本身的複雜性引起了學術界的廣泛關注，為學術界帶來了更多挑戰。

在此次的 AutoML challenge 中，競爭異常激烈，在長達近三個月的比賽過程中，大家不斷刷新榜單成績，迸發出許多有用的想法和創新，對於每一支參賽隊伍來說都是一次成長過程，並且間接的推動了 AutoML 領域的發展。我們相信 AutoML 技術將為許多實際問題提供一個良好的解決方案。

最後感謝主辦方的辛勤付出，為我們提供本次競賽機會，讓我們能夠與 AutoML 領域的其他團隊同台競技，感謝所有的參賽隊伍，讓我們不斷進取，不斷創新，助力 AutoML 領域的發展。

本文為機器之心專欄，轉載請聯繫本公眾號獲得授權。

------------------------------------------------

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※WTF Python：有趣且鮮為人知的Python特性

TAG:機器之心 |