當前位置：

首頁 > 新聞 > 雲腦科技徐昊：AutoML 工程實踐與大規模行業應用｜AI研習社104期大講堂總結

雲腦科技徐昊：AutoML 工程實踐與大規模行業應用｜AI研習社104期大講堂總結

新聞 01-05

雷鋒網AI 科技評論按： AutoML 是今年的機器學習的熱點，該技術潛力很大，在工程實踐能夠產生巨大的價值。現階段，業界主要在探討 AutoML 的難點與方向階段，目前還沒有一家推出系統性的方案。在工程實踐上，AutoML 還沒有成為機器學習流程自動化、智能化的主要推動力。在實際應用中，針對大數據大模型的 AutoML 優化在 research 與 engineering 兩方面都很缺乏。在本次公開課中，嘉賓分享了關於 AutoML 的演算法和工程落地等實際問題。

分享嘉賓：

徐昊，雲腦科技核心演算法工程師，機器學習與高性能計算專家。在機器學習，自然語言處理，高性能分散式計算、圖計算、隨機優化等領域有著十餘年研發經驗。辛辛那提大學計算機工程博士，發表 IEEE/ACM 頂級論文 20 余篇，曾獲第八屆國際低能耗電子器件會議唯一最佳論文獎。曾任 ANSYS 軟體首席工程師，主持了 10 億級節點的分散式概率圖計算系統的開發。

公開課回放地址：
http://www.mooc.ai/course/607/learn?lessonid=2939#lesson/2939

分享主題：AutoML 工程實踐與大規模行業應用

分享提綱：

AutoML 業界動態
AutoML 演算法前沿進展
AutoML 大規模工程應用落地問題
雲腦科技高效 AutoML 系統
雲腦 AutoML 在推薦,、遊戲,、金融等領域的應用

雷鋒網 AI 科技評論將其分享內容整理如下：

AutoML 在 2018 年是一個比較火的話題，salesforce 和微軟都開源了 AutoML 的庫，有很多開源軟體包，如 AUTO KERAS，Auto-Sklearn 和 AutoWeka。

雲腦科技徐昊：AutoML 工程實踐與大規模行業應用｜AI研習社104期大講堂總結

在演算法上，今年在科研上比較受歡迎的是 NAS 演算法，主要涉及神經網路結構方面的搜索。在超參的搜索方面，研究比較多的是 Model Based Sequential Optimization，基本思路是在超參空間裡面先採樣後建模，選擇下一個提升概率比較高的超參點，比較流行的模型是貝葉斯和 TPE 模型等。Google 的 paper《Hyperband》上一種簡單的 Bandit 方法使用的較多，基本思路是先在超參空間撒點採樣，然後對每個點進行訓練，訓練結果更好的點可以獲得更多的資源。還有 Population based Algorithm 演算法，這些都是組合優化問題比較經典的解法。

雲腦科技徐昊：AutoML 工程實踐與大規模行業應用｜AI研習社104期大講堂總結

在工程應用的落地方面，AutoML 還處於實驗階段，模型的優化和調試效率有一定的問題，但是工程潛力巨大。它的缺點是：計算量巨大，不能滿足項目快速迭代的需求；目前僅限於調參問題；在搜索和優化的過程中像一個黑盒子，人機交互較少。因此，AutoML 在大項目中應用落地還存在一定的問題。

雲腦科技徐昊：AutoML 工程實踐與大規模行業應用｜AI研習社104期大講堂總結

在工程實踐中落地要考慮哪些因素呢？首先是精確度、工程迭代速度、Serving 壓力，然後如果是深度學習，還要考慮深度學習優化加速，最後，線上模型的動態效果也需要考慮，因為線上模型的表現和線下的可能不一樣。那麼，對應的優化環節是下圖左邊的樣本效率、特徵效率、模型選擇、優化效率和線上策略效率。

雲腦科技徐昊：AutoML 工程實踐與大規模行業應用｜AI研習社104期大講堂總結

雲腦在這些優化環節是如何做的？

樣本效率

樣本效率是機器學習最核心的問題之一，機器學習本質上是一個採樣加擬合的過程，但是這個過程在很多系統中並不是一次性完成的。很多情況下，樣本的處理都很簡單，大量樣本沒有用或者效率較低。樣本的選擇對精度的影響較大，其數量對耗時的影響是線性的。

我們把信息量大的樣本留下來，信息量小的去掉。如何衡量樣本信息量？可以從無監督角度和業務角度考察樣本的信息量。

雲腦科技徐昊：AutoML 工程實踐與大規模行業應用｜AI研習社104期大講堂總結

下面來看一個例子。下圖是遊戲點擊率的線上數據。這是一個重度玩家在 11 天內樓蘭遊戲時對不同遊戲的點擊和曝光數。如果我們需要分析用戶的喜好，只需要輸入幾百個甚至幾十個樣本點，而不需要輸入全部 3000 個樣本點，這就是樣本的靜態效率可以提升的空間。

雲腦科技徐昊：AutoML 工程實踐與大規模行業應用｜AI研習社104期大講堂總結

樣本難度也是影響樣本效率的重要因素，提高模型精度的關鍵在於獲得更多的複雜樣本。其次，需要去掉雜訊樣本。那麼如何分析樣本的難度？一般使用模型預測值和真實標籤 cross entropy。保持原有數據的分布對樣本訓練過程來說非常重要。

特徵效率

特徵（尤其是稀疏特徵）對訓練數據的效率影響很大。在項目工期緊張的時候，把所有的特徵扔進模型學習是不實際的，因此我們進行定量分析。維度大的特徵對訓練的影響非常大。稀疏特徵也需要重點分析。對過於稀疏的特徵值截斷處理也可以提高特徵效率。我們現在比較重視變長特徵的處理。變長特徵通常是在嵌入以後取平均值或求和，變長特徵長的樣本對 batch 的影響較大。

雲腦科技徐昊：AutoML 工程實踐與大規模行業應用｜AI研習社104期大講堂總結

AutoML 自動優化效率

AutoML 是在 5 維度超大空間聯合分布裡面尋找最優點：數據維度、特徵維度、模型維度、優化維度和線上策略維度。傳統方法裡面，人負責數據採樣、特徵工程和調參，只有深度學習模型是自動學習的。而前沿的演算法：Model based sequential optimization 基本上是建模加採樣的方法，它假設整個超參空間是連續的；Bandit based 是一種純採樣的演算法，其假設是優化空間優化過程中的精度的連續的，其缺點在於它是純採樣，沒有模型。而實際項目中由於各種原因，全局最優解是個非常複雜的問題。

雲腦科技徐昊：AutoML 工程實踐與大規模行業應用｜AI研習社104期大講堂總結

在實際工程中，還需要考慮機器學習全流程優化的問題。它包括數據清洗、特徵工程和模型調試中的工程迭代效率。我們還需要考慮線上 serving 效率、線上策略優化和深度學習優化加速問題。

雲腦科技徐昊：AutoML 工程實踐與大規模行業應用｜AI研習社104期大講堂總結

雲腦的 AutoML 系統全貌如下圖所示。

雲腦科技徐昊：AutoML 工程實踐與大規模行業應用｜AI研習社104期大講堂總結

雲腦 AutoML 在多個領域都有應用：

雲腦科技徐昊：AutoML 工程實踐與大規模行業應用｜AI研習社104期大講堂總結

雷鋒網

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷鋒網 的精彩文章:

※中國最早做RISC-V技術的公司僅用7個月設計了一款性價比遠超同級別Arm架構的AI晶元

TAG:雷鋒網 |