深度森林打破神經網路壟斷，AutoML讓AI本身自動化：WAIC國際前沿演算法峰會落幕

知識 08-31

機器之心原創

作者：李澤南

「今天的智能化應用越來越離不開 GPU、TensorFlow 這樣的硬體和框架了。但如果我們發現神經網路之外更好的模型，深度神經網路的壟斷自然就會被打破。」在由第四範式承辦的國際前沿演算法峰會上，南京大學教授周志華這樣說道。

備受矚目的 WAIC 2019 世界人工智慧大會進入第二天，本次大會上不僅有馬雲和馬斯克有關人類未來的對話，也有機器學習之父 Tom Mitchell、港科大教授楊強、南京大學教授周志華、北大教授王立威等人為我們帶來的，有關 AI 演算法前沿技術的硬核討論。

在昨天下午第四範式承辦的國際前沿演算法峰會上，多位 AI 領域頂尖科學家就無監督學習、AutoML、聯邦學習、深度森林等機器學習的前沿方向分享了業內的最新觀點，其中一些頗具前瞻性的思想讓在座的觀眾，以及大批站著聽完演講的觀眾們都覺得不虛此行。

今天人工智慧的發展可以仰賴晶元強大的算力，大數據對於 AI 模型的支持，而演算法作為機器的「靈魂」，則定義了 AI 的未來。

面向無監督學習

在這次活動中，卡耐基梅隆大學（CMU）計算機學院院長，《機器學習》作者 Tom Mitchell 也介紹了自己有關無監督學習的研究。

Mitchell 教授目前在 CMU 的研究組正在探索一個被稱為 NELL（Nerver Ending Language Learner）的項目，旨在讓計算機 24 小時不停搜集網路上的公開內容，並試圖標記出重要的信息，以此希望演算法能夠不斷自我提升理解能力。

當我們觀察這一項目時，可以發現在 NELL 當中有十個已標註的類型，而通過機器自動學習的未標註數據則超過 2500 萬個。

「事實上計算機是可以做到無監督學習的，它們每天都在提升水平，」Mitchell 表示。「我們從傳統的單一函數學習框架擴展到了多函數的方法。今天，我們已經擁有 4000 余種分類方法，實現了前所未有的準確性。」

AutoML 和聯邦遷移學習

AI 發展到今天面臨很多挑戰，尤其是數據挑戰。數據孤島、小數據、用戶隱私的保護等導致數據的割裂，讓 AI 技術很難發揮出價值。為了解決這一問題，國際人工智慧學會理事長，香港科技大學教授，香港人工智慧及機器人學會創會理事長楊強教授提出了「聯邦學習」的研究方向。

所謂聯邦學習，是多個數據方之間組成一個聯盟，共同參與到全局建模的建設中，各方之間在保護數據隱私和模型參數基礎上，僅共享模型加密後的參數，讓共享模型達到更優的效果。而在昨天的活動中，楊強又介紹了 AutoML 和聯邦遷移學習。

「人工智慧的這一輪浪潮已經開始幾年了，學界還不斷在有新的演算法出現，」楊強表示。「過去，機器學習演算法中的參數需要人工調整。而今天的 AutoML、模型搜索等技術已經可以部分自動化演算法的設計和演算法的配置了。」

今天的人工智慧仍然大量依賴於人類專家的工作，但就像傳統工業最後會向自動化發展一樣，人工智慧的新方向 AutoML 希望通過自動化的機器學習將調參、特徵工程等工作由機器來完成。

「從數學的角度看來，AutoML 是讓目標函數學習機器學習參數，從配置里學習最佳參數，」楊強介紹道。「在定義中參數的量是巨大的，維度可能高達上億，在其中要尋找最佳的點由人來做非常困難，本身就應該由機器來完成。在找出不同的函數之後，不同的函數也要做對比和評估，評估的過程也可以自動化。」

如何自動化地進行模型優化？目前看來，很多地方都可以進行 AutoML，首先是配置空間，其次是數據的預處理，另外還有特徵的抽取和處理，最後是模型的訓練。

遷移學習是在多個不同領域之間訓練的，其中的遷移過程往往是由人類專家來設計的。在學術上有很多的研究，這種遷移是不是也可以自動化？我們可以把它定義成路徑優化的問題。在這一方面，第四範式最近還提出了可以保護隱私的自動遷移學習方法 AutoPTL。

在自動機器學習方向之外，另一個前沿領域是減少對於數據的依賴。目前深度網路的知識遷移，其做法通常是通過預訓練——我們可以識別出哪一層模型可以原封不動地遷移到需要的模型中，另一部分則需要通過新數據的訓練讓它適應新任務。

這種遷移學習方法被應用在了不同場景，如銀行大額貸款等場景中。而在面臨數據割裂的情況下，我們還需要讓幾種數據建立一個共享的模型，但在建立的過程中不交換數據，只是交換加密保護的模型參數。「這種做法的效果就像是融合了多種數據的訓練，這就是聯邦學習。同時我們也要考慮到，數據的交叉非常小，這一點上我們可以使用遷移學習，結合起來我們就叫聯邦遷移學習。」

聯邦遷移學習不僅提高了效率，也可以保護數據，讓各個企業的自有數據不出本地，模型效果與直接合併訓練一樣。對於銀行、電商、零售機構非常友好，讓他們的數據可以聚合，通過隱私保護的方法來實現更高程度的自動化。

在楊強教授的願景中，聯邦遷移學習最終的目的是形成一個生態，包括互聯網的數據，以及場景中的數據，不同行業和不同的用戶行為數據進行有機的結合。

打破神經網路、GPU 和 TensorFlow 的壟斷

「現在我們每天都在談論深度學習，這種方法取得了巨大成功。但它到底是什麼？我們完全可以從工程上去解釋它。」ACM、AAAI、IEEE Fellow, 南京大學計算機系主任、人工智慧學院院長，歐洲科學院外籍院士周志華在主題為「新型深度學習的探索」的演講中說道，他的分享獲得了最多的掌聲。

我們今天談論的深度神經網路有很多層，我們經常看到幾千層的模型——這是一種龐大的計算系統。我們要訓練模型，就是在調整訓練參數。

「人們今天總結認為 AI 的快速發展是由大數據，強大的網路和算力，以及演算法的改進引起的。有一個錯誤的觀點認為有強大的算力，把老演算法放在新機器上就可以成功了，」周志華說道。「事實上，訓練深層神經網路的算力在 20 世紀 90 年代就已經具備。但我們使用反向傳播方法訓練神經網路需要做梯度優化，否則就會出現梯度消失問題。直到 2006 年，Geoffrey Hinton 才通過逐層訓練的方法解決了這個問題。」

今天的深度神經網路雖然很成功，但還是有很多問題需要研究。我們為什麼要做的深？直到今天學術界都沒有一個公認的解釋。

南京大學的學者們人為，從模型複雜度上看，我們建立的模型需要有泛化能力，它和模型的容量有聯繫，因而我們需要提高複雜度。因此，把神經網路變得更寬、更深就可以讓它更加有效。變寬就是增加了函數的個數，變深不僅增加了個數，還增加了嵌套迭代的數量。今天，我們利用大數據訓練將過擬合的風險大大降低，而強大的算力和新的演算法、訓練技巧也在別的方面解決了很多挑戰——我們可以使用高複雜度的模型了，而深度神經網路就是一個高複雜度模型。

「但這仍然沒有解釋為什麼深的就是好的，淺的就是不好的。為什麼有了這三個條件淺的不好，深的就是好的呢？」周志華說道。「現在的理論不能回答這個問題。再深入下去，深度神經網路最重要的作用是什麼？我們認為最重要的是表示學習。今天有了深度學習之後，特徵完全是機器自己學出來的，我們認為表示學習很重要。」

周志華等人認為，深度神經網路的關鍵是逐層加工處理、內置特徵變化、高度的模型複雜度。做到這三點，我們就能做到一個好的深度神經網路。

而更重要的結論是：「這三點猜測沒有說非要神經網路不可，我們可以研究神經網路之外的模型。」

周志華等人提出的深度森林就是這樣的模型。深度神經網路有很多的缺陷，從應用的角度來看，也有很多理由來研究神經網路之外的模型。

「機器學習早就知道，沒有任何一個模型可以包打天下。」周志華表示。

深度森林自提出以後就獲得了 Hinton 等眾多著名學者的關注，並已經在應用上取得了一定成功。「我們最近和一家國內互聯網金融巨頭合作，研究了演算法檢測非法套現的方法，」周志華介紹道。「在其平台上，訓練數據達到了 1 億 3000 萬次真實交易，測試數據則是 5200 萬次真實交易。為此，這家公司還實現了大規模分散式版本。在這個任務上，深度森林獲得了最好的結果，這驗證了前面的猜想，這個任務中有大量符號化的內容。在這種混合建模、非數值建模上，森林模型確實找到了它的用途。」

我們現在還不知道森林模型能走多遠，在未來出現更為合適的硬體之後，深度森林才可以變得更深。但周志華等人的研究驗證了設計神經網路之外的深度模型是完全有可能的。

「今天，深度森林在實驗中做到 21 層就做不下去了，其中很大一部分原因在於沒有找到適合加速的硬體，」周志華表示。「我們發現英特爾的 KNL 晶元，它雖然頻率不高，但十分適合深度森林的計算。現代的智能應用需要框架和特殊硬體，從另一個角度來看，打破神經網路、GPU、TensorFlow 等硬體和技術的壟斷也可以降低智能化時代『缺芯少魂』的風險。」

數學方法重塑 Transformer

深度學習今天絕大部分成功似乎都是應用上的成功，在理論上還存在著大量的空白。北京大學信息學院教授王立威向我們介紹了使用全新方法探索演算法和模型結構的思路。

今天常見的深度學習優化演算法 Adam、AdaGrad 等都屬於一階優化方法。我們能不能通過理論研究找到更好更快的演算法呢？王立威介紹了北京大學最近的研究方向。

深度神經網路的訓練本質上是一個非凸優化問題。一階優化方法很容易找到局部最優，而不是全局最優點。然而，今天的訓練方法經常可以避開局部最優，這是一個非常反直覺的情況。「我們在數學上，通過兩條假設（每一層神經元的數量足夠大，隨機初始化參數服從高斯分布）可以從理論上嚴格地證明，一階優化就可以很高几率地找到全局最優點。」

通過數學的方式，我們就可以得出全新的結論：過去我們一直認為深度學習是非凸優化問題，在兩條假設下，實際上網路的輸出對於網路的參數是非常接近線性的。這就大大簡化了神經網路訓練的方向。

因此，我們可以找到更好的，訓練神經網路的方法——在網路足夠寬的情況下，我們可以引入很多二階優化方法來完成工作。王立威認為，有一類演算法：高斯牛頓法對於這種情形非常合適。這種方法比現在的方法效率更高，準確性也更高，是未來值得探索的方向。

「既不同於人類手動設計，也不同於 AutoML 和自動搜索，我們把網路設計引申為數學問題，」王立威說道。「我們可以把網路的結構和微分方程的數值解緊密地聯繫起來。這種觀點最早是由北京大學的學者們提出的。在去年的 AI 頂會 NeurIPS 上，最佳論文也頒發給了神經網路和微分方程聯繫的研究。」

王立威昨天分享的新成果是從微分方程的角度來研究 Transformer，這一演算法在今天的自然語言處理領域中已是性能最好的結構。

從微分方程數值解的角度來看待這種結構，我們可以找到唯一一個與之對應的方法。對於 ResNet 我們找到了歐拉法。對於 Transformer，研究者們找到了對流擴散方程。

它和 Transformer 著有非常緊密的關係——Transformer 對應了對流擴散方程中一種非常基本的方法 Lie-Trotter splitting。「然而，在微分方程數值解中沒有人會去使用 Lie-Trotter splitting 方法，因為它是次優的，」王立威表示。「在數學上我們有更好的方法：Strang-Marchuk splitting。由此觀之，反推回去是否就可以找到更好的 Transformer 結構？我們用新的微分方程數值解，的確找到了更好的結構。」

通過數學方法，北京大學的研究者們對 Transformer 進行了簡單的結構調整，並獲得了非常顯著的性能提升。

新演算法的落地

在演講過後，OpenML 創始人 Joaquin Vanschoren、Data lab 負責人 Xia "Ben" Hu、墨西哥 INAOE 教授 Hugo Jair Escalante、早稻田大學教授 Tetsuya Ogata 等人共同就 AI 演算法的未來方向展開了討論。

而在以新演算法應用落地為主題的 Panel 環節中，地平線機器人創始人余凱、第四範式創始人戴文淵、思必馳聯合創始人俞凱、新思科技全球資深副總裁 Chekib Akrout 和科技部原副司長蔡文沁分享了各自的觀點。

對於業界來說，現在最重要的事情或許不是尋求演算法的突破，而是為演算法尋求價值。「卷積神經網路實際上在 1987 年就已經被發明出來了，反向傳播演算法則是在 1986 年出現的，」余凱說道。「演算法的理論研究在 30 多年來並沒有翻天覆地的變化，但另一方面，摩爾定律是不會減緩的。」

「在 2015 年，每 1000 美元能買到的算力和一隻老鼠大腦的算力是一樣的。我們知道，老鼠和人類大腦算力的差別約為 1000 倍。根據摩爾定律，到 2025 年的時候，1000 美元買到的算力就會相當於人類的大腦水平。這樣，自動駕駛等問題或許就可以得到解決了。在未來十年里，很多技術的發展都會超出我們的想像。」余凱表示。

「理論上，每一件事情都有可能被人工智慧化，」戴文淵表示。「現在也有很多已被 AI 解決的問題，比如能源企業設備運維、金融行業的反欺詐。今天請科學家做三五個月研發的成本可能是幾百萬，但其帶來的收益會是成本的數倍。在人工智慧開發門檻降低之後，我們會看到更多的工作將會被 AI 輔助。」

戴文淵認為，未來的人工智慧發展方向在於通過 AutoML 等技術降低應用的門檻，從而讓更多人能夠利用 AI 提高生產效率：「我對於未來最大的期待，是希望每年讓 AI 開發者的人數提升一個數量級。AI 的爆發需要大量的開發者，就像移動互聯網一樣。第四範式一直致力於讓普通人能夠駕馭 AI。」

本文為機器之心原創，轉載請聯繫本公眾號獲得授權。

------------------------------------------------

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※使用AI和TPU，人類首次重建果蠅大腦所有神經元，論文登上《細胞》雜誌
※位元組跳動開源分散式訓練框架BytePS，支持PyTorch、TensorFlow等

TAG:機器之心 |