Jeff Dean、李飛飛等發起SysML大會（附主題演講）

新聞 02-18

新智元報道

來源：SysML 2018

編輯：聞菲、艾霄葆、常佩琦、劉小芹

【新智元導讀】Jeff Dean、Michael I.Jordan、李飛飛、LeCun等大牛發起的系統機器學習會議SysML 2018前天在斯坦福閉幕。我們重點介紹Jeff Dean在SysML 2018的主旨演講《系統與機器學習的共生》（Systems and Machine Learning Symbiosis）。這是一個宏大的目標，也是挑戰，正如Jeff Dean演講PPT所示，現在上傳到arXiv的論文數量已經超過了摩爾定律的增長；直接在ML模型里批處理（batching），也常常讓「讓他感到頭痛」。

Jeff Dean、李飛飛等發起SysML大會（附主題演講）

當前關於AI/ML的討論大多偏向演算法和應用，關於底層的基礎設施卻少有討論，形成了一個不容忽視的缺環。系統研究的滯後會從根本上延緩AI/ML技術的創新和實踐。另一方面，開發適用於AI/ML的硬體也需要與傳統硬體不同的思路和方法，如何找到兩者更好的結合？

在這樣的背景下，一群AI/ML界的大牛發起了一個新的會議——SysML，這個會議專門針對系統和機器學習交叉研究領域，目的是在這些領域之間建立新的聯繫，包括確定學習系統的最佳實踐和設計原則，以及開發針對實際機器學習工作流程的新穎學習方法和理論。

Jeff Dean、李飛飛等發起SysML大會（附主題演講）

看看SysML的這些發起人：

Jennifer Chayes 微軟Technical Fellow，微軟新英格蘭研究院和微軟紐約研究院院長
Bill Dally，英偉達VP兼首席科學家
Jeff Dean，谷歌大腦負責人
Michael I. Jordan，統計機器學習宗師
李飛飛，斯坦福人工智慧實驗室主任/谷歌雲首席科學家
Yann LeCun，Facebook首席科學家
Alex Smola，亞馬遜雲機器學習負責人
Dawn Song，伯克利教授
邢波，CMU教授

SysML 2018在斯坦福舉行，200篇接收論文，註冊名額5分鐘內就被搶購一空。

會上，Michael Jordan發表了《SysML：前景與挑戰》的演講，其中提到了機器學習近期和遠期的挑戰。Jordan認為，目前機器學習還存在很多不確定性、推理、決策、魯棒性和可擴展的問題，遠遠沒有得到解決，更不用提社會、經濟和法律問題了。

Jeff Dean、李飛飛等發起SysML大會（附主題演講）

喬丹提到的機器學習近期挑戰，包括管理端雲互動系統、設計能夠自動尋找抽象的系統，以及能夠自我解釋的系統。經濟會發展，市場會變得更好，但我們做機器學習的人應該把目標定得更高，不止是更好的做BP。

Jordan還指出，當前的「系統+ML」研究的目標還定得非常低，很多人只想著構建一個「平台」（platform），而不是一個「生態」（ecosystem），比如推薦電影的平台跟推薦餐廳或股票的平台各不兼容。

Jeff Dean主題演講：系統與機器學習共生

下面，我們重點介紹Jeff Dean在SysML 2018的主旨演講《系統與機器學習的共生》（Systems and Machine Learning Symbiosis）。這是一個宏大的目標，也是挑戰，正如Jeff Dean演講PPT所示，現在上傳到arXiv的論文數量已經超過了摩爾定律的增長；直接在ML模型里批處理（batching），也常常讓「讓他感到頭痛」。

Jeff Dean、李飛飛等發起SysML大會（附主題演講）

演講的第一部分是用於機器學習的系統。他首先介紹了通用處理器性能趨勢，指出經過數十年的指數式增長，單核性能保持穩定。

Jeff Dean、李飛飛等發起SysML大會（附主題演講）

就在那時深度學習創造出了巨大的計算需求。在terabyte甚至petabyte大小的訓練數據集上訓練強大卻昂貴的深度模型。再加上AutoML等技巧，可以將期望訓練算力擴大5到1000倍。

Jeff Dean、李飛飛等發起SysML大會（附主題演講）

在系統中使用昂貴深度模型的推理，有以下特點：每秒數十萬的請求；延遲要求幾十毫秒；數十億用戶。

Jeff Dean、李飛飛等發起SysML大會（附主題演講）

因此我們需要更多的計算力，而深度學習正在改變我們設計計算機的方式。深度學習具有的兩種特殊計算性能：可以降低精度，浮點計算；出現了很多專門的深度學習模型運算。

Jeff Dean、李飛飛等發起SysML大會（附主題演講）

為此，谷歌研發了TPU，第一代TPU是用於神經網路推理的晶元：92 T ops/秒 of 8位量化整數運算，用於搜索請求、神經機器翻譯、言語和圖像識別、AlphaGo比賽等。

Jeff Dean、李飛飛等發起SysML大會（附主題演講）

第一代TPU對推理起到了巨大的幫助，但不能做訓練。對於研究者的生產力和不斷增多的問題來說，加快訓練速度至關重要。於是，谷歌推出了第二代TPU，一個TPU由四個專用集成電路組成，配有64GB的「超高帶寬」內存。這一組合單元可以提供高達180 teraflops的性能，內存為64 GB HBM, 2400 GB/秒mem BW。

Jeff Dean、李飛飛等發起SysML大會（附主題演講）

今年晚些時候，谷歌計劃增加一個集群選項，讓雲客戶將多個TPU聚合成一個「Pod」，速度達到petaflop的範圍。而當時內部使用的Pod包括64個TPU，總吞吐為11.5 petaflops。

Jeff Dean、李飛飛等發起SysML大會（附主題演講）

Cloud TPU是谷歌設計的硬體加速器，為加速、拓展特定tensorflow機器學習workload而優化。每個TPU里內置了四個定製ASIC，單塊板卡的計算能力達每秒180 teraflops，高帶寬內存有64GB。某些程序只會對CPU、GPU、TPU進行微小的修改，某些程序通過同步數據並行度進行縮放，而不能在TPU pod上進行修改。

Jeff Dean、李飛飛等發起SysML大會（附主題演講）

當然，Jeff Dean重點推薦了谷歌剛剛發布不久的Cloud TPU。谷歌設計Cloud TPU是為了給TensorFlow的workload提供差異化性能，並讓機器學習工程師和研究人員更快速地進行迭代。

Lyft 自動駕駛的軟體總監Anantha Kancherla說自從用了谷歌雲TPU，最讓我們驚艷的是它的速度，通常需要幾天才能完成的工作現在幾個小時就可以了。

Jeff Dean、李飛飛等發起SysML大會（附主題演講）

如Resnet，MobileNet，DenseNet和SqueezeNet（物體分類），RetinaNet（對象檢測）和Transformer（語言建模和機器翻譯）等模型實現可以幫助用戶快速入門：https://github.com/tensorflow/tpu/

Jeff Dean、李飛飛等發起SysML大會（附主題演講）

使用單個 Cloud TPU，訓練 ResNet-50 使其在 ImageNet 基準挑戰上達到期望的準確率。

Jeff Dean、李飛飛等發起SysML大會（附主題演講）

1000個TPU會無償給到最頂尖的研究人員，他們將開放自己機器學習的研究，我們非常期待這些研究結果。

Jeff Dean、李飛飛等發起SysML大會（附主題演講）

在未來，我們將如何建造深度學習加速器？

Jeff Dean、李飛飛等發起SysML大會（附主題演講）

在Arxiv上的機器學習的論文逐年增長，速度已經超過摩爾定律。如果你現在開始做ASIC，大約兩年後能夠流片，而這款晶元需要能夠持續使用3年。換句話說，必須看清楚未來5年的技術發展，但是，我們能夠看清嗎？怎樣看清？

Jeff Dean、李飛飛等發起SysML大會（附主題演講）

一些必須考慮的問題包括精度、稀疏性和嵌入等等。Jeff Dean說，因為不得不直接在ML模型中進行批處理（batching），他常常感到很頭痛。

極低精度訓練（1-4位權重，1-4位激活）能否適用於通用問題？我們應該如何處理疏密混合的專家路由？如何處理針對某些問題非常巨大的嵌入？我們是否應該專門為處理大的批量建立機器？至於訓練演算法，SGD一類的演算法還會是主流訓練範式嗎？像K-FAC一類的大批量二階方法會是更好的選擇嗎？

Jeff Dean、李飛飛等發起SysML大會（附主題演講）

在System for ML這節，Jeff Dean談了機器學習如何直接影響系統。現在，很多系統實際上都沒有用到機器學習，但這一點應該得到轉變。一個很好的例子就是高性能機器學習模型，這也是谷歌大腦最近在從事的一個研究重點。

Jeff Dean、李飛飛等發起SysML大會（附主題演講）

對於大規模模型來說，並行計算很重要，模型的並行也很重要。讓不同的機器計算不同的模型，或者模型的不同部分，就避免了單台機器內存不足的問題，將來讓模型擴展到更多機器上也更加方便。

Jeff Dean、李飛飛等發起SysML大會（附主題演講）

但是，如何將模型分布到不同機器上並且取得好的性能是很難的。Jeff Dean以下面這個網路為例，比如有兩個LSTM，有Attention機制，在頂層有Softmax，你可以將方框中的部分放到不同的GPU卡上，因為這些部分都有同樣的參數，這些層也不用移動。

Jeff Dean、李飛飛等發起SysML大會（附主題演講）

此外，谷歌大腦還在進行一項研究，用強化學習來替代一部分硬體上的計算。你將計算視為運算元和dependencies組成的graph，然後給一組硬體，比如你想在4塊GPU或者8塊GPU上運行這個模型，結果整個過程成了很好的強化學習過程（見下圖）。

Jeff Dean、李飛飛等發起SysML大會（附主題演講）

結果：比人類專家要快19.3%（神經轉換模型）和19.7%（InceptionV3圖像模型）。

Jeff Dean、李飛飛等發起SysML大會（附主題演講）

之後，谷歌大腦將上述研究泛化，提出了一個層次模型（Hierarchical Model），將計算圖有效地放置到硬體設備上，特別是在混合了CPU，GPU和其他計算設備的異構環境中。這項研究提出了一種方法，叫做「分層規劃器」（Hierarchical Planner），能夠將目標神經網路的runtime最小化，這裡的runtime包括一次前向傳播，一次BP，一次參數更新。

Jeff Dean、李飛飛等發起SysML大會（附主題演講）

為了測量運行時間，預測全部在實際的硬體上運行。方法完全是端到端的，擴展到包含超過80,000個運算的計算圖。最終，新方法在圖中找到了高度細化的並行性，比以前的方法大幅提高速度。

Jeff Dean、李飛飛等發起SysML大會（附主題演講）

接下來，Jeff Dean介紹了谷歌大腦的研究，用ML模型替代資料庫組件。他們將神經網路應用於三種索引類型：B樹，用於處理範圍查詢；哈希映射（Hash-map），用於點查找查詢；以及Bloom-filter，用於設置包含檢查。

B-tree實際上可以看做模型。數據的累積分布函數（CDF）可以作為索引。舉例來說，如果鍵的範圍在0到500m之間，比起用哈希，直接把鍵當索引速度可能更快。如果知道了數據的累積分布函數（CDF），「CDF*鍵*記錄大小」可能約等於要查找的記錄的位置，這一點也適用於其他數據分布的情況。

Jeff Dean、李飛飛等發起SysML大會（附主題演講）

在測試時，研究人員將機器學習索引與B樹進行比較，使用了3個真實世界數據集，其中網路日誌數據集（Weblogs）對索引而言極具挑戰性，包含了200多萬個日誌條目，是很多年的大學網站的請求，而且每個請求都有單一的時間戳，數據中含有非常複雜的時間模式，包括課程安排、周末、假期、午餐休息、部門活動、學期休息，這些都是非常難以學習的。

對於網路日誌數據，機器學習索引帶來的速度提升最高達到了53%，對應的體積也有76%的縮小，相比之下誤差範圍稍有加大。

精確了解數據分布，可以大幅優化當前資料庫系統使用的幾乎所有索引結構。

這裡有一個關鍵點，那就是用計算換內存，計算越來越便宜，CPU-SIMD/GPU/TPU的功能越來越強大，在論文里，谷歌大腦的研究人員指出，「運行神經網路的高昂成本在未來可以忽略不計——谷歌TPU能夠在一個周期內最高完成上萬次神經網路運算。有人聲稱，到2025年CPU的性能將提高1000倍，基於摩爾定律的CPU在本質上將不復存在。利用神經網路取代分支重索引結構，資料庫可以從這些硬體的發展趨勢中受益。」

Jeff Dean說，這代表了一個非常有前景且十分有趣的方向，傳統系統開發中，使用ML的視角，就能發現很多新的應用。

Jeff Dean、李飛飛等發起SysML大會（附主題演講）

那麼，除了資料庫，ML還能使用在系統的哪些方面？一個很大的機會是啟發式方法。計算機系統里大量應用啟發式方法，因此，ML在用到啟發式方法的地方，都有機會帶來改變。

Jeff Dean、李飛飛等發起SysML大會（附主題演講）

編譯器：指令調度，寄存器分配，循環嵌套並行策略

網路：TCP窗口大小決定，退避重傳，數據壓縮

操作系統：進程調度，緩衝區緩存插入/替換，文件系統預取

作業調度系統：哪些任務/ VM要在同一台機器上定位，哪些任務要搶先……

ASIC設計：物理電路布局，測試用例選擇

Jeff Dean、李飛飛等發起SysML大會（附主題演講）

許多程序都有大量可調的命令行標記，通常不會從默認值中更改。

Jeff Dean、李飛飛等發起SysML大會（附主題演講）

所有都可以元學習（meta-learn）

ML：

學習位置決定
學習快速內核實現
學習優化更新規則
學習輸入預處理流程步驟
學習激活函數
學習針對特定設備類型的模型架構，或針對移動設備快速推理的模型架構，學習哪些預訓練的組件可重用，......

計算機體系結構/數據中心網路設計

通過自動測試設計空間來學習最佳設計性能（通過模擬器）

Jeff Dean、李飛飛等發起SysML大會（附主題演講）

在這些設置中取得成功的幾個關鍵：

（1）有一個數字指標來衡量和優化

（2）具有清晰的介面，可以輕鬆地將學習整合到所有這些系統

目前的工作：探索API和實現

基本的想法：

在某些情況下做出一系列選擇
最終獲得關於這些選擇的反饋
即使在分散式設置中，也可以以非常低的開銷工作
支持核心介面的許多實現

Jeff Dean、李飛飛等發起SysML大會（附主題演講）

總結

ML硬體尚處於起步階段。更快的系統和更廣泛的部署將導致更廣泛的領域取得更多突破。

我們的所有計算機系統核心的學習將使它們更好/更具適應性。這方面有很多機會

會議地址（含所有Poster鏈接）：http://www.sysml.cc/

Jeff Dean、李飛飛等發起SysML大會（附主題演講）

【2018新智元AI技術峰會重磅開啟，599元早鳥票搶票中！】

2017年，作為人工智慧領域最具影響力的產業服務平台——新智元成功舉辦了「新智元開源·生態技術峰會」和「2017AIWORLD 世界人工智慧大會」。憑藉超高活動人氣及行業影響力，獲得2017年度活動行「年度最具影響力主辦方」獎項。

其中「2017 AI WORLD 世界人工智慧大會」創人工智慧領域活動先河，參會人次超5000；開場視頻在騰訊視頻點播量超100萬；新華網圖文直播超1200萬。

2018年的3月29日，新智元再匯AI之力，共築產業躍遷之路。在北京舉辦2018年中國AI開年盛典——2018新智元AI技術峰會，本次峰會以「產業·躍遷」為主題，特邀諾貝爾獎評委、德國人工智慧研究中心創始人兼CEO Wolfgang Wahlster 親臨現場，與谷歌、微軟、亞馬遜、BAT、科大訊飛、京東和華為等企業重量級嘉賓，共同研討技術變革，助力領域融合發展。

新智元誠摯邀請關心人工智慧行業發展的各界人士 3 月 29 日親臨峰會現場，共同參與這一跨領域的思維碰撞。

關於大會更多信息，請關注新智元微信公眾號或訪問活動行頁面（點擊閱讀原文）：http://www.huodongxing.com/event/8426451122400

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 新智元 的精彩文章:

※深度學習——Bhiksha Raj 主講
※「AAAI oral」阿里北大提出新attention建模框架

TAG:新智元 |