當前位置:
首頁 > 新聞 > Jeff Dean、李飛飛等發起SysML大會(附主題演講)

Jeff Dean、李飛飛等發起SysML大會(附主題演講)

Jeff Dean、李飛飛等發起SysML大會(附主題演講)



新智元報道

來源:SysML 2018

編輯:聞菲、艾霄葆、常佩琦、劉小芹

【新智元導讀】Jeff Dean、Michael I.Jordan、李飛飛、LeCun等大牛發起的系統機器學習會議SysML 2018前天在斯坦福閉幕。我們重點介紹Jeff Dean在SysML 2018的主旨演講《系統與機器學習的共生》(Systems and Machine Learning Symbiosis)。這是一個宏大的目標,也是挑戰,正如Jeff Dean演講PPT所示,現在上傳到arXiv的論文數量已經超過了摩爾定律的增長;直接在ML模型里批處理(batching),也常常讓「讓他感到頭痛」。

Jeff Dean、李飛飛等發起SysML大會(附主題演講)

當前關於AI/ML的討論大多偏向演算法和應用,關於底層的基礎設施卻少有討論,形成了一個不容忽視的缺環。系統研究的滯後會從根本上延緩AI/ML技術的創新和實踐。另一方面,開發適用於AI/ML的硬體也需要與傳統硬體不同的思路和方法,如何找到兩者更好的結合?

在這樣的背景下,一群AI/ML界的大牛發起了一個新的會議——SysML,這個會議專門針對系統和機器學習交叉研究領域,目的是在這些領域之間建立新的聯繫,包括確定學習系統的最佳實踐和設計原則,以及開發針對實際機器學習工作流程的新穎學習方法和理論。

Jeff Dean、李飛飛等發起SysML大會(附主題演講)

看看SysML的這些發起人:

  • Jennifer Chayes 微軟Technical Fellow,微軟新英格蘭研究院和微軟紐約研究院院長

  • Bill Dally,英偉達VP兼首席科學家

  • Jeff Dean,谷歌大腦負責人

  • Michael I. Jordan,統計機器學習宗師

  • 李飛飛,斯坦福人工智慧實驗室主任/谷歌雲首席科學家

  • Yann LeCun,Facebook首席科學家

  • Alex Smola,亞馬遜雲機器學習負責人

  • Dawn Song,伯克利教授

  • 邢波,CMU教授

SysML 2018在斯坦福舉行,200篇接收論文,註冊名額5分鐘內就被搶購一空。

會上,Michael Jordan發表了《SysML:前景與挑戰》的演講,其中提到了機器學習近期和遠期的挑戰。Jordan認為,目前機器學習還存在很多不確定性、推理、決策、魯棒性和可擴展的問題,遠遠沒有得到解決,更不用提社會、經濟和法律問題了。

Jeff Dean、李飛飛等發起SysML大會(附主題演講)

喬丹提到的機器學習近期挑戰,包括管理端雲互動系統、設計能夠自動尋找抽象的系統,以及能夠自我解釋的系統。經濟會發展,市場會變得更好,但我們做機器學習的人應該把目標定得更高,不止是更好的做BP。

Jordan還指出,當前的「系統+ML」研究的目標還定得非常低,很多人只想著構建一個「平台」(platform),而不是一個「生態」(ecosystem),比如推薦電影的平台跟推薦餐廳或股票的平台各不兼容。

Jeff Dean主題演講:系統與機器學習共生

下面,我們重點介紹Jeff Dean在SysML 2018的主旨演講《系統與機器學習的共生》(Systems and Machine Learning Symbiosis)。這是一個宏大的目標,也是挑戰,正如Jeff Dean演講PPT所示,現在上傳到arXiv的論文數量已經超過了摩爾定律的增長;直接在ML模型里批處理(batching),也常常讓「讓他感到頭痛」。

Jeff Dean、李飛飛等發起SysML大會(附主題演講)

演講的第一部分是用於機器學習的系統。他首先介紹了通用處理器性能趨勢,指出經過數十年的指數式增長,單核性能保持穩定。

Jeff Dean、李飛飛等發起SysML大會(附主題演講)

就在那時深度學習創造出了巨大的計算需求。在terabyte甚至petabyte大小的訓練數據集上訓練強大卻昂貴的深度模型。再加上AutoML等技巧,可以將期望訓練算力擴大5到1000倍。

Jeff Dean、李飛飛等發起SysML大會(附主題演講)

在系統中使用昂貴深度模型的推理,有以下特點:每秒數十萬的請求;延遲要求幾十毫秒;數十億用戶。

Jeff Dean、李飛飛等發起SysML大會(附主題演講)

因此我們需要更多的計算力,而深度學習正在改變我們設計計算機的方式。深度學習具有的兩種特殊計算性能:可以降低精度,浮點計算;出現了很多專門的深度學習模型運算。

Jeff Dean、李飛飛等發起SysML大會(附主題演講)

為此,谷歌研發了TPU,第一代TPU是用於神經網路推理的晶元:92 T ops/秒 of 8位 量化整數運算,用於搜索請求、神經機器翻譯、言語和圖像識別、AlphaGo比賽等。

Jeff Dean、李飛飛等發起SysML大會(附主題演講)

Jeff Dean、李飛飛等發起SysML大會(附主題演講)

第一代TPU對推理起到了巨大的幫助,但不能做訓練。對於研究者的生產力和不斷增多的問題來說,加快訓練速度至關重要。於是,谷歌推出了第二代TPU,一個TPU由四個專用集成電路組成,配有64GB的「超高帶寬」內存。這一組合單元可以提供高達180 teraflops的性能,內存為64 GB HBM, 2400 GB/秒mem BW。

Jeff Dean、李飛飛等發起SysML大會(附主題演講)

Jeff Dean、李飛飛等發起SysML大會(附主題演講)

Jeff Dean、李飛飛等發起SysML大會(附主題演講)

Jeff Dean、李飛飛等發起SysML大會(附主題演講)

今年晚些時候,谷歌計劃增加一個集群選項,讓雲客戶將多個TPU聚合成一個「Pod」,速度達到petaflop的範圍。而當時內部使用的Pod包括64個TPU,總吞吐為11.5 petaflops。

Jeff Dean、李飛飛等發起SysML大會(附主題演講)

Cloud TPU是谷歌設計的硬體加速器,為加速、拓展特定tensorflow機器學習workload而優化。每個TPU里內置了四個定製ASIC,單塊板卡的計算能力達每秒180 teraflops,高帶寬內存有64GB。某些程序只會對CPU、GPU、TPU進行微小的修改,某些程序通過同步數據並行度進行縮放,而不能在TPU pod上進行修改。

Jeff Dean、李飛飛等發起SysML大會(附主題演講)

當然,Jeff Dean重點推薦了谷歌剛剛發布不久的Cloud TPU。谷歌設計Cloud TPU是為了給TensorFlow的workload提供差異化性能,並讓機器學習工程師和研究人員更快速地進行迭代。

Lyft 自動駕駛的軟體總監Anantha Kancherla說自從用了谷歌雲TPU,最讓我們驚艷的是它的速度,通常需要幾天才能完成的工作現在幾個小時就可以了。

Jeff Dean、李飛飛等發起SysML大會(附主題演講)

如Resnet,MobileNet,DenseNet和SqueezeNet(物體分類),RetinaNet(對象檢測)和Transformer(語言建模和機器翻譯)等模型實現可以幫助用戶快速入門:https://github.com/tensorflow/tpu/

Jeff Dean、李飛飛等發起SysML大會(附主題演講)

Jeff Dean、李飛飛等發起SysML大會(附主題演講)

使用單個 Cloud TPU,訓練 ResNet-50 使其在 ImageNet 基準挑戰上達到期望的準確率。

Jeff Dean、李飛飛等發起SysML大會(附主題演講)

Jeff Dean、李飛飛等發起SysML大會(附主題演講)

1000個TPU會無償給到最頂尖的研究人員,他們將開放自己機器學習的研究,我們非常期待這些研究結果。

Jeff Dean、李飛飛等發起SysML大會(附主題演講)

在未來,我們將如何建造深度學習加速器?

Jeff Dean、李飛飛等發起SysML大會(附主題演講)

在Arxiv上的機器學習的論文逐年增長,速度已經超過摩爾定律。如果你現在開始做ASIC,大約兩年後能夠流片,而這款晶元需要能夠持續使用3年。換句話說,必須看清楚未來5年的技術發展,但是,我們能夠看清嗎?怎樣看清?

Jeff Dean、李飛飛等發起SysML大會(附主題演講)

Jeff Dean、李飛飛等發起SysML大會(附主題演講)

一些必須考慮的問題包括精度、稀疏性和嵌入等等。Jeff Dean說,因為不得不直接在ML模型中進行批處理(batching),他常常感到很頭痛。

極低精度訓練(1-4位權重,1-4位激活)能否適用於通用問題?我們應該如何處理疏密混合的專家路由?如何處理針對某些問題非常巨大的嵌入?我們是否應該專門為處理大的批量建立機器?至於訓練演算法,SGD一類的演算法還會是主流訓練範式嗎?像K-FAC一類的大批量二階方法會是更好的選擇嗎?

Jeff Dean、李飛飛等發起SysML大會(附主題演講)

Jeff Dean、李飛飛等發起SysML大會(附主題演講)

在System for ML這節,Jeff Dean談了機器學習如何直接影響系統。現在,很多系統實際上都沒有用到機器學習,但這一點應該得到轉變。一個很好的例子就是高性能機器學習模型,這也是谷歌大腦最近在從事的一個研究重點。

Jeff Dean、李飛飛等發起SysML大會(附主題演講)

Jeff Dean、李飛飛等發起SysML大會(附主題演講)

對於大規模模型來說,並行計算很重要,模型的並行也很重要。讓不同的機器計算不同的模型,或者模型的不同部分,就避免了單台機器內存不足的問題,將來讓模型擴展到更多機器上也更加方便。

Jeff Dean、李飛飛等發起SysML大會(附主題演講)

但是,如何將模型分布到不同機器上並且取得好的性能是很難的。Jeff Dean以下面這個網路為例,比如有兩個LSTM,有Attention機制,在頂層有Softmax,你可以將方框中的部分放到不同的GPU卡上,因為這些部分都有同樣的參數,這些層也不用移動。

Jeff Dean、李飛飛等發起SysML大會(附主題演講)

此外,谷歌大腦還在進行一項研究,用強化學習來替代一部分硬體上的計算。你將計算視為運算元和dependencies組成的graph,然後給一組硬體,比如你想在4塊GPU或者8塊GPU上運行這個模型,結果整個過程成了很好的強化學習過程(見下圖)。

Jeff Dean、李飛飛等發起SysML大會(附主題演講)

結果:比人類專家要快19.3%(神經轉換模型)和19.7%(InceptionV3圖像模型)。

Jeff Dean、李飛飛等發起SysML大會(附主題演講)

之後,谷歌大腦將上述研究泛化,提出了一個層次模型(Hierarchical Model),將計算圖有效地放置到硬體設備上,特別是在混合了CPU,GPU和其他計算設備的異構環境中。這項研究提出了一種方法,叫做「分層規劃器」(Hierarchical Planner),能夠將目標神經網路的runtime最小化,這裡的runtime包括一次前向傳播,一次BP,一次參數更新。

Jeff Dean、李飛飛等發起SysML大會(附主題演講)

為了測量運行時間,預測全部在實際的硬體上運行。方法完全是端到端的,擴展到包含超過80,000個運算的計算圖。最終,新方法在圖中找到了高度細化的並行性,比以前的方法大幅提高速度。

Jeff Dean、李飛飛等發起SysML大會(附主題演講)

Jeff Dean、李飛飛等發起SysML大會(附主題演講)

Jeff Dean、李飛飛等發起SysML大會(附主題演講)

Jeff Dean、李飛飛等發起SysML大會(附主題演講)

接下來,Jeff Dean介紹了谷歌大腦的研究,用ML模型替代資料庫組件。他們將神經網路應用於三種索引類型:B樹,用於處理範圍查詢;哈希映射(Hash-map),用於點查找查詢;以及Bloom-filter,用於設置包含檢查。

B-tree實際上可以看做模型。數據的累積分布函數(CDF)可以作為索引。舉例來說,如果鍵的範圍在0到500m之間,比起用哈希,直接把鍵當索引速度可能更快。如果知道了數據的累積分布函數(CDF),「CDF*鍵*記錄大小」可能約等於要查找的記錄的位置,這一點也適用於其他數據分布的情況。

Jeff Dean、李飛飛等發起SysML大會(附主題演講)

Jeff Dean、李飛飛等發起SysML大會(附主題演講)

在測試時,研究人員將機器學習索引與B樹進行比較,使用了3個真實世界數據集,其中網路日誌數據集(Weblogs)對索引而言極具挑戰性,包含了200多萬個日誌條目,是很多年的大學網站的請求,而且每個請求都有單一的時間戳,數據中含有非常複雜的時間模式,包括課程安排、周末、假期、午餐休息、部門活動、學期休息,這些都是非常難以學習的。

對於網路日誌數據,機器學習索引帶來的速度提升最高達到了53%,對應的體積也有76%的縮小,相比之下誤差範圍稍有加大。

精確了解數據分布,可以大幅優化當前資料庫系統使用的幾乎所有索引結構。

這裡有一個關鍵點,那就是用計算換內存,計算越來越便宜,CPU-SIMD/GPU/TPU的功能越來越強大,在論文里,谷歌大腦的研究人員指出,「運行神經網路的高昂成本在未來可以忽略不計——谷歌TPU能夠在一個周期內最高完成上萬次神經網路運算。有人聲稱,到2025年CPU的性能將提高1000倍,基於摩爾定律的CPU在本質上將不復存在。利用神經網路取代分支重索引結構,資料庫可以從這些硬體的發展趨勢中受益。」

Jeff Dean說,這代表了一個非常有前景且十分有趣的方向,傳統系統開發中,使用ML的視角,就能發現很多新的應用

Jeff Dean、李飛飛等發起SysML大會(附主題演講)

那麼,除了資料庫,ML還能使用在系統的哪些方面?一個很大的機會是啟發式方法。計算機系統里大量應用啟發式方法,因此,ML在用到啟發式方法的地方,都有機會帶來改變。

Jeff Dean、李飛飛等發起SysML大會(附主題演講)

Jeff Dean、李飛飛等發起SysML大會(附主題演講)

編譯器:指令調度,寄存器分配,循環嵌套並行策略

網路:TCP窗口大小決定,退避重傳,數據壓縮

操作系統:進程調度,緩衝區緩存插入/替換,文件系統預取

作業調度系統:哪些任務/ VM要在同一台機器上定位,哪些任務要搶先……

ASIC設計:物理電路布局,測試用例選擇

Jeff Dean、李飛飛等發起SysML大會(附主題演講)

許多程序都有大量可調的命令行標記,通常不會從默認值中更改。

Jeff Dean、李飛飛等發起SysML大會(附主題演講)

所有都可以元學習(meta-learn)

ML:

  • 學習位置決定

  • 學習快速內核實現

  • 學習優化更新規則

  • 學習輸入預處理流程步驟

  • 學習激活函數

  • 學習針對特定設備類型的模型架構,或針對移動設備快速推理的模型架構,學習哪些預訓練的組件可重用,......

計算機體系結構/數據中心網路設計

  • 通過自動測試設計空間來學習最佳設計性能(通過模擬器)

Jeff Dean、李飛飛等發起SysML大會(附主題演講)

在這些設置中取得成功的幾個關鍵:

(1)有一個數字指標來衡量和優化

(2)具有清晰的介面,可以輕鬆地將學習整合到所有這些系統

目前的工作:探索API和實現

基本的想法:

  • 在某些情況下做出一系列選擇

  • 最終獲得關於這些選擇的反饋

  • 即使在分散式設置中,也可以以非常低的開銷工作

  • 支持核心介面的許多實現

Jeff Dean、李飛飛等發起SysML大會(附主題演講)

總結

ML硬體尚處於起步階段。更快的系統和更廣泛的部署將導致更廣泛的領域取得更多突破。

我們的所有計算機系統核心的學習將使它們更好/更具適應性。這方面有很多機會

會議地址(含所有Poster鏈接):http://www.sysml.cc/



Jeff Dean、李飛飛等發起SysML大會(附主題演講)

【2018新智元AI技術峰會重磅開啟,599元早鳥票搶票中!

2017年,作為人工智慧領域最具影響力的產業服務平台——新智元成功舉辦了「新智元開源·生態技術峰會」和「2017AIWORLD 世界人工智慧大會」。憑藉超高活動人氣及行業影響力,獲得2017年度活動行「年度最具影響力主辦方」獎項。

其中「2017 AI WORLD 世界人工智慧大會」創人工智慧領域活動先河,參會人次超5000;開場視頻在騰訊視頻點播量超100萬;新華網圖文直播超1200萬。

2018年的3月29日,新智元再匯AI之力,共築產業躍遷之路。在北京舉辦2018年中國AI開年盛典——2018新智元AI技術峰會,本次峰會以「產業·躍遷」為主題,特邀諾貝爾獎評委、德國人工智慧研究中心創始人兼CEO Wolfgang Wahlster 親臨現場,與谷歌、微軟、亞馬遜、BAT、科大訊飛、京東和華為等企業重量級嘉賓,共同研討技術變革,助力領域融合發展。

新智元誠摯邀請關心人工智慧行業發展的各界人士 3 月 29 日親臨峰會現場,共同參與這一跨領域的思維碰撞。

關於大會更多信息,請關注新智元微信公眾號或訪問活動行頁面(點擊閱讀原文):http://www.huodongxing.com/event/8426451122400

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 新智元 的精彩文章:

深度學習——Bhiksha Raj 主講
「AAAI oral」阿里北大提出新attention建模框架

TAG:新智元 |