當前位置:
首頁 > 科技 > 40美元18分鐘訓練整個ImageNet!他們說,這個成績人人可實現

40美元18分鐘訓練整個ImageNet!他們說,這個成績人人可實現

夏乙 發自 麥蒿寺

量子位 出品 | 公眾號 QbitAI

騰訊前不久創造了機器學習訓練新記錄:在ImageNet上訓練好AlexNet,只要4分鐘

震驚聲欽佩聲一片。同時,也有更多人的目光,落在了這項研究背後的龐大計算力之上:

4分鐘在ImageNet上把AlexNet訓練到58.7%的準確率,用了1024塊英偉達Tesla P40 GPU;6.6分鐘把ResNet-50訓練到準確率75.8%,用了2048塊P40。

按5萬元一塊保守計算,這項研究僅GPU成本就超過了1億元。就算不去考慮機房機箱CPU等等其他成本,也已經不是貧民普通實驗室能玩得起的了。

偏有貧窮團隊不信邪。

在線深度學習課程fast.ai的創始人Jeremy Howard和自己的學生Andrew Shaw、以及國防創新部門DIU的Yaroslav Bulatov一起,用租來的亞馬遜AWS的雲計算資源,18分鐘在ImageNet上將圖像分類模型訓練到了93%的準確率。

於是,Howard在fast.ai官方博客上發布了一篇文章:現在,任何人都能18分鐘訓練完ImageNet啦!

他說,在人人能用的硬體(公共基礎設施)上把ImageNet訓練到這樣的準確率,這個速度是個新記錄,比Google用TPU Pod在斯坦福DAWNBench測試上達到的速度還要快40%。

這樣的成績需要用到多少計算資源呢?

答案是,他們用了16個AWS雲實例,每個實例搭載8塊英偉達V100 GPU。成本:40美元

他們訓練的是一個標準ResNet-50,用SGD和momentum來優化。

而所用的方法,簡單來說融合了這些技術:

逐步調整圖像大小:fast.ai提出了在分類任務里要漸進式地調整圖像大小(progressive image resizing),先用小圖片訓練,然後逐漸增大。

在驗證中使用長方形圖像:以往,人們在圖像識別中都需要把原圖剪成固定尺寸的正方形,而他們這一次所用的庫會自動將固定尺寸的模型轉換成動態尺寸模型,繞開了這一步。

如下圖所示,左上是原圖,右上是fast.ai使用的長方形圖像,左下是標準方法裁剪的正方形,而右下是多次裁剪方法裁出的正方形。

Google Brain動態批次大小的一種變體:他們為中間的一些訓練周期使用了更大的批次,這樣能更好地利用GPU RAM,防止網路延遲。

騰訊4分鐘訓練ImageNet方法對權重衰減調整的處理方式:這種方法去掉了批次標準化(batchnorm)層里的權重衰減,能在固定的訓練時間裡多訓練幾個周期。

為了經濟地在多台機器上運行多個實驗,更方便地運用AWS比較便宜的「Spot實例」,他們構建的系統里用一個Python API來啟動和配置新實例、運行實驗、收集結果、查看進程,還開發了一個連接調度程序(nexus-scheduler)來幫助分散式實驗更好地迭代。

在連接調度程序里還能通過Tensorboard查看網路利用情況

基本的分散式計算是用英偉達的NCCL庫結合PyTorch的all reduce分散式模塊實現的。

就是這樣一套方法,實現了前邊所說的40美元、16個AWS實例、18分鐘訓練整個ImageNet的成績。

接下來,他們還打算繼續優化方法,進一步加快訓練速度。另外,這個團隊還計劃8月25日正式發布nexus-scheduler,其中融合了fast.ai工具的功能。

最後,附一道通往原文的傳送門:

http://www.fast.ai/2018/08/10/fastai-diu-imagenet/

加入社群

量子位AI社群19群開始招募啦,歡迎對AI感興趣的同學,在量子位公眾號(QbitAI)對話界面回復關鍵字「交流群」,獲取入群方式;

此外,量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募,面向正在從事相關領域的工程師及研究人員。

進專業群請在量子位公眾號(QbitAI)對話界面回復關鍵字「專業群」,獲取入群方式。(專業群審核較嚴,敬請諒解)

誠摯招聘

量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回復「招聘」兩個字。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 量子位 的精彩文章:

快手AI技術副總裁鄭文:為什麼說AI是短視頻平台的核心能力

TAG:量子位 |