詳解Google第二代TPU 既能推理又能訓練性能霸道

新聞 05-18

5月18日凌晨，Google CEO Sundar Pichai在I/O大會上正式公布了第二代TPU，又稱Cloud TPU或TPU 2.0，這一基於雲計算的硬體和軟體系統，將繼續支撐Google最前沿的人工智慧技術。第一代TPU於去年發布，它被作為一種特定目的晶元而專為機器學習設計，並用在了AlphaGo的人工智慧系統上，是其預測和決策等技術的基礎。

隨後，Google還將這一晶元用在了其服務的方方面面，比如每一次搜索都有用到TPU的計算能力，最近還用在了Google翻譯、相冊等軟體背後的機器學習模型中。

今天凌晨，Google宣布第二代的TPU系統已經全面投入使用，並且已經部署在了Google Compute Engine平台上。它可用於圖像和語音識別，機器翻譯和機器人等領域。

新的TPU包括了四個晶元，每秒可處理180萬億次浮點運算。Google還找到一種方法，使用新的計算機網路將64個TPU組合到一起，升級為所謂的TPU Pods，可提供大約11500萬億次浮點運算能力。

強大的運算能力為Google提供了優於競爭對手的速度，和做實驗的自由度。Google表示，公司新的大型翻譯模型如果在32塊性能最好的GPU上訓練，需要一整天的時間，而八分之一個TPU Pod就能在6個小時內完成同樣的任務。之所以開發新晶元，部分也是因為Google的機器翻譯模型太大，無法如想要的那麼快進行訓練。

除了速度，第二代TPU最大的特色，是相比初代TPU它既可以用於訓練神經網路，又可以用於推理。初代的TPU只能做推理，要依靠Google雲來實時收集數據併產生結果，而訓練過程還需要額外的資源。

機器學習的能力已經逐漸在消費級產品中體現出來，比如Google翻譯幾乎可以實時將英語句子變成中文，AlphaGo能以超人的熟練度玩圍棋。所有這一切都要靠訓練神經網路來完成，而這又需要計算能力。所以硬體越強大，得到的結果就越快。如果將每個實驗的時間從幾周縮短到幾天或幾個小時，就可以提高每個機器學習者快速迭代，並進行更多實驗的能力。由於新一代TPU可以同時進行推理和訓練，研究人員能比以前更快地部署AI實驗。

過去十多年來，Google已經開發出很多新的數據中心硬體，其中包括伺服器和網路設備，主要目的是擴張自己的在線帝國。而過去幾年中，在AI方面Google也選擇開發自己的硬體，為其軟體做優化。神經網路是複雜的數學系統，通過分析大量數據來學習，這種系統從根本上改變了技術的構建和運行方式，影響範圍也包括硬體。

在某種程度上，初代的TPU被設計來是為了更好地支持TensoFlow機器學習框架。而歸功於Google在軟硬體上的進步與集成，TensorFlow已經成為構建AI軟體的領先平台之一。這種優化，再加上Google大腦及其DeepMind子公司的內部人才，正是Google在AI領域保持領先的部分原因。

晶元廠商NVidia的GPU幾乎主宰了機器學習的市場，而現在，Google想通過專門設計用於訓練神經網路的晶元，來改變市場提格局。

亞馬遜和微軟通過自己的雲服務提供GPU處理，但他們不提供定製的AI晶元。

不過Google也不能因此而高枕無憂，因為短期內競爭就會加劇。目前已經有幾家公司，包括晶元巨頭英特爾和一大批初創公司，正在開發專門的AI晶元，它們都可能替代Google TPU。

首先開發出新的晶元並不能保證Google成功，要使用TPU 2.0，開發者要學習一種構建和運行神經網路的新方法。它不僅僅是一個新的晶元，TPU 2.0也是專門為TensorFlow設計。雖然Tensorflow是開源軟體，但也有許多研究人員使用Torch和Caffe等類似的軟體。新硬體需要新的軟體優化，這需要不少時間。

在Google推出TPU 2.0的幾周之前，Facebook的AI研究主管Yann LeCun質疑稱，市場可能不需要新的AI專用晶元，因為研究者已經對使用GPU所需的工具非常熟悉了。新的硬體意味著新的生態系統。

另外，Google雲服務的成功不僅取決於晶元的速度，以及使用的容易程度，還要考慮成本。所以，如果Google以比現有GPU服務更低的成本提供TPU服務，會得到更廣泛的用戶基礎。

Google自己當然會使用新TPU系統，但也會將它的能力開放給其它公司使用。Google表示，不會將晶元直接出售，而是會通過其新的雲服務（年底前公布）提供，任何開發者都可以使用新處理器帶來的計算能力。

Google也重申了其對開源模式的承諾，表示會向同意發布研究結果的研究人員提供TPU資源，甚至可能開源代碼。他甚至呼籲開發者加入TensorFlow Research Cloud計劃，它會免費提供一組1000台TPU。

新TPU的速度優勢肯定會吸引到不少研究人員，畢竟AI研究要在大量硬體上廣泛試錯。就此而言，Google願意免費提供計算資源對全世界的AI研究者來說都是有好處的，當然，這對Google來說也是有好處的。

圖片來自WIRED及THEVERGE

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 cnbeta 的精彩文章:

※Microsoft Build巡展2017啟動：首站定在中國上海
※[視頻]網友用磨砂機打造了一部不割手的堅果Pro
※[視頻]國內企業推出體積小巧的水下推進裝置「白鯊MIX」
※眾籌平台Kickstarter今年晚些時候登陸日本

TAG:cnbeta |

您可能感興趣

※量身定製，鋼琴訓練軟體Music Everywhere幫助孩子掌握演奏技巧
※Neurobiol Aging：認知訓練能夠幫助大腦保持年輕
※英語「使用能力」訓練：Sleep on it
※MIT開發Flight Goggles VR系統訓練無人機
※Google 發布 AutoML Vision，全自動訓練 AI 無需寫代碼
※DeepMind提出心智神經網路ToMnet，訓練機器的理解能力
※Current Biology發表王立平組訓練獼猴習得嵌套性語法結構，顯示動物也能掌握複雜規則
※AI Talk：TensorFlow 分散式訓練的線性加速實踐
※Rasa Core源碼之Policy訓練
※動作—功能動作訓練體系Movement，Fuctional movement system
※在Cloud ML Engine的TPU上從頭訓練ResNet
※力量訓練愛好者必知的Starting Strength訓練計劃
※如何利用Google Colab免費訓練StarCraft II
※使用PaddleFluid和TensorFlow訓練RNN語言模型
※TensorFlow推出新工具Seedbank：即刻使用的預訓練模型庫
※使用Google Colaboratory訓練神經網路
※DeepMind 推出分散式訓練框架 IMPALA，開啟智能體訓練新時代
※「CVPR Oral」TensorFlow實現StarGAN代碼全部開源，1天訓練完
※教程｜如何利用Google Colab免費訓練星際爭霸II
※99％的人還以為軍靴只能被軍人穿上戰場-Belleville Minimalist極簡訓練靴測評

詳解Google第二代TPU 既能推理又能訓練 性能霸道

詳解Google第二代TPU 既能推理又能訓練性能霸道