當前位置:
首頁 > 科技 > 剛剛,谷歌宣布TPU全面開放,AI晶元及雲市場再迎變局

剛剛,谷歌宣布TPU全面開放,AI晶元及雲市場再迎變局

夏乙 李根 假裝發自 凹非寺

量子位 出品 | 公眾號 QbitAI

谷歌又出手了。又是一個大招。(上一個)

這次谷歌傳奇Jeff Dean親自在推特上連發10條,滿懷激動地對外宣布著這個消息:谷歌TPU首次對外全面開放。

AI晶元和公有雲市場將迎來新的變局。

之前英偉達的黃仁勛在談到谷歌TPU時,就曾強硬的表示,對TPU的威脅不以為然。當時,老黃還列了列參數:新的TPU可以實現45 teraflop的運算能力,而英偉達最新的Volta GPU則能達到120 teraflop。

但如果你關注人工智慧,肯定知道TPU的威力。谷歌搜索、翻譯、相冊等應用,都有TPU在提供AI加速。更值得一提的是,AlphaGo也是借力TPU,稱霸圍棋界。

而且谷歌這款晶元還專門對AI進行了優化。

谷歌在官方博客中表示,在新發布的Cloud TPU幫助下,不到一天的時間,你就可以在ImageNet上把ResNet-50模型訓練到75%的精度,成本不足200美元。

從現在起,每小時6.5美元,你也能用上谷歌TPU了。

理論上。

谷歌博客全文

Google的機器學習利器Cloud TPU,從今天開始面向更多用戶開放了。

Cloud TPU今天發布了beta版,這一版本通過谷歌雲平台(Google Cloud Platform, GCP)提供,想幫更多機器學習專家更快地運行模型。

Cloud TPU是谷歌設計的硬體加速器,專為加速、擴展特定的TensorFlow機器學習工作負載而優化。

每個Cloud TPU包含4個定製化的ASIC,單塊板卡的計算能力達到每秒180萬億次浮點運算(180 teraflops),有64GB的高帶寬內存。

這些板卡可以單獨使用,也可以通過超高速專用網路連接起來,形成「TPU pod」。今年晚些時候,Google會開始通過GCP供應這種更大的超級計算機。

Google設計Cloud TPU的目標,是針對性地為TensorFlow工作負載提供一分錢一分貨的差異化性能,讓研究人員嫩更快地進行迭代。

例如:

你能通過自定義、可控制的Google Compute Engine虛擬機,對聯網的Cloud TPU進行互動式的、獨享的訪問,而不用等待自己的工作在共享計算集群上排隊。

你能連夜在一組Cloud TPU上訓練出同一個模型的幾個變體,第二天將訓練出來的最精確的模型部署到生產中,而不用等幾天、甚至幾周來訓練關鍵業務機器學習模型。

不到一天的時間,你就可以在ImageNet上把ResNet-50模型訓練到75%的精度,成本不到200美元。

Google還專門為此準備了一份教程:https://cloud.google.com/tpu/docs/tutorials/resnet


更簡單的機器學習模型訓練

過去,為定製ASIC和超級計算機編程需要深入的專業知識技能。相比之下,要對Cloud TPU編程,用高級TensorFlow API就可以了,Google還開源了一組高性能的雲TPU模型實現,上手更簡單:

圖像分類模型:

ResNet-50 https://cloud.google.com/tpu/docs/tutorials/resnet

其他圖像分類模型https://github.com/tensorflow/tpu/tree/master/models/official

用於機器翻譯和語言建模的Transformer:

https://cloud.google.com/tpu/docs/tutorials/transformer

用於對象檢測的RetinaNet:

https://github.com/tensorflow/tpu/blob/master/models/official/retinanet/README.md

Google在博客中說,經過對性能和收斂性的不斷測試,這些模型都達到了標準數據集的預期精度。

以後,Google會逐漸推出更多模型實現。不過,想要探險的機器學習專家也可以用他們提供的文檔和工具,自行在Cloud TPU上優化其他TensorFlow模型。

現在開始用Cloud TPU,等到今年晚些時候Google推出TPU pod的時候,訓練的時間-精度比能得到驚人的提升。

在NIPS 2017上,Google曾宣布ResNet-50和Transformer兩個模型在完整TPU pod上的訓練時間,都從大半天下降到了30分鐘以內,不需要改動任何代碼。


可擴展的機器學習平台

雲TPU還簡化了機器學習計算資源的規劃和管理:

你可以為團隊提供最先進的機器學習加速,並根據需求的變化動態調整生產力。

你可以直接用經過Google多年優化的高度集成機器學習基礎設施,無需投入大量金錢、時間、專業人才來設計、安裝、維護現場機器學習計算集群,不用考慮供電、冷卻、聯網、存儲要求等問題。

Google Cloud TPU經過預先配置,不需要安裝驅動程序,因此,也不用想方設法讓一大群工作站和伺服器的驅動程序保持最新。

和其他Google雲服務一樣,有複雜的安全機制保護著你的數據。

Google說要為客戶的每個機器學習負載提供最適合的雲服務,除了TPU之外,他們還提供英特爾Skylake等高性能CPU,和包括英偉達Tesla V100在內的高端GPU。

開始使用吧

Cloud TPU今天開始提供,數量有限,按秒計費。每個Cloud TPU每小時6.5美元。

要使用beta版的Cloud TPU,需要填個表,描述一下你要用TPU幹什麼,向Google申請配額:https://services.google.com/fb/forms/cloud-tpu-beta-request/

Google說,會儘快讓你用上Cloud TPU。

2月27日,Google還要開一場在線講座,再細緻地談一談Cloud TPU。

在Google的博客文章中,提到了兩家客戶使用Cloud TPU的感受。

一家是投資公司Two Sigma。他們的深度學習研究現在主要在雲上進行,該公司CTO Alfred Spector說:「將TensorFlow工作負載轉移到TPU上,大大降低了編程新模型的複雜性,縮短了訓練時間。」

另一家是共享出行公司Lyft。深度學習正在成為這家公司無人車研究的重要組成部分。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 量子位 的精彩文章:

數據載入過慢?這裡有一份TensorFlow加速指南
對話今日頭條副總裁馬維英:有技術也要有價值觀

TAG:量子位 |