谷歌重拳開放Cloud TPU：GPU最強對手上線，Jeff Dean十條推文全解讀

Jeff Dean連發十條推特，全面解讀Cloud TPU

1. 谷歌已為那些想訪問高速加速器來訓練機器學習模型的人們，推出了Cloud TPU的beta版。詳細細節可參見博客：

https://cloudplatform.googleblog.com/2018/02/Cloud-TPU-machine-learning-accelerators-now-available-in-beta.html?m=1

2. 通過谷歌雲VM，這些裝置通過TensorFlow編程模型提供180 tflops的計算能力。

3. 很多研究員和工程師都遇到機器學習計算受限問題，我們認為Cloud TPU將成為一個極好的解決方案。例如：一個Cloud TPU能在24小時內訓練ResNet-50模型達到75%的精度。

4.擁有早期訪問許可權的用戶看起來很開心。投資公司Two Sigma的CTO Alfred Spector說：「我們發現，將TensorFlow工作負載轉移到TPU上，極大降低了編程新模型的複雜性，並且縮短了訓練時間。」

5.共享出行公司Lyft軟體總監Anantha Kancherla說，「自從使用谷歌Cloud TPU，我們被它的速度驚呆了。以前需要花幾天的事情，現在幾小時就能完成。」

6. 如Resnet，MobileNet，DenseNet和SqueezeNet（物體分類），RetinaNet（對象檢測）和Transformer（語言建模和機器翻譯）等模型實現可以幫助用戶快速入門：

https://github.com/tensorflow/tpu/tree/master/models/official

7、Cloud TPU最初在美國相關區域提供，價格是每小時6.5美元。

8、你可以填表請求Cloud TPU配額

9.《紐約時報》記者Cade Metz今天對此作了報道"Google Makes Its Special A.I. Chips Available to Others"（谷歌將其專用AI晶元普及化）

10.儘管我們已在內部使用了一段時間，讓外部用戶也能用上Cloud TPU是谷歌很多人員工作的成果，包括谷歌雲、數據中心、平台小組、谷歌大腦、XLA團隊，和許多其他同事。

即日起，Cloud TPU在谷歌雲（GCP）上推出了beta版，幫助機器學習專家更快速訓練和運行模型。

Cloud TPU是谷歌設計的硬體加速器，為加速、拓展特定tensorflow機器學習workload而優化。每個TPU里內置了四個定製ASIC，單塊板卡的計算能力達每秒180 teraflops，高帶寬內存有64GB。這些板卡既能單獨使用，也可通過超高速專用網路連接從而形成「TPU pod」。谷歌將於今年通過谷歌雲供應這種更大的超級計算機。

谷歌設計Cloud TPU是為了給TensorFlow的workload提供差異化性能，並讓機器學習工程師和研究人員更快速地進行迭代。例如：

你能通過可控制及可自定義的GoogleCompute Engine VM，對聯網的Cloud TPU進行交互與專有的訪問許可權，無需等待工作在共享計算集群（shared compute cluster ）上排隊。

你能在一夜之間在一組CloudTPU上訓練出同一模型的若干變體，次日將訓練得出最精確的模型部署到生產中，無需等幾天或幾周來訓練關鍵業務機器學習模型。

只需要一個Cloud TPU，根據教程（https://cloud.google.com/tpu/docs/tutorials/resnet），一天之內就能在ImageNet上把ResNet-50模型訓練到基準精度，成本低於200美元。

極簡機器學習模型訓練

傳統上，給定製ASIC和超級計算機編程需要非常深厚的專業知識。而現在，你可以用高級TensorFlow API對Cloud TPU編程。谷歌還將一組高性能Cloud TPU模型實現進行了開源，幫您立即上手，包括：

ResNet-50及其他圖像分類模型

機器翻譯和語言建模的Transformer

物體檢測的RetinaNet

Google在博客中說，經過對性能和收斂性的不斷測試，這些模型都達到了標準數據集的預期精度。

以後，Google會逐漸推出更多模型實現。不過，想要探險的機器學習專家也可以用他們提供的文檔和工具，自行在Cloud TPU上優化其他TensorFlow模型。

現在開始用Cloud TPU，等到今年晚些時候Google推出TPU pod的時候，訓練的時間-精度比能得到驚人的提升。

為了節省用戶的時間和精力，谷歌持續對性能和收斂性不斷測試，模型都達到了標準數據集的期望精度。

經過發展，谷歌將對更多模型實現進行開源。具有冒險精神的機器學習專家或許可以用谷歌提供的文檔和工具，自己在Cloud TPU上優化其他TensorFlow模型。

現在開始使用Cloud TPU，當谷歌在今年晚些時候推出TPU pod後，客戶可以因為時間到精確度的顯著提高而獲得極大的收益。正如我們在NIPS 2017上宣布的那樣，ResNet-50和Transformer訓練時間在完整的TPU pod上從大半天下降到不到30分鐘，無需更改代碼。

投資管理公司Two Sigma的CTO Alfred Spector對谷歌Cloud TPU的性能和易用性做出了如下評價。

「我們決定把我們的深度學習研究的重點放在雲上，原因有很多，但主要是為了獲得最新的機器學習基礎設施，Google Cloud TPU是支持深度學習創新、技術快速發展的一個例子，我們發現將TensorFlow工作負荷轉移到TPU上，大大降低了編程新模型的複雜性和訓練時間，從而提高了工作效率。使用Cloud TPU代替其他加速器集群，我們能夠專註於構建自己的模型，不用在管理集群複雜的通信模式上分散注意力。」

一個可擴展的ML平台『

、、、、

Cloud TPU還簡化了計算和管理ML計算資源：

為團隊提供最先進的ML加速，並根據需求的變化動態調整容量（capacity）。

剩下設計、安裝和維護具有專門的電源、散熱、網路和存儲要求的on-site ML計算群集所需的資金、時間和專業知識，受益於谷歌多年來在大規模、緊密集成的ML基礎設施的經驗。

無需安裝驅動程序，Cloud TPU全部預配置完成

享受所有Google雲服務同樣複雜的安全機制和實踐的保護。

共享出行公司Lyft的軟體總監Anantha Kancherla表示，「自從使用Google Cloud TPU以來，我們對其速度印象非常深刻，以前通常需要幾天，而現在可能需要幾個小時。深度學習正成為使自動駕駛車輛得以運行的軟體的中堅力量。」

在Google Cloud上，谷歌希望為客戶提供最適合每個機器學習工作負載的雲，並將與Cloud TPU一起提供各種高性能CPU（包括Intel Skylake）和GPU（包括NVIDIA Tesla V100）。

目前，Cloud TPU的數量有限，使用費用為每小時6.50美元。

隨著谷歌Cloud TPU的發布，谷歌在雲端提供機器學習的服務進一步增強。亞馬遜機器學習、微軟Azure機器學習和Google Cloud AI是三種領先的機器學習即服務（MLaaS），允許在很少或沒有數據科學專業知識的情況下進行快速模型培訓和部署。

以下是亞馬遜、微軟和谷歌主要機器學習即服務平台的主要概況對比：

亞馬遜機器學習服務有兩個層面：Amazon ML的預測分析和數據科學家的SageMaker工具。

用於預測分析的亞馬遜機器學習是市場上最自動化的解決方案之一，該服務可以載入來自多個來源的數據，包括Amazon RDS，Amazon Redshift，CSV文件等。所有數據預處理操作都是自動執行的：該服務標識哪些欄位是分類的，哪些是數字的，並且不要求用戶選擇進一步數據預處理的方法（降維和白化）。

Amazon ML的預測能力限於三種選擇：二元分類、多類分類和回歸。也就是說，這個Amazon ML服務不支持任何無監督的學習方法，用戶必須選擇一個目標變數在訓練集中標記它。並且，用戶不需要知道任何機器學習方法，因為亞馬遜在查看提供的數據後自動選擇它們。

這種高度自動化水平既是亞馬遜ML使用的優勢也是劣勢。如果您需要全自動但有限的解決方案，該服務可以滿足您的期望。如果沒有，那就是SageMaker工具。

亞馬遜SageMaker和基於框架的服務：

SageMaker是一個機器學習環境，通過提供快速建模和部署工具來簡化同行數據科學家的工作。例如，它提供了Jupyter（一款創作筆記本），用於簡化數據瀏覽和分析，而無需伺服器管理。亞馬遜還有內置演算法，針對分散式系統中的大型數據集和計算進行了優化。

如果不想使用這些功能，則可以通過SageMaker利用其部署功能添加自己的方法並運行模型。或者可以將SageMaker與TensorFlow和MXNet深度學習庫集成。

通常，亞馬遜機器學習服務為經驗豐富的數據科學家和那些只需要完成工作而不深入數據集準備和建模的人提供足夠的自由。對於那些已經使用亞馬遜環境並且不打算轉移到另一家雲提供商的公司來說，這將是一個不錯的選擇。

Microsoft Azure機器學習：

Azure機器學習的目的是為新手和經驗豐富的數據科學家建立一個強大的場景。微軟的ML產品名單與亞馬遜的產品相似，但就現在而言，Azure在現成演算法方面似乎更為靈活。

Azure提供的服務可以分為兩大類：Azure機器學習和Bot服務。

ML Studio是主要的MLaaS包。幾乎Azure ML Studio中的所有操作都必須手動完成。這包括數據探索、預處理、選擇方法和驗證建模結果。

使用Azure完成機器學習需要一些學習曲線。另一方面，Azure ML支持圖形界面以可視化工作流程中的每個步驟。也許使用Azure的主要好處是可以使用各種演算法。 Studio支持大約100種解決分類（二元+多分類）、異常檢測、回歸、推薦和文本分析的方法。值得一提的是，該平台有一個聚類演算法（K-means）。

Azure ML的另一大部分是Cortana Intelligence Gallery。它是由社區提供的機器學習解決方案的集合，供數據科學家探索和重用。 Azure產品是從機器學習入手並將其功能引入新員工的強大工具。

Google預測API

Google在兩個層面上提供AI服務：數據科學家的機器學習引擎和高度自動化的Google預測API。不幸的是，谷歌預測API最近已被棄用，谷歌將在2018年4月30日取消插件。

Predicion API類似於Amazon ML。它的簡約方法縮小到解決兩個主要問題：分類（二元和多類）和回歸。訓練好的模型可以通過REST API介面進行部署。

谷歌沒有公布哪些演算法被用於繪製預測，也沒有讓工程師自定義模型。另一方面，Google的環境最適合在緊迫的期限內進行機器學習，並且早期推出ML計劃。但是這個產品似乎並沒有Google所期望的那麼受歡迎，使用Prediction API的用戶將不得不使用其他平台來「重新創建現有模型」。

Google雲端機器學習引擎

預測API的高度自動化是以靈活性為代價的。Google ML Engine正好相反。它迎合了經驗豐富的數據科學家，並建議使用TensorFlow的雲基礎設施作為機器學習驅動程序。因此，ML Engine原則上與SageMaker非常相似。

TensorFlow是另一個Google產品，它是一個開源的機器學習庫，包含各種數據科學工具，而不是ML-as-a-service。它沒有可視化界面，TensorFlow的學習曲線會非常陡峭。

似乎Azure目前在MLaaS市場上擁有功能最多的工具集。它涵蓋了大多數與ML相關的任務，為構建自定義模型提供了一個可視化界面，並且為那些不想用裸手掌握數據科學的人提供了一組可靠的API。但是，它仍然缺乏亞馬遜的自動化能力。

亞馬遜、微軟和Google的機器學習API比較

除了成熟的平台之外，開發者還可以使用高級API。這些都是在訓練有素的模型下的服務，API不需要機器學習專業知識。目前，這三家廠商的API大致可分為三大類：

1）文本識別，翻譯和文本分析

2）圖像+視頻識別和相關分析

3）其他，包括特定的未分類服務

除了文字和語音外，亞馬遜、微軟和谷歌還提供用於圖像和視頻分析的通用API。

儘管圖像分析與視頻API密切相關，但許多視頻分析工具仍在開發或測試版本中。例如，Google建議對各種圖像處理任務提供豐富的支持，但絕對缺乏微軟和亞馬遜已經提供的視頻分析功能。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 獵雲網 的精彩文章:

※概念技術成真！WayRay將全息AR導航系統裝入擋風玻璃
※全民網紅時代，揭秘社交媒體下的黑色產業鏈

TAG:獵雲網 |

谷歌重拳開放Cloud TPU：GPU最強對手上線，Jeff Dean十條推文全解讀

Jeff Dean連發十條推特，全面解讀Cloud TPU

谷歌Cloud TPU測試版開放，數量有限，每小時6.5美元

雲端機器學習性能大PK，谷歌Cloud TPU或將破局