剛剛，谷歌宣布 TPU 全面開放，AI 晶元及雲市場再迎變局

科技 02-13

谷歌又出手了。又是一個大招。（上一個）

這次谷歌傳奇 Jeff Dean 親自在推特上連發 10 條，滿懷激動地對外宣布著這個消息：谷歌 TPU 首次對外全面開放。

AI 晶元和公有雲市場將迎來新的變局。

之前英偉達的黃仁勛在談到谷歌 TPU 時，就曾強硬的表示，對 TPU 的威脅不以為然。當時，老黃還列了列參數：新的 TPU 可以實現 45 teraflop 的運算能力，而英偉達最新的 Volta GPU 則能達到 120 teraflop。

但如果你關注人工智慧，肯定知道 TPU 的威力。谷歌搜索、翻譯、相冊等應用，都有 TPU 在提供 AI 加速。更值得一提的是，AlphaGo 也是借力 TPU，稱霸圍棋界。

而且谷歌這款晶元還專門對 AI 進行了優化。

谷歌在官方博客中表示，在新發布的 Cloud TPU 幫助下，不到一天的時間，你就可以在 ImageNet 上把 ResNet-50 模型訓練到 75% 的精度，成本不足 200 美元。

從現在起，每小時 6.5 美元，你也能用上谷歌 TPU 了。

理論上。

剛剛，谷歌宣布 TPU 全面開放，AI 晶元及雲市場再迎變局

Google 的機器學習利器 Cloud TPU，從今天開始面向更多用戶開放了。

Cloud TPU 今天發布了 beta 版，這一版本通過谷歌雲平台（Google Cloud Platform, GCP）提供，想幫更多機器學習專家更快地運行模型。

Cloud TPU 是谷歌設計的硬體加速器，專為加速、擴展特定的 TensorFlow 機器學習工作負載而優化。

每個 Cloud TPU 包含 4 個定製化的 ASIC，單塊板卡的計算能力達到每秒 180 萬億次浮點運算（180 teraflops），有 64GB 的高帶寬內存。

這些板卡可以單獨使用，也可以通過超高速專用網路連接起來，形成「TPU pod」。今年晚些時候，Google 會開始通過 GCP 供應這種更大的超級計算機。

剛剛，谷歌宣布 TPU 全面開放，AI 晶元及雲市場再迎變局

Google 設計 Cloud TPU 的目標，是針對性地為 TensorFlow 工作負載提供一分錢一分貨的差異化性能，讓研究人員能更快地進行迭代。

例如：

你能通過自定義、可控制的 Google Compute Engine 虛擬機，對聯網的 Cloud TPU 進行互動式的、獨享的訪問，而不用等待自己的工作在共享計算集群上排隊。

你能連夜在一組 Cloud TPU 上訓練出同一個模型的幾個變體，第二天將訓練出來的最精確的模型部署到生產中，而不用等幾天、甚至幾周來訓練關鍵業務機器學習模型。

不到一天的時間，你就可以在 ImageNet 上把 ResNet-50 模型訓練到 75% 的精度，成本不到 200 美元。 Google 還專門為此準備了一份教程：https://cloud.google.com/tpu/docs/tutorials/resnet

更簡單的機器學習模型訓練

過去，為定製 ASIC 和超級計算機編程需要深入的專業知識技能。相比之下，要對 Cloud TPU 編程，用高級 TensorFlow API 就可以了，Google 還開源了一組高性能的雲 TPU 模型實現，上手更簡單：

圖像分類模型：

ResNet-50 https://cloud.google.com/tpu/docs/tutorials/resnet

其他圖像分類模型 https://github.com/tensorflow/tpu/tree/master/models/official

用於機器翻譯和語言建模的 Transformer： https://cloud.google.com/tpu/docs/tutorials/transformer

用於對象檢測的 RetinaNet： https://github.com/tensorflow/tpu/blob/master/models/official/retinanet/README.md

剛剛，谷歌宣布 TPU 全面開放，AI 晶元及雲市場再迎變局

Google 在博客中說，經過對性能和收斂性的不斷測試，這些模型都達到了標準數據集的預期精度。

以後，Google 會逐漸推出更多模型實現。不過，想要探險的機器學習專家也可以用他們提供的文檔和工具，自行在 Cloud TPU 上優化其他 TensorFlow 模型。

現在開始用 Cloud TPU，等到今年晚些時候 Google 推出 TPU pod 的時候，訓練的時間-精度比能得到驚人的提升。

在 NIPS 2017 上，Google 曾宣布 ResNet-50 和 Transformer 兩個模型在完整 TPU pod 上的訓練時間，都從大半天下降到了 30 分鐘以內，不需要改動任何代碼。

可擴展的機器學習平台

雲 TPU 還簡化了機器學習計算資源的規劃和管理：

你可以為團隊提供最先進的機器學習加速，並根據需求的變化動態調整生產力。

你可以直接用經過 Google 多年優化的高度集成機器學習基礎設施，無需投入大量金錢、時間、專業人才來設計、安裝、維護現場機器學習計算集群，不用考慮供電、冷卻、聯網、存儲要求等問題。

Google Cloud TPU 經過預先配置，不需要安裝驅動程序，因此，也不用想方設法讓一大群工作站和伺服器的驅動程序保持最新。

和其他 Google 雲服務一樣，有複雜的安全機制保護著你的數據。

Google 說要為客戶的每個機器學習負載提供最適合的雲服務，除了 TPU 之外，他們還提供英特爾 Skylake 等高性能 CPU，和包括英偉達 Tesla V100 在內的高端 GPU。

開始使用吧

Cloud TPU 今天開始提供，數量有限，按秒計費。每個 Cloud TPU 每小時 6.5 美元。

要使用 beta 版的 Cloud TPU，需要填個表，描述一下你要用 TPU 幹什麼，向 Google 申請配額：https://services.google.com/fb/forms/cloud-tpu-beta-request/

Google 說，會儘快讓你用上 Cloud TPU。

2 月 27 日，Google 還要開一場在線講座，再細緻地談一談 Cloud TPU。

在 Google 的博客文章中，提到了兩家客戶使用 Cloud TPU 的感受。

一家是投資公司 Two Sigma。他們的深度學習研究現在主要在雲上進行，該公司 CTO Alfred Spector 說：「將 TensorFlow 工作負載轉移到 TPU 上，大大降低了編程新模型的複雜性，縮短了訓練時間。」

另一家是共享出行公司 Lyft。深度學習正在成為這家公司無人車研究的重要組成部分。

更多關於 Cloud TPU 的信息，可以去官方網站看一看：https://cloud.google.com/tpu/

剛剛，谷歌宣布 TPU 全面開放，AI 晶元及雲市場再迎變局

TPU 是 Tensor Processing Unit 的縮寫簡稱，是一種 ASIC（專用集成電路），也是 Google 自己開發的一款 AI 專用晶元，主要用於提高人工智慧計算任務的執行效率。

Google 將其用在神經網路的推理環節，在此之前，業界通常在使用 GPU 加速的伺服器上進行。在 TPU 推出後，谷歌表示，這比直接使用 GPU 或基本的 x86 晶元速度快很多。

TPU 通過兩個 PCI-E 3.0 x8 邊緣連接器連接協處理器，總共有 16 GB/s 的雙向帶寬。TPU 消耗功率達 40 瓦，遠高於 PCI-E 電源規格，可為 8 位整數運算提供每秒 92 萬億次的運算，或為 16 位整數運算提供每秒 23 萬億次的運算。

在去年 4 月一篇有 75 位聯合作者的論文《In-Datacenter Performance Analysis of a Tensor Processing UnitTM》中，Google 團隊對 TPU 進行了分析：與同期的 CPU 和 GPU 相比，可以提供 15-30 倍的性能提升，以及 30-80 倍的效率（性能/瓦特）提升。

第一代 TPU 被谷歌廣泛應用在了 AlphaGo、搜索、翻譯、相冊等背後的機器學習模型中，這為第二代 TPU 的迭代奠定了基礎。

值得一提的是，擊敗李世石的 AlphaGo 版本中，通過 Google 雲，耗用 50 個 TPU 進行計算；而到了擊敗柯潔的 AlphaGo 版本中，單機運行，物理伺服器上部署了 4 個 TPU；最後在最新的 AlphaZero 版本中，則使用了 5000 個一代 TPU 和 64 個二代 TPU，從 0 開始學習 24 小時後，就擊敗了國際象棋、將棋、圍棋等三個領域的世界冠軍。

第二代 TPU

第二代 TPU 在去年 5 月 18 日的 Google I/O 大會上推出，也稱為雲 TPU。雲 TPU 對推理和訓練都進行了優化。

Google 大腦研究團隊主管 Jeff Dean 表示：「我們的 TPU 擁有世界一流的 ASIC 設計團隊，第二代 TPU 晶元採用了與第一代完全不同的設計架構, 第一代晶元由於只進行推理運算所以體積較小，而在第二代晶元中我們加入了能滿足訓練需求的硬體結構，同時還考慮了如何將這些計算單元組合成大型系統的架構方法。」

第二代 TPU 通過四個 TPU 晶元的組合板，可以實現 180Tera 次每秒用於深度學習訓練和推理的浮點運算，如果再將 64 個這樣的 TPU 系統板通過網路連接起來，浮點性能可以達到驚人的 11.5PFLOPS，遠遠超過世界上前五百超級計算機的算力。風頭大大蓋過了同一時期 Nvidia 推出的 Volta 架構 GPU。

TPU 2 和第一代不同的是，第一代選用了量化整數運算，而第二代用的是浮點運算。這樣一來你就不用把訓練好的模型轉換使用量化整數做推理了。你直接用訓練時用的浮點做推理就好，這樣部署起來也容易很多。

實際上，第二代 TPU 推出之時，也能看出 Google 在 AI 晶元方面的發展思路：並非為了與 GPU 直接競爭，而是利用 TPU 在公有雲行業差異化發展。

Google CEO 皮查伊在 I/O 大會的主題演講中強調：「我們希望谷歌雲成為機器學習領域最優秀的雲。這為重大進步打下了基礎。」

為了使計算性能更強大，Google 開發了訂製的超高速網路，將 64 顆 TPU 連接至同一台機器學習超級計算機。這台超級計算機被稱作「TPU 艙」，帶來了每秒 11.5 千萬億次浮點運算的能力，可用於訓練單一的大型機器學習模型，或多個較小的模型。

為了證明 TPU 艙的性能，Google 表示，如果想要訓練最新的大規模翻譯模型，那麼使用 32 顆全球最強大的商用 GPU 需要一整天時間。作為對比，TPU 艙只需 1/8 的性能，就能在 6 小時內完成對該模型的訓練。

單個的雲 TPU 和完整的 TPU 艙均支持谷歌開源的 TensorFlow 機器學習系統。

去年的 Google I/O 大會上，Google 還發布了「TensorFlow 研究雲」。這是由 1000 顆雲 TPU 組成的簇，在滿足某些條件的情況下 Google 將免費提供給研究者使用。如果希望使用，那麼研究者必須同意公開發表研究成果，或許還需要開源研究中的相關代碼。

而對參與非公開研究的人士，Google 計劃啟動雲 TPU Alpha 項目，而現在，更加宏偉的計劃得以正式公開。

剛剛，谷歌宣布 TPU 全面開放，AI 晶元及雲市場再迎變局

TPU 往事

早在 2006 年，Google 就在考慮為神經網路構建一個專用集成電路（ASIC）。2013 年這個需求變得更加緊迫，當時 Google 意識到快速增長的計算需求，可能意味著數據中心的數量需要翻番才能滿足。

通常而言，ASIC 的開發需要耗時數年。但具體到 TPU 而言，從設計到驗證、構建和部署到數據中心裡，只需要 15 個月。

具體 TPU 何時正式研發成功，並不得而知，但 Google 方面透露，從 2015 年開始就一直在內部使用 TPU，並在 2016 年 5 月的 Google I/O 開發者大會上，對外公布了 TPU 的存在。

另外還有個趣事。

最初參與 TPU 研究的 10 個人中，有 8 個工程師遭遇風投挖角，創業成立了一家名為 Groq 的 AI 晶元公司，這家公司的創始人兼 CEO 是 Doug Wightman，CTO 是 Jonathan Ross，COO 則是原賽靈思 (Xilinx) 的營銷副總裁 Krishna Rangasayee。

挖角的風投則是 Social Capital 創始人、首席執行官 Chamath Palihapitiya，他給了 Groq 團隊上千萬美元的啟動資金。

Groq 的 AI 晶元對標英偉達的 GPU，聲稱是專門為人工智慧重新定製一款晶元，他們還打算在 2018 年發布第一代 AI 晶元產品。

留給 Groq 兌現承諾的時間不多了。

剛剛，谷歌宣布 TPU 全面開放，AI 晶元及雲市場再迎變局

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 動點科技 的精彩文章:

※荔枝 FM 更名為「荔枝」，轉型語音直播平台
※Lyft 聘用特斯拉高管擔任 COO

TAG:動點科技 |