第一代是CPU，第二代是GPU，第三代是什麼？AI晶元！

科技 06-12

先是CPU，後來是GPU。接下來是什麼？人工智慧晶元怎麼樣？

要是你還沒有聽說過使用深度神經網路和深度學習來處理從語音識別到實現自動駕駛汽車各項任務的人工智慧和機器學習熱潮，那麼恐怕還沒有聽說過谷歌新的Tensor處理單元（TPU）、英特爾的Lake Crest或者Knupath的Hermosa。多家廠商期望提供針對神經網路的平台，這些只是其中的幾個代表。

谷歌TPU

TPU含有一個龐大的8位矩陣乘法單元（見圖1）。它實際上優化了DNN所需要的數字處理，因而不需要大型的浮點數字系統。

圖1：谷歌的TPU有一個龐大的8位矩陣乘法單元，幫助它為深度神經網路處理數字。

TPU實際上是由傳統主機CPU通過TPU的PCI Express介面來管理的一種協處理器。TPU晶元的運行速度只有700 MHz，不過說到DNN加速，它卻可以擊敗CPU和GPU系統。雖然沒有明確作為一種DNN處理器，但是它可以處理繁重任務，耗電量卻只有40瓦。它有28 MB的板載內存以及4MB內存（表現為32位累加器用來編譯來自矩陣乘法單元的16位結果）。該晶元使用28納米工藝，晶片尺寸約600 平方毫米。《分析Tensor處理單元在數據中心中的性能》（https://drive.google.com/file/d/0Bx4hafXDDq2EMzRNcy1vSUxtcEk/view）一文介紹了更多的技術細節。

TPU板卡（圖2）的執行速度可達到92 TeraOps/s（TOPS）。這比處理同一任務的CPU和GPU快15倍至30倍，每瓦TOPS方面提升30倍至80倍。用來比較系統的軟體是TensorFlow框架。

圖2：谷歌的TPU模塊旨在將一排排插槽插入到雲數據中心。

要牢記的一個方面是，TPU比較是針對局限性方面進行的。大多數CPU是64位平台，GPU可能擁有更寬的字寬。它們還往往針對更龐大的數據項進行了優化，不過大多數系統支持比較小的字（包括8位向量運算）。同樣，不同的神經網路應用得益於不同的配置，但是比較小的8位整數已廣泛應用於許多DNN應用。

TPU有五種主要的指令：

Read_Host

Read_Weights

矩陣乘法/卷積

激活

Write_Host

寬度是神經網路裡面的值，被矩陣乘法單位所使用。激活函數為人工神經元執行非線性操作。

谷歌的TPU有望減少對更龐大數據中心的需要，不然，這種數據中心需要多得多的CPU和GPU來處理人工智慧應用，應用領域廣泛：從語音識別及分析、圖像及視頻處理、通過搜索提供服務，到那些小巧的Google Home系統，不一而足。

英特爾Lake Crest

Lake Crest（圖3）是旨在補充多核至強Phi的英特爾平台的代號。至強Phi負責處理許多人工智慧事務，但是面對谷歌的TPU或英特爾的Lake Crester可以更高效地輕鬆處理的應用時卻顯得力不從心。Lake Crest技術最初是由Nervana開發的，這家公司並不隸屬英特爾。

圖3：英特爾的 Lake Crest使用針對人工智慧應用而優化的處理集群。

新晶元將採用眾多先進的功能特性，從多晶元模塊（MCM）設計，到「Flexpoint」架構（擁有十多個專門的多核處理節點，類似TPU的矩陣乘法單元），不一而足。該晶元會有32 GB的高帶寬內存2（HBM2），通過中介層（interposer），可獲得8 TB/s的聚合帶寬。HBM2在高性能的片上系統（SoC）和GPU中司空見慣。Lake Crest沒有任何緩存。軟體將用來優化內存管理。

Lake Crest預計會在2017年面市。

Knupath Hermosa

Knupath的Hermosa（圖4）擁有64個DMA引擎和256個數字信號處理（DSP）核心，組織成8個集群，每個集群的8個核心由Lambda Fabric加以連接。Lambda Fabric還旨在以一種低延遲、高吞吐量的網狀網來連接成千上萬個Hermosa處理器。

圖4：Knupath的Hermosa多核處理器有256個DSP核心，這些核心採用8個集群來組織，每個集群的8個核心由Lambda Fabric加以連接。

Hermosa有一隻集成的L1路由器，擁有32個埠和1 Tbps帶寬。對外連接包括16個10 Gbps雙向埠。該晶元有72 MB數據內存（分成32排）和2MB程序內存。

雖然Hermosa面向人工智慧應用，但是相比更專用的Lake Crest或TPU平台，它卻更加類似多核至強Phi。Hermosa可提供每秒3840億次浮點運算（384 GFLOPS）的計算能力，耗電量卻只有34瓦，因而非常適合一系列廣泛的應用，而不僅僅是人工智慧應用。

GPGPU繼續唱主角（眼下）

英偉達和AMD在GPU平台方面有既得利益，這些GPU平台一向是大多數高端神經網路處理工作的基礎。隨著專門的人工智慧晶元變得普及起來，這種情況可能會發生變化。問題在於，這些晶元針對特定應用的定製性有多強、它們有多普及，以及用於不同的應用領域效果有多好。

眼下，像英偉達的Jetson TX2這些GPU平台用於從無人機到醫療設備的各種系統中。實際上還有可能用於英特爾的小型Curie模塊中的人工智慧加速器。一種尺寸適合不了所有需求，但是人工智慧對於計算機應用而言的重要性只會越來越強。

點擊展開全文

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雲頭條 的精彩文章:

※雲主機服務商的前員工刪了該公司所有客戶數據……堡壘總是最容易從內部攻破的……要善待員工，以及前員工
※黑色星期五：納斯達克五大科技股市值單日蒸發約1000億美元
※八成的下一代防火牆未檢測出威脅！

TAG:雲頭條 |

您可能感興趣

※AMD YES！第三代銳龍CPU開創多項第一
※怎麼看CPU是幾代的？intel和AMD怎麼區分CPU是第幾代的方法
※AMD YES！7nm第三代銳龍CPU來了
※7nm Zen2來了，團滅九代酷睿？AMD第三代銳龍CPU首測
※AMD銳龍二代CPU有哪些
※E3是上一代最具性價比的CPU 這一代中誰會代替它的位置呢？
※老主板無法刷BIOS上三代銳龍？AMD借你一顆CPU
※三代銳龍或將領先，Intel第十代CPU只有10個核心，依然是14納米
※AMD Yes——銳龍第三代CPU正式發布
※AMD銳龍二代CPU發布：Intel後背再一寒
※硬體資訊：CPU拳打NVIDIA，GPU腳踢AMD，那個對手竟然是！
※Intel第十代酷睿處理器小測：CPU部分提升有限，GPU性能翻倍
※一加7Pro確認，CPU領先麒麟980兩代，GPU領先四代
※AMD戰Intel：誰是最佳千元CPU？
※時問實答：CPU哪家強？三代銳龍PK十代酷睿
※AMD銳龍三代CPU什麼時候上市？AMD銳龍三代處理器值得等待嗎？
※GPU能取代CPU嗎？
※AMD銳龍三代處理器發布，年輕人的第一塊16核心遊戲CPU
※AMD的CPU還是賣的這麼便宜！CPU和GPU雙線作戰的AMD路在何方？
※小米暗示Pro 2筆記本CPU：第8代U