當前位置:
首頁 > 知識 > 英偉達發布 TensorRT 3 可編程推理加速器,比起 CPU 能實現高達 40 倍吞吐率

英偉達發布 TensorRT 3 可編程推理加速器,比起 CPU 能實現高達 40 倍吞吐率

北京時間 9 月 26 日,在英偉達 GPU 技術峰會上,英偉達創始人兼 CEO 黃仁勛正式發布 TensorRT 3 神經網路推理加速器。據官方介紹,TensorRT 3 能極大改善處理性能,削減從雲到邊緣設備(自動駕駛汽車、機器人等)的推理開銷。

TensorRT 3 是在 Volta GPU 實現最優推理性能的關鍵,比起 CPU 它能實現高達 40 倍的吞吐量,時延在 7ms 之內。目前,對於英偉達開發者計劃成員,現在有針對 Tesla GPU (P4, P100, V100) 和 Jetson 嵌入式平台的 TensorRT 3 提供免費下載。

關於 TensorRT

據AI研習社了解,英偉達 TensorRT 是一種高性能神經網路推理引擎,用於在生產環境中部署深度學習應用程序。應用有圖像分類,分割和目標檢測,提供的幀 / 秒速度比只有 CPU 的推理引擎高 14 倍。

TensorRT 是世界上第一款可編程推理加速器,能加速現有和未來的網路架構,TensorRT 可編譯到廣泛的目標 CUDA GPU 中,從 120 TOPS 到 1 TOPS,從 250 瓦到低於 1 瓦。

它包含一個為優化在生產環境中部署的深度學習模型而創建的庫,可獲取經過訓練的神經網路(通常使用 32 位或 16 位數據),並針對降低精度的 INT8 運算來優化這些網路。

為何 TensorRT 3 有著無可比擬的地位,他提到了以下幾點:

一是網路設計呈爆發性增長:AI 推理平台必須具備可編程性才能運行種類繁多且不斷演進的網路架構;新的架構、更深的網路、新的分層設計會繼續提升 CNN 的性能。

二是智能機器呈爆發性增長:AI 會將智能諸如到 2000 萬台雲伺服器、上億台汽車和製造機器人中;最終,以萬億計的物聯網設備和感測器將智能地監測一切,從心率和血壓監測,到需維修設備的震動監測;AI 推理平台必須可擴展,以解決海量計算的性能、公號和成本需求。

TensorRT 3 新的亮點如下:

相較 Tesla P100,在 Tesla V100 上能實現 3.7 倍的加速,時延在 7ms 之內

在 Tesla V100 上進行優化和配置 TensorFlow 模型時,比起 TensorFlow 框架能實現 18 倍的推理加速

輕鬆使用 Python API 介面,生產力得到極大改進

據黃仁勛現場介紹,

TensorRT3 的性能非常卓越,運行在 Volta 上的 TensorRT3 在圖像分類方面比最快的 CPU 還要快 40 倍,在語言翻譯方面則要快 140 倍。

另外,現場他還提到,神經網路的響應時間或處理延時會對服務質量造成直接影響,運行在 V100 上的 TensorRT 在處理圖像是可實現 7ms 的延時,在處理語音是延時不到 200ms,這是標準雲服務的理想目標,單靠 CPU 是無法實現的。

TensorRT3 能支持 Caffe2、mxnet、PaddlePaddle、Pytorch、TensorFlow、theano、Chainer 等所有的深度學習框架,將 TensorRT 3 和英偉達的 GPU 結合起來,能在所有的框架中進行超快速和高效的推理傳輸,支持圖像和語言識別、自然語言處理、可視化搜索和個性化推薦等 AI 服務。

AI 新紀元

另外,在演講中,黃仁勛提到,現在已是計算新紀元,包括 TensorRT 在內的 NVIDIA 多個平台已被 BAT 等多家科技巨頭採用:

目前,NVIDIA TensorRT 已經被 BAT、科大訊飛、京東所採用;

除了 TensorRT,NVIDIA Tesla V100 AI 平台已被 BAT、華為、浪潮和聯想在內的中國領軍 IT 公司採用;

NVIDIA AI 城市平台已被阿里巴巴、海康威視、大華和華為所採用,以解決最大規模的 AI 和推理難題之一;

另外,黃仁勛在現場正式發布全球首款自主機器處理器 Xavier,這是迄今為止最複雜的片上系統,將於 18 年第一季度向早期接觸的合作夥伴提供,在 18 年第四季度全面推出。這個處理器的發布將揭開人工智慧時代新篇章。

除了 Xavier,他們也發布了一個虛擬機器人模擬環境 Isaac Lab。談及為何要創造這個自主機器系統,他提到,

教機器人與外部世界交互和執行複雜的任務一直是一個未解決的難題,但相信隨著深度學習和 AI 的突破,這個問題最終必將得到解決。在機器人學習執行具體任務的過程中,他們可能會對周邊的事物造成損壞,並且需要很長的訓練周期。因此,需要創造一個可供機器人學習的虛擬世界——看起來像真實世界,並遵守物理學定律,機器人可以在其中超實時地學習。

在現場,他也強調,NVIDIA 將會全力推進 「統一架構」CUDA GPU 計算。通過 Inception 計劃,將支持 1900 家初創公司創建 AI 未來。

究竟 NVIDIA 能讓 AI 跨進怎樣的未來,拭目以待!

新人福利

關注 AI 研習社(okweiwu),回復1領取

【超過 1000G 神經網路 / AI / 大數據,教程,論文】

淺析 Geoffrey Hinton 最近提出的 Capsule 計劃


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 唯物 的精彩文章:

如何一步一步提高圖像分類準確率?
Deep Learning 讀書分享:深度網路的正則化
CNN 中千奇百怪的卷積方式大匯總
遷移成分分析 方法簡介
王東:解讀Yolo2和Yolo9000目標檢測系統

TAG:唯物 |