詳解騰訊雲異構計算探索之路:為AI落地釋放更強計算力
近幾年,異構計算這個詞出現的頻率越來越高,異構計算相關的技術和應用模式也都得到了快速發展。9月25日,騰訊雲正式發布第三代雲伺服器矩陣,全矩陣26款計算實例,其中,GPU和FPGA等異構計算實例多達7款。
為什麼異構計算這麼重要?騰訊雲在異構計算的探索上又有著什麼不一樣的路徑?
1
什麼是異構計算?
傳統的計算模式下,CPU是計算的主體。在摩爾定律還成立的年代,CPU的計算能力每18個月就會翻倍,同時工程師們還發展出了多核以及多CPU等技術。然而近年來,隨著硅晶元逼近物理和經濟成本上的極限,摩爾定律已趨近失效。但與之相對的卻是,互聯網的蓬勃發展、信息量爆炸式增長以及AI技術研究和應用普及,都對計算能力的要求變的更高。
在這種情況下,工程師們發明出將不同類型指令集和體系架構的計算單元組合在一起的計算方式,比如CPU+GPU。CPU用於對系統進行控制,任務分解,調度,而GPU輕鬆擁有幾千個計算單元,每個計算單元可以同時並行地進行計算,再加上強大的浮點和向量計算能力,可以用來完成更繁重的計算任務,這就是異構計算。
2
騰訊雲異構計算產品進化
騰訊雲已經推出了多種異構計算機型。在GPU機型上,也在緊跟行業最新技術,追蹤客戶需求,力求為客戶提供方便快捷部署、計算能力強大、彈性可配置、性價比高的異構伺服器。目前為止,騰訊雲已經推出GN1、GN2、GN8等多款GPU計算實例。騰訊雲在完善現有產品線的同時,也在不停的追蹤最前沿的技術,努力縮短新技術推廣應用的時間周期,更快的讓客戶享受科技的進步。
今年5月,NVIDIA發布了最新的Tesla Volta V100 GPU。基於騰訊雲與NVIDIA的良好戰略合作關係,騰訊雲將推出新型GPU計算型實例GN9,這款實例搭載新一代Intel Skylake CPU和最新一代NVIDIA V100 GPU,單機最高支持8卡,在GPU計算性能上相比較第一代GN2實例將會有一個極大的提升,單精度浮點運算性能將提升8倍,雙精度浮點運算性能將提升140倍,將GPU計算性能推向極致,進一步加速人工智慧應用在各行業的落地。
FPGA作為可編程硬體具有獨特的優勢,比如硬體可編程,低延時等,在騰訊雲計算平台中也有著舉足輕重的地位。近年來,隨著FPGA 行業快速發展,從特定應用領域開始走向通用領域。作為國內在FPGA雲服務中走得最快的雲服務商,騰訊雲此前已基於Xilinx和Intel最先進的FPGA技術在國內首先推出FPGA雲伺服器。同時,基於Xilinx和Intel的合作協議,對騰訊雲用戶免費提供了硬體開發工具包。
後續騰訊雲還將推出兩款新一代的FPGA計算實例,其中基於XilinxVU9P FPGA卡的FX3實例,單機最高支持8卡,每塊卡大約包含250萬個邏輯單元,6800個數字信號處理引擎, 峰值計算性能相比前一代FX2實例提升3倍;基於Intel Stratix10 FPGA卡的FI3實例,單機最高支持8卡,每塊卡大約包含280萬個邏輯單元,5760個數字信號處理引擎,單精度浮點運算性能達80TFLOPS。
對於另外一種異構計算類型ASIC + CPU,騰訊雲也在持續關注其發展。
3
騰訊雲異構計算的應用場景
騰訊雲推出最新異構計算全新產品矩陣,從GPU高性能計算到可視化再到人工智慧基礎設施,為客戶提供計算能力強大,彈性可配置,性價比高的異構計算實例。其應用前景極其廣泛,適用於深度學習、視頻渲染、虛擬化桌面等對計算能力、時延要求極高的場景,同時還能滿足分子建模、基因組學等領域對基礎設施的高要求。
以深度學習為例,深度學習在訓練階段涉及大量浮點數值計算,矩陣乘法,向量化等操作,需要處理的數據規模可以高達幾個T。隨著深度學習層次越來越深,計算量的增長也將隨之加大。
一次訓練過程使用CPU需要幾天甚至幾周才能完成,而使用騰訊雲的GPU雲伺服器,可以小時級完成訓練,優勢很明顯。只有快速完成深度學習的訓練過程,才能加快深度學習的迭代速度,幫助企業改進產品,在競爭中勝出。
在人臉檢測、五官定位、模式識別、圖像理解等領域都積累完整解決方案和領先技術的騰訊雲優圖團隊,為騰訊雲客戶提供人臉識別,語音合成,OCR識別,智能鑒黃,智能P圖等多種服務。其中,騰訊優圖的人臉識別技術達到世界先進水平,在今年舉辦的國際權威人臉識別資料庫LFW上,優圖憑藉準確率達到 99.80% 的成績刷新人臉識別世界紀錄。
基於騰訊雲GPU雲伺服器進行深度學習技術的成熟應用,優圖團隊將在更廣泛的應用場景上輸出技術和產品。
不止於計算,騰訊雲GPU雲伺服器在渲染場景也有著重要應用。渲染型GPU雲伺服器實例GA2,搭載了基於硬體的虛擬化GPU顯卡AMD FirePro S7150,藉助GPU虛擬化,騰訊雲可以對GPU資源進行劃分,在具有成本優勢的前提下,為客戶提供圖形渲染的能力。用戶可運行多種圖形工作負載,如 3D 建模和渲染,圖形圖像處理,工業設計等,計算性能強大、彈性按需擴展的 GPU 實例是用戶在高性能渲染及計算場景的最優選擇。
目前,全球領先的泛傳媒產業技術服務商中科大洋已率先接入騰訊雲GPU渲染型雲伺服器,通過遠程桌面協議和GPU渲染型實例實現在線實時的電影電視後期製作編輯,可在任何地點使用多種設備接入。多人本地終端同時工作,分別進行剪輯、字幕、特技、調色、包裝等。中科大洋啟用GPU渲染型GA2實例,在資源成本下降的同時,實現了產品品質和服務質量的雙提升。
此外,騰訊遊戲平台部通過視頻串流技術和GPU可視化雲伺服器提供給用戶PC端和手機端遊戲試玩功能,用戶不用購買遊戲,也不用安裝遊戲,實現遊戲跨終端試玩,有效降低了新玩家體驗遊戲的門檻,帶來了全新的遊戲體驗,最大化利用雲端高性能資源縮短遊戲新品觸達客戶的時間。
在FPGA領域,騰訊雲推出了「雲+基因」原生態解決方案,通過對二代測序流程進行硬體加速來解決生物計算的性能瓶頸,將一個全基因組計算時間從純軟體方案的大約60小時降低到26小時以內,並已在某基因客戶業務中成功應用。
在傳統通用計算已逐步無力應對大規模、高並發的計算需求的情況下,異構計算被視作人工智慧在各行業中落地的關鍵。騰訊雲也將始終保持著對異構計算新能力新技術的敏銳探索,為人工智慧落地釋放更強計算力。


※2017GTC:智能明星NVIDIA再出手,聯手騰訊雲加速AI落地
※騰訊雲發布第三代雲伺服器矩陣,開放更強計算力賦能產業智能化
※騰訊雲Dolphin上線 直指遊戲更新四大痛點
※騰訊雲法蘭克福數據中心開服,中國雲服務全面覆蓋歐洲
TAG:騰訊雲 |