當前位置:
首頁 > 知識 > 中國揭秘下一代超算,清華摘得競賽總冠軍

中國揭秘下一代超算,清華摘得競賽總冠軍

機器之心報道

機器之心編輯部

在最新一期超級計算機 Top 500 榜單中,美國勞倫斯利弗莫爾實驗室的 Sierra 首次上榜,把神威·太湖之光擠到了第三名。中國在超算競賽中會有什麼動作?最近在美國達拉斯舉行的 SC2018 大會上,中山大學教授錢德沛為我們介紹了未來的超算計劃。

全球超級計算大會(Supercomputing Conference,簡稱 SC)是國際超算領域的頂級會議,國際影響力巨大。在這次大會上,清華大學的團隊還獲得了國際大學生超級計算機競賽(SC18)的總冠軍。

揭秘中國未來超算系統

中國建設超級計算機的核心是,依賴自主技術——從處理器和加速器到互連和軟體,而不是求助於國外的供應商。這也是我國領導人的努力和決心,他們旨在將中國的重要產業(包括技術)發展到可以與全球其它國家匹敵的程度。

神威·太湖之光超級計算機就是這種努力之下的成果。該計算機是一個龐大的系統,在全球使用 Linpack 基準的 500 強系統中名列前茅。神威·太湖之光超級計算機安裝了 40960 個中國自主研發的「申威 26010」眾核處理器,該眾核處理器採用 64 位自主申威指令系統,峰值性能為 12.5 億億次/秒,持續性能為 9.3 億億次/秒。

但隨著國家向超級計算機系統邁進,研究這項技術的工程師們不得不權衡以下因素:系統將被如何使用,開發各種組件的預算是多少。而其對自主技術的依賴給自身帶來了挑戰,包括開發一個生態系統來支持研發,錢德沛在本周達拉斯 SC18 超級計算機大會上表示。

關於美國和中國在超級計算機和 HPC 領域持續競爭的這種討論,在國際超級計算大會和全球超級計算大會上屢見不鮮。即使在最新版的 500 強名單中,不僅有人關注 Lawrence Livermore 國家實驗室的 IBM 超級計算機擠入第二名,而太湖之光掉到第三名;還有很多人關注的是中國超級計算機數量在 500 強系統中的份額增長到了 277,占 45%,而美國下降到 109,占 22%。然而,美國的系統平均水平更加強大,因此其性能佔總性能的 38%,而中國占 31%。

這種競爭不僅僅關乎民族驕傲。在超級計算機、HPC,尤其是超級計算(運行越來越複雜的 HPC 工作負載——包括大數據分析和人工智慧都需要這種計算)中佔領導地位的國家,將在科學研究、軍事、醫療保健和經濟等領域都佔有絕對優勢。雖然歐盟和日本都在積極推行其擴展計劃,但眾所周知,美國和中國正在爭奪第一。

演講時,錢教授告訴與會者,自 2002 年以來,中國一直將高性能計算作為一個重點,現在已經開始努力構建超算系統。

錢教授說:「自 20 世紀 90 年代初以來,HPC 就被確定為中國發展的優先領域之一,在過去的 15 年中,我們就已經實現了三個關鍵項目。這對於一個國家而言是非同尋常的,因為要在國家高性能計划下連續支持一個領域的關鍵項目非常難。這也反映了高性能計劃的重要性,該項目的結果是催生了一些千兆級的計算機器。」

其中最著名的就是太湖之光和天河 2 號,其中天河 2 號在 2013 年上線,並且在兩年前被太湖之光打敗,之前一直處於 Top500 的第一。作為掛架超算的基礎設施,中國國家電網現在提供超過 200 PFLOP 的共享計算力和 160PB 的共享存儲,它為 400 多個應用和服務提供計算支持,服務於 1900 多個用戶團體。目前中國國家電網包含兩個主站、6 個超算中心、10 個一般站點和一個運營中心。

現在我國正在建立一個百萬兆級的系統,它基於構建的三種原型系統:曙光、天河和神威。曙光將使用傳統技術,例如 x86 處理器和中國晶元製造商 Hygon 製造的加速器,它會使用多級互聯的設計和沉浸式的散熱方案,這可以去除對風扇的需求。天河原型將使用新型 16 納米的 MT-2000+多核處理器(from Matrix),這是一個 3D 蝶形網路,整個系統最多有 4 個 Hop。

神威原型機將使用 SW26010 晶元,這是一種由自研網路晶元驅動的高帶寬和高吞吐量網路,它還會使用帶有增強型銅質冷卻板的水冷系統。一個節點將包含 2 個處理器和四路 DDR4 內存,而一個超節點將包含 256 個節點和全部 256-x-256 的連接。

錢教授表示,需要面對的挑戰包括能耗、應用性能、編程能力及恢復力。

「能效是該項目最具挑戰性的部分,」他說,「如果沒有這個限制,創建超大規模系統就會簡單得多。那麼我們該如何平衡能耗、性能和編程能力?如何在保持高應用能力的同時支持大範圍應用程序?如何提高長期、不間斷的應用恢復力呢?」

工程師們正在權衡一些問題,如究竟要創建一個多樣的加速系統還是一個可以利用多核結構的系統。他們著眼於一種包含 DRAM 和不易變內存(NVM)的混合內存,將內存放在更靠近處理器的地方。他們還考慮了一種光學互連,通過縮小它的尺寸將其置於更加靠近晶元的位置。就計算機而言,問題是使用專用處理器還是通用處理器。

「超算的應用非常少,所以我們有必要使用一個非常高效的專用架構來支持這些應用嗎?」他提出了這樣一個問題。「另一方面,中國的機器將安裝在通用計算中心,因此不可能只支持少量應用。我們的解決方案是通用與專用相結合。」

中國在系統本身之外也做了一些工作,如升級國家電網,為用戶創建一個包含門戶網站的服務環境,將站點增加到 19 個並提高帶寬。中國正在創建一個應用開發平台和另一個平台,用來促進 HPC 教育、增加人才儲備及為其超算系統創建一個應用生態系統。

「由於未來的超算系統將與我國自主研發的處理器一同部署,該生態系統已經成為一個非常關鍵的問題,」錢教授表示。「我們需要庫、編譯器、操作系統、支持新處理器的運行時,還需要一些二進位動態轉換來執行商業軟體。我們需要這些工具來提高性能和能源效率,此外,我們還需要應用開發支持。這是個長期工作。我們需要與業界和終端用戶通力合作。」

清華學生超算競賽團隊實現「大滿貫」

SC2018 上另一個引人注目的話題是競賽,11 月 15 日,2018 國際大學生超級計算機競賽在大會中落下帷幕,來自清華大學計算機系超算團隊摘得了總冠軍。

至此,在 2018 年三大國際大學生超算競賽 ASC、ISC 和 SC 中,清華大學超算團隊包攬了全部三項競賽的冠軍,實現了繼 2015 年後的又一次「大滿貫」,這也是清華超算隊伍在三大國際超算競賽中累計獲得的第 11 項冠軍。

頒獎現場

據清華大學官方微信號介紹,參加本次競賽的超算團隊成員主要由計算機繫於紀平、余欣健、何家傲、鄭立言、趙成鋼和交叉信息院婁晨耀 6 名本科生組成,由清華高性能計算所研究生曹煥琦、馮冠宇和王邈擔任技術支持。指導教師為計算機系副教授翟季冬和博士後韓文弢。

作為 SC2018 大會的重要組成部分,本次比賽也是超級計算機領域的頂級賽事,每年都能吸引到全球各個國家和地區的眾多高校參與。本次競賽共有來自全球 15 所高校的本科大學生組隊參賽,清華大學作為唯一一所內地高校參賽。

本次比賽要求參賽隊伍在總功率 3000 瓦的限制條件下,自行搭建計算集群並在集群系統上進行 6 個應用程序的性能對比。在 48 小時的競賽中完成超算集群的性能基本測試 HPL 和 HPCG、大規模機器學習、核裂變鏈式反應的穩態求解與模擬、論文復現——特大地震模擬等內容。

另外,參賽隊伍還需在比賽中向評委介紹自己優化的應用和正在進行的軟體優化設計,並在 48 小時內完成一篇在國際權威雜誌具有發表能力的英文論文。

最終,清華團隊在 6 個應用上取得領先,得分 88.398 分,領先第二名新加坡南洋理工大學 11.518 分。以大比分優勢成為了今年 SC18 的總冠軍。比賽的另外一個獎項——最高 LINPACK 獎由新加坡南洋理工大學獲得。

參考內容:

https://www.nextplatform.com/2018/11/15/china-navigating-the-homegrown-waters-for-exascale/

本文為機器之心報道,轉載請聯繫本公眾號獲得授權。

------------------------------------------------


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

AIIA開發者大會開啟在即,思必馳俞凱談語音交互技術AI互聯
入門 | 詩人般的機器學習,ML工作原理大揭秘

TAG:機器之心 |