從EasyOP到先進計算服務平台,曙光HPC價值使命全新飛躍
眾所周知,中國HPC經過近四十年的發展,尤其最近十五年時間的快速崛起,已經從跟跑、並跑,進入到部分關鍵技術領跑的新時代。近期,中國HPC產學界共同努力,逐漸打破國外硬體制約,部分實現自主研發,軟硬體協同支撐應用高速發展,邁向由應用引領機器研製的新時代。
但也要看到,一方面相比硬體領域取得的成績,中國整體HPC的應用發展還有待發展,軟硬體之間發展不平衡的現狀依舊很明顯;另一方面,中國HPC領域的人才建設工作同樣也存在著不少的「短板」。
面對上述困擾中國HPC行業多年的痛點和難題,作為一家以高性能計算起家的企業,曙光一直以來始終堅持在HPC領域的不斷探索和創新,不僅為科研、航天、氣象、生命科學等多個行業提供了領先成熟的超算解決方案,同時也積極在應用、人才乃至生態建設方面不斷求新求變,為中國HPC長遠發展夯實了堅實的基礎。
以2015年曙光創新推出的EasyOP在線運維平台為例,經過近四年時間不斷進化和迭代,如今EasyOP已升級蛻變成為先進計算服務平台。更重要的是,依託該平台,曙光也正在搭建起中國HPC領域獨具特色的O2O先進計算服務網路。
在我看來,曙光的先進計算服務平台,正在把中國HPC和人工智慧等新技術變成像水和電一樣的新生產力,這對降低全社會的HPC使用門檻,推進HPC規模化的應用,實現HPC的「普惠」經濟,賦能全行業的數字化轉型必將起到更大的促進作用,而這不僅是曙光HPC業務未來重點發展的新方向,更是價值使命的一次全新飛躍。
應用和人才成中國HPC「攔路虎」
我們知道,高性能計算是科技領域最「硬核」的行業之一,所以也被稱為「國之重器」,是因為它的製造和應用水平不僅代表著國家的實力,更是一個國家在經濟建設中打造核心競爭力的關鍵武器。
客觀的說,中國HPC經過過去多年的發展,取得了令人矚目的成就,但應用和人才的「短板」也正在成中國HPC長遠發展的「攔路虎」,我們可以從三個維度來做觀察:
第一,從硬體層面看,中國在HPC領域可謂是從「一窮二白」做起的。在2002年之前,TOP500榜單上就沒有中國的超算,或者說中國超算本身就很少。從2002年之後,經過15年的高速發展,中國超算的上榜數量,包括性能都是指數級增長,並以「旱地拔蔥」的方式一躍而起。
儘管在去年年中公布的TOP500榜單上,美國超算Summit「終結」了中國超算第一的位置,但中國「天河2號」以及「太湖之光」,分別六次和四次拿到冠軍,相當於連續五年佔據了TOP500的冠軍位置。此外,在最新一期TOP500的榜單中,中國HPC的上榜套數依然高居第一,以曙光為代表的中國「超算軍團」,正在全球超算領域大規模的強勢崛起。
第二,從軟體層面看,情況則相對不容樂觀。目前,中國HPC不論是系統軟體、應用軟體還是工具軟體,都還不成熟、不完善。例如,如今真正到P級規模並用上異構眾核處理單元的應用相對較少,期待更多對重大科學發現、滿足國家重大戰略需求的應用能給跑出規模,實現「高速路上跑賽車,而不是跑拖拉機」。
同時,HPC在硬體層面上並行計算技術已經大規模投入使用,但是大量超算應用軟體仍需要接受「代碼現代化」的改造,這就意味著尚有大量的應用軟體需要進行重新設計。此外,HPC的支撐和工具軟體種類也不多,包括能夠在結構化網格、非結構化網格以及無網格幾何組合,以及有限元和圖計算等方面提供支撐,同時還有在前處理、後處理、用戶界面等方面的軟體都比較「薄弱」。
第三,從人才建設看,HPC應用的開發、實施,以及HPC系統的運維需要千千萬萬的高素質人才,可以說如果人才儲備質與量都能獲得提高,中國的HPC應用水平才能不斷提高,並最終產生真正的創新成果。
但實際的情況是,中國HPC領域除了具有跨學科知識和視野的高水平人才數量不足之外,HPC在管理和運維方面也一直存在著一些問題,包括缺乏專業人才、管理運維水平落後等等。
不難看出,應用和人才正在成為中國HPC長遠發展之路上的「攔路虎」,要實現上述這些突破,應用領域的軟體開發和人才培養投入就顯得迫在眉睫。因此,這也意味著HPC需要建立一個全新的,不同以往的生態環境,才能促進中國HPC長遠的發展。
從EasyOP到先進計算服務平台
對此,曙光高性能計算產品事業部首席科學家吉青博士告訴我,正是洞察到HPC領域面臨的種種難題,早在2105年11月,曙光就創新推出了EasyOP在線運維平台,從「運維」這一痛點入手,希望幫助更多HPC用戶解決運維人員不足的問題。
EasyOP帶來的好處是,它不僅可以提供7*24小時全程專家支持的自動化運維能力,能夠幫助HPC人員大大提升工作效率,一定程度上也提升了工作的自由度;同時,藉助曙光在HPC領域多年積累的深厚技術和知識儲備,EasyOP通過搭建「在線運維平台知識庫」,並通過共享和開放的方式,讓HPC運維人員形成強大的高性能計算專業知識體系。目前,曙光已在安徽、河北以及歐洲建立了三個EasyOP分中心。截至今年6月初,EasyOP的活躍集群已經接近200套。
值得一提的是,基於EasyOP在HPC運維領域的探索與實踐,曙光又萌發了更大的想法,那就是能否把這一套經過實戰檢驗和驗證成功的經驗、方法以及體系,延伸到計算、應用乃至生態領域,構建一個功能更加豐富、作用更加強大的服務平台呢?
在此背景下,曙光先進計算服務平台「應運而生」。通過該平台,曙光希望將傳統的HPC集群和其他計算資源等,進行統一的管理和維護,並將應用軟體進行封裝,為用戶提供一個全新的雲環境,以應用服務的形式提供給更多的用戶,讓他們更加方便、快捷、高效的使用HPC的資源。
不僅如此,在實現HPC服務化的基礎之上,曙光還將逐步把生物、氣象、高校、科研機構等行業領域的應用,如CAE、深度學習等應用集成到平台,更好的發揮應用的價值,為中國HPC在應用領域發展進一步「添磚加瓦」。
據曙光EasyOP產品總監、首席運維架構師安磊介紹,曙光先進計算服務平台主要包括先進計算運維體系、先進計算運營體系及先進計算分享體系三大部分,具體而言:
首先,先進計算運維體系,是指繼續依託於EasyOP高性能計算運維服務平台提供服務,主要承擔各大計算中心集群與資源的監控、運維、檢查、維護、升級及管理服務,是面向先進計算中心管理人員的統一入口,該體系採用中心化管理原則輻射全國先進計算中心,提供運維支撐服務。
其次,先進計算運營體系,主要承擔科學、合理、智能、高效的調度和利用資源服務計算的任務,是面向先進計算中心終端用戶的統一入口,通過該平台,實現整合資源的共享應用、統一管理、動態調度,並通過建設雲服務環境,使其成為面向全國先進計算中心的資源和信息服務的統一入口,全面匯聚全國先進計算中心資源。
最後,先進計算分享體系,主要包括互動平台、數據分享及應用發布三大模塊。互動平台將針對應用和學科劃分專業計算「生態圈」,匯聚相關專業人才互動交流;數據分享將提供科學計算數據及成果分享與交易平台功能,促進科研成果價值化、產業化;應用發布平台將允許用戶發布自己的鏡像、軟體、環境或演算法等知識產權,初步形成先進計算開放的資源交易平台。
安磊表示,曙光先進計算服務平台2018年10月正式上線,2019年1月正式商用。截止目前,該平台已接入6 個遍布全國的大型先進計算中心,總計算能力高達6000 TFlops,並可通過智能策略,為用戶提供最佳的資源分配和使用方案,滿足用戶超大規模並行計算的需求。
此外,該平台還匯聚了4000 個HPC計算節點,可為用戶提供豐富的計算能力;以及100 個HPC相關應用;並維護了一支面向HPC各個應用領域的軟體專家團隊,為用戶提供全面的技術支持。
據了解,曙光先進計算服務平台未來還有更大的目標,一方面是結合曙光目前的優勢方向,針對物理化學、氣環科學、生命科學、智能製造及人工智慧五大領域展開更多的合作,以計算科學帶動行業創新的突破;另一方面是,該平台的定位不僅是重大科技基礎設施,還是創新的公共服務平台,未來也會圍繞重點支柱產業,以促進科技創新和產業向中高端轉型升級為目標,力爭成為地方產業經濟發展中重要支撐。
由此可見,從EasyOP到先進計算服務平台,不僅是曙光從一種技術工具到整體服務能力全面升級和進化的體現,更是曙光在HPC計算、應用和人才領域不斷探索與創新的印證,其價值可謂是「不止於眼下,更關注未來。」
曙光HPC價值使命的全新飛躍
毫無疑問,曙光EASYOP在線運維平台和先進計算服務平台正在為中國HPC在計算、應用和人才領域探索一套新的長效機制,某種程度上也有助於破解中國HPC長遠發展的難題。
一是,從計算層面看,兩大平台通過「HPC雲化交付」的方式,可以讓用戶快速獲得高性能計算集群的計算能力、調度能力和軟體能力。更關鍵的是,這種雲中交付HPC集群應用的新模式,還可以大大減輕用戶的運維壓力,同時也最大化的提升了HPC的資源利用率。
二是,從應用層面看,曙光先進計算服務平台還能促進中國HPC應用領域的長足發展,通過該平台,用戶可以將成熟演算法或者應用通過標準統一的格式發布在平台上,也可將其他人分享的成品鏡像直接調用使用,由此解決硬體發展和軟體優化不平衡、不同步的難題。
三是,從人才層面看,如前文所述,中國在HPC的領域的人才依然有很多的「短板」,人才依然是中國HPC產業發展的主要瓶頸。那麼,通過曙光兩大平台,不僅可以減少運維人員日常面臨的管理和運維壓力,更大的意義在於,通過曙光搭建的平台以及創造的機制,還可以為HPC創新人才的培養提供土壤,更為HPC人才價值的釋放提供了空間和舞台。
正如吉青博士最後所言:「HPC是科技的基礎性產業,幾乎涉及人類科學和生活的每一個領域,而曙光深耕高性能計算二十餘年,不僅為中國HPC產業的發展提供了強有力的支撐,也希望在計算、生態和人才領域發揮更大價值,為中國HPC長遠的發展創造更多的可能。這也是曙光從Supercomputer走向Supercomputing的一點感悟和現實需求。HPC相關環節順暢打通才能良性快速發展,從而真正達成好用、用好」。
總的來看,曙光EASYOP在線運維平台和先進計算服務平台是曙光在HPC領域綜合能力的全面體現,也是曙光在HPC領域厚積薄發的印證,更是曙光HPC未來新價值使命的升級所在。所以,它的出現不僅會把整個中國HPC行業帶上一個新的台階,也為曙光今後賦能百行百業的數字化轉型奠定關鍵基礎。
※打造智慧雲終端,廣水市按下教育信息化2.0「快進鍵」
※SAP:以全價值鏈雲端新力量,開創體驗經濟的新時代
TAG:申耀的科技觀察 |