超級望遠鏡的數據革命

最新 01-12

大數據的浪潮不僅席捲了地面，還將全世界最大規模的超級射電望遠鏡SKA推到了這場革命的最前沿。

━━━━

再

過不久，人類史上最大的天文實驗裝置——平方公里陣列（SKA）望遠鏡即將啟動建設，並在建成後開始探索茫茫太空，幫助人類解答宇宙最基本的問題。SKA望遠鏡的上百萬個低頻對數周期天線將分布在澳大利亞西部沙漠，而其約2500個高頻碟形天線將在南非及南部非洲8個國家落腳。憑藉其超高靈敏度、超大視場和超高解析度，天文學家能夠利用它觀察整個天空，並監測天空中從未有過的細節。科學家因此認為，人類已開始進入繪製宇宙地圖的新時代。

但這樣的能力也意味著，SKA望遠鏡建成後將產生前所未有的巨大數據量，每秒鐘就能產生高達太位元組（1012位元組）量級的數據。據估計，第一階段的SKA望遠鏡（首批建成10%）產生的海量數據需要至少300Pflops（1P=1015）的運算能力，而目前世界上最快的超級計算機「神威.太湖之光」的處理能力約為90Pflops。考慮到計算效率和軟體執行效率（目前射電天文數據處理軟體在超算平台上的執行效率普遍低於10%），實際需求將大大超出這個理論估算。

順利完成海量數據的處理和存儲是SKA正常運行的前提，但SKA龐大的科學數據量已經遠遠超出了兩個台址國數據處理中心的承受能力。根據SKA國際組織的規劃，除了台址國建設用於數據預處理的超級計算機（SDP）以外，主要成員國將建造各自的區域數據中心執行科學數據深度分析和數據產品長期存儲的任務。中國是SKA的發起國之一和重要成員國，為此，上海天文台在中國科學院的支持下，提出建設中國SKA數據中心的倡議，同時與國際團隊合作推進SKA亞太區域數據中心的建設。圖1顯示了SKA的數據處理流程。首先，SKA的原始數據在台址國的科學數據處理器完成預處理，預處理後的數據經過高速互聯網傳輸到區域數據中心，然後根據具體科學目標選取對應的數據處理流程進行深度分析，並負責將科學數據產品長期存儲起來。科學用戶可以遠程登錄區域數據中心的計算平台進行數據分析，形成科學成果，也可以直接使用存檔的科學數據。以上海天文台為代表的SKA科研團隊正致力於研發SKA數據中心的原理樣機，取得了令國際同行矚目的成果。

為了確保設計的合理性，SKA科學數據處理的計算平台架構必須滿足4個要求：可拓展性、經濟成本可承受、穩定性和對先進演算法的靈活適應性。而傳統的高性能計算（HPC）平台架構提高運算速度的思路是移動數據靠近計算，先把大量數據搬運到CPU或者GPU緩存，實現一次性爆髮式高度並行處理，從而達到提高運算能力的目的，因此適合運算程式相對固定的高度並行化的應用場景，卻無法同時滿足上述4點要求。

比如，我們在通用型HPC的計算節點上部署SKA軟體，發現其數據存儲節點與計算節點之間是通過共享文件系統聯接的，當處理大量數據和文件時，過多的數據交換就造成了通信堵塞和計算性能顯著下降，乃至系統崩潰。更關鍵的是，SKA處理任務與傳統HPC固定的、高度並行化的應用場景有很大不同。SKA的很多科學應用是採用實時流水線數據處理方式，不僅對運算能力要求高，對系統的穩定性要求也高。

我們必須在基本思路上進行創新，由此提出了新型數據島架構的SKA科學計算原理樣機方案，大量的測試試驗表明，這樣的架構才是數據密集型科學計算的最優設計方案。

該架構的主要思想是將整個數據中心分成若干個小區域或多個子數據中心，我們稱之為數據島（data island）。每個數據島內部配備有共享文件系統（區別於傳統HPC的全局共享文件系統）和獨立的任務調度系統，每個島由若干（幾十到幾百個）計算節點組成，島之間可以互相獨立地執行數據處理任務，也可以根據需求靈活地重組資源。數據島內的每個計算節點配置較大的本地存儲空間，能夠把數據存儲在緩存以及本地存儲中，從而大大地減輕網路通信壓力，滿足SKA串列軟體對每個計算節點獨立運算和數據傳輸能力的高要求。這種數據島架構還有一個優勢是，當某一個島的文件系統出現問題時，不會影響到其他島的工作，滿足了SKA多任務並行處理的要求。

圖2展示了新型數據島架構的SKA數據中心試驗樣機。首批配置的數據島由4個計算節點組成。每個計算節點均採用英特爾最新Xeon phi KNL/KNM多核處理器；每個計算節點擁有64/72核，擁有最高384吉位元組內存，16太位元組固態硬碟支持本地快速數據交換和數據處理（註：傳統HPC只有很少的本地存儲），計算節點之間的通信帶寬為100吉比特/秒（等同於Infiniband的速率）。單個太位元組大小的數據文件被讀入後，可以很方便快捷地在島內進行處理，基本實現了「數據不落地」的操作思想，從而避免了計算節點與獨立外置存儲節點之間的大量數據交換，不僅大幅度降低了能耗，而且省去了3套網路設備，節省了約1/3～1/2的成本。

可以看出，單個數據島的運算能力、網路聯通速度、本地緩存容量已足以獨立完成一定規模的數據處理任務，對於複雜的、數據量更大的處理需求，按照這個架構靈活地擴充數據島的節點數即可。下一步工作的重點是研究數據島的組合和優化配置，一旦此擴展性試驗順利完成，即可建成一個SKA區域數據中心切實可行的原型系統。

那麼，SKA望遠鏡每年高達約300皮位元組的科學數據產品該如何管理呢？要知道，即使是當前射電天文領域最先進的數據分析軟體系統，所能處理的數據量跟SKA第一階段產生的數據相比也低了兩三個數量級，遠遠不能滿足SKA全面運行的數據處理需求，因此需要開發新一代數據流管理系統。

西澳大學牽頭研發了一款名為DALiuGE的數據流管理系統，全稱為Data Activated Flow（Liu流） Graph Engine，指數據激活的流處理引擎。DALiuGE的設計目的是為SKA提供一個高效的分散式數據管理平台和具有良好拓展性的管線系統執行環境，以低功耗來支持連續的數據密集型科學計算，完成SKA的實時數據處理任務，也為區域數據中心提供科學數據產品。

2016年6月至7月，上海天文台牽頭國際合作團隊在「天河二號」超級計算平台上成功部署了DALiuGE系統，並完成了最高達到1000計算節點的大規模驗證性試驗，檢驗了該軟體系統的穩定性和可擴展性。這是SKA核心軟體首次完成如此大規模的集成測試。

在此基礎上，陸續成功完成了多數據島、多GPU節點等拓展試驗。如今，正在將SKA成像流水線系統集成到DALiuGE，為DALiuGE積累和增強實戰經驗，使其能更加有效、靈活地操控SKA數據處理系統，並確保在大規模計算節點上穩定運行，不斷增強其實用性和對不同計算環境的適應力。

現實中面臨的另外一個問題是，計算系統、網路系統和存儲系統並非是均衡發展的。以數據密集型為特點的SKA科學數據處理遇到的一個嚴重瓶頸來自「IO牆」，即I/O吞吐率的限制。

為此，上海天文台和西澳大學、美國橡樹嶺國家實驗室合作開展了SKA數據大規模並行存儲底層I/O並行技術，自主開發了Adios數據存儲管理系統（AdiosStMan）。與已有的主流射電天文軟體系統相比，AdiosStMan在數據底層採用了全新的I/O並行機制以實現高吞吐率的海量數據存取，從而有效降低了開發SKA科學數據處理器原型過程中遇到的I/O瓶頸，大幅度提高了數據的讀寫速度。在上海天文台機群的測試中，最大的I/O吞吐率為7.4吉位元組/秒，而理論峰值為8.5吉位元組/秒，I/O利用率高達94%。

━━━━

根

據目前的計劃，上海天文台將於2017至2018年間完成SKA數據中心原型系統的研製工作，並應用於處理國內外SKA先導項目所產生的數據。同時，籌建SKA區域數據中心的工作正在緊鑼密鼓地進行中。可以看到，這場針對SKA望遠鏡的數據革命才剛剛開始，但可以肯定的是，SKA望遠鏡終將擁有抵禦數據浪潮侵襲的能力，將人類的視線拓展到宇宙深處。

致謝：感謝中國科學技術部政府間國際合作專項「SKA科學數據處理關鍵技術研究」（項目編號：2016YFE0100300）的支持。

專家簡介

安濤：博士，上海天文台研究員、博士生導師、SKA團隊課題組長，曾入選中科院青年創新促進會優秀會員、上海市青年科技啟明星計劃等。研究領域是射電天文與技術方法，已發表了70多篇SCI/EI論文，應邀為Nature Astronomy（自然·天文）期刊撰寫綜述論文。近年來致力於推進中國SKA數據中心項目，取得了豐碩的工作成果，得到科技部和SKA總部的讚譽。

>>>本文為原創，轉載請回復。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 悅智網 的精彩文章:

※超聲波腦部手術：使用聚焦超聲，不用開顱就可治療腦部疾病

TAG:悅智網 |