當前位置:
首頁 > 科技 > HPC高性能計算知識:勘探典型業務處理分析

HPC高性能計算知識:勘探典型業務處理分析

HPC應用的主要領域是科學與工程計算,諸如高能物理、核爆炸模擬、氣象預報、石油勘探、地震預報、地球模擬、藥品研製、CAD設計中的模擬與建模、流體力學的計算等。隨著雲計算和大數據技術的不斷成熟和廣泛應用,HPC已經滲透到HPDA和HPC Cloud領域,但古老的東西最容易被大眾理解,所以下面我們將以物探為例,開啟HPC在物探在物探領域應用的旅程。

石油勘探是典型的HPC物探應用,在原理上通過反射地震波的形式完成對石油勘探,整個勘探過程大致分為反射波數據採集、地震資料處理數據解釋三個步驟。

石油地震數據處理系統是一個要求計算機系統運算性能、運行穩定性極高的計算環境。其原因在於石油行業中的數據處理非常困難和龐大。以找油和打井工作來說,一般採用三維地震勘探的辦法是先在地面放炮,通過儀器測量地面震動反射波的情況,把採集所獲得的地震波在地層中傳播的運動學和動力學信息進行去偽存真處理,轉化為地質信息,經過計算分析,反推出地下的生油、儲油、蓋層的地質構造特點,再確定在打井的具體位置

隨著石油勘探新技術的不斷更新、信息技術的滲透,迫使企業也需要不斷採用性能優異、技術先進、價格便宜的高性能計算機處理系統來佔領市場。

第一步收集到的數據稱為「初始數據」,可能是幾十TB或幾百TB不等。

第二步是處理地震資料和數據,將這些數據加工、去偽存真,轉化為有效的地質信息。那麼,為什麼要進行地震資料處理呢?

地震資料數據中包含著有關地下構造和岩性的信息,但這些信息是疊加干擾信息且被一些外界因素所扭曲,信息之間往往是互相交織的,不宜直接用於地質解釋。因此,需要對野外採集的地震資料進行室內處理。

地震波石油勘探法高性能計算應用,主要可分為地震資料處理油藏模擬兩大類。

地震資料處理是典型的浮點計算密集型應用,以求解數據密集的波動方程為主要計算模式,因此對浮點計算能力要求較高,對大量密集數據的處理伺服器需要良好的多核擴展性。

而油藏模擬對計算平台的要求是需要支持稀疏矩陣方程的迭代求解,對內存帶寬的要求非常高,並需要大緩存支持,因此這類軟體可歸為對內存帶寬高度敏感的計算密集應用。

在作地震資料處理時,計算網路主要擔負著並行計算時的數據通訊並行文件系統的數據傳遞。

並行計算時的數據通訊主要是求解方程組時各個計算節點間的數據交換;這種數據交換主要是發生在計算節點之間,每次交換的數據相對不是很大,但交換的次數較為頻繁。

並行文件系統的數據傳遞主要是讀寫數據文件;這種網路通訊主要發生在計算節點和存儲節點之間,計算節點通過存儲節點讀寫存儲設備;其特點是網路通訊並不頻繁,一般發生在程序運行的開始、結束以及中間特定的時間(有波峰和波谷),但是每次通訊的數據量很大,所以對網路的帶寬要求較高,這也是體現HPC存儲系統性能的幾個關鍵時期

當集群架構的高性能伺服器的計算能力越來越強時,我們注意到集群系統需要存儲的數據也是越來越多,這些數據多為計算過程中的中間數據,這就意味著存儲系統必須提供穩定、高速的傳輸帶寬,以保證高速計算的需要。

除了中間數據以外,存儲系統還需要存儲大量的計算結果,這就要求存儲系統提供可靠的存儲環境。

地震資料數據處理數據按照流程分為三個階段:初始數據、中間數據、成果數據

地震資料數據處理的第一個流程就是將野外採集的原始數據導入到存儲系統。計算前,快速將原始數據讀入計算節點,在運算過程中會產生大量的中間結果,即中間數據,這些中間數據在一定時間內會被反覆使用,這部分數據要在線保存在高性能存儲上,存儲的IO性能要求非常高。

在計算過程中產生比初始數據多幾十倍的中間數據,中間數據被多次讀出計算,計算完後寫入存儲,如此多次反覆,得到最終成果數據。

中間數據是不能刪除的,因為可能會從中間某個點開始計算,以提高效率。

因為HPC執行的計算任務可能需要幾個小時,也可能長達幾天甚至數周。由於高性能計算系統規模高達上萬個節點,故障難以避免,因此HPC系統中普遍使用「checkpoint」技術周期性地保存計算的狀態和中間數據,當發生故障時,則可從上次保存的「checkpoint」狀態恢復計算。在每個階段完成後保存計算結果的方法則更簡單而高效。

中間數據有歸檔的要求(有的HPC軟體在不斷產生新的中間數據,同時刪除不再使用的中間數據)。但這些中間數據如果長時間佔用在線高性能存儲系統,會降低存儲的使用效率,對於用戶來說是投資上的浪費,這就需要進行數據遷移或歸檔,將不常用的數據保存性能相對較低的近線或離線存儲系統中。

對於成果數據來說,每個處理任務都會產生一個最終的計算結果,它是不能被改動的,而且是需要長期保存的。地震資料處理數據的特點及對存儲的要求主要體現在:

1、 統一命名空間:不同的計算節點都要到這個統一命名空間中讀取數據,存放、讀取中間數據,存放結果數據。

2、 數據量大:初始數據幾十TB,中間數據是初始數據的10~20倍,但成果數據的大小卻僅有初始數據的0.5~1%左右。

3、 帶寬要求高:計算節點和存儲節點的數據交互次數不頻繁,但是數據量大,即對網路帶寬和存儲節點的帶寬要求高;

4、 可靠性要求高:中間數據和結果數據都是珍貴數據,是通過大量的時間和資源的投入得出來的,所以對存儲的可靠性要求高;

5、 擴展性高:不同任務的計算集群,共用一個存儲系統,避免數據遷移。

6、 易用易管理:單一命名空間;存儲資源可以靈活的劃分給不同的計算任務(計算節點);維護簡單;配額管理;

7、 數據歸檔要求:中間數據和結果數據經過生命周期後,很少被訪問,有歸檔需求。東方物探有這個要求,中石化國堪研究院沒有這個要求。

第三步就是解釋,地震資料經過數字處理以後,為什麼還要進行解釋工作呢?這是因為數字處理以後,提供大量的一條一條地震剖面或一塊三維數據體,這些資料里包含了許許多多的地下地質信息。而我們的主要目的是要知道與油氣有關的信息,如哪裡能生油?哪裡能儲存油?這些與油氣有關的地層的岩石性質、物理性質是什麼?這就需要從地震資料包含的大量信息中找出與油氣有關的信息,這是解釋工作肩負的重要使命。

解釋工作的好壞關係到能不能快速、優質、準確地找到油氣田!所以,解釋工作是地震勘探三大環節中必不可少的、最後的也是至關重要的環節。

溫馨提示:


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 架構師技術聯盟 的精彩文章:

高性能計算Lustre性能優化方案
從容器到微服務,技術架構、網路和生態詳解

TAG:架構師技術聯盟 |