BeeGFS 在革 Lustre、Spectrum Scale 的命!
起源於歐洲的並行文件系統BeeGFS在全球的高性能計算(HPC)環境中與Lustre和Spectrum Scale有得一拼嗎?Frank Herold的回答是肯定的,這不足為奇。Herold是ThinkParQ的首席執行官,該公司創辦於2014年,旨在將BeeGFS實現商業化。你可能還記得,BeeGFS最初只是弗勞恩霍夫工業數學研究所(ITWM)內部的一個項目(2005年),當時名為弗勞恩霍夫協會文件系統(FhGFS),後來作為BeeGFS分立出來、歸ThinkParQ控制,不過大量的開發工作還是與ITWM協作完成的。
暫且把歷史擱在一邊,Herold在去年11月份的SC18大會表明,BeeGFS成熟的技術實力加上日益鞏固的渠道體系使其成為Lustre和Spectrum Scale的可靠替代者(競爭對手)。Herold順帶強調了最近與合作夥伴Dell EMC在澳大利亞CSIRO(聯邦科學與工業研究組織)部署了BeeGFS。
Herold告訴IT外媒HPCwire:「我們在一年半前開始走國際化道路。有意思的是,國際項目的數量並不多,但從項目規模的角度來看,那些項目又相當龐大。截至今天,我們大約45%的收入來自北美和亞太地區。我們與合作夥伴Dell EMC在CSIRO達成了一筆很重大的交易。這是一套為AI構建的數據量達2PB、全部採用NVMe的存儲解決方案。目前正在部署中。」
這是一大勝利和有力的證明。ThinkParQ並不公布收入,因此很難準確判斷市場吸引力;又由於BeeGFS是開源的,很難知道有多少家組織在使用它或者將它派在什麼用場。不過,ThinkParQ大力推銷的時機恰逢其時。
Lustre最近前途未卜。它在超級計算中心領域非常強大,但在商用HPC領域沒有這麼強大。英特爾於2012年收購了Lustre供應商Whamcloud,打算做大Lustre業務,但後來在2017年退出了該業務。去年6月英特爾將Lustre資產出售給了DDN,DDN是一家領先的HPC存儲供應商,擁有多款Lustre設備,成為Lustre的監管者可能更好。
2015年,IBM將其廣受歡迎的通用並行文件系統(GPFS)重新命名為IBM Spectrum Scale。 GPFS向來也是HPC領域的大玩家,尤其以高端企業計算見長。
Intersect360研究公司的首席執行官Addison Snell特別指出,實際上,沒有哪個並行文件系統稱霸商業HPC領域。「BeeGFS的人氣越來越旺,尤其是在歐洲。但是,還沒有哪個並行文件系統在商業HPC這個細分市場得到廣泛採用,HPC的用戶主要在這個領域。」
一位直接參与HPC存儲技術選擇和部署的觀察人士同樣認為外界對BeeGFS的興趣在加大。
Aaron Gardner是專註於生命科學的研究計算諮詢公司BioTeam的技術主管,他說:「由於目前的轉型,加上Lustre和Spectrum Scale產品在HPC領域都具有不確定性,今年BeeGFS方面的動靜比以往來得更大也就不足為奇。HPC領域長期以來一直在尋找分散式並行文件系統的替代方案。我們已看到BeeGFS在過去幾年發展成為潛在的競爭者。(架構圖見下面。)
Herold認為,易用性、可擴展性和強大的元數據處理功能是BeeGFS有別於Lustre和Spectrum Scale的幾大優點。2016年2月,BeeGFS源代碼「開源」。話雖如此,ThinkParQ的商業模式還是為支持的版本提供附加功能;幾位觀察人士未仔細觀察ThinkParQ就抱怨,BeeGFS的開源協議條款阻礙了其價值實現最大化。主要版本大概每年發布一次,每季度進行一次小幅升級。版本7於去年5月發布。Herold表示,其中一項主要的新功能是增加了存儲池。
Herold說:「存儲池為客戶提供了跨命名空間的功能。它們可以分割數據,決定數據是放在底層的高速度還是高密度存儲介質上。」存儲池讓集群管理員可以對存儲目標進行分組,並將不同類別的夥伴組(buddy group)鏡像到一起。比如說,可能有一個存儲池由高速但小容量固態硬碟(SSD)組成,另一個存儲池用於批量存儲,使用大容量但速度較慢的普通磁碟。存儲池可能有描述性名稱,因而易於記住要使用哪個存儲池,無需查找池中的存儲目標。SSD存儲池可能命名為「fast」,另一個命名為「bulk」(詳見下圖)。
另一項值得關注的功能是BeeGFS On Demand(BeeOND)。這裡的概念是使用客戶端計算機上的存儲器,而不是使用主存儲器。
Herold說:「我們在一頭有存儲伺服器,另一頭你有成百上千個客戶端。我們實時構建了一種臨時的BeeGFS文件系統,它可以從主存儲區卸載一些繁重的工作負載,轉移到那些臨時工作空間。這其實是一種很好的模式,你可以運行主數據中心,但還可以創建臨時工作空間,你可以決定讓所有客戶端還是讓部分客戶端來處理特定的工作。」
正如BeeGFS文檔所述,計算節點中內部硬碟的問題在於,它們既沒有跨多台機器的單個命名空間具有的優點,也沒有共享並行文件系統的靈活性和性能。BeeOND解決了這個問題:完全針對作業的運行時環境,「按照具體作業」跨所有計算節點創建一個共享的並行文件系統,所有計算節點都參與處理某個特定的計算作業(見下圖)。
最好查看BeeGFS文檔,以便更全面地了解其功能。HPCwire請BioTeam副總裁兼諮詢服務總經理Ari Berman對BeeGFS與其主要競爭對手作一番簡要的評估:
「BeeGFS在許多方面都很有前途。Lustre在我們領域的主要缺點一直是它使用的串列元數據訪問模型,這使得許多生命科學工作負載所需的眾多並發文件操作非常慢。專業的Lustre部門積極阻止用戶運行執行此操作的代碼,但只有在你直接控制環境中運行的代碼如何編寫時,這才易於處理。Lustre社區進行了修改,以提供分散式命名空間模型,該模型跨目錄對元數據訪問進行偽並行化處理,但它仍未完全支持並發文件操作的所有用例。」
「Spectrum Scale稍微好一點,原因在於NSD(網路共享磁碟)伺服器可以更容易針對跨元節點的並發元數據訪問進行調整,但是你在作出調整方面的選擇時犧牲了其他性能上的提升。BeeGFS的優點是一開始就擁有速度更快一點的元數據,同時還能夠以一種簡化的方式跨元數據節點按照目錄和子目錄分配元數據操作。與GPFS一樣,你可以根據需要添加更多的元數據目標(伺服器),它可以很好地擴展,設置起來比多個Lustre MDS要簡單一點。」
「另一大優點是,能夠使用內置隊列對元數據請求伺服器進行線程處理,並能夠根據需要指定在每台元數據伺服器上生成多少線程。這避免了多台(甚至一台)伺服器對文件系統上的小文件進行數百萬次請求時出現的串列請求瓶頸。BeeGFS的最後一個優點是,伺服器軟體寫入到用戶空間時,它確實有一個原生內核客戶端,能夠在過去幾年使100Gbps客戶端連接趨於飽和。最新的Spectrum Scale 5或Lustre 2.10 LTS版本也進行了調整,但供應商和渠道領域目前為客戶提供的Lustre或Spectrum Scale版本存在著諸多差異。」
「所以對我們來說,BeeGFS大有希望,但所有這些都是理論上的。我們未能拿來實際試一下,測試這些功能在這個領域中的效果怎樣。軟體可以免費下載和使用,這是一大優勢,使我們的用戶群極容易使用它。但我們特別指出某些功能需要ThinkParQ的許可支持,比如說源代碼許可證雖然開放,卻不如Lustre寬容。」
與其他並行文件系統一樣,BeeGFS基本上與硬體無關。Herold說:「從CPU層面來看,我們支持市場上的所有CPU,無論是Power、Arm還是英特爾(x86),都沒有關係。從存儲角度來看,只要顯示為設備,我們都可以對其進行管理。此外從基礎設施層面來看,我們支持TCP/IP、千兆乙太網以及InfiniBand。」
ThinkParQ正在努力擴大市場範圍,Herold特別指出HPC(科學)、生命科學、AI和石油天然氣是幾大目標行業。可以預見,擴張計劃的一個關鍵因素是渠道拓展。目前,ThinkParQ是一家服務和軟體型公司,提供BeeGFS的商業版本和支持。對於這樣一家小公司而言,進入硬體行業困難重重。然而,ThinkParQ確實有幾個合作夥伴將BeeGFS與系統集成起來或者製造設備。Penguin Computing(面向美國和歐洲市場)和總部位於台灣的QCT(亞太區)就是兩個合作夥伴。
Berman說:「現在他們專註於發展渠道合作夥伴,但目前其深度仍遠遠不如Lustre和Spectrum Scale生態系統。另一個缺點是,BeeGFS還沒有像Lustre和Spectrum Scale那樣被大批客戶所使用,規模上也無法相提並論,因此BeeGFS仍可能會遇到還沒有遇到的極端情況。」
去年2月成為首席執行官的Herold希望CSIRO之類的項目能夠樹立信心、拉大需求。BeeGFS還沒有出現蜂擁而至的局面,但是無疑已有了一番動靜。


※萬豪酒店因資料庫泄露被索賠 125 億美元
※英特爾正開發量子材料的晶元:尺寸縮減 80%、能耗降低達 97%
TAG:雲頭條 |