當前位置:
首頁 > 科技 > 使用Alluxio加速基於Ceph對象存儲的數據分析

使用Alluxio加速基於Ceph對象存儲的數據分析

1.介紹

隨著企業收集的數據量的不斷增長,人們迫切需要找到高效的存儲解決方案。由於簡單性,可擴展性和具有成本效益,對象存儲(包括Ceph)已經越來越成為傳統文件系統的常用替代方案。在大多數情況下,對象存儲系統採用內部部署或在雲中部署,與進行分析的計算節點相互分離。這種分離有幾點好處。

提高成本效益——存儲容量和計算能力可以單獨配置。這樣做簡化了容量規劃,並確保能夠更好地利用資源。

易於管理——將數據與計算分離意味著單個存儲平台可被不同的計算集群所共享。例如,一個運行著長時間服務的集群將數據發送到對象存儲,可以和數據處理集群一起運行,從而挖掘出一些價值。

使用Alluxio加速基於Ceph對象存儲的數據分析

然而,這種架構的後果是數據遠離計算節點。當直接在對象存儲上進行分析時,會從存儲節點反覆提取數據,從而導致性能下降。這種延遲可能會妨礙一些關鍵的數據價值被及時提取。

在計算節點上部署Alluxio可以解決這一問題。通過智能地存儲與計算密切相關的活動歸檔數據,將性能提升至內存級速度,從而實現對數據熱點的快速分析。

2.示例架構

使用Alluxio加速基於Ceph對象存儲的數據分析

3.為什麼選擇Alluxio

Alluxio是一個能達到內存級速度的虛擬分散式文件系統。它駐留在計算節點上,並按照集群的規模進行擴展。Alluxio管理內存中的數據,並且選擇性地管理輔助存儲層的數據,例如便宜的SSD和HDD,從而獲得額外的容量。通過將熱數據保存在計算節點的內存中,並在任意輔助層之間無縫地遷移數據,Alluxio在大多數情況下可以實現以內存速度訪問遠程數據。這種加速是熱點數據分析的一個關鍵推動者。

Alluxio還能在不同的計算框架之間以及同一框架內的不同作業之間共享數據。無論上層使用的是何種計算引擎,計算集群的所有用戶都可以在本地獲取數據並重複訪問。因此,計算節點上數據的生命周期與訪問它的作業或框架是分離的。通過數據共享,Alluxio可確保內存中不存在冗餘的數據副本,從而降低了容量需求和成本。

應用程序利用Alluxio的簡單性和靈活性持續訪問數據,就像是運行在運程對象存儲上一樣。任何需要持久化的結果或轉換都可以由Alluxio通過配置同步地將更改傳播到底層對象存儲系統中來完成。這樣確保了沒有數據丟失從而易於管理。此外,用戶可以選擇僅在Alluxio內存中存儲臨時數據或中間數據,從而允許以內存速度寫入。

4.結論

計算資源與對象存儲的分離提供了一個具有成本效益的解決方案。通過在進行分析的節點上運行Alluxio,遠程對象存儲的主要限制被消除了。Alluxio的設計使其成為發掘計算和存儲分離架構的性能潛力的數據分析棧的關鍵組件。

如果您有興趣學習如何使用Alluxio從遠程對象存儲中及時獲取數據價值,請下載我們的白皮書,白皮書詳細說明了如何使用Alluxio和Spark以及Ceph對象存儲集群來配置和使用一個計算集群。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 中國存儲 的精彩文章:

災難恢復、業務連續性和備份之間主要區別
2018年英特爾內存策略:通過傲騰打破瓶頸並運用3D NAND存儲更多數據

TAG:中國存儲 |