當前位置:
首頁 > 最新 > FusionCube大數據解決方案,讓數據分析飛起來

FusionCube大數據解決方案,讓數據分析飛起來

大數據時代的來臨,既給企業帶來了機遇,同時也帶來了挑戰。傳統的集中存儲、集中計算的模式已經無法高效處理海量數據,比如每天上億條的微博數量,每月數十億智能電錶數據,以及各購物網站數以億計的交易數據,如何高效的存儲並提煉出有價值的信息是企業IT系統面臨的挑戰,而hadoop大數據技術的出現,為海量數據的高效存儲和分析帶來了希望,但也仍面臨著計算和存儲的挑戰。

Hadoop平檯面臨的兩大挑戰:

存儲空間和計算性能

怎麼提升存儲空間的利用效率?在不增加Hadoop數據節點的情況下,怎麼才能最大化的提升數據節點存儲的利用率,一直是用戶關心的問題,通常用戶會選擇開啟HDFS軟體的壓縮功能,但是會佔用大量的CPU資源,壓縮率越高,佔用的CPU資源也越多,這也嚴重影響到數據分析的效率;

怎麼提昇平台的計算效率? Hadoop大數據平台,為保證數據安全性,一般採用3副本進行存儲,在數據寫入過程,由於需要同時寫3份數據,對Hadoop集群的IO和網路帶寬產生巨大的壓力;另外,網路傳輸的時延也會影響到大數據集群的整體性能,例如在大數據的流事務處理Storm應用中,網路的時延會影響到整個Storm流事務處理業務的實時性;

華為FusionCube大數據解決方案,

讓計算和存儲更高效

為解決以上兩個問題,華為推出了FusionCube大數據解決方案,該方案結合華為在硬體領域的優勢,研發了大數據專用FPGA壓縮卡、RDMA以及NVMe SSD,從硬體上進一步提升系統的存儲和計算效率。

華為自研的FPGA數據壓縮卡可安裝在華為2路機架伺服器RH2288H v3,無須更改上層應用軟體,可以直接安裝在普通x86伺服器使用;

如上圖所示,Hadoop在並行計算中會產生大量的中間結果和最終文件,這些中間結果文件和最終文件都需要存儲到HDFS中,通過PCIe介面的數據壓縮卡對MapReduce中間結果壓縮和輸出結果進行壓縮和解壓操作後,數據量減少,數據寫入時間和磁碟IO減少,提升了整體Hadoop數據處理能力提升。它具有以下優勢:

HDFS軟體壓縮/解壓演算法速度量級為MB/s,硬體壓縮的壓縮/解壓縮速度最高可達GB/s級別,速度更快,釋放CPU,降低落盤IO;

採用壓縮卡方案Hadoop比關閉Hadoop壓縮的數據存儲容量提升2.5倍以上;

相對HDFS軟體壓縮(Gzip),能有效降低CPU佔用率,提升Hadoop處理性能,CPU佔用率減低30%;

華為提供適配的zlib庫來實現上層應用調用gzip設備介面,客戶無需修改上層應用,只要採用系統zlib庫介面就可以直接使用華為的壓縮卡;

華為DA200數據壓縮卡

進一步從硬體層面提升大數據處理的效率,FusionCube大數據解決方案採用了其自研的ES3000 NVMe SSD作為數據節點的熱數據存儲,提升HDFS文件系統的IO性能,數據分析速度可提升2倍以上。

同時,華為大數據專用設備還採用RDMA網路通信技術,對大數據核心組件Storm、Spark、Redis之間的網路通信進行加速,達到更高的性能和更低的時延。Storm的流處理業務是一種對網路通信實時性要求比較高的業務模型,各節點之間的網路實時性會影響整體性能;

如上圖所示,通過RDMA技術可以提升Storm的worker節點之間數據傳輸性能和實時性,對比傳統萬兆組網方式Storm性能提升30%,整體時延減少20%;

Spark並行計算業務,涉及集群內各節點間的數據傳輸,包括集群節點中非本地數據的大量傳輸、中間計算結果傳輸等,通過RDMA網路技術可降低20%的網路時延,提高Spark整體的性能;客戶無需修改上層應用,與大數據軟體完全解耦。相同硬體條件下,基於RDMA的軟體優化帶來了大幅的性能提升,實時業務性能提升1倍。

同樣,在Redis中使用RDMA技術,可以使CPU佔用率降低10%,有效提升數據處理性能。

華為FusionCube大數據解決方案兼容業界主流大數據平台(如Hortonworks、Cloudera、華為FusionInsight等),無需修改大數據應用軟體,為全球的客戶提供領先的、更易部署和管理、更高性能和更低TCO的大數據解決方案,為全球客戶的數據管理提供更強有力的支持。

更多先進的IT產品和解決方案,我們誠邀您相聚2017上海MWC,共話運營商IT數字化轉型!

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 華為IT產品解決方案 的精彩文章:

對象存儲服務最新推出包年包月套餐
飛利浦和華為攜手,推動醫療行業雲化

TAG:華為IT產品解決方案 |

您可能感興趣

Illumina收購Edico Genome,加速基因組數據分析
數據挖掘平台Discover解鎖Tensorflow
Twitter 開源數據分析工具——tinfoleak
如果Facebook告訴你 你的數據被Cambridge Analytica使用
基於Markov Chain Monte Carlo的智能手錶睡眠數據分析
數據顯示Windows Defender已經可抵禦大部分惡意攻擊
九次方大數據受邀AI Conference 2018 Beijing,暢談政府數據與AI應用
Facebook後 Twitter被指出售數據給同一個研究員
終於!Supervise.ly 發布人像分割數據集啦
蘋果確認使用Google雲存儲部分 iCloud 數據
Dominik Schiener談數據的價值和未來的數據處理方式
Fitbit將用Google Cloud,把數據提供給醫生
你的iCloud數據可能存儲在Google Cloud中
Salesforce數據現在可以導入到Google Analytics 360中了
阻止Facebook跟蹤數據的Firefox開源插件Facebook Container
初識sparklyr—電影數據分析
Facebook員工如何看Facebook「數據泄露」事件?
Young Academy:unleash young的群體智慧,解碼26個月長PFS數據背後的真相
python之股票數據分析
受Facebook隱私醜聞影響,Instagram將開放數據下載功能