當前位置:
首頁 > 最新 > 一個流程貫思路:大數據中心的核心能力之存儲計算域

一個流程貫思路:大數據中心的核心能力之存儲計算域

存儲計算域能力構成

作者ID:分析世界講方案

企業級大數據中心往往包括一個最為關鍵的能力域,這個域就是存儲計算域。

眾觀歷史:分久必合,合久必分。計算與存儲這兩大能力同樣適用於此模式:例如:計算機組成原理中的五大部件,存儲(硬碟)和計算(CPU)是整合在一個機箱內的。後來發展的NAS和SAN存儲網路,使得兩者分離以提高I/O訪問。再後來隨著企業業務飛速發展,磁碟定址卻沒有明顯改善,所以分散式架構又將計算與存儲整合在一起(如Hadoop就近計算)。再發展到今天,基於容器技術和雲化架構,存儲和計算似乎仍然可以分離而提高效率……所以這個命題確實很大。

我們知道,作為一個標準的大數據分析系統,雖然目標是產生業務價值,但中間過程其實是數據分析和關聯計算,所以存儲計算域是大數據分析的第二步(第一步是數據獲取),我們可以根據時間發展階段論述這個域的能力變化,並將每個時間點的關鍵詞貫穿在整個時間軸上,更近生動和易懂。八組詞:海量數據存的下、數據容量可提升、系統規模高擴展、集成數據強整合、任務處理速實效、磁碟I/O高吞吐、多溫數據自適配、混合負載能支撐。

海量信息存的下:大數據炒作時期(2006-2009)。大數據/移動互聯網時代數據井噴,IT系統應該具備海量數據存儲和歸檔,從而提供服務並為後續業務帶來價值,所以這個時期主要考慮數據存儲和擴容問題。繼而出現了文件存儲、分散式存儲、GFS/HDFS等相應的能力域。

數據容量可提升:伴隨著業務高速發展(2009-2010),平台數據容量不斷增加,什麼樣的系統能支撐多結構化數據的高速膨脹?這就要求系統容量更夠通過增加存儲單元而得到提升,這體現了分散式系統的靈活性和數據擴展性,而且擴容成本還必須很低廉。

系統規模高擴展:大數據發展時期(2010-2012),系統規模逐年增加的同時系統負載也隨之增大,所以單一集群難以支撐高強度任務負載,這就要對系統進行高效穩定的擴展。當然,系統規模擴展和管理是大數據系統的難點問題,因為集群規模和集群一旦膨脹,就會將系統問題無形的轉化為網路問題,對人員水平也是一大挑戰。

集成數據強整合:實現系統規模的擴展性(2012-今),能夠結合主題域/業務功能,實現大數據的跨功能洞察,包括跨多個主題域的集成決策能力,因此統一平台建設有益於數據分析。這個時期,數據孤島嚴重。所以我們看到很多客戶都在構建全網統一的大數據平台,整合企業內部各系統的分散數據源。換言之,大數據平台應具備數據的整合能力和技術支撐。

任務處理速實效:業務的快速洞察時期(2013-今),需要引入實時技術以支撐實時分析,例如:實時類業務(實時營銷、實時推薦、實時告警、實時展現)。這就考驗平台是否具備實時計算、流計算的能力,從而滿足高時效業務需求。

磁碟I/O高吞吐:系統優化提上日程(2014-今),大數據發展逐漸健壯的同時,高並發查詢和苛刻的分析環境對磁碟I/O及提出了極大挑戰,因為這將決定大並發處理效率。所以為了不使數據通道成為瓶頸,大數據系統必須儘可能保持高吞吐服務能力,尤其是面向於數據分析的業務非常吃I/O,這個時期不乏有光網、InfiniBand交換系統的出現。

多溫數據自適配:尋求進一步降低TCO(2015-今),數據系統中頻繁訪問並使用的熱數據、以及不常訪問的冷數據並存在系統中充占著資源,而且所佔磁碟類型大多相同(SATA/SAS/固態),這並不適用於磁碟資源的合理使用,同時也浪費了寶貴的存儲成本。因此應該根據業務規則辨別數據訪問和更新頻率,從而判別這些數據應該如何使用磁碟資源,從而實現資源自服務、自管理。

混合負載能支撐:大數據平台監控和負載管理是一項長期工作,很多商用產品都是通過這個能力提高自身產品的門檻和競爭力(分散式系統的監控管理一直都是複雜問題),因此這個能力一方面是考量系統能同時支撐多少並發應用,並根據並發應用的實際負載,考慮SLA的動態管理。(例如:數據載入和並發查詢負載、數據更新和導出負載等)

上述八組能力,僅僅只是大數據存儲計算域的「九牛一毛」,粗略簡談並非成體系,更多分享交流隨時留言啦。

作者ID:分析世界講方案

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 恬謐說球 的精彩文章:

三星S9體驗評測:創了安卓陣營人臉識別的新高度

TAG:恬謐說球 |