當前位置:
首頁 > 最新 > 如何正確構建數據平台

如何正確構建數據平台

作者:Michelle Knight

原文:http://www.dataversity.net/data-architecture-need-choose-right-data-platform/

譯者:TalkingData數據工程師 孫強

本譯文禁止商用,轉載請註明來源!

做了不夠理想的數據架構和數據平台,就像是買東西時找不到錢包或現金。 正如McKnight諮詢集團總裁McKnight在其DATAVERSITY Database Now! Online 2017 Conference的主題演講中提到的:「我們可能會被數據淹沒,該選擇合適的平台了!」

McKnight是一位經驗豐富的信息管理戰略家,也是《信息管理:利用數據獲得競爭優勢的策略》的作者。他在發言中強調:

「我們的經濟完全依賴於數據的自然資源。 我們的組織擁有(數據)這個黃金資產。我們的組織在未來十年如何競爭並獲得優勢,完全取決於我們如何使用數據。」

作為推薦數據平台的專家,McKnight在他的職業生涯中進行了多項成熟的研究。他指出,那些更充分運用數據的行業以及行業內的企業,比那些沒有充分運用數據的行業和企業做的更好。 McKnight觀察到「這些表現最佳的行業和企業們正在擴展其大數據應用。」

那麼,為什麼現在要考慮數據架構呢? McKnight表示,我們需要擺脫「快我一些數據」和「高效的給我優質的數據」的思路,轉向「快速、高效的提供所有數據」。為了實現這種需求,「是時候做些跳出常規、與眾不同的事情了。」McKnight表示:

「要處理超出能力範疇的需求很難。 但是我們必須使平台正確適用於工作負載,並使其與數據集成和數據可視化一起工作。 數據倉庫不再是宇宙的中心。 那些非關係型平台實際上為我們提供了有價值的參考。」

選擇數據平台時該考慮什麼?

對於在組織的整個數據架構中構建更高效的數據平台來說,選擇正確的數據存儲類型至關重要。

McKnight表示:「過去一切都是資料庫。 但是現在還有很多其他的選擇,比如「嚴格來講不在位和位元組級的資料庫」的基於文件的擴展系統。 基於文件的擴展系統沒有圍繞數據的相同框架。他建議這樣的系統尤其適用於非結構化或半結構化數據。 其他必要考慮的包括:

數據存儲位置:McKnight表示:「並不是必須將數據存儲在數據中心。」現在有很多更具性價比的雲可供選擇。 比如私有雲、公有雲和很多混合雲的選擇。

工作負載架構:「區分操作性或分析性的工作負載,」McKnight建議。 「短交易請求和更複雜(通常更長)的分析請求需要不同的體系結構。」分解工作負載的需求並圍繞這些工作負載正確設計數據平台至關重要。

內存:McKnight觀察到,很多人仍執迷於HDDs(硬碟驅動器),他敦促組織「開放一點點」。現在市場上還有很多選擇,比如固態硬碟(SSD) 、內存(In-Memory)以及其他較低成本的存儲器。

他舉了可提供超快速性能的內存數據存儲作為示例: 「對於選擇性的工作負載,它具有很高的專用功能性,為ROI提供更多機會。 我們現在開始更多探索內存的利用。」

他將內存選擇比喻為「吹動風帆的風」,這讓帆船行駛的更快,並超越其他競爭對手。他表示,內存可能會「在我們進行設計過程時給出更多的容錯空間。

不要忘記Data Profile

所謂數據成熟度,就是「創建一個高效的環境,我們可以向環境里添加內容,而無需每次重新開始。」為此,組織需要查看Data Profile。 「我們中的許多人在排列優先事項時是顛倒的。」McKnight說:

「我可以從Data Profile中獲得很多信息。 比如數據的大小和類型、是結構化的還是非結構化的、一些示例記錄以及數據輸入的頻率。數據來自哪裡? 被訪問的頻率如何?數據的質量如何?」

雲提供了有吸引力的選擇

McKnight表示,當他與客戶一起為數據平台選項融資時,「許多公司不想處理資本化支出。 他們更願意操作他們,這就是雲模式,對吧?「在思考雲時,緊密集成是勢在必行。

McKnight提供了以下例子:

「你可能會把你的數據倉庫放到雲中。 那商業智能呢,你會把它們放到雲端嗎?數據集成如何? MDM呢,可以放在雲端嗎? 以上所有都是可以的。 當開始認真思考數據,這些問題就會隨之產生。」

他表示,一個成熟的數據架構「現在不是有一些、而是有很多雲可以選擇」。McKnight強調說,現在有不同的雲模型,重要的是找到適合的。

新的選擇維度

除了上述因素之外,還需要為數據平台權衡新的選擇維度。 如:

SQL的穩健性:「SQL中有一些新發現的功能使其具有重要意義。」

內置優化:全面考慮雲和數據虛擬化。 優化器現在有更多的作用。

即時彈性:問問自己,是否真的擁有它? 是否真的需要它?

動態環境適應性:評估同時使用並發使用模式的能力。

將計算從存儲中分離出來:這對於雲計算來說非常重要,可以分別對這兩種情況進行擴展。

支持多種數據:需要考慮到,會有JSON、XML和各種形式的非結構化數據流入企業數據環境。

用數據平台取得成功

基於McKnight過去幾年所合作的客戶,他指出:「用戶數量、性能預期、數據量、分析複雜性等方面需求已經開始大幅增加」。因此,成功建立數據平台至關重要,可以通過以下方式來確定:

性能:McKnight將性能視為首要點。他認為:

「我們可以通過平台決策為用戶提供更好的性能。 隨著他們在數據中的能力而增長並不會受到限制,因為每個查詢將需要5分鐘。 如果這些查詢出現,他們將進入更深層次。 如果您一段時間沒有考慮數據平台,那這些就不會發生。」

Provisioning:McKnight將其描述為「可以多快地啟動並運行數據平台? 它有多敏捷?「

規模:建議考慮:「我可以從小型開始再逐步擴大嗎?」

成本:不要過度消耗成本。 保持在組織所能負擔的成本。

用數據平台取得成功

McKnight為成功搭建數據平台提供了七條最終建議:

針對不同規模的企業,現在有各種數據平台可供選擇

選擇正確的平台並按規划進行

從數據的存儲類型、布局和工作負載架構開始

將Data Profile作為選擇正確平台的重要依據

確保數據平台能夠支持現有的和未指定的需求

分析平台應該是分級操作數據存儲(ODS)或數據倉庫(DW)或數據集市(來自DW或專門供應)或Hadoop

雲現在能夠提供更經濟的更有吸引力的選擇


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 TalkingData 的精彩文章:

Spark 動態內存分析

TAG:TalkingData |