初探:企業數據湖治理最佳實踐!
數據湖正在成為一種越來越可行的解決方案,用於企業從大數據中提取價值,並代表早期大數據採用者合乎邏輯的下一步。這一概念是2011年提出來的,最初的數據湖是對數據倉庫的一個補充,主要是為了解決數據倉庫開發周期漫長,開發和維護成本較高,細節數據丟失等問題。數據湖大多相對於傳統的基於RDBMS的數據倉庫,在隔離的邏輯區域中提供結構化、非結構化和歷史數據的靈活性,這已經和安全性一起為企業帶來了一系列轉型的可能。
然而,許多潛在用戶無法理解可用數據湖的定義。通常,那些剛接觸大數據的人,甚至是精通Hadoop的老手,都會嘗試使用不同的腳本、工具和第三方供應商來組建幾個集群並拼湊在一起,這既不符合成本效益,也不可持續。本文,作者將描述數據湖與集群拼湊方式相比的優勢是什麼,集群如何規劃和治理才能構建有效的數據湖。
區域
在數據湖中,區域允許數據的邏輯或物理分離,從而保護整體環境的安全性、有序性和敏捷性。通常,建議企業使用3或4個區域,但可以使用更少或更多區域。通用的4區系統可能包括以下內容:
- Transient Zone(瞬態區域)——用於在獲取之前短暫保存數據,例如臨時副本,流式spool或其他短期數據。
- Raw Zone(原始區域)——存放原始數據的區域,該區域敏感數據必須加密,標記化或以其他方式保護。
- Trusted Zone(受信任區域)——對原始區域中的數據執行數據質量、驗證或其他處理後,它將成為此區域中下游系統的「真實數據來源」,也就是說其下游系統會從該區域獲取數據。
- Refined Zone(再處理區)——操作和豐富的數據保存在此區域,這用於存儲來自Hive或外部工具等的輸出,這些工具將寫入數據湖中。
這種區域劃分可以根據需要適應企業的業務規模、成熟度和特殊用例,但將通過專用伺服器或者集群實現物理隔離,通過故意構建目錄和訪問許可權進行邏輯分離,或者兩者進行特別組合。在視覺上,這種架構類似於下面的架構。
建立和維護定義明確的區域是創建健康湖泊的重要步驟。同時,了解哪些區域不提供災難恢復或數據冗餘策略也是非常重要的。儘管可以在DR中考慮該問題,但仍然需要投資可靠的底層基礎架構以確保冗餘和恢復能力。
Lineage
隨著新數據源的不斷添加以及現有數據源的更新或修改,維護數據集內部關係之間的記錄變得更加重要。這些關係就像重命名列一樣簡單,也可能像連接不同源的多個表一樣複雜,每個表本身可能有多個上游轉換。在此上下文中,lineage有助於提供跟蹤性以了解欄位或數據集的來源以及審計跟蹤,並了解更改的位置、時間和原因。聽起來簡單,但是當數據在湖中移動時捕獲有關數據的細節非常困難,即使今天部署了一些專門的軟體。跟蹤的整個過程涉及事務級別(訪問數據和做了什麼?)以及結構或文件系統級別(數據集和欄位之間的關係是什麼?)等問題。數據湖中包括數據的批和流處理工具(例如MapReduce和Spark),以及可能操縱數據的任何外部系統,例如RDBMS系統。lineage可填補傳統系統的部分空白,特別是隨著GDPR等新法規的出現——靈活性和可擴展性是未來管理的關鍵。
數據質量
在數據湖中,並非所有數據都相同。因此,定義數據源以及管理和使用數據至關重要。通過清理來自各種物聯網設備或社交媒體的數據,可以獲得很多價值。企業還可以考慮在消費方而不是採購方應用數據質量檢查。因為,單個數據質量體系結構可能不適用於所有類型的數據。必須注意的是,如果數據被「清理」,用於分析的結果可能會產生影響。修複數據集中值的欄位級數據質量規則可以影響預測模型結果,因為這些修復可以影響異常值。通過比較「數據集的預期與接收大小」或「空值閾值」來衡量數據質量規則是否可用可能更適合此類情況。通常,所需驗證的級別受傳統限制或已經存在的內部流程影響,在設置新規則之前評估公司的現有流程是必須的。
隱私與安全
健康數據湖的關鍵組成部分是隱私和安全性,包括基於角色的訪問控制、身份驗證、授權以及靜態和動態數據加密等。從純數據湖和數據管理的角度來看,最重要的往往是數據混淆,包括標記化和數據屏蔽。應該使用這兩個概念來幫助數據遵守最小特權的安全概念。限制數據訪問也對許多希望遵守法規的企業具有意義。限制訪問有幾種形式,最明顯的是存儲層中區域的大量使用。簡而言之,可以配置存儲層中的許可權,使得以最原始格式訪問數據非常有限。由於該數據隨後通過標記化和掩蔽(即隱藏PII數據)進行轉換,因此可以將對後續區域中的數據訪問擴展到更大的用戶組。
DLM
企業必須努力發展其數據管理戰略,以更有效地保護和服務其數字資產。這涉及投入時間和資源來完全創建生命周期管理策略,並確定是使用扁平結構還是利用分層保護。數據生命周期管理的前提是基於數據創建、使用和存檔這一事實。如今,這個前提可能適用於某些交易數據。企業應該了解信息、數據和存儲介質的相同點和差異,並能夠最大限度地利用不同存儲層消除複雜性和成本並釋放價值。
結論
就像處於初期階段的關係資料庫一樣,近年來Hadoop的應用因缺乏最佳實踐而受到影響。企業在考慮將Hadoop用作數據湖時,需要參考儘可能多的最佳實踐。利用區域和適當的授權作為數據工作流框架的一部分,為數據轉換提供高度可擴展的並行系統。


※為什麼說容器和DevOps不分彼此?
※H3C WS58系列交換機強勢出擊 分分鐘搞定園區網
TAG:IT168企業級 |