當前位置:
首頁 > 熱門 > 企業大數據治理做得不成功會存在那些問題

企業大數據治理做得不成功會存在那些問題

企業大數據處理需要注意的幾個問題

存儲技術必須跟得上

隨著大數據處理應用的爆發性增長,它已經衍生出了自己獨特的架構,而且也直接推動了存儲、網路以及計算技術的發展。畢竟大數據處理這種特殊的需求是一個新的挑戰。硬體的發展最終還是由軟體需求推動的,就這個例子來說,我們很明顯的看到大數據處理分析應用需求正在影響著數據存儲基礎設施的發展。

從另一方面看,這一變化對存儲廠商和其他IT基礎設施廠商未嘗不是一個機會。隨著結構化數據和非結構化數據量的持續增長,以及分析數據來源的多樣化,此前存儲系統的設計已經無法滿足大數據應用的需要。存儲廠商已經意識到這一點,他們開始修改基於塊和文件的存儲系統的架構設計以適應這些新的要求。在這裡,我們會討論哪些與大數據存儲基礎設施相關的屬性,看看它們如何迎接大數據處理的挑戰。

容量問題

這裡所說的「大容量」通常可達到PB級的數據規模,因此,海量數據存儲系統也一定要有相應等級的擴展能力。與此同時,存儲系統的擴展一定要簡便,可以通過增加模塊或磁碟櫃來增加容量,甚至不需要停機。基於這樣的需求,客戶現在越來越青睞Scale-out架構的存儲。Scale-

out集群結構的特點是每個節點除了具有一定的存儲容量之外,內部還具備數據處理能力以及互聯設備,與傳統存儲系統的煙囪式架構完全不同,Scale-

out架構可以實現無縫平滑的擴展,避免存儲孤島。

「大數據」應用除了數據規模巨大之外,還意味著擁有龐大的文件數量。因此如何管理文件系統層累積的元數據是一個難題,處理不當的話會影響到系統的擴展能力和性能,而傳統的NAS系統就存在這一瓶頸。所幸的是,基於對象的存儲架構就不存在這個問題,它可以在一個系統中管理十億級別的文件數量,而且還不會像傳統存儲一樣遭遇元數據管理的困擾。基於對象的存儲系統還具有廣域擴展能力,可以在多個不同的地點部署並組成一個跨區域的大型存儲基礎架構。

延遲問題

大數據處理應用還存在實時性的問題。特別是涉及到與網上交易或者金融類相關的應用。舉個例子來說,網路成衣銷售行業的在線廣告推廣服務需要實時的對客戶的瀏覽記錄進行分析,並準確的進行廣告投放。這就要求存儲系統在必須能夠支持上述特性同時保持較高的響應速度,因為響應延遲的結果是系統會推送「過期」的廣告內容給客戶。這種場景下,Scale-out架構的存儲系統就可以發揮出優勢,因為它的每一個節點都具有處理和互聯組件,在增加容量的同時處理能力也可以同步增長。而基於對象的存儲系統則能夠支持並發的數據流,從而進一步提高數據吞吐量。

有很多大數據處理應用環境需要較高的IOPS性能,比如HPC高性能計算。此外,伺服器虛擬化的普及也導致了對高IOPS的需求,正如它改變了傳統IT環境一樣。為了迎接這些挑戰,各種模式的固態存儲設備應運而生,小到簡單的在伺服器內部做高速緩存,大到全固態介質的可擴展存儲系統等等都在蓬勃發展。

並發訪問一旦企業認識到大數據分析應用的潛在價值,他們就會將更多的數據集納入系統進行比較,同時讓更多的人分享並使用這些數據。為了創造更多的商業價值,企業往往會綜合分析那些來自不同平台下的多種數據對象。包括全局文件系統在內的存儲基礎設施就能夠幫助用戶解決數據訪問的問題,全局文件系統允許多個主機上的多個用戶並發訪問文件數據,而這些數據則可能存儲在多個地點的多種不同類型的存儲設備上。

安全問題

某些特殊行業的應用,比如金融數據、醫療信息以及政府情報等都有自己的安全標準和保密性需求。雖然對於IT管理者來說這些並沒有什麼不同,而且都是必須遵從的,但是,大數據分析往往需要多類數據相互參考,而在過去並不會有這種數據混合訪問的情況,因此大數據應用也催生出一些新的、需要考慮的安全性問題。

成本問題

「大」,也可能意味著代價不菲。而對於那些正在使用大數據環境的企業來說,成本控制是關鍵的問題。想控制成本,就意味著我們要讓每一台設備都實現更高的

「效率」,同時還要減少那些昂貴的部件。目前,像重複數據刪除等技術已經進入到主存儲市場,而且現在還可以處理更多的數據類型,這都可以為大數據存儲應用帶來更多的價值,提升存儲效率。在數據量不斷增長的環境中,通過減少後端存儲的消耗,哪怕只是降低幾個百分點,都能夠獲得明顯的投資回報。此外,自動精簡配置、快照和克隆技術的使用也可以提升存儲的效率。

當今,數字化轉型正在各行業快速發展,以數據、流量、知識為主的的數字經濟時代到來,數據在其中的重要性不言而喻。然而企業面對每時每刻產生著大量的且格式多樣化的數據,企業管理者對數據的困惑也與日俱增,這些數據從哪裡來?我們能相信這些數據嗎?數據之間有什麼樣的關係?誰能理解這些數據?

這一系列問題是都是由於數據零散化存放造成的。因為基於數據作分析,首先需要數據的聚合,但由於生產系統和數據的離散化,造成了數據標準、數據模型不統一,因而企業最需要做的就是對數據整合和標準化。因此大數據治理就成了數據問題的解決之道。

大數據治理是指對數據資產的管理活動行使權力和控制的活動集合。起著指導其他數據管理職能如何執行的作用,它通過制定正確的政策、操作規程,確保以正確的方式對數據和信息進行管理。以下是大數據治理的四個核心要素。

明確數據治理責任,建立組織

數據出了問題,到底是誰的責任?因為數據主要是IT系統產生的,所以一直以來,解決數據問題都被認為是IT部門的職責。而IT部門也飽受其苦,數據定義和業務規則,業務部門最清楚;數據錄入,業務人員負責;數據使用,業務人員是用戶;數據考核,業務部門有權力……但實際上,要切實解決數據問題,開展數據治理工作,就必須先清楚一點:數據治理,是業務部門和IT部門共同的職責。數據治理/管理領導小組設在信息化領導小組之下,可以單設,也可以是信息化領導小組的一個職責,數據治理部門可能是實體部門,也可能是由牽頭業務部門和IT部門聯合組成的虛擬團隊。

管理出成效,制度是保障

大數據治理需要管理和制度的有力支撐,可結合企業的現狀,制定相應的管理辦法、管理流程、認責體系、人員角色和崗位職責等,頒布相關的數據治理的企業規章制度等。

數據規範:沒有規矩,不成方圓

數據規範是指對企業核心數據進行有關存在性、完整性、質量及歸檔的測量標準,為評估企業數據質量,並且為手動錄入、設計數據載入程序、更新信息以及開發應用軟體提供的約束性規則,數據規範一般包括數據標準、數據模型、業務規則、元數據、主數據和參考數據。

選擇合適的大數據治理工具

工欲善其事必先利其器,大數據治理的落地開展離不開工具的支撐。大數據治理工具一般分為兩類:一類是單個工具,另一類是集成平台,用於不同的階段、場景和客戶。其中,單獨工具有:元數據、數據質量、主數據等,集成平台包括數據資產管理、數據治理平台、自助服務平台等。

利用數據治理軟體主要解決企業不同來源數據集成過程中遇到的問題,需要數據治理軟體能夠為企業提供統一的元數據集成、數據標準管理、數據模型設計、數據質量稽核、數據資產目錄、數據分析服務等能力。

做大數據治理 企業面臨的最大問題

真正的問題是,大家做大數據發現,今天你有需求,明天我有需求,而這個數據沒人管,數據質量也存在很多問題。耗費極大心血做一個數據平台,發現結果分析不對。

在國內,數據治理近幾年開始興起,受到越來越多企業的關注。雖然一些大型企業在信息化和自動化方面做得很好,但是在數據治理上仍然面臨很多問題和困難。

企業進行數據治理面臨著三大問題,最大的是組織架構問題。

就是有沒有一個組織架構來支撐,把數據管理好。從組織架構上,你必須得有一個數據管理部,像我們現在的客戶東航、國開行等,它都會有這個部門。我覺得這是所有事情的開始,因為這意味著你從公司層面足夠重視。我覺得這是客戶最大的困難,凡是失敗的項目,關鍵是組織架構不支撐。

那麼,企業數據治理如何落地執行呢?

工欲善其事,必先利其器。目前業界流行的數據治理軟體,一般也稱為數據資產管理產品、數據治理產品,多是單個產品。

而億信華辰經過十餘年技術沉澱和項目錘鍊,全面推出一站式數據治理管理平台-睿治,幫助企業搭建數據治理全棧解決方案,由元數據、數據標準、數據質量、數據集成、主數據、數據資產、數據交換、生命周期、數據安全等多產品組成。睿治作為一個智能敏捷的數據全生命周期管理應用平台,全方位保障企業業務數據在採集、集成、交換、存儲、應用等一系列業務流程中的完整性、準確性、一致性和時效性。

睿治針對數據治理的整體框架和流程,一圖以蔽之:

一站式解決方案

睿治平台融合數據治理9大產品,提供一站式解決方案。有了睿治,數據治理的所有問題那都不是事兒!9個產品模塊功能可互相調用,全程可視化操作,打通數據治理各個環節,同時提供各個產品模塊任意組合,快速解決企業不同的數據治理場景。

全面自動的元數據管理——

元數據管理致力於處理技術元數據、業務元數據、管理元數據,通過豐富的元數據分析和檢核,幫助各行各業用戶獲得更多的數據洞察力,進而挖掘出隱藏在資源中的價值。

規範統一的數據標準——

睿治平台提供了一套完整的數據標準管理流程及辦法,通過統一的數據標準制定和發布等一系列的活動,結合制度約束、系統控制等手段,實現企業大數據平台數據的完整性、有效性、一致性、規範性、開放性和共享性管理。

智能高效的數據質量——

睿治平台內置了多種質量檢查規則可供選擇,並支持數據質量檢查方案的定義和管理。同時提供多種形式的問題數據分析功能、統計報表功能、數據質量分析報告及統一調度整改計劃。

簡單易用的數據交換——

通過睿治平台,可實現若干個業務子系統之間進行數據或者文件的傳輸和共享,提高信息資源的利用率,保證了分布在異構系統之間的信息的互聯互通,完成數據的收集、集中、處理、分發、載入、傳輸,構造統一的數據及文件的傳輸交換。

豐富全面的數據集成——睿治平台提供了豐富的數據處理組件,如:常用組件、輸入輸出、轉換組件、數倉組件、腳本組件等,可高效快速完成數據的傳輸、清洗轉換、裝載落地等處理過程,保證數據可靠性。

直觀清晰的數據資產管理——

可進行不同角色的目錄化管理,分析數據資產之間的關係;

統一共享的主數據——可為各業務系統數據調用提供黃金數據;

貫穿全程的數據安全——用於保證數據的安全性,提供對隱私數據的加密、模糊化處理;

便捷睿智的數據生命周期——對數據的全生命周期進行管理,按你所想進行自動歸檔和銷毀,從而真正全方位的把控數據。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 一隻小程序猿 的精彩文章:

TAG:一隻小程序猿 |