當前位置:
首頁 > 科技 > 必備數據知識:數據倉庫之數據存儲

必備數據知識:數據倉庫之數據存儲

元數據

描述數據及其環境的數據。兩方面用途:

首先,元數據能提供基於用戶的信息,如記錄數據項的業務描述信息的元數據能幫助用戶使用數據。

其次,元數據能支持系統對數據的管理和維護,如關於數據項存儲方法的元數據能支持系統以最有效的方式訪問數據。

元數據機制主要支持以下五類系統管理功能:

(1)描述哪些數據在數據倉庫中;

(2)定義要進入數據倉庫中的數據和從數據倉庫中產生的數據;

(3)記錄根據業務事件發生而隨之進行的數據抽取工作時間安排;

(4)記錄並檢測系統數據一致性的要求和執行情況;

(5)衡量數據質量。

必備數據知識:數據倉庫之數據存儲

ODSOperational Data Store

ODS為企業提供即時的,操作型的,集成的數據集合,具有面向主題性,集成性,動態性,即時性,明細性等特點

ODS作為資料庫到數據倉庫的一種過渡形式,與數據倉庫在物理結構上不同,能提供高性能的響應時間,ODS設計採用混合設計方式。

ODS中的數據是"實時值",而數據倉庫的數據卻是"歷史值",一般ODS中儲存的數據不超過一個月,而數據倉庫為10年或更多.

Data Mart

為了特定的應用目的或應用範圍,而從數據倉庫中獨立出來的一部分數據,也可稱為部門數據或主題數據(subjectarea)。在數據倉庫的實施過程中往往可以從一個部門的數據集市著手,以後再用幾個數據集市組成一個完整的數據倉庫。需要注意的就是在實施不同的數據集市時,同一含義的欄位定義一定要相容,這樣再以後實施數據倉庫時才不會造成大麻煩。

DDS決策支持系統:

用於支持管理決策的系統。通常,DSS包括以啟發的方式對大量的數據單元進行的分析,通常不涉及數據更新。

OLAP

聯機分析處理,On-Line Analysis Processing 即從數據倉庫中抽取詳細數據的一個子集並經過必要的聚集,存儲到OLAP存儲器中供前端分析工具讀取。

OLAP系統按照數據存儲格式可以分為關係OLAP(RelationalOLAP,簡稱ROLAP)、多維OLAP(MultidimensionalOLAP,簡稱MOLAP)和混合型OLAP(HybridOLAP,簡稱HOLAP)三種類型。

ROLAP將分析要用的多維數據存儲在關係資料庫中,並根據應用的需要有選擇的定義一批實視圖也存儲在關係資料庫中。MOLAP將OLAP分析所要用到的多維數據物理上存儲為多維數組的形式,形成「立方體」的結構。HOLAP能把MOLAP和ROLAP兩種結構的優點有機的結合起來,能滿足用戶各種複雜的分析請求。

事實表

事實表是包含大量數據值的一種結構。事實數據表可能代表某次銀行交易,包含一個顧客的來訪次數,並且這些數字信息可以匯總,以提供給有關單位作為歷史的數據。

每個數據倉庫都包含一個或者多個事實數據表。事實數據表只能包含數字度量欄位和使事實表與維度表中對應項的相關索引欄位.,該索引包含作為外鍵的所有相關性維度表的主鍵。

事實數據表中的「度量值」有兩中:一種是可以累計的度量值,另一種是非累計的度量值。用戶可以通過累計度量值獲得匯總信息。

維度表

用來描述事實表的某個重要方面,維度表中包含事實表中事實記錄的特性:有些特性提供描述性信息,有些特性指定如何匯總事實數據表數據,以便為分析者提供有用的信息,維度表包含幫助匯總數據的特性的層次結構

緩慢變化維

在實際情況下,維度的屬性並不是靜態的,它會隨著時間的流失發生緩慢的變化。處理方法:

1.新信息直接覆蓋舊信息

2.保存多條記錄,並添加欄位加以區分(用y,n;0,1,2或用時間來區別新舊記錄)

3.保存多條記錄,並添加欄位加以區分

4.另外建表保存歷史記錄.

5.混合模式

退化維

一般來說事實表中的外鍵都對應一個維表,維的信息主要存放在維表中。但是退化維僅僅是事實表中的一列,這個維的相關信息都在這一列中,沒有維表與之相關聯。比如:發票號,序列號等等。

那麼退化維有什麼作用呢?

1.退化維具有普通維的各種操作,比如:上卷,切片,切塊等

2.(上卷匯總,下鑽明細;切片,切塊:對二維數據進行切片,三維數據進行切塊,,可得到所需要的數據)

3.如果存在退化維,那麼在ETL的過程將會變得容易。它可以讓group by等操作變得更快

粒度:(granularity)

是指數據倉庫的數據單位中保存數據的細化或綜合程度的級別,細化程度越高,粒度就越小。

鑽取:

首先從某一個匯總數據出發,查看組成該數據的各個成員數據。

星形模型與雪花模型的區別?

1.星星的中心是一個大的事實表,發散出來的是維度表,每一個維度表用一個PK-FK連接到事實表,維度表之間彼此並不關聯。一個事實表又包括一些度量值和維度。

2.雪花模型通過規範維度表來減少冗餘度,也就是說,維度表數據已經被分組成一個個的表而不是使用一個大表。例如產品表被分成了產品大類和產品小類兩個表。儘管這樣做可以節省了空間,但是卻增加了維度表的數量和關聯的外鍵的個數。這就導致了更複雜的查詢並降低了資料庫的效率

維度建模(dimensional modeling):

是數據倉庫建設中的一種數據建模方法。按照事實表,維表來構建數據倉庫,數據集市。這種方法最被人廣泛知曉的名字就是星型模式(Star-schema)。

什麼叫查找表,為什麼使用替代鍵?(其實目的和上面一樣,從基礎表到緩慢維度表的過程中的一種實現途徑)

替代鍵(alternate key)可以是數據表內不作為主鍵的其他任何列,只要該鍵對該數據表唯一即可。換句話說,在唯一列內不允許出現數據重複的現象。

數據倉庫項目最重要或需要注意的是什麼,以及如何處理?

數據質量,主要是數據源數據質量分析,數據清洗轉換,當然也可以定量分析

數據倉庫有兩個重要目的,一是數據集成,二是服務BI

數據準確性是數據倉庫的基本要求,而效率是項目事實的前提,數據質量、運行效率和擴展性是數據倉庫項目設計、實施高明與否的三大標誌;

代理鍵:

在關係型資料庫設計中,是在當資料表中的候選鍵都不適合當主鍵時,例如資料太長,或是意義層面太多,就會用一個attribute來當代理主鍵,此主鍵可能是用流水號,來代替可辨識唯一值的主鍵

在數據倉庫領域有一個概念叫Surrogate key,中文一般翻譯為「代理關鍵字」。代理關鍵字一般是指維度表中使用順序分配的整數值作為主鍵,也稱為「代理鍵」。代理關鍵字用於維度表和事實表的連接。可以避免通過主鍵的值就可以了解一些業務信息。

另一種來源:

1. (Dimension)

維度是用來反映業務的一類屬性,這類屬性的集合構成一個維度。如、地理位置或產品,

2.粒度

粒度將直接決定所構建倉庫能夠提供決策支持的細節級別。粒度越高表示倉庫中的較粗,反之,較細。粒度是與具體指標相關的,具體表現在描述此指標的某些可分層次維的維值上。例如,時間維度,時間可以分成年、季、月、周、日等。

3. 指標(Measure)

指標也稱關鍵性能指標、事實或關鍵事務指標,是沿維度衡量商務信息的。每一個指標代表了業務對象所固有的一個可供分析的屬性。指標是典型的數量、容量或將通過同標準的比較查明的款項。這些數據點可用於商務性能的定量的比較。

4. 指標組(Relation Measures)

實際上每一組用於分析的業務對象會有若干相互關聯的指標,如營業額、納稅額。這些指標之間存在計算關係,往往是作為一個整體用於分析的,這個整體稱之為指標組。

5. 元數據(Metadata)

關於數據的數據。元數據用於描述中的數據的結構、內容和。

6. 元(Metadata Repository)

一種提供數據詳細情況的詞典。這些詳細的信息包括數據源的目錄和它們相關的標準。該數據目錄描述的是數據捕捉和數據兩種環境中可用的數據。該目錄還應說明數據最後一次更新的時間和計劃將要更新的時間—最起碼,要說明數據維護的調度。數據目錄還應說明數據的物理屬性;也就是說,數據是如何存儲的。數據目錄幫助數據弄清楚「從哪裡」可獲得「什麼樣」的數據。

7. 中央資料庫(Center Database)

數據倉庫中用於存儲原始數據的存儲介質。此處的原始數據指從業務系統中採集後經過清洗、轉換的數據。

8. 指標資料庫(Indicator Databases)

數據倉庫中用於存放指標數據的存儲介質。指標資料庫根據數據倉庫系統的使用對象劃分,通常分成多個。

9. 星形圖(Star-Schema)

是數據倉庫應用程序的最佳模式。它的命名是因其在物理上表現為中心實體,典型內容包括指標數據、輻射數據,通常是有助於瀏覽和聚集指標數據的維度。星形圖得到的結果常常是查詢式數據結構,能夠為快速響應用戶的查詢要求提供最優的數據結構。星形圖還常常產生一種包含維度數據和指標數據的兩層模型。

10.雪花圖(Snowflake-Schema)

指一種擴展的星形圖。星形圖通常生成一個兩層結構,即只有維度和指標,雪花圖生成了附加層。實際數據倉庫系統建設過程中,通常只擴展三層:維度(維度實體)、指標(指標實體)和相關的描述數據(類目細節實體)超過三層的雪花圖模型在數據倉庫系統中應該避免。因為它們開始像更傾向於支持OLTP 應用程序的規格化結構,而不是為數據倉庫和OLAP應用程序而優化的非格式化結構。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 中國存儲 的精彩文章:

管理上百個虛擬桌面,印刷行業巧用NAS實踐虛擬化
對象的內存分配有套路?

TAG:中國存儲 |