當前位置:
首頁 > 最新 > OLAP Cube可視化設計工具—Transwarp Rubik

OLAP Cube可視化設計工具—Transwarp Rubik

Transwarp Rubik是一款用於設計OLAP Cube的可視化工具,本文將具體介紹如何利用它進行OLAP Cube設計與實例化。

為了保證讀者都清楚OLAP Cube的概念,我們在開始介紹工具的使用方式之前,先來看看什麼是OLAP Cube。

OLAP Cube介紹

OLAP(聯機分析處理)是一種多維分析技術,幫助業務人員快速、交互的從多方面了解並觀察數據,從而深度掌握其中的信息。

OLAP採用了多維視圖Cube的概念去描述一個數據集的結構。數據集中欄位按照對於決策所起的作用被分為維度和度量兩類:維度是描述事實記錄的特徵屬性,相當於立方體中的坐標軸,例如時間、位置,度量是對事實記錄反映出的數據,數值欄位的統稱,相當於在坐標中的位置,例如銷售額、產量、人口。

OLAP從維度變換出發,提供鑽取、切片切塊、旋轉等操作。鑽取是對維度不同粒度不同層次(高層次到低層次,低層次到高層次)的分析;切片切塊是選取特定的維度,在限定的維度中執行分析;旋轉是對維度方向的變換。決策人員可以通過這些操作,從原始數據中提煉出的反映企業運作情況的直觀易懂的數據,從而對決策提供支持。

TDH如何加速OLAP

Hadoop等大數據技術的發展使得大數據平台的計算能力以及容量都得到相當可觀的提升,許多平台都可以有效應對TB甚至PB級的分析需求。隨著數據量的飛速增長,大數據集多維實時分析的延長響應時間被延長,需要提供有效的方案去縮短延時。

TDH提供的解決手段是支持用戶通過預先設計並實例化OLAP Cube,為業務提前進行聚合運算,使之後執行OLAP業務時能夠直接利用預計算的結果,從而提速多維實時分析。也就是採用了用空間換取時間的策略。Tranwarp Data Hub(TDH) 5.0提供了Transwarp Rubik來實現OLAP Cube的設計以及實例化。

設計Cube時涉及的術語

維度的模型類型

星型模型是一種表達維度表和事實表之間單層關係的模型。事實表和每個維度表之間都是直連關係,維度表之間沒有直接關聯。

例如有兩張維度表dim1,dim2以及一張事實表fact,fact和維度表之間是分別通過fact.a=dim1.a和fact.b=dim2.b關聯的,那麼左右兩邊的維度結構都是星型模型。

雪花模型是一種用於表達多層關係的模型。雪花模型中維度表之間可以具有直接的關聯關係,事實表和每個維度表是通過直接或者間接的關係維繫在一起的,延伸出更深的層次關係。

例如現在除了dim1,dim2和fact之外,還有一張維度表dim3,在上圖的結構上,增加了dim2和dim3經由欄位c的關聯,如下圖所示,那麼圖中左邊的維度模型是星型,右邊的即為雪花模型。

層次和級別

層次(Hierarchy)是對某類邏輯對象的描述,由級別組成。

級別(Level)是構成層次的元素,具有各種屬性。

例如,假設將日曆年視為一個層次,那麼年、月、日就是級別,其中這三個級別可以有各種屬性,以「年」為例,它可以有id和名稱以及描述屬性。

創建層次和級別的目的是為減少沒有業務需求的欄位間的聚合,從而減少存儲聚合結果的空間。

如果業務中,年、月、日作為GROUP BY key時每次都會同時出現,就可以將年、月、日組合為層級,然後在Cube實例化過程中對年、月、日組合的層級進行聚合,那麼在執行該任務時系統就可以直接利用Cube實例化也就是預計算的結果用於計算。但是這樣做的弊處在於一旦我們執行GROUP BY 年,Cube預計算結果就無法對這條語句提供支持,要當場計算。

所以,業務人員需要根據具體業務需求判斷併合理創建層次和級別。

Transwarp Rubik提供的功能

Transwarp Rubik除了可以實現Cube設計,以及實例化,還提供對Cube的管理功能,以及通知模塊方便團隊協作。其主要功能列舉如下。

設計維度

首先選擇參與維度設計的數據表;選擇維度的模型類型,有星型模型和雪花模型兩種選項;級別設置,設置從屬於它的屬性;維度設計,選擇從屬於它的級別。

設計數據立方體(Cube)

新建數據立方體項目;然後選擇關聯的事實表,並選擇度量欄位;最後用拖拽的方式選擇被關聯的維度表,設置維度和事實表之間的連接關係。

物化Cube

對所設計的Cube進行實例化。在設置實例化的過程中,我們可以選擇對哪個度量執行哪種聚合運算,以及實例化時對哪些層次進行聚合;Rubik支持選擇存儲物化Cube的資料庫以及存儲方式;最後還可以選擇實例化頻率(只進行一次,還是每天周月一次)。

Cube的生命周期管理

從開始設計Cube,中間實例化,到最終銷毀,全程提供管理服務和功能支持。

任務監控

監控實例化任務的運行狀態。

團隊合作

用戶可以通過Rubik的儀錶盤了解Cube的整體情況和統計信息,利用消息通知功能共享Cube的最新操作動態。

Transwarp Rubik Demo演示

下面是一個Rubik的操作demo視頻,該視頻演示了設計並實例化數據立方體(Part Supplier Cube)的全過程。

Part Supplier Cube涉及一張事實表partsupp(以supplycost為度量),兩個維度part和supplier,part是僅涉及維度表part的星型維度,supplier是關聯了維度表supplier、nation以及region的雪花型維度。我們還在part中設計了包含Part級別的Part層次,以及在supplier中設計了包含Region級別的Supplier Region層次。隨後對該數據立方體進行了示例化設置。

這是最終設計完成時,Part Supplier Cube的結構。

總結

Rubik實現的是Cube的設計以及管理提供了強大的功能支持,但是真正業務中實現語句優化,還需要配合MBO使用。MBO是一種優化手段,可以根據對已有的物化Cube實例和物化視圖進行判斷,選擇合適預計算結果,直接用於當前業務或者語句的執行。

Rubik只是一種簡化Cube管理的工具,實際在使用時,用戶需要對業務有敏銳且正確的判斷分析能力,知道如何設計級別層次,如何構建維度和Cube,能最有效的達到優化目的,使效益和功能最大化。

往期原創文章

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 大數據開放實驗室 的精彩文章:

TAG:大數據開放實驗室 |

您可能感興趣

adidas EQT Running Support 93 Primeknit 全新配色設計「Triple White」
Nike Flyknit Trainer 全新配色設計「Persian Violet」
adidas Twinstrike ADV 全新配色設計
Nike Air Force 1 High 全新配色設計「Triple Black」
Reebok Pump Supreme Premium 全新配色設計
搶先預覽 Pharrell x adidas Originals Tennis Hu 全新配色設計
新品virgil abloh設計師主理品牌Off-white Arrow detail Low Sneakers
The Shoe Surgeon 打造 Virgil Abloh x Air Jordan 1 白色版定製設計
adidas Originals Prophere 全新配色設計
全球包裝與設計:Jack Daly-Design/Illustration/Art Direction
設計師打造 adidas Originals Hu NMD「OVO」客製鞋款
Converse Chuck Taylor All Star 1970s 全新配色設計「Blue Chill」
對話Nike PG 2設計師Tony Hardman
設計手繪JoshuaVidesxAirForce1lowIhandpainted
G-Dragon 為好友打造 Nike Air Force 1 專屬設計
Xsneaker新聞#藤原浩曝光 Nike Zoom Vaporfly Elite 全新配色設計
設計師打造 Virgil Abloh x Air Jordan 1 x Balenciaga 三方客制聯乘
YEEZY Season 6 Crepe Sneaker 全黑設計正式上架
#Xsneaker新聞#球鞋設計師打造 Off-White x adidas Originals NMD CS1 全新定製版本
皮革工坊里的哲學家——Hender Scheme設計師Ryo Kashiwazaki