當前位置:
首頁 > 科技 > Datablau王琤:數據治理助企業穩築數據「地基」 實現數據資產價值

Datablau王琤:數據治理助企業穩築數據「地基」 實現數據資產價值

Xtecher【錯別字基金】溫馨提示:如果您在閱讀過程中發現錯別字,請在文章底部留下說明+聯繫方式,我們會立刻發給您5-88元隨機紅包一個,同樣的紅包會發給文末留言點贊最高者。

作者|欣彤lirs

編輯|陳光

微信公眾號ID|Xtecher

企業數據「煙囪」急需打破

「數據已經滲透到當今每一個行業和業務職能領域,成為重要的生產因素。人們對於海量數據的挖掘和運用,預示著新一波生產率增長和消費者盈餘浪潮的到來。」

在被信息化浪潮包裹的今天,大數據已悄然成為企業的重要資產之一。然而,企業內部的數據「孤島」尚未完全被打破,部分企業仍處於互不相通的狀態,數據只有流通和連接,才能實現它的價值。

企業的數據資產在實現其價值之前,就必須要經過數據收集、數據準備、數據分析、利用數據做決策等階段。對數據的全生命周期進行治理。

數據準備,在整一個數據分析及其企業根據數據做決策這流程中,是一個最基礎的階段。我們可以理解為,它扮演著建築業中的「打地基」角色,「地基」打得越紮實,工程的後續階段才能有條不紊地進行。

規模較大的企業內部通常會有上百個業務系統、資料庫,數據環境極其複雜。在進行數據分析之前,必須把這些互不相通的數據進行抽取、清洗和整理等工作,數據才能達到可用、可信的程度,進而令後續的數據分析實現其商業價值。因此,數據準備工作的重要程度便不言而喻。

然而,縱觀中國國內大數據市場,專註於數據準備和清洗工作的企業,寥寥無幾。

這是一個市場契機,但機會只會青睞真正做好一切準備的人。

「十年磨一劍」

2016年年底,王琤離開了他傾注了十年歲月的CA公司,與曾經的隊友朱金寶共同創立了Datablau(北京藍圖明冊科技有限公司)。CTO朱金寶曾經在CA擔任ERwin總架構師,並被王琤稱為是「一個有情懷有堅持有夢想」的人。王琤與朱金寶在CA研發的作品就是廣為人知的ERwin數據建模產品。作為數據治理市場的領導者,他們始終保持全球視野,專註打造全球技術與理念領先的產品。

「我剛進CA的時候,上級考慮在中國成立一個新的ERwin研發團隊,我是這團隊里的第一位工程師。」王琤帶著自豪的語氣告訴Xtecher。經過兩年的努力和磨礪後,由王琤帶領的ERwin中國研發團隊在原有成立多年的美國、印度團隊間大放異彩,一舉成為ERwin研發的主導力量。最終,所有代碼貢獻都來自中國團隊。

ERwin數據建模過去曾經為不計其數的大企業提供數據服務。「因為Erwin是全球市場排名第一的數據建模的產品,像美國銀行、摩根士丹利、迪斯尼等世界500強大部分企業都是我們的客戶。」王琤向Xtecher表示他過去十年帶領的ERwin研發團隊獲得了世界500強企業的長久信任。

在中國,ERwin數據建模產品也被運用在數據環境複雜的大規模企業,如建設銀行、中國航空、深圳證券交易所、上海外匯交易所等。王琤向Xtecher解釋,「只要你的企業規模很大,數據環境很複雜,都需要我們這個東西。」數據環境複雜,這是ERwin猛然擊中的行業痛點。

所謂「十年磨一劍」,這十年嘔心瀝血研發的成果中,有哪些能夠為如今Datablau提供借鑒?

「我以前在CA有三個美國的專利,關於非關係型資料庫如何建模,及關係型資料庫到非關係型資料庫之間數據如何轉換、遷移方面,」王琤回憶他在CA那十年所收穫的累累碩果,為現在創立Datablau奠定了極其重要的技術基礎。王琤進一步向Xtecher細述,「Datablau團隊了解資料庫的所有重要特徵,table、column、partition、index、primary key,以及它們的部分業務屬性,這是我過去十年在做Erwin時的一個積累。」

理解存量數據業務含義

是大數據解決方案之本

為什麼Datablau能專註做好數據準備?

「我們的強項在於對每個資料庫的特性足夠透徹地理解」,王琤給予Xtecher這個簡潔明了的理由,但這個原因的背後其實並不簡單。

Datablau在數據準備此階段中,充分理解Oracle、DB2等資料庫的分區方式、數據特性等方面。打個比方,若Oracle的分區方式以及數據特性,若換到DB2會呈現什麼樣的方式?數據類型如何轉換?它的存儲方式是按列存儲還是按行存儲?這些就是Datablau最擅長的拿手好戲,憑藉對每一個資料庫的透徹深入理解,Datablau才順理成章地實現它數據準備的角色,把企業每個業務部門的數據從不同的資料庫抽取出來,根據概念等分類進行整合。從而實現企業不同部門之間數據的流通、互連,打破數據「孤島」,為企業的下一步數據分析等工作奠定堅實基礎。

一個較大規模的企業,通常會有上百個業務系統、成千上萬張表單,如此複雜的數據環境,若單靠人工整理,付出的時間和人力成本想必是難以估計的。

在CA工作期間,王琤曾經利用數據建模來幫助中國建設銀行(以下簡稱「建行」)解決數據治理這個難題。建行業務系統里存在很多設計完全的不同資料庫,利用其技術把建行100多個業務系統的數據進行整理搭建新的企業級統一數據架構。

王琤向Xtecher講述了一個案例,「我們抽出來7千多張表。這7千多張表裡有100張表都稱為『客戶』, 但只有80張表來自於CRM、ERP系統,是真正意義上的客戶。另外20張表也稱為『客戶』表單,來自於HR部門系統,但HR系統里的『客戶』其實是公司員工,並非真正客戶。」同名異義、異名同義的問題非常普遍。 但往往需要巨大的人力成本。

如果要用傳統的人工方法去完成這項任務,則需要IT人員與業務人員同時合作在表單里對數據進行挑選、歸類和整合,工程量可見十分龐大。

當企業安裝部署了Datablau之後,IT人員只需將各數據源與平台進行連接,自動獲取或手動設置存量/增量數據模型後,下一步就讓數據科學家進行業務視圖設計和樣例數據分析設置,完成了數據準備後便自動生成可視化的數據報表。王琤對此曾表示,「能夠將各環境下的數據放在同一平台,並用可視化工具進行處理分析,可以極大減少企業在這方面的資源投入。幾分鐘抽取數據模型、即時跑出數據分析報表。」

王琤告訴Xtecher, Datablau可以將兩年時間投入約3億元的某金融數據治理項目,縮減到只需要約兩個月時間,再加少量額外人工輔助便能完成所有數據抽取和整合工作。

此外,王琤還表示,「經過數據準備整理好的存量數據集不僅可以交付給企業,也可『喂』給BI與AI產品,進行深度分析和挖掘,產生深度業務價值。這是Datablau區別於市場上專註數據分析的大數據產品的特別之處。」

王琤(左一)、朱金寶(右一)與DAMA China主席胡本立

Datablau要為企業淘更多的「金」

王琤把Datablau比喻為「是挖掘金子的工具,幫助企業去淘更多的『金』。」寓意是為更多企業挖掘出可利用的數據,並快速實現數據的價值。

目前,最新版的Datablau v1.5版本已經開放了免費試用。Datablau在產品不斷迭代和推廣過程中,自然而然地受到了資本的青睞。

一個值得關注的消息,Datablau在2017年2月中旬獲得了美國中經合集團的天使輪融資,融資金額為600萬元。

Datablau通過軟體產品提取企業數據資產地圖,再進行敏捷數據準備和分析為企業提煉產數據價值,讓數據可見、可識、可控、可融,更易挖掘價值。

大規模的企業,數據環境複雜,數據需要流通才能實現其價值。因此,Datablau瞄準這一行業痛點,啟動了To B的商業路線。

私人訂製,不僅流行於To C,同樣也適用於To B。對於不同的企業數據狀態,Datablau會為它匹配相對應的datablau產品。王琤告訴Xtecher,「數據分幾種階段,第一種是企業數據已經收集完畢,正在做數據倉庫的階段,我們會為這種企業提供數據敏捷準備版本。」在數據敏捷準備版本中,Datablau的角色更像是一個數據高效搬運工,把所需數據進行集成、轉換、清洗,最後搬到某個目標數據源里,從而為IT人員提高業務效率。

第二種企業如果在數據倉庫建完了的,Datablau會為它提供數據交付版本,數據交付版本主要為企業不同部門的數據進行數據流通和可用、可信,最終生成一個面向某個部門或群體的數據集,供業務人員下載報表和進一步數據挖掘,為企業決策提供數據支持。

Datablau針對不同數據狀態的企業,為其匹配相對應的最優數據解決方案。

在炙手可熱的大數據行業內,許多公司會考慮提供「一站式服務方案」,但王琤有著他獨特的見解,他認為,大數據技術公司不一定要做到「大而全」,哪怕只是將數據資產管理這一階段的業務做到「小而精」,在市場上也能風生水起。

王琤對挑選客戶企業也有周全的考慮,他告訴Xtecher,「Datablau的目標是做產品驅動型企業,抱著匠心打造高質量高客戶滿意度的產品。如果對方客戶企業的剛需和datablau產品的匹配度達到70%以上,我們很樂意進行合作。」目前,Datablau最新版v1.5版本已經應用到製造業、醫療業以及金融業等行業領域,為更多不同領域的企業挖掘並實現其數據的價值,「淘」更多的金。

在今年過去的半年裡,Datablau對產品發展方向進行了驗證和探索,並得到一定的優化,那麼在接下來的2017年下半年,王琤表示Datablau會側重於加大對市場推廣的投入,並尋求與大數據BI廠商的合作。Datablau將滲透到更多不同的行業領域,為更多大規模企業解決數據準備、數據清洗、數據交付等數據資產管理問題。

「踏踏實實地做好Datablau產品」,王琤希望Datablau未來繼續「專註這『小而精』的業務領域,為企業的數據實現可用、可信,並帶來更多商業價值。」

━━━━━

封面來源:Datablau 排版:陳光 校對:米琪

━━━━━

Xtecher官網平台現開通認證作者,

(添加好友請註明公司、職位、事由)

點擊展開全文

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 Xtecher 的精彩文章:

「AI演算法雲支持+智能鞋墊」 創感科技要將大型步態分析工具可穿戴化
小鵬汽車完成22億元融資,庫克親口證實蘋果正開發無人駕駛
利用人工智慧進行高效人才發現,簡尋提升招聘效率
創始人離場:這不是Uber一家的困境

TAG:Xtecher |

您可能感興趣

人性化地處理二進位數據:Bitstream
Dominik Schiener談數據的價值和未來的數據處理方式
數據與價值互聯,智能雲服務廠商才雲 Caicloud 完成 B1 輪融資
數據科學Python基礎
Kotlin 基本數據類型
Veritas Velocity數據副本管理技術、原理詳解
DBA之Oracle資料庫數據移植
最大規模數據集、最優圖像識別準確率!Facebook利用hashtag解決訓練數據難題
Google收購Cask Data,進一步強化大數據分析能力
學界 | 最大規模數據集、最優圖像識別準確率!Facebook利用hashtag解決訓練數據難題
Python modbus 浮點型數據處理
美國Nebula Genomics公司試水 計劃讓消費者「交易」基因數據
使用Alluxio加速基於Ceph對象存儲的數據分析
透析Facebook事件,對AI行業數據合規的思考
Plotly Dash數據可視化
Python數據預處理:使用Dask和Numba並行化加速
Data Technology數據科技,顯示大數據在未來產業發展中的作用舉足輕重
Redis 數據結構與內存管理策略(上)
RocksDB數據存儲格式分析
HttpRunner 實現參數化數據驅動機制