當前位置:
首頁 > 熱門 > 如何用數據治理處理你手中的各種「臟數據」?

如何用數據治理處理你手中的各種「臟數據」?

數據治理背景

隨著網路和信息技術的不斷普及,人類產生的數據量正在呈指數級增長。大約每兩年翻一番,根據監測,這個速度在2020 年之前會繼續保持下去。這意味著人類在最近兩年產生的數據量相當於之前產生的全部數據量。

大量新數據源的出現則導致了非結構化、半結構化數據爆髮式的增長。信息數據的單位由TB-PB-EB-ZB的級別暴增。這些由我們創造的信息背後產生的這些數據早已經遠遠超越了目前人力所能處理的範疇。如何管理和使用這些數據,逐漸成為一個新的領域,於是大數據的概念應運而生。

大數據的快速發展,使它成為IT領域的又一大新興產業。據中央財經大學中國經濟管理研究院博士張永力估算,國外大數據行業約有1000億美元的市場,而且每年都以10%的速度在增長,增速是軟體行業的兩倍。我國2012年大數據市場規模大約4.7億元,2013年增速將達到138%,達到11.2億元,產業發展潛力非常巨大。我國大數據飛速發展的背後存在諸多的問題:相關利益交織,協調難;方案規劃容易,落地困難;過度依賴技術工具;對於數據沒有明確區分。

過往的項目中,筆者也時常遇到這樣的情況,客戶用億信華辰的BI工具做了一些精美專業的數據報告,卻因數據不準而影響了報告的使用價值。

前兩篇文章筆者分別探討了面對數據指標如何分析,以及如何構建系統化的數據體系,本文是「數據化運營方法論系列」文章的第三篇,重點探討的核心話題是——數據治理。

數據治理是一項基礎工作,在很多人眼中是一項苦活兒累活兒,但是越是這樣的工作越是不能忽視,基礎打紮實了,上層建築才會更穩固。

一、臟數據的種類及處理方法

首先,我們來了解一下臟數據的種類,明白我們可能會面對哪些問題。

1 、數據缺失:缺一些記錄,或者一條記錄里缺一些值(空值),或者兩者都缺。原因可能有很多種,系統導致的或人為導致的可能性都存在。如果有空值,為了不影響分析的準確性,要麼不將空值納入分析範圍,要麼進行補值。前者會減少分析的樣本量,後者需要根據分析的計算邏輯,選擇用平均數、零、或者等比例隨機數等來填補。如果是缺一些記錄,若業務系統中還有這些記錄,則通過系統再次導入,若業務系統也沒有這些記錄了,只能手工補錄或者放棄。

2、 數據重複:相同的記錄出現多條,這種情況相對好處理,去掉重複記錄即可。但是怕就怕不完全重複,比如兩條會員記錄,其餘值都一樣,就是住址不一樣,這就麻煩了,有時間屬性的還能判斷以新值為準,沒有時間屬性的就無從下手了,只能人工判斷處理。

3、 數據錯誤:數據沒有嚴格按照規範記錄。比如異常值,價格區間明明是100以內,偏偏有價格=200的記錄;比如格式錯誤,日期格式錄成了字元串;比如數據不統一,有的記錄叫北京,有的叫BJ,有的叫beijing。對於異常值,可以通過區間限定來發現並排除;對於格式錯誤,需要從系統級別找原因;對於數據不統一,系統無能為力,因為它並不是真正的「錯誤」,系統並不知道BJ和beijing是同一事物,只能人工干預,做一張清洗規則表,給出匹配關係,第一列是原始值,第二列是清洗值,用規則表去關聯原始表,用清洗值做分析,再好一些的通過近似值演算法自動發現可能不統一的數據。

4 、數據不可用:數據正確,但不可用。比如地址寫成「北京海淀中關村」,想分析「區」級別的區域時還要把「海淀」拆出來才能用。這種情況最好從源頭解決,即數據治理。事後補救只能通過關鍵詞匹配,且不一定能全部解決。

數據治理策略

第一步:落實合適的人員負責治理。

任何成功的數據治理計劃的第一個步驟就是,要在本企業找到CEO可以授權的人,然後讓該人負責項目的具體實施。沒有什麼能取代強有力的領導人。

數據治理是涉及人事的一個難題,這需要在許多不同的利益相關者之間達成共識。因而,在本企業裡面選定這樣的領導人是一項重要工作。治理官員一旦選定下來,就要成立由企業的利益相關者組成的治理委員會,制訂監管政策、向CEO及董事會報告進度。

第二步:調查清楚所處環境。

一旦選定了領導小組,就要調查當前情形,並清查不同部門在不同領域的當前最佳實踐。領導小組需要越過獨立系統看待問題,而企業數據治理評估方法對這項工作來說必不可少。這有助於比較本企業的數據治理計劃目前處於什麼狀態,並且提供了一份路線圖以便確定以後的目標。

第三步:制訂數據治理策略。

數據治理評估之後,治理委員會就應當考慮制訂遠景,希望公司的數據治理實踐在接下來的幾年達到何種目標,根據這種需求為未來制訂遠景。委員會應當向後規劃,並且制訂切合實際的里程碑和項目計劃來填補相關的缺口。具體辦法就是制訂關鍵績效指標來跟蹤進度,並且向CEO和董事會提交年度報告來證實成果。

第四步:算出數據價值。

估算數據價值。要是公司不知道數據的價值,它們就無法提高、保護或者評估數據對賬本底線的價值。數據不是一種普通商品,而是像水龍頭裡出來的水--對生命至關重要,又往往被人們認為是理所當然的。你要是不知道某物的價格,就無法算出它的價值。

如果你想算出數據的價值,就要根據用戶許可權和IT服務的效用,為數據建立內部市場。當本企業的每個人都在直接付費獲取IT服務和數據時,數據的價值就成了公司價目表上的一部分。

第五步:算出風險概率。

知道數據在過去是如何使用和濫用的,這有助於了解數據在將來會如何被危及和披露。每家企業都有一些原因,如一些事件和損失在獨立系統、層次體系和商業報告中消失。這些數據已經可供使用,卻沒有被大多數企業所使用。收集這些數據,與其意義聯繫起來,並研究長期的損失趨勢,這可以幫助任何企業把風險管理轉變成基於事實的商業智能方法,從而可分析過去事件,預測未來損失,改變當前的政策要求,成為未來改善風險緩解策略。

第六步:密切關注控制措施的效果。

數據治理在很大程度上涉及企業的組織行為。企業每天在變化,因而它們的數據、價值及風險也在迅速變化。遺憾的是,大多數企業每年對自己只評估一次。要是公司無法改變組織控制措施來滿足每天或者每周出現的需求,也就談不上變化治理。

三、數據治理的原則

前面講了臟數據的處理方法,但那些都是治標不治本的應對方法,且需要長期耗費大量時間和人力來做這種痛苦的工作。要想從根本上改善臟數據的問題,還是需要做好數據治理的規範工作。

簡單來講,數據治理就是要約束輸入,規範輸出。

1 、約束輸入:你永遠想不到用戶會輸入哪些值,所以別給用戶太多發揮的空間,做好約束工作。該用戶填寫的,系統必須設置為「必填」;值有固定選項的,一定用列表讓用戶選,別再手工輸入;系統在錄入提交時就做好檢查,格式不對,值不在正常範圍內,直接報錯的情況必須讓用戶重新輸入;設計錄入表單時盡量原子化欄位,比如上面說的地址,設計時就分成國家、省、市、區、詳細地址等多個欄位,避免事後拆分;錄入數據保存的數據表也盡量統一,不要產生有大量相同數據的表,造成數據重複隱患。

2、 規範輸出:老闆看不同人做的報表,同一個「收益率」指標,每張報表的值都不一樣,老闆的內心一定是崩潰的,不知該罵誰,只能全罵。排除計算錯誤的情況,一般都是統計口徑不一致造成的。所以要統一語義,做一個公司級別的語義字典(不是資料庫的數據字典)。所有給人看的報告上的指標名稱,都要在語義字典中備案,語義字典明確定義其統計口徑和含義。不同統計口徑的指標必須用不同的名詞。如果發現一個詞已經在語義字典中有了,就必須走流程申請註冊一個新詞到語義字典。

四、數據治理的落地

臟數據的處理需要ETL工具,語義字典不一定要藉助於系統。事實上,由於這類系統過於複雜,國內鮮見實施成功的案例,用Excel加制度就能達到很好的效果。

關於落地推廣策略,說來也簡單,老大拍板說必須實行,再用優先話語權吸引一個部門試點,再橫向擴展。哪個部門先落地,哪個部門就能按最符合自己習慣的用詞來命名指標,相當於占坑。後面的部門都要遵從前人的標準,重名但意義不同的指標需要另外找詞兒命名。這樣就不怕沒人積極主動。

通過大數據治理提供多種數據服務,從根本上解決數據問題

傳統數據治理更多是在強調通過一些流程和制度把數據質量提高,並不能很好地解決以上種種數據問題。現在做數據治理,更多是為大家提供統一的數據服務的能力,從而讓數據問題得以解決。

這樣的環境應該包括哪些東西?需要能解決一些什麼樣的問題?簡單總結就是四個字:管(Manage)、看(Browse)、找(Discover)、用(Apply)。

管:這部分不用多說,也是之前做數據治理的重點。

把海量的數據管起來,需要建立元數據的模型,比如說我們做客戶畫像的時候,可能根據客戶信息建一些元數據,做服務數據的時候,可能會根據交易介面做一些元數據,做數據倉庫的時候,可能會根據這個數據倉庫建立一些元數據。我們管的時候,需要建立整個企業層面的元數據以及跟合作夥伴打交道的元數據,這樣才能把所有的數據和數據之間的關係統一整合起來,而這些元數據不是手工錄入進去,而是采進去的。後面會講到我們元數據的智能化採集,這是能體現數據治理智能化的概念之一。

看:管理層面的人都比較關心企業數據的總體情況,如何才能讓領導和員工都能了解到企業數據資產的情況?讓企業數據以 360 度的方式呈現在大家面前?

很多人都說過數據治理太技術化了,做完之後領導看不到效果,業務價值難以體現。能否「看」得到,是我們在做數據治理時能否拉到同盟軍,建立統一戰線的一個非常重要的手段,如果到最後連效果都看不到,很難把數據治理推行下去,也很難得到領導的支持。「看」的部分是能展現數據治理效果、決定數據治理成敗的主要部分。

找:如何才能在海量數據中把數據和其中的關係找出來?如何讓業務像 Google 搜索一樣來查找需要的數據,而不是還像之前一樣只能接收經過開發整理好的數據?如何才能找到匯總數據之外的數據,比如指標數據、明細數據?

要想實現「找」,要建立業務元數據跟技術元數據的匹配,後面會講到我們用到的知識圖譜技術,其中的難點是如何通過業務含義來查找數據,如果從技術含義找這些數據其實問題不是很大。恰恰我們做數據分析做使用都是從業務含義上來找,需要找到語義以及語義的上下級的關係,並且做一個延伸的搜索。

用:找到數據之後,如何快速有效地用起來?

很多人可能會問,找都找到了,「用」還不簡單嗎?其實沒有那麼簡單,脫敏怎麼做?大家出現爭執的時候怎麼做?供數部門說我已經給了你 5 個 G 的數據,需求部門說我怎麼沒有發現?這時候就需要一個裁判,來判斷究竟是誰的問題,這 5 個 G 的數據是沒有取走,還是提供的數據有問題,這是用的問題。

以前把數據清洗完進倉庫,到集市裡面去,時間非常長。現在我們通過數據治理這個統一的工作環境來干這件事情。在這個工作環境裡面把管、看、找、用四件事全解決了。而如果僅僅站在傳統數據治理的角度看這個事情,很難把這個事情做好,必須把這個事情放大,提供這樣一個統一的數據工作環境,讓大家用這個數據。這是我們做數據產品十多年來總結出來的一些經驗。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 一隻小程序猿 的精彩文章:

企業大數據治理做得不成功會存在那些問題

TAG:一隻小程序猿 |