當前位置:
首頁 > 知識 > 數據湖惡化成了數據沼澤?你一定沒有注意這3點

數據湖惡化成了數據沼澤?你一定沒有注意這3點

多年來,在Apache Hadoop等技術的支持下,組織一直在尋求構建數據湖——企業範圍的數據管理平台,允許以原生格式存儲所有數據。數據湖可通過提供給一個單一的數據存儲庫來打破信息孤島問題,整個組織都可以使用從業務分析到數據挖掘的所有東西。原始和不受約束,數據湖被認為是一個包羅萬象的大數據。

但是,商業智能(BI)軟體專家,金字塔分析公司的首席技術官Avi Perez說,他看到許多客戶的數據湖正在惡化為數據沼澤——完全無法接近終端用戶的大量數據存儲庫。

數據湖惡化成了數據沼澤?你一定沒有注意這3點

「資料庫真的很貴。」Perez說,「數據湖從根本上解決了這個問題。數據湖以及所有大數據方案,都來自於市場壓力,其次,現實世界的數據生成器會吐出大量的數據,你需要找到一個方法去存儲它們。」

但是,儘管許多世界上最好的公司都在他們的數據湖周圍建立了業務(谷歌就是一個很好的例子),但很多公司在收集了數據之後卻沒有任何清晰的辦法來獲取價值。

「他們更像是在收集灰塵。」Perez說,「也可以說在收集垃圾,一些最終都會被拋棄的垃圾。最後,你為那些東西增加了預算,卻什麼都不做。」

這並不是說數據湖背後的想法是糟糕的。Perez確信,所有的公司最終都需要一個數據湖。但是如何創建一個數據湖,讓終端用戶真正從中受益,這是需要深思熟慮的。

數據湖惡化成了數據沼澤?你一定沒有注意這3點

為了避免在自己的數據湖中溺水,Perez建議採用以下三條原則:

1、 只收集少量的數據,至少在一開始的時候。

Perez表示,組織所犯的最大的錯誤之一就是收集太多的數據,而其中原因僅僅是他們有這個能力。很多時候,個人也是這樣。細想一下,你手機里存了成百上千張圖片,有都少是自己真正想保存的?很多人沒有刪掉多餘的圖片,只是因為手機容量夠大。

「你的手機上有10億張照片,其中99%就可能是垃圾,而且在刪除它們的時候還可能會有點兒捨不得。」他說,「用手機拍照很容易,基本上是免費的。你可能回想,『有一天我會去清理它』,但只要存儲容量仍然充足,就很少有人會這樣做。這就叫做收集了大量的信息,卻沒辦法有效使用它們。」

當你想要給某人看一張很有意思的照片時,就不可避免地需要往後翻閱很多張無關的照片。

Perez說,同樣的事情也發生在數據湖上。在Hadoop中存儲數據並不昂貴,甚至常會被認為是免費的。但是,大量累積的數據會讓你很難真正地訪問數據,來為自己提供有價值的信息。

「我認為,避免這種情況的方法實際上是把水龍頭給關掉。」Perez說,「基於這樣一種假設,僅僅是收集數據的成本很低,並不會讓使用數據變得更便宜。這可能真的很貴。所以,不要總想著無休止地收集信息。把它放在一個數據集中,制定一個具體的計劃,弄清楚自己該如何去挖掘它。」

數據湖惡化成了數據沼澤?你一定沒有注意這3點

2、 採用機器學習戰略

即使有了一個集中的數據集,從大規模的數據中獲得有價值見解也需要自動化。

「你需要一個自動化的系統來清洗數據。」Perez說,「人工智慧、機器學習、深度學習,無論你想使用哪一種,都會是一個非常神奇的解決辦法。我認為,從你巨大的數據湖中獲取價值的最簡單的辦法就是,擁抱這一項新技術。」

Perez說,首先選擇一個數據集,然後通過一項機器學習技術來完成它。當然,新的技術意味著新的技能、人才需求,你可以對現有員工進行培訓,也可以聘請一些專業人士。

「機器學習是一門黑色藝術。」他說,「這並不容易做到,需要非常細分的技能。」

3、 確定你想解決的商業問題

所有的事情都應該是完整的:你需要從一個清晰的視角來開始你想要解決的商業問題。有了一個客觀的目標,相對會更容易把你需要收集的數據和最好的機器學習技術應用起來。

例如,Perez說,可以將自己想像成一個大賣場,你決定去了解什麼樣的顧客會進入你的商店。你可以捕捉顧客進入商店的圖片,然後使用一個複雜的神經網路(CNN)——一種擅長於計算機視覺問題的深度學習神經網路——來處理圖像。CNN可以通過一個人的形象確定是男性還是女性,是孩子還是成年人,是年輕人還是老年人等等。

「一旦你完成了所有工作,就可以把它與一個商業計劃聯繫起來,並把它交給你的業務用戶。」Perez說,「這可以幫助你做出決策——『我們需要更多地向男性市場推銷,因為我們沒有足夠多的男性客戶』。你真的需要事先有一個明確的戰略,如果不這樣做,僅僅是對事物的收集就會對整個過程產生巨大的負面影響。」

一旦你在頭腦中建立了一個業務計劃,通常就可以迭代該功能,從而為業務提供更有針對性的解決方案。例如,一旦你確定是誰走進了你的商店,你就可以用同樣的能力來確定誰會走過你的化妝品櫃檯。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 IT168企業級 的精彩文章:

職場新人必讀:文件列印出現墨漬怎麼處理
聚焦HLD新光源 英士發布HLD新光源投影機
對於百度的爭議 終於在AI時代停止了

TAG:IT168企業級 |

您可能感興趣

華為和蘋果誰更勝一籌,沒有對比就沒有傷害。數據說明了一切
威少刷數據另有隱情?這個原因可能你想不到
大數據是什麼?怎麼學?這裡的5件事你應該了解一下
想成為數據大神怎能不關注這個號?
成為錫伯杜手下的球員是一什麼樣的體驗?看看這些數據有點嚇人!
什麼是大數據?你需要知道的一切
什麼是數據挖掘?
什麼是大數據?
你好,大數據了解一下!
什麼是大數據,為什麼需要大數據?
大數據 不是「狼來了」
自己測的血糖數據不準確?沒搞明白這5件事,難怪會這樣
沒有數據泄漏,就沒大數據產業?
詹姆斯為什麼是現役第一人,看了這一系列的數據你就知道了!
蘋果的數據線為什麼這麼貴?
曼聯又一數據,替補奇兵!唉,數據就是數據,還差點意思
不要再爭中國到底姓什麼叫什麼的最多了?下列數據可讓你一目了然
一把槍在報廢前最多能打多少發子彈?這一數據大多數人都不相信
不好插,不好拔?有了這個磁吸小頭,解決了數據線的所有問題!
絕地求生公布了兩個有趣的數據:這真不是一般人能完成的?