當前位置:
首頁 > 知識 > 大數據必須掌握七大核心技術概念

大數據必須掌握七大核心技術概念

大數據概念

大數據究竟是什麼?很多人可能仍然有些混淆,本文讓我們來看看大數據的一些主要的定義。首先要注意的是,行業內的所有人都普遍認同,大數據不只是更多的數據。

(1)最初的大數據

大數據的特徵可以用很多詞來描述。2001年Doug Laney最先提出「3V」模型, 包括數量 (Volume)、速度(Velocity)和種類(Variety)。在那以後,業界很多人把3V擴展到了11V,還包括有效性、真實性、價值和可見性等。

(2)大數據:技術

為什麼十多年前的老術語突然被放在聚光燈下?這不僅是因為我們現在擁有比十年前更多的數量、速度和種類。而是因為大數據受到新技術的推動,特別是快速發展的開源技術,例如Hadoop和其他存儲和處理數據的NoSQL方式。

如果你準備入坑大數據開發,可以關注ID:IT資訊科技 會有最前沿的學習資訊

這些新技術的用戶需要一個術語來將它們區別於以前的技術,於是大數據成了他們的最佳選擇。如果你去參加大數據會議,你肯定會發現,涉及關係型資料庫的會議會很少,無論他們鼓吹多少個V。

(3)大數據與數據的區別

大數據技術的問題是,大數據有些含糊不清,以至於行業中的每個供應商都可以跳進來聲稱自己的技術是大數據技術。以下是兩種很好的方法來幫助企業理解現在的大數據與過去單純的大數據的區別。

交易、交互和觀察:這是由Hortonworks公司負責企業戰略的副總裁Shaun Connolly提出的。交易是我們過去收集、存儲和分析的主要數據。交互是人們點擊網頁等操作得到的數據。觀察是自動收集的數據。

(4)大數據:信號

SAP公司的Steve Lucas認為,應該根據意圖和時機來劃分這個世界,而不是根據數據的類型。「舊世界」主要是關於交易,當這些交易被記錄時,我們已經無法對它們採取任何行動:企業都在不斷管理「失效的數據」。而在「新世界」,企業可以使用新的「信號」數據來預測將會發生什麼,並進行干預來改善情況。

相關的案例有,追蹤社交媒體上人們對品牌的態度,以及預測性維護(用複雜的演算法幫助你決定何時需要更換零部件)。

(5)大數據:機會

這是來自451 Research的Matt Aslett,他將大數據定位為「之前因為技術限制而被忽略的數據」。(雖然在技術上,Matt使用了「暗數據」,而不是大數據,但已經非常接近)。這是筆者最喜歡的定義,因為它符合大部分文章和討論中的說法。

(6)大數據:隱喻

Rick Smolan在其書中寫道,大數據是「幫助這個星球生成神經系統的過程,其中我們人類只是另一種類型的感測器」。很深奧吧?如果你準備入坑大數據開發,可以關注ID:IT資訊科技 會有最前沿的學習資訊。

(7)大數據:新瓶裝舊酒

很多項目基本上是使用以前的技術,這些過去被稱為BI或者分析的技術突然跳入大數據的行列中。

底線:儘管大家對大數據的定義有很多爭議,但所有人都同意這個事實:大數據是一個大事件,在未來幾年將帶來巨大的機遇。

如何玩轉大數據

隨著科技的不斷進步,日常工作、生活中的數據量也是節節攀升,我們迎來了大數據時代。

以大數據為代表的數據密集型科學將成為新一次技術變革的基石。隨著數據的進一步集中和數據量的增大,對海量數據進行安全防護變得更加困難,數據的分散式處理也加大了數據泄露的風險。

物聯網、雲計算、移動互聯網等新技術的發展,使得手機、平板電腦、PC及遍布地球各個角落的感測器,成為數據來源和承載方式,BYOD也隨之誕生。

(1)何為大數據

據有關分析公司預測,到2013年,互聯網承載的數據量將會達到每年667EB,這是什麼概念?1EB=230GB,數據量之大顯而易見,這些數據絕大多數是「非結構化數據」,通常不能為傳統的資料庫所用,但是大數據技術革新將會給我們的生活帶來巨大變化。

(2)四大特點組成大數據

數據量巨大:人類生產的所有印刷材料的數據量是200PB(1PB=210TB),而歷史上全人類說過的所有的話的數據量大約5EB(1EB=210PB)。當前,典型個人計算機硬碟的容量為TB量級,而一些大企業的數據量已經接近EB量級,如此龐大的數據量群,分析它們的難度可想而知,因此需要大量的大數據解決方案。

價值密度低:這也是當今大數據背景下需要解決的一個難題,價值密度的高低與數據總量的大小成反比,如果看一小時視頻,在連續不間斷的監控中有用數據的時間可能會很短,甚至是幾秒鐘,那麼強大的數據計算機的演算法就需要非常迅速地完成對數據的「提純」。

數據類型多:這點不用多解釋,數據類型的多樣性也讓數據被分為結構化數據和非結構化數據。相對於以往便於存儲的以文本為主的結構化數據,非結構化數據越來越多,包括網路日誌、音頻、視頻、圖片、地理位置信息等。

處理速度快:據IDC研究機構報告顯示,預計到2020年,全球數據使用量將達到35.2ZB(1ZB=210EB),分析這麼大的數據,就需要設備對數據的處理速度有很大的提升。

(3)大數據給企業謀福利

2012年3月,美國宣布投資2億美元啟動「大數據研究和發展計劃」,藉以增強收集海量數據、分析萃取信息的能力。2012年瑞士達沃斯論壇上發布的《大數據大影響》報告稱,數據已成為一種新的經濟資產類別,就像貨幣或黃金一樣,許多國家政府更是把大數據上升到戰略層面。

(4)全球大數據市場發展趨勢

對企業來講,在大數據背景下數據資產將會取代人才成為各個公司和行業的重要載體,可以有效地幫助企業完成業務的操作、流程的制定以及公司各項工作的運營和監督,通過對數據的分析,幫助企業領導者進行各項決策。

大數據對企業的核心資產也進行了重塑,企業必須熟悉和用好海量的數據,而互聯網行業已提早感受到了大數據帶來的深切變化。一些互聯網企業已經完成了核心競爭力的重新定義。

(5)信息安全不容小視

大數據成為網路攻擊的顯著目標,在網路空間,大數據是更容易被「發現」的大目標。一方面,大數據意味著海量的數據,也意味著更複雜、更敏感的數據,這些數據會吸引更多的潛在攻擊者。另一方面,數據的大量彙集,使得黑客成功攻擊一次就能獲得更多數據,無形中降低了黑客的進攻成本,增加了「收益率」。

如此龐大的數據中包含了很多個人信息,甚至是隱私信息,數據的集中存儲就勢必帶來大量數據丟失和破壞的風險,一些敏感數據的所有權和使用權並沒有明確界定,很多基於大數據的分析都未考慮到其中涉及的個體隱私問題。

許多企業對大數據的認知程度不同,因此致使企業在大數據管理和運營中會出現不妥之處,安全防護手段的更新升級速度無法跟上數據量非線性增長的步伐,就會暴露大數據安全防護的漏洞。

大數據技術很容易成為黑客的攻擊手段,在企業用數據挖掘和數據分析等大數據技術獲取商業價值的同時,黑客也在利用這些大數據技術向企業發起攻擊。黑客會最大限度地收集更多有用信息。

傳統的檢測是基於單個時間點進行的基於威脅特徵的實時匹配檢測,而高級可持續攻擊是一個實施過程,無法被實時檢測。此外,大數據的價值低密度性,使得安全分析工具很難聚焦在價值點上,黑客可以將攻擊隱藏在大數據中。

(6)切忌一哄而上

中國工程院院士鄔賀銓曾建議,中國發展大數據需要儘快制定信息保護法與信息公開法,既要鼓勵面向群體而且服務於社會的數據挖掘,又要防止針對個體侵犯隱私的行為,既要提倡數據共享又要防止數據被濫用。

(7)國內大數據發展

在製造行業,企業通過對網上大數據分析了解客戶需求和掌握市場動向,並對大數據進行分析後,就可以有效實現對採購和合理庫存量的管理,大大減少因盲目進貨而導致銷售損失,大數據是一個應用驅動性很強的服務,其標準和產業格局尚未形成,這是我國跨越發展的機會,但切忌一哄而起。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 千鋒JAVA開發學院 的精彩文章:

前後端分離—關於登錄狀態那些事
為什麼要把系統拆分成分散式的,為啥要用Dubbo?

TAG:千鋒JAVA開發學院 |