當前位置:
首頁 > 最新 > 作為大數據時代的弄潮兒,這些知識怎麼能不知道!

作為大數據時代的弄潮兒,這些知識怎麼能不知道!

現在,人人都在談論大數據,好像大家講的話中如果沒有"大數據"這三個字,都不好意思開口,因為這兩年它確實是太火了:像什麼大數據是未來商業世界的前途,是人工智慧時代的生產資料,會帶來人類繁榮的躍遷… …。這些都表明我們已經完全步入了大數據時代,大數據已成為繼移動互聯網、雲計算後對於ICT產業具有深遠影響的技術變革。

之前談起誰最了解自己,你可能回答:當然是家人、愛人、朋友和同事,然而大數據時代,最了解你的人是"贊"、"網頁瀏覽記錄"、"購物記錄"、「朋友圈」… …。你相信嗎?基於這些,還真有權威機構做過調查,單就"點贊"來說,電腦只要分析你的"10個贊"就能比你的同事更準確地預測這個人的性格;分析"70個贊"電腦就能超過他的朋友或者室友;分析"150個贊"就能超過他的家人;分析"300個贊"就能擊敗他的配偶。也就是說,大數據時代,所有暴露出去的信息經過分析,都可能成為別人認識我們的工具。

但是面對海量的數據,如果不去深入挖掘和分析其應用價值,那麼這些數據也僅僅是數據,甚至可以說沒有價值或沒有發現其價值的大數據僅是種冗餘和負擔。那麼,若你想成為大數據時代的弄潮兒,以下的這些知識你一定要知道。

大數據就是「大」嗎?

大數據很火,創業者、媒體人、互聯網人等都在談大數據,但是很多人只從「大數據」的字面意義來認識大數據,認為大數據就是數量大,實際上這種理解很片面,我們都被這個名字的假象給欺騙了, 「大」不過是信息技術不斷發展所產生的海量數據的表象而已。那麼究竟什麼是大數據?

按照Gartner的定義,大數據是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量的、高增長率和多樣化的信息資產。我國IT學術界和企業對大數據也更多的把大數據認同為新型的數據和分析

也就是說,大數據代表著數據從量到質的變化過程;代表著數據作為一種資源在經濟和社會實踐中扮演越來越重要的角色,從技術角度來看,這種數據規模質變後帶來新的問題,即數據從靜態變為動態,從簡單的多維度變成巨量維度,而且種類日益豐富,超出當前技術與工具控制管理的範疇。那麼這些數據的採集、分析、處理、存儲和展現都涉及複雜的多模態高維計算過程,涉及異構媒體的統一語義描述、數據模型、大容量存儲建設,涉及多維度數據的特徵關聯與模擬展現。但是最終目標還是挖掘其應用價值。

IBM提出大數據的5V特點:Volume(數量)、Velocity(高速)、Variety(多樣)、Value(價值)、Veracity(真實性)。Volume主要是指聚合在一起供分析的數據規模非常龐大;Velocity是指數據的增長速度快,要求數據訪問、處理和交付等速度快;Variety主要是指數據類型的多樣化,如文本、音頻、視頻、圖片、光譜等;Value主要是指大數據背後隱藏著巨大的商業價值; Veracity要是指虛擬網路環境下大量的數據需要採取措施確保其真實性和客觀性,還要通過數據分析真實地還原和預測事物的本來面目。很多人都很關注如何將多樣化的數據轉化為有價值的存在的問題.。

大數據涉及了哪些核心技術

大數據作為一項新興技術,目前尚未形成完善、達成共識的技術體系。基於NIST和JTC1/SC32的研究成果,大數據的核心技術主要體現在以下幾個方面:

數據準備技術

數據作為一種處理對象,是用來描述對應用程序很重要的現實世界的信息資源。那麼針對海量的數據,如何進行數據表示,如何描述對象,說明對象的相關特徵,如何對應用領域相關知識進行建模能夠有效地支撐信息的語義共享等,這些都需要如數據表示、元數據註冊和本體元建模相關的技術。

數據存儲技術

針對海量的多樣化的數據如何存儲?這需要大量的內存空間,和傳統數據存儲要求是完全不同的。如分散式文件系統就可以將大規模海量數據用文件的形式保存在不同的存儲節點行,並用分散式系統進行管理;數據倉庫適用於存儲關係複雜的數據模型,適合進行一致性與事務性要求高的計算,以及複雜的BI(商業智能)計算。

數據平台技術

數據平台主要是通過平台向數據需求者提供相應的數據服務。面向服務的體系結構SOA是近年來軟體規劃和構建的一種新方法,以「服務」為基本因素和核心,它是大數據的重要支撐技術,通過「服務」的方式支撐實現大數據的跨系統匯聚、共享、交換、分析、管理和訪問。MapReduce是一個軟體架構,用於大規模數據集的並行運算。MapReduce框架是Hadoop的核心,但是除了Hadoop, MapReduce上還可以有MPP(列資料庫)或NoSQL.

數據處理技術

採集完的數據如果不加以處理和分析,就無法發現數據背後隱藏的巨大價值。無論是大數據分析專家,還是普通用戶,大數據分析最基本的要求就是大數據的可視化,那麼如何對數據進行挖掘、處理和分析呢?.相關方法主要有神經網路方法、遺傳演算法、決策樹方法、粗集演算法、覆蓋正例排斥反例方法、統計分析方法、模糊集演算法等,另外還有內存計算、流處理技術等。

我國的大數據應用實踐

大數據在國際上已經有了很廣泛的應用,並帶來了巨大的經濟效益。國內大量企業紛紛意識到,隨著大數據相關技術的不斷發展,傳統的商業模式將被顛覆,新的商業生態將形成,而且隨著價值鏈各方對業務模式和盈利模式的創新,新的商業生態將在不斷演化中完善。因此各個企業紛紛開展自己的大數據布局。

目前大數據在國內各行各業也得到了廣泛的應用。包括電子地圖,電子商務、電信、互聯網、媒資、高性能計算、金融等行業和領域都有應用。

地圖數據領域

高德地圖作為數字地圖、導航和位置服務解決方案提供商,掌握了大量的行業運營車輛GPS 數據,以及高德用戶數據,並與各城市交管部門合作,掌握了眾多交通信息數據。

高德地圖與阿里巴巴、嘀嘀打車、團800、大眾點評、攜程、丁丁優惠、訂餐小秘書等第三方資源進行合作。通過與這些第三方資源的數據開放和共享,一方面提高高德地圖本身的數據來源和儲備,為其服務提供更加有力的支持。同時高德地圖也將其自身的數據與這些企業進行共享,從而帶動這些企業相關業務的開展。

電子商務領域

大數據技術在電子商務領域的應用也非常廣泛,比如京東通過利用大數據技術,基於用戶的購買行為做精準營銷,優化供應鏈(京東的很多商品都是自動補貨,在物流配送領域為物流人員提供最優配送路徑等),還基於大數據挖掘和分析,讓網站變得越來越智慧等,比如一些商品具有重複購買的特點,例如牙膏,那麼購買之後在可預期的一段時間內將會用完,京東會分析出兩次購買的時間,在這個時間到來之後,推介系統有可能會給用戶他推介相應的商品,提升用戶的體驗,提高商品的轉化率。

科學研究領域

中國科學院計算機網路信息中心研發了中科院科學資料庫。截止到2010 年底,科學數據資源超過了150TB,提供在線服務的科學數據資源超過100TB。數據資源涵蓋物理、化學、地球科學、生物學、材料科學、能源科學、信息科學等多個學科領域。

除了以上應用領域,大數據還在社會管理與公共服務、農業、製造業、電力及水務領域、交通運輸、金融領域、教育文化領域等有著很高的應用價值。

備註:目前大數據心理學專業正在火熱招生中,將於2018年5月26日開學,目前還需補錄2個名額,有對此感興趣的同學請儘快報名。

END

中國科學院心理研究所在職研修班課程最新招生簡章


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 心研資訊 的精彩文章:

這樣設計電子產品,才能更好的促進兒童發展

TAG:心研資訊 |