擁抱大數據時代

最新 05-01

現在是信息時代，大家平常都喜歡刷刷淘寶，逛逛微博，看看網頁。那你是不是經常可以看到「雲平台」、「大數據」之類的詞呢？如果說沒見過，那小編要為你點個贊：一看就是不經常玩手機，心裡只有學習的好孩子——可是，這樣的話，會不會跟時代有些脫節了啊？

不知道也沒關係，小編這就帶你一起去了解，什麼是「大數據」。

喜歡逛淘寶的孩子都知道，淘寶的頁面拉到下方，會出現一個「猜你喜歡」的欄目。可是淘寶又不是人，它是怎麼知道你喜歡的是什麼呢？——大多數姑娘們的男朋友恐怕也不一定猜得到她們想要的究竟是哪個牌子的口紅吧。那麼淘寶是怎麼做到的呢？

答案很簡單：阿里巴巴的大資料庫。

大家都知道，淘寶網其實是阿里巴巴旗下的一個平台。「猜你喜歡」就是利用了阿里的大數據平台對顧客平時購物消費的習慣、喜好等等進行分析，最後系統就會推薦出你最近可能會購買或感興趣的東西。

關於大數據的應用，還有一個非常有趣的例子。

2009年出現了一種新的流感病毒，這種甲型H1N1流感結合了導致禽流感和豬流感的病毒的特點，短短几周之內就迅速傳播開來。全球的公共衛生機構都在擔心，這場致命的流行病毒隨時都有可能來襲。有的評論家甚至警告說，可能會爆發大規模流感——類似於1918年在西班牙爆發的那場影響了5億人，並奪走了數千萬人性命的大規模流感。而科學家們還沒有研發出對抗這種新型流感的疫苗。公共衛生專家們能做的只有減慢病毒的傳播速度。但要做到這一點，首先他們需要知道這種流感出自哪裡。

美國和所有國家一樣，都要求醫生在發現新型流感病例時告知疾病控制與預防中心。但一則人們往往在患病幾日後才前往醫院，二則通告新流感病例會有一兩周的延遲，三則疾控中心每周只進行一次數據匯總。對於飛速傳播的疾病，兩周的信息滯後是非常可怕的。

而谷歌公司的工程師們，在甲型H1N1流感爆發的幾周前，就在《自然》雜誌上發表了一篇引人注目的論文。文中介紹了谷歌為什麼能夠精準地預測冬季流感的傳播——不僅是在全美範圍內，甚至可以具體到特定的地區和州。

原來，谷歌保存了多年來所有的搜索記錄，並且每天都會收到來自全球超過30億條的搜索指令。谷歌公司把5000萬條美國人最頻繁檢索的詞條跟美國疾控中心在2003年到2008年之間季節性流感傳播時期的數據進行比較，通過分析人們的搜索記錄來判斷這些人是否患上了流感。

他們建立的系統唯一關注的就是特定檢索詞條的使用頻率與流感在時間和空間上的傳播之間的聯繫。谷歌公司為了測試這些檢索詞條，總共處理了4.5億個不同的數學模型。將得出的預測與2007年、2008年疾控中心記錄的實際流感病例進行對比之後發現，他們的軟體發現了45條檢索詞條的組合。將這些詞條用於一個特定的數學模型之後，他們的預測可以達到與官方數據高達97%的相關性——也就是說，谷歌公司可以通過歷年來積累的搜索記錄，準確地判斷流感是從哪裡傳播出來的，並且判斷非常及時，不會像疾控中心一樣要在流感爆發一兩周之後才可以做到。

谷歌公司可以做到這些，完全是建立在大數據基礎之上的。

那麼，究竟什麼是「大數據」呢？「大數據」和「數據大」是不是一個意思呢？「大數據」又有些什麼樣的特點呢？且聽小編細細道來。

【什麼是大數據】

關於大數據，麥肯錫全球研究所給出的定義是：一種規模大到在獲取、存儲、管理、分析方面大大超出了傳統資料庫軟體工具能力範圍的數據集合，具有海量的數據規模、快速的數據流轉、多樣的數據類型和價值密度低四大特徵。

如此官方的定義，想必大多數同學看了之後也和小編第一次看到的時候一樣一頭霧水吧——遠超出傳統資料庫軟體工具能力範圍的數據集合，究竟有多大？其實，大數據指的就是不採用隨機分析法（抽樣調查）這樣的捷徑，而採用所有數據進行分析處理。

在這裡，樣本就是總體。

【樣本=總體】

小數據時代的隨機採樣，是用最少的數據獲得最多的信息。但這只是一條捷徑，只是在不可收集和分析全部數據的情況下的無奈之舉，它本身存在很多固有的缺陷。比如，採樣需要具有絕對的隨機性，但現實是採樣的隨機性非常難以保證，一旦採樣過程中存在任何偏見，分析結果都會相去甚遠。

在我們的大數據時代，我們可以分析更多的數據，有時甚至可以處理與某個特別現象相關的所有數據，而不在依賴於隨機採樣。19世紀以來，當面臨大量數據時，社會採用採樣分析的方法是因為當時還沒有能力處理如此龐大的數據。但隨著科技發展，我們發現這並不是個逾越不了的技術難題。我們有能力處理大數據。

而使用大數據，也為我們帶來了更高的精確性，也讓我們看到了一些以前無法發現的細節——大數據讓我們更清楚地看到了樣本無法展示的細節信息。

【大數據的核心——預測】

大數據的核心就是預測。雖然它經常被當做人工智慧的一部分，更確切地說，被視為一種機器學習。但這種定義是有誤導性的。大數據不是要教機器人像人一樣思考。相反，它是把數學運算運用到海量的數據上來預測事情發生的可能性。

一封郵件被當做垃圾郵件過濾掉的可能性、從一個人亂穿馬路時行進軌跡和速度來看他能及時穿過馬路的可能性、女朋友最想要的禮物是XX牌口紅的可能性、小編編輯文檔時把「的」打成「地」的可能性，這些都是大數據可以預測的範圍。這些預測系統之所以能夠成功，關鍵是建立在海量數據的基礎上。

當然，隨著系統接收到的數據越來越多，它們可以通過一種叫「反饋學習」的機制，改善自身的表現。

【允許不精確】

雖然說我們可以使用所有已獲得數據，但也要為此付出代價。數據大幅度增加，必然會造成結果不準確。同時，一些錯誤的數據也會混到資料庫中。這些當然不是不可以避免的。

對於小數據而言，最基本、最重要的就是減少錯誤，保證質量。因為採集信息量少，所以必須確保記錄下來的數據盡量精確。

而大數據時代，則要求我們重新審視精確性的優劣。當我們掌握了大量新型數據時，精確性就不那麼重要了。大數據不僅讓我們不再期待精確性，甚至也讓我們無法實現精確性。

我們不需要那麼擔心某個數據點對整套分析的不利影響，我們要做的是接收這些紛繁的數據並從中收益，而不是花上大量的時間和精力去消除所有的不確定性。事實上，接受了數據的不精確和不完美，反而可以更好地預測、更好地理解這個世界。

需要注意的是，錯誤不是大數據固有的特性，而是一個亟需解決的現實問題，並且很可能長時間存在。

【不是因果關係，而是相關關係】

對於公司而言，知道人們為什麼對一些信息感興趣可能是有用的，但這個問題其實並不重要。重要的是，知道人們對什麼信息感興趣。

也就是說，知道是什麼就夠了，而沒必要知道為什麼。大數據揭示的是相關關係，而不是因果關係。如果A和B經常一起發生，我們只需要注意到B發生了，我們就可以預測到A也發生了。

注意，相關關係不能算命，它是沒有辦法預測未來的，僅僅是一種可能性。就像天氣預報里常說的「某地區有雨的概率是xx%」一樣，並不代表未來一定會發生。

當然，即便是很強的相關性也不一定能解釋每一種情況。有的時候兩個失誤看上去相似，但很可能只是巧合。相關關係沒有絕對，只有可能性。但一般來說，如果相關關係強的話，預測成功率其實是很準確的。

看到這裡，大家是不是對大數據有了些許的認識呢？

其實，大數據並不是一個充斥著演算法和機器的冰冷世界，人類的作用是無法取代的。大數據只是為我們提供了更好的參考答案。在未來，或許還會有其他更好的方法和答案在等著我們。

撰稿：信院寧詩雯

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 武漢理工信院研究生會 的精彩文章:

※科研在左實戰在右

TAG:武漢理工信院研究生會 |