當前位置:
首頁 > 知識 > 大數據讀懂你的心

大數據讀懂你的心

大數據的核心就是預測,它把數學演算法運用到海量的數據上來預測人們的行為模式以及事件發生的可能性。通過大數據分析,噹噹網可以幫我們推薦想要的書,百度可以為關聯網站排序,微信可以猜出我們認識誰。當然,同樣的技術也可以運用到疾病診斷、推薦治療措施,甚至是識別潛在犯罪分子上。大數據已經成為了新發明和新服務的源泉,而更多的改變正蓄勢待發。

《紙牌屋》成功的秘密

《紙牌屋》是2013年美國最火的電視連續劇之一。它雖然有大牌導演加大牌演員的豪華陣容,但是在尋找投資時卻遇上了難題,以往電視劇的主創者都會至少做出一兩集的樣片,以提供投資依據,但這次,導演和演員都太大牌了,他們除了提供一個劇名外,沒提供一點樣片,結果沒有一家電視台敢冒風險投資。

這時,一家公司卻做出一個驚人的決定,它不僅向這部電視劇投資了1億美元(幾乎是美國一般電視劇價錢的兩倍),而且史無前例地做出了要拍足兩季的承諾。更驚人的是,這家公司既不是電視台,也不是電影公司,而是一家類似於中國的土豆或優酷這樣的在線視頻播放網站——奈飛(Netflix)。

奈飛公司早期只是一家影片租賃商,通過郵寄方式租賃DVD來賺錢。到了互聯網時代,奈飛才開始轉向在線流媒體播放。令電視業巨頭們困惑的是,影視投資向來充滿風險,收視率、票房的可預測性一直很低,也許你找齊了金牌導演、實力演員和當下流行題材的劇本,結果依然不上座。而奈飛只是一個普通的視頻播放網站,既沒有拍攝經驗,也不能很好地為影片的質量把關,它為何敢於在不看樣片的情況下進行如此大筆的投資呢?

其實奈飛和傳統電視業的關注點並無不同,都是看電視劇的內容能否引起觀眾的共鳴。只不過,傳統方式是通過看樣片來決定,而奈飛依賴的是該網站上3000萬名訂閱用戶的收看習慣和偏好所組成的龐大的數據群。

用戶只要登錄奈飛的網站,對某一個視頻的每一次點擊、播放、暫停、快進、回放,看了幾分鐘就觀點視頻,或者停了一段時間又重新打開,這些「事件」都被奈飛記錄下來並進行匯總分析。奈飛每天有700名工程師對用戶3000萬次的播放動作、400萬次的評級、300萬次的搜索進行縝密的數學計算,對視頻觀看時間以及所使用的設備進行分析挖掘,並以此策劃節目。

奈飛或許並不能準確知道每名用戶點擊暫停按鈕的個人原因,但是如果足夠多的人在整段視頻中的同一個地方做了相同的舉動,那麼數據分析就開始顯出意義了。通過挖掘數據,奈飛不僅知道用戶星期天晚上比星期一下午更愛看恐怖片,也能知道用戶更喜歡用平板電腦觀看視頻,以及哪些地方的人更喜歡在星期天下午用平板電腦觀看。奈飛甚至能夠記錄哪些用戶在一集節目結束演職員表開始滾動時就關閉了視頻。結果就是,奈飛比觀眾自身還要清楚他們的觀影喜好。

《紙牌屋》並非個案,時至今日,數據已經像洪流一樣在全球的政治、經濟生活中奔騰,很多政府部門、企業都已經在嘗試用大數據來進行決策和管理。2012年1月瑞士達沃斯世界經濟論壇的一份報告中指出,大數據的價值堪比石油或黃金。

數據揭示的礦難真相

2010年4月5日,美國西弗吉尼亞州的一處煤礦發生爆炸,造成29人遇難,這是美國1984年以來傷亡最嚴重的一起礦難。

像中國一樣,礦難之後,美國的互聯網上民情洶湧,聲討責任的聲浪此起彼伏。美國網民也在網上挖掘災難發生的原因,但與國內盛行的「人肉搜索」不同,隨著公共數據的大面積開放,美國民眾可以通過數據發現真相。

礦難發生的當天,民眾輿論的矛頭首先直指政府主管部門——美國礦山安全健康局,第一個問題是:該局是否工作到位、監管得當?在礦山安全健康局的網站,可以查到這個煤礦一系列監管記錄,包括檢查的時間、結果、違反的法律條款、處理的意見、罰款的多少、已繳納的金額、煤礦是否申訴等數據項。這些數據表明,該煤礦的安全早已亮了紅燈。該煤礦僅2010年3月份就有53條違規記錄,其中12條與地下逃生通道和通風設施有關。2009年,該礦共有515條違規記錄,違規次數是全國煤礦平均水平的11.6倍。

既然早已劣跡斑斑,政府一而再、再而三地警告處罰,這個煤礦為何還是沒有避免災難?煤礦的老闆是何方神聖,膽敢如此漠視政府的三令五申、頂風作案呢?一個網站公布了煤礦老闆布蘭肯希普的一系列數據資料,網民這才恍然大悟:布蘭肯希普名下有46個煤礦,是當地政客的大金主。數據表明,自2003年以來,布蘭肯希普下屬的公司共捐出數百萬政治獻金,捐款流向了當地法官和議員。

至此,一幅充滿數據細節的圖像已經清晰地出現,顯示災難的發生與官商勾結有著重大關聯。於是,網路輿論、新聞媒體開始了煤礦管理制度層面的反思和批判。如何完善制度、避免同樣的悲劇在其他煤礦重演,一時間成為新聞輿論討論的重點。

數據鋪就平安大道

隨著汽車的普及,道路交通事故也隨之增多,並且逐漸成為一個突出的公共問題。美國從1960年到1965年,因交通事故而死亡的人數以每年近30%的速度增長。當時很多專家估計,如果不採取有力措施來扼制這個增長勢頭,死亡人數將在1975年達到10萬。不過,交通事故的死亡人數在1972年達到歷史最高的54589人後,就開始呈現不斷下降的趨勢,到2009年,死亡人數已降為33808人。

這個成績的取得是極其不容易的。因為近幾十年來,不論是人口、駕駛員還是機動車的數量和密度都成倍增長,車輛的使用頻率也大幅增加,但交通事故的死亡人數卻顯著下降,從5萬多人下降到3萬多人。其中的原因除了汽車本身的安全性不斷提高以外,政策的引導和管理同樣起到了至關重要的作用。而交通安全管理局正是依據多年來的交通事故記錄製定出了相應的政策和法規。

例如,通過分析全年的交通事故記錄,人們很容易發現夏季明顯是交通事故的高發期,每天晚上6點-9點是交通事故的最高發時段,但是周六這個時段的事故發生量比工作日還多。這說明不僅僅是因為上下班,即使休息,這個時段也是人們駕車出行最活躍的時段。如果從一周的時間段來看,周六、周日的零點-3點才是真正的致命時段,這個時段發生事故的原因有66%是酒後駕駛。有了這些數據,交管局自然可以更有針對性地制定政策,例如周末午夜時加強酒駕的檢查力度,晚高峰期間加強疏導。

隨著數據的累積和增多,人們可以做的分析和對比也越來越多。一起交通事故的數據可能是無序的,一年的數據、一個地區的數據也看不出太多的章法,但隨著跨年度、跨地區數據越來越多,群體的行為特點就會在數據上呈現出一種秩序和關聯,更多的規律也將浮出水面。

交管局就曾發現,儘管美國很多州都要求駕駛員必須佩戴安全帶,但隨後收集到的數據卻表明這些州死亡率下降的幅度卻各不相同。這個數據之差引發了政府對全國執行情況的檢查和對比。後來發現,效果明顯的州,警察有權力隨時攔住汽車,檢查駕駛員是否佩戴了安全帶;而效果不太好的州,警察則只能在以其他理由攔住車輛時順便檢查駕駛員是否佩戴了安全帶。這個發現促使多個州改變了各自的執法方式。

數據讓行為更有針對性

沃爾瑪擁有世界上數一數二的數據倉庫,也是最早應用數據挖掘技術的企業之一。在一次例行的數據分析之後,研究人員發現:跟尿布一起搭配購買最多的商品竟是啤酒。尿布和啤酒聽起來風馬牛不相及,這種關聯性著實令人費解,經過跟蹤調查,研究人員終於發現了這種聯繫背後的原因:一些年輕的爸爸經常要到超市去購買嬰兒尿布,有30%-40%的新爸爸會順便買點啤酒犒勞自己。沃爾瑪隨後對啤酒和尿布進行了捆綁銷售,不出意料,銷售量雙雙增加。

有些公司在做數據挖掘時還發現聽過羅大佑現場演唱會的人,對上海大眾某款汽車的興趣度比其他人高出30%。經過分析,人們這款汽車的受眾是35歲左右,希望提高生活品質的居家型的男性,這和羅大佑的受眾非常一致。

谷歌有一個名為「谷歌流感趨勢」的工具,它可以通過跟蹤搜索詞來判斷全美地區的流感情況。如果諸如溫度計、流感癥狀、胸悶等關鍵詞出現的頻率很高,谷歌系統就會進行跟蹤分析,創建地區流感地圖。其結果與美國疾病防控中心的報告大體一致。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 大科技雜誌社 的精彩文章:

為什麼人類只有智人這一個亞種?
冰河世紀創造的怪景觀

TAG:大科技雜誌社 |