當前位置:
首頁 > 最新 > 注意,別做大數據的腦殘粉!

注意,別做大數據的腦殘粉!

GIF

我們邁入了大數據時代,你可能或多或少已經感受到了,以互聯網行業為首,感覺現在如果工作脫離了數據,都不知道該從何下手。

大數據為什麼這麼火,可能有以下原因:

A:每個人的生活和大數據都有著或多或少的聯繫。

讓大數據走進我們生活的案例大部分都也來源於對日常關注的社會熱點、娛樂及生活息息相關。另外,大數據的應用範圍也十分廣泛,涉及的行業和從業者不可估量。

大數據如同一個核心插件,似乎可以任意安裝。

全文共 3436 字,閱讀需要 9 分鐘

B:光環加持。有著IBM、Google等國際大公司和國內的互聯網三巨頭BAT及很多厲害的公司都對它備加推崇。因此,「大數據」三個字在很多人心裡,不但前衛時髦,還同高科技、高逼格、高端等等關鍵字緊密聯繫。

C:大數據的價值和潛力確實巨大。無論是 Google用大數據預測流感,還是Netflix公司用大數據捧火美劇《紙牌屋》,都讓人覺得不可思議,它的經濟潛力更是驚人。

早在2011年,麥肯錫全球研究機構就在《大數據:創新、競爭和生產力的下一個前沿領域》中表示,充分利用大數據可幫助全球個人定位服務提供商增加100億美元收入、幫助歐洲公共部門的管理每年提升2500億美元產值、幫助美國醫療保健行業每年提升3000億美元產值,並可幫助美國零售業獲得60%以上的凈利潤增長。

在國內,政府更是在「十三五」規劃綱要中,明確提出要全面實施國家大數據戰略,助力產業轉型升級和社會治理創新。使命重大之外,它的發展速度也非常驚人。

據中國國家金融信息中心指數研究院發布的報告顯示,2014年,全球大數據市場規模到285億美元,同比增長53.2%。

但是,你真的了解大數據嗎?

01.幽靈般的大數據

大數據就和真愛一樣,真愛就像鬼魂一樣,人們都在談論它,卻從來沒人見過它。

現在,大家談論大數據時,其實也常常如此。麻省理工學院的行為經濟學家,TED的創始人Dan Ariely還有更為傳神的描述:大數據就像十幾歲少年眼中的性行為,每個人都在談論它,但沒人真正知道怎麼做。每個人都以為除了自己之外每個人都在使用它,所以每個人都裝作自己很了解它。

「感覺身邊很多聲音都在談論,但好像目前跟我們公司還無關。如果未來有關的話,也應該是IT部門的事兒吧。」這是很多人的想法。

02.數據說的都是真話嗎?

關於大數據,IBM公司曾經提出過著名的5V理論,即大數據有五大以v字母開頭的特點:Volume(大量)、Velocity(高速)、Variety(多樣性)、Value(價值)和Veracity(真實性)。但網路上面部分機構動發布的包羅萬象的大數據圖表,僅僅是希望藉助這個熱詞的光環來提高自身的影響力,或者實現商業目的。

這些所謂的「大數據」有幾種表現形式:

A:騙子數據,披著大數據的外衣,其實內里是虛假或斷章取義的數據。

這種數據其實經不起推敲,但是極具欺騙性,僅作作為短新聞發布卻很容易被人相信和傳播。

還有的騙子數據,發布者並非為了行騙,只是解讀錯了數據、理解錯了大數據而已,因此給出了錯誤的結論。事實上,很多人以為的大數據,只是大樣本而已。

以最近熱播的《扶搖》為例子,可能會有很多數據網站會有「移動終端觀看《扶搖》成為趨勢」這類似的結論,但事實上真的是如此嗎?不一定。

(1)單一視頻網站的數據樣本並不是大數據,只能說是大量的數據。量雖然大,但是並不能代表整個《扶搖》電視劇,因為還有很多用戶是通過其他渠道觀看節目的。

(2)播放量往往也無法直接代表用戶的觀看行為。

網路播放量的含義是,該節目在網路上只要完成一次緩衝,播放量就+1,這裡並沒有考慮用戶的觀看時間,卻忽略了很多用戶是利用自己的碎片化時間來進行手機移動端的操作。

因此,可能存在這樣一種情況某用戶一天中用手機打開了7次視頻,但總共只觀看了20分鐘,然後回到家,又用電腦打開了一次,卻把剩下的一個小時節目觀看完畢了。這種情況從數據上來看,該用戶在移動端當天的播放量為7而PC端僅為1,但從觀看長度上論,PC端卻時間更長。

因此,只通過播放量的移動端佔比70%這一個數據,其實不能得出網民更多使用移動端觀看《扶搖》的結論。

更重要的是,如果討論國人觀看節目的行為模式是否發生了變化,分析移動端和PC端的數據是不夠的,電視的播放量數據也需要被考慮進去。看不到這兩組數據的對比,就無法得出上述的結論。

B:廢話數據,看起來數據量也很大,但這些數據結論仔細琢磨一下,卻空洞無物。

廢話數據則是指言之無物的數據。

製作廢話數據的人往往將大量的數據圖表放進內容中,令人一眼望去心生畏懼。但仔細一閱讀,卻發現沒有得出任何重要的結論,在大量的數據圖表背後,對方其實什麼也沒說。

C:廣告數據,打著大數據的旗號,其實是為了宣傳自身的產品或品牌。

最具欺騙性的,就要數廣告數據了。很多品牌打著數據分析行業趨勢的旗號,製作分析圖表。但真實目的,只是為了突出他們公司的產品。背後的分析邏輯也是漏洞百出。

大數據概念火了之後,很多企業都喜歡上了借勢大數據的推廣方式。斷章取義地截取和分析數據,然後得出一個對自己有利的結論。有的品牌是誤導消費者,有的則直接數據作假。

03.走向神壇的數據

很多朋友對「大數據」這三個字有著莫名的信任感。感覺數據「大」,說的就是對的,其實不然。

大數據分析和預測,也常常有BUG。比如大數據在預測電影票房上面,就屢屢出現偏差。

某數據搜索平台曾先後預測過姜文導演的《一步之遙》和湯唯主演的《黃金時代》。《一步之遙》被預測票房超過12億,而最終票房5.12億。《黃金時代》預計票房超過2億,最終不到5000萬。

為什麼會出現這種偏差呢?

通過收集整理網路數據,確實可以一定程度上了解網民對某電影的期待值,對該電影的內容題材、導演、演員的好感度等等。

綜合消費者的預期,並且比較同期上映的其他竟品電影的數據。也能得出個大概的票房判斷。但只分析上映前的數據,並不能得出百分百準確的預測。

很多人之所以會去電影院看某部影片,並不是受到宣傳內容的影響,或是對演員或者導演十分熱愛,而是取決於影片上映後身邊看過的朋友、同事對該影片的口碑評價,以及豆瓣電影上的評分。

決定口碑評價的變數就太多、太難以預測了。分析師們必須先預想到所有變數,然後再進行計算。但是,哪會那麼容易呢?

例如《捉妖記1》拍完時,業內人士都看好此片,但誰能預見該劇主演會陷入吸毒醜聞,而這件事給影片帶來影響不言而喻,再專業的分析師也無能為力。

但是對於該機構來說,票房的預測結果無論成敗,過程本身都是非常有益的探索和嘗試。因為,就算在這個案例中並沒有成功,但背後數據分析的演算法和模型卻有可能應用在其他領域,並且取得不錯的成績。

《紙牌屋》火了之後,確實大數據也跟著火了一把,甚至有人用「巫術一般的精準」來形容在這個劇的創作過程中大數據起到的作用。

更準確一點的說法也許是一大數據營銷是《紙牌屋》成功的必要條件,而非充分必要條件。如果要說是大數據成就了紙牌屋,不如說是紙牌屋大大提高了「大數據」的影響力要更貼切些。

原因有三點:

A:數據確實能幫助製作方了解用戶的過往內容偏好,但是用戶曾經喜歡不代表未來也會喜歡。

未來有無數種可能性,人們未來的口味太難預估。到底拍什麼樣的故事,選什麼演員會火,依然需要製片方和導演的經驗、直覺以及賭徒式的決斷。

B:數據能夠幫助製作方實時了解用戶對已播劇集的喜好,從而優化未來的劇集內容。但是數據無法完全代替創意,再好的故事模概如果遇上不好的內容編輯,依然會被埋沒。

C:數據是死的,通過數據得出什麼洞見要靠人。同樣的數據,不同的人可能會得出完全不同的結論。

因此,客觀存在的數據,背後的價值能否被挖掘,以及能被挖掘出多少,也有很大的不確定性。有的人會誤以為掌握海量數據就等於擁有了數據分析的能力了,這是不對的。

其實,就連《紙牌屋》的編劇約翰?曼凱維奇對於中國用戶熱議的「紙牌屋通過大數據大獲成功」的觀點也是很有一些莫名其妙,並堅決否認。

2016年6月,他在接受《北京青年報》採訪時,明確表示「一部電視劇的走紅,關乎導演、演員,更關乎有創意有深度的故事與講述故事的手法,但市場本身充滿了偶然性,並非數據能夠算出。

對於大數據而言,幸運的是大家都發現並認可它的巨大價值,但值得警醒的是,如何辨別數據的真偽,分析其背後的含義裡面所蘊涵的知識還有太多太多等待我們去發掘深入。

— 互動環節 —

Q1:你還有什麼想了解的行業或者知識嗎

— 歡迎大家在評論區或者後台留言 —

本文章整理自互聯網和書籍,如有版權問題請聯繫我們進行處理。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 企業公開課 的精彩文章:

TAG:企業公開課 |