外媒全面深度分析大數據的革命
「大數據」是當前的時髦術語,是技術界用來解決世界上最難處理的問題的全能辦法。這個術語一般用來描述對海量信息進行分析,從而發現規律、收集有價 值的見解和預言複雜問題答案的技巧與科學。它也許聽起來有些乏味,但是從制止恐怖分子,到消除貧困,到拯救地球,對於大數據的鼓吹者來說,沒有什麼問題是 解決不了的。德國企業的大數據有多可怕?點此立即閱讀報告《5個大數據誤區》。
維克托?梅耶—舍恩伯格和肯尼思?丘基爾在有著樸素書名的《大數據:一次將改變我們生活、工作和思考方式的革命》一書中歡呼道:「對社會的好處將是無窮無盡的,因為大數據在一定程度上將解決迫在眉睫的全球問題,如處理氣候變化、根除疾病以及促進善政和經濟發展等。」
只要有足夠多的數據可以處理———不管是你的iPhone上的數據、雜貨店購物狀況、在線約會網站個人簡介或者是整個國家的匿名健康記錄,利用對這 些原始數據進行解碼的計算能力,人們可以獲得數不勝數的有價值的見解。甚至連奧巴馬政府也已經趕上了這股潮流,並在5月9日向企業家、研究人員和公眾「破 天荒」發布了大量「以前難以獲取或難以管理的數據」。
然而,大數據真的完全像人們吹噓的那樣嗎?我們能相信眾多的1和0將能揭示人類行為的隱秘世界嗎?以下是作者對所謂大數據理論的思索。
1.「有了足夠的數據,數字就可以自己說話」
沒門兒。大數據的鼓吹者希望我們相信,在一行行的代碼和龐大資料庫的背後存在著有關人類行為模式的客觀、普遍的有價值的見解,不管是消費者的支出規律、犯罪或恐怖主義行動、健康習慣,還是僱員的生產效率。但是許多大數據的傳道者不願正視其不足。
數字無法自己說話,而數據集———不管它們具有什麼樣的規模———仍然是人類設計的產物。大數據的工具———例如Apache Hadoop軟體框架———並不能使我們擺脫曲解、隔閡和錯誤的成見。
當大數據試圖反映我們所生活的社會化世界時,這些因素變得尤其重要,而我們卻常常會傻乎乎地認為這些結果總是要比人為的意見來得客觀些。偏見和盲區 存在於大數據中,就像它們存在於個人的感覺和經驗中一樣。不過存在一種值得懷疑的信條,即認為數據總是越大越好,而相關性也等同於因果關係。
例如,社交媒體是大數據分析的一個普遍的信息源,那裡無疑有許多信息可以挖掘。我們被告知,推特網的數據顯示人們在離家越遠的時候越快樂,而且在周 四晚上最為沮喪。但是存在許多理由對這些數據的含義提出質疑。首先,我們從皮尤研究中心獲悉,美國上網的成年人中只有16%使用推特網,因而他們絕對不是 一個具有代表性的樣本———與整體人口相比,他們中年輕人和城市人的比例偏多。
此外,我們知道許多推特賬號是被稱作「機器人」程序的自動程序、虛假賬號或是「半機器人」系統(即得到機器人程序輔助的人為控制賬號)。最近的估計 顯示,可能存在多達2000萬個虛假賬號。因此就算我們要想踏入有關如何評估推特網用戶情緒的方法論雷場之前,讓我們先問一下這些情緒究竟是來自真人,還 是來自自動化演算法系統。
2.「大數據將使我們的城市變得更加智能和高效」
在一定程度上是的。大數據可以提供幫助改善我們城市的寶貴見識,但是它對我們的幫助僅此而已。因為數據在生成或採集的過程並不都是平等的,大數據集 存在「信號問題」———即某些民眾和社區被忽略或未得到充分代表,這被稱為數據黑暗地帶或陰影區域。因此大數據在城市規劃中的應用在很大程度上取決於市政 官員對數據及其局限性的了解。
例如,波士頓的StreetBump應用程序是一個比較聰明的以低成本收集信息的途徑。該程序從開車經過路面坑窪處的駕駛員的智能手機上收集數據。 更多類似的應用正在出現。但是如果城市開始依靠僅來自智能手機用戶的信息,那麼這些市民只是一個自我選擇樣本———它必然導致擁有較少智能手機用戶的社區 的數據缺失,這樣的社區人群通常包括了年老和不那麼富有的市民。
儘管波士頓的新城市機械辦公室作出了多項努力來彌補這些潛在的數據缺陷,但不那麼負責的公共官員可能會遺漏這些補救措施,最終會得到不均衡的數據, 從而進一步加劇已有的社會不公。人們只要回顧一下曾經過高估計了年度流感發病率的2012年「谷歌流感趨勢」,就可以認識到依賴有缺陷的大數據可能給公共 服務及公共政策造成的影響。
在網上公開政府部門數據的「開放政府」計劃———如Data.gov網站及「白宮開放政府計劃」———也存在同樣的情況。更多的數據未必會改善政府 的任何功能,包括透明度和問責,除非存在可以使公眾和公共機構保持接觸的機制,更不用說促進政府解釋數據並以足夠的資源作出反應的能力。所有這些都非易 事。事實上,我們身邊還沒有很多技能高超的數據科學家。各大學目前正在爭相定義這一領域、制訂教程和滿足市場需求。
3.「大數據對不同的社會群體不會厚此薄彼」
幾乎不是這樣。對大數據所號稱的客觀性的另一個期待是對於少數群體的歧視將會減少,因為原始數據總是不含社會偏見的,這使得分析可以在整體水平上進 行,從而避免基於群體的歧視。然而,由於大數據能夠作出有關群體不同行為方式的論斷,它們的使用通常恰恰就是為了實現一個目的———即把不同的個體歸入不 同的群體中。例如,最近有一篇論文指科學家聽任自己的種族偏見影響有關基因組的大數據研究。
大數據有可能被用來搞價格歧視,從而引發嚴重的民權擔憂。這種做法在歷史上曾被稱為「劃紅線」。最近,劍橋大學對臉譜網5.8萬個「喜歡」標註進行 的大數據研究被用來預測用戶極其敏感的個人信息,如性取向、種族、宗教和政治觀點、性格特徵、智力水平、快樂與否、成癮藥物使用、父母婚姻狀況、年齡及性 別等。


TAG:創業網事 |
※史上最全大數據分析工具!
※互聯網項目中大數據的深度挖掘和數據變現的分析
※大數據情感分析
※深度學習為分析生物大數據提供了強大的工具
※人工深度加工的增強型數據集對大數據分析的重要性
※引進腫瘤全面基因組測序分析 形成中國腫瘤大數據
※深度解讀:深度學習在IoT大數據和流分析中的應用
※大數據項目在互聯網產業的深度影響和大數據建模概念的關聯分析
※半導體全產業鏈深度分析-總綱
※大數據項目中針對產品的分析各個緯度的拓展
※大數據殺熟現象分析
※全球大數據產業發展分析報告
※大數據架構與數據分析
※深度分析中國經濟現狀和未來——匯率外升內貶
※數據分析大神內功秘籍
※什麼是大數據,國內最大用戶數據公司分析
※大數據環境下的商業營銷與數據分析安全的實施方案
※阿里大數據分析師之大數據的核心價值
※大數據發展的趨勢中面臨的困難和選擇性的市場分析
※大數據分析中不可避免的數據價值定位和數據前瞻定位