當前位置:
首頁 > 天下 > 小心,每一個巨大數據集的背後都隱藏著「犯罪」!

小心,每一個巨大數據集的背後都隱藏著「犯罪」!

過去,國家是各種數據資源的主要提供者。如今,隨著信息技術的迅猛發展,諸如谷歌、臉書和蘋果這樣的大型數據公司擁有比政府更加優質也更不容易獲取的數據資源。這一數據新領域正以一種新方式重塑社會科學研究。當私有企業持有學者們研究所需的數據時,社會科學研究將會受到何種影響?2017年12月19日,美國《高等教育紀事報》刊發喬治華盛頓大學政治學教授亨利·法雷爾(Henry Farrell)的文章,探討了這一問題。

原文:《大型數據公司如何影響社科研究》

作者:趙紀萍/編譯

社科研究面臨新變化

社交媒體滲透的程度有多深?社交媒體對公眾輿論和選民行為的影響力有多大?要回答這些問題,學者們需要數據。而如何獲取相關數據又成了一個新的問題。當學者們對某個問題產生了不同意見,通常情況下,數據結果能夠解決這種分歧。但他們所面臨的問題是,有些時候幾乎找不到公開的數據。為了進行研究,學者們往往必須使用一些非傳統的分析工具來搜索需要的資料和數據。但這種方式得到的數據卻存在難以重複獲取的弊端。

社會科學的政治和實踐研究領域已經發生了巨大變化。大型數據公司掌握著有關人們社交和政治行為的關鍵信息。而它們極不願意向外界提供這些數據,除非簽署保密協議,即如果公司對數據信息使用的方式持有異議,它有權提起訴訟。

這對於研究者來說是一個巨大的變化。在過去,國家是重要的研究數據來源,這些數據涉及公民、經濟和社會等方面。他們會收集大量的信息,例如有關個人或公司的統計數據。此外,國家機構還會資助社會科學項目的數據收集,例如美國國家科學基金會數十年來對美國國家選舉研究的支持。

因此,研究數據的訪問策略更側重於國家。雖然有時候,無論是出於保護隱私還是控制敏感信息,國家並不願意提供信息,但在很大程度上,它的確提供了訪問許可權,而且學者們可以在數據更新陷入停滯時對其施加壓力。在這種情況下,學者們能夠利用共同的數據資源,而且通常擁有相對平等的訪問許可權。雖然這也有不利的一面,即學者們要研究的問題受到他們所獲取數據的影響,但好處是這種研究是可以複製的。學者們之間的意見分歧就可以在平等的條件下得以解決。

如今,我們正在進入社會科學發展的新時代。諸如谷歌、臉書和蘋果這樣的大型數據公司往往擁有比政府更加優質的數據資源,而且這些數據資源也更不容易獲取。這一個人數據的新領域正在以一種還不為人所熟知的方式重塑著社會科學研究。

數據訪問限制前景堪憂

在這一新領域,數據訪問還處於叢林狀態,沒有通用規則。在向社會科學家提供公共數據訪問時,大型數據公司有自己的政策。它們通常是同個人研究者或是研究小組建立聯繫,提供數據訪問服務,而這些研究者的工作可能對公司很有價值。這類合作通常要遵循保密協議或其他一些規則。研究人員如何使用數據以及如何發表研究成果,都要受到規則限制。

這將對學者們的學術生涯產生重大影響。那些與優勢公司建立起聯繫的學者往往可以獲得成功,而那些沒有建立起這種聯繫的學者若要完成他們的研究,則必須更加具有創造性。雖然有時候,通過像谷歌趨勢這類工具,他們可以獲得對聚合數據的粗略訪問,但以這些方式收集到的數據可能並不適用於具體研究目的。

這並不是說直接來自此類大公司的數據是完美的。每一個巨大數據集的背後都隱藏著一個巨大的「犯罪」。幾乎所有的社會科學數據都有偏差,這是由收集數據的假設和方法所造成的。就連國家構建的數據集,在其鼎盛時期都依然存在缺陷,但這並不妨礙其繼續存在。因為隨著專業標準提高,這些缺陷會更加容易被人理解,也更加透明。而來自私有企業的新形式數據則存在更多問題。收集這些數據主要是用於商業而非學術研究,並且這些數據通常是通過機器學習技術來收集的,其分類即使對於它們的創造者來說可能都是含糊不清的。

綜合來看,這些因素意味著很難解釋此類數據。例如,人們在臉書上的行為變化在多大程度上是由社會的根本變化所驅動的?又在多大程度上是由臉書演算法的改變所驅動的?除非是在特定的情況下,否則這些問題都很難回答。

數據訪問限制帶來了進一步的挑戰。保密協議不僅阻礙了研究人員共享數據,而且也阻止了他們提供有關如何收集和處理數據的寶貴信息。這些因素綜合在一起,意味著我們即將見證再現性運動與專有數據新世界之間的衝突和碰撞。再現性運動已經在社會科學領域取得了進展,而專有數據新世界卻削弱了再現性,因為這些信息不允許他人訪問,並且如果信息不具商業價值,就將很容易被摧毀。

更令人擔憂的是,企業對數據的控制可能會導致兩種選擇偏差。其一,如果企業有發言權,那麼不討喜的研究結果很可能不會被發表。例如,優步資助學者就其服務是否比標準計程車更快更便宜進行研究。雖然研究顯示優步確實更快速也更便宜,但優步堅持對是否發布研究結果保有控制權。當企業保有這類控制權,它們就會有強烈的動機去限制學者只發布對它們有益的信息。隨著時間的推移,這將導致對公共可用性研究的傾斜。

另外,如果學者們開始依賴私人企業獲取數據,那麼整個學術領域可能受到普遍的選擇偏見影響。某些研究課題和方法將受到青睞,而另一些則會被冷落。比如,臉書和學者合作的一個項目顯示,臉書推送的內容可以提高人們的投票意願。但如果進一步詢問臉書的新聞布局如何影響人們的政治行為,就屬於敏感問題了。臉書很可能會對政治產生重大影響,但它並沒有意願鼓勵學者利用其數據資源對這些影響進行研究,因此整個研究可能最終流產。

數據政治的倫理思考

利用私人數據公司的數據進行研究還涉及到倫理問題。這類公司並不受學術規範約束,有可能做出有悖道德的決策。比如,他們可能把整個國家的媒體生態系統視為實驗室中的小鼠。如果他們有辦法使很多用戶像小鼠那樣在社交媒體上穿越具有傾斜性的信息迷宮,並觀察這些人所選取的路徑,很多學者是經不起這種研究數據的誘惑的。在一個由私人公司數據資源佔主導的世界裡,學者們的研究工作很容易超越普遍的道德約束。隨著對私人公司數據資源使用的增長,這種趨勢將會延續下去。

這已不再僅僅是學術問題。數據政治正在發生意義重大的變化。很多國會工作人員發現,在一個黑盒子里進行如此多與國家相關的對話已經不合時宜。這些正受到越來越多監視的服務機構,比如推特,已努力變得更加開放,但是在開放數據訪問許可權方面卻依然反覆無常。

這可能會導致一種兩敗俱傷的局面,但是,還有其他辦法可以避免這種局面。社會數據領域的大玩家們可以通過重塑與學術界的關係來減輕他們的政治壓力。如果他們要承擔更多的公共責任,最好是選擇與那些技術能力強的學者建立聯繫,在一定的規則下開放私有公司的數據。

這些公司可以向一個獨立學術平台提供數據,並在明確的倫理規則下實施。該平台將會對社交媒體問題進行研究並發布研究結果,還將授權可信賴的研究人員訪問數據資源,同時還可以與政府進行合作,以打擊數據濫用的行為。這樣就既能夠提供監督,同時又不需要公司犧牲其商業模式,還有助於更好地解決跨部門安全問題,將學術研究和大數據能力結合起來,以追求重要的社會和政治目標。

幾乎所有商業公司都不願意與競爭對手分享數據資源,因為這些數據通常是它們商業模式的核心。但如果臉書、推特和谷歌這樣的大型數據公司仍只把私有數據看作是一個短期的公共關係危機,而不是一個可能的生存危機,那將是短視的。

文章原載於社會科學報第1597期第7版,轉載請註明出處,文中內容僅代表作者觀點,不代表本報立場。

-大家都在看-


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 社會科學報 的精彩文章:

技術的大船,人類說翻就翻?
教育部:2020年前取消各類特長生招生,你家孩子是嗎?

TAG:社會科學報 |