當前位置:
首頁 > 知識 > 隱私已死:Facebook數據「泄露」事件解讀

隱私已死:Facebook數據「泄露」事件解讀

圖源:ELLEN PORTEUS

本次事件的核心可總結為以下幾點:

第一,Facebook和劍橋分析(Cambridge Analytica)所導致的這次事件,其真正靈感來源自Kosinski和Stillwell的研究,而始作俑者Kogan僅僅是一個抄襲者和操作者。

第二,Facebook並沒有被黑客入侵,也不存在數據」泄露「或」偷盜「一說,所有的數據都是用戶自己同意出讓的(隱私其實很廉價)。

第三,這個事件唯一違法的部分是Kogan把用研究名義取得的數據轉手給了劍橋分析,用作他途。

第四,根據現有信息,我們無法確定利用這五千萬大數據所構建的模型是不是真正影響了美國大選和英國脫歐,作為因果推斷的證據不足。只要我們繼續在網路上留下電子足跡,我們的隱私就會繼續被挖掘和用作他途,刪除Facebook賬號並不能解決今天的隱私危機。

撰文 | 沈粹華(加州大學戴維斯分校傳播系)

責編 | 趙亞傑

Facebook和劍橋分析(Cambridge Analytica)數據泄露醜聞席捲了全球的社交媒體。在《衛報》和《紐約時報》的報道上,居然看到了我的兩位合作者的名字:Michal Kosinski和David Stillwell, 可以說是相當魔幻了。這兩位學者都是心理學家。Kosinski現在在斯坦福商學院教書,Stillwell在劍橋商學院教書。雖然他們沒有直接參与這次Facebook數據泄露事件,但稱他們為始作俑者,應不為過。

1

2

就樣本量而言,myPersonality數據集遠遠小於這次Facebook和劍橋分析所造成的數據泄露的數量(據說有五千萬之多)。但對於社會科學研究者,這個數據集無疑是一個金礦。這是為什麼呢?傳統的定量社會科學研究,收集數據的方法很有限,主要是實驗和問卷兩種。實驗很難規模化,能達到幾百人就相當不容易了。問卷方法也許可以收集幾千人甚至上萬人的數據,但是只能知道人們當時是怎麼說的/想的(態度),而不是怎麼做的(行為)。 填過問卷的人都知道,怎麼說和怎麼做經常是兩回事。但myPersonality數據集把性格量表和用戶的Facebook行為結合在了一起。而且樣本量之大,遠遠超過了傳統定量研究。(眾所周知,樣本量對社科的結論可信度有很大的影響,有興趣的讀者可以關注一下心理學界最近的實驗重複危機和關於p值的討論)

3

2008年,Michal Kosinski進入了劍橋大學,在心理測量中心攻讀碩士。他和Stillwell帶領了一個團隊,用myPersonality這個金礦,在《美國國家科學院院刊》上發表了兩篇極有影響的文章。第一篇文章發表於2013年,題目是」Private traits and attributes are predictable from digital records of human behavior」 (個人性格特質可以用行為數據來預測)。 這篇論文的大意是,他們用用戶的Facebook行為數據(主要是Facebook上點贊)建立模型,來預測用戶的性格和其他特質(比如性別,性取向,黨派),並且得到比較高的準確率。比如,贊Hello Kitty的人較神經質,更可能支持民主黨而非共和黨。第二篇文章發表於2015年,題目是「Computer-based personality judgments are more accurate than those made by humans」(基於電子足跡的演算法模型比你親近的人更了解你)。這篇的大意是,運用他們之前建立的模型來預測你的性格,竟然比你好友的預測還準確。

4

Kosinski和Stillwell的研究成果在當時取得了轟動,有兩大原因。

第一,大家意識到海量行為數據建模能夠精準地預測用戶性別、年齡、性取向、政治傾向、購買意願……之前不管是營銷公司,廣告公司,還是公關,民調機構,要了解用戶,只能辛辛苦苦做訪談,問卷,焦點小組。這些方法不但勞民傷財,準確率也不夠高。電子足跡不但精準,而且俯拾皆是,只要是上網,每個人都會有自己的電子足跡。這是也大數據結合人工智慧的一次勝利。過去的幾十年(弱)人工智慧已經發展到了一定高度,但是演算法再先進,也遵循GIGO(Garbage in, garbage out)原則:如果輸入(數據)精度不夠,輸出(預測)也不會準確。Kosinski和Stillwell所用的演算法並不高深,但海量的電子足跡充分發揮了演算法的優勢,因此取得了精準程度很高的用戶心理畫像。

第二,他們的研究啟發了很多人,原來科研還可以這麼做,原來可以通過第三方app獲取Facebook的用戶數據。要知道Facebook的海量行為數據極少對外界開放。雖然在Facebook上可以精準投放廣告給用戶,但是沒有靠譜的行為模型做支撐,廣告彷彿大炮打蒼蠅,對絕大部分的受眾都是打水漂。但是有了myPersonality這樣的先例,為大家提供了一個嶄新的思路,那就是通過第三方小程序以獲取Facebook的行為數據。

5

毫無意外,劍橋分析(Cambridge Analytica)找上了Kosinski和Stillwell。雖然叫劍橋,這家公司和劍橋大學沒有任何關係。值得一提的是,這家公司的背後金主是Robert Mercer,他為英國脫歐和特朗普2016年大選做出了貢獻。而Mercer的另一重身份是伊利諾伊大學計算機系博士,曾經的研究課題就是人工智慧。但劍橋分析並沒有買到Kosinski和Stillwell的數據。根據《衛報》的報道,問題出在價格上。Kosinski和Stillwell要價50萬美金,最終導致談判流產。(這一點頗有爭議,因為劍橋分析在之後和Kogan的合作時付出了更高的價格,花了近一百萬美元。)

Kosinski和Stillwell的退出,給別人創造了機會。劍橋分析最後和同在劍橋大學心理系擔任的講師Aleksandr Kogan達成了協議(到底是怎麼達成的協議,現在眾說紛紜。Kogan本人說是劍橋分析找上門來;而劍橋分析卻說是Kogan毛遂自薦)。在劍橋分析的資助下,Kogan直接抄襲了Kosinski和Stillwell的研究設計,也寫了一個專做心理測試Facebook第三方小程序:this is your digital life (據英國衛報報道,Kosinski和Stillwell早在2014年就舉報Kogan侵犯了他們的知識產權,而Kogan則認為已發表的知識產權屬於公眾領域,誰都可以使用)。

在Mechaincal Turk和其他網路平台上,Kogan以五美元的酬金,吸引了27萬用戶答題並出讓自己的Facebook數據。五美元是什麼概念呢?Mechanical Turk是亞馬遜旗下的兼職網站,上面有很多小任務,完成一項任務會有一定的報酬,但是任務的價格都非常低廉,耗時十分鐘的任務的報酬在一角到一元美金不等。相較之下,五美元不亞於是一個天文數字。所以這樣一個小程序能夠吸引27萬人參加測試,也就不奇怪了。注意,所有的參加者都是心甘情願地讓出他們的Facebook行為數據的。Facebook並沒有被黑客入侵,也沒有所謂的數據「泄露」或是「偷盜」。因為在當時,Facebook小程序在用戶同意的情況下收集數據是完全合法的。

那麼,所有的報道中都提到了五千萬用戶,又是從哪裡來的呢?因為Kogan的程序不僅收集了用戶本人的數據(以五美元做交換),也收集了用戶的Facebook好友數據。一個用戶可能有幾百個好友,所以27萬個「種子」最後就變成了五千萬用戶。

這裡有一個很有意思的問題,就是數據的歸屬問題。張三有個朋友叫李四,這個信息是張三個人的信息,還是李四的信息?張三為了五塊錢出賣自己的數據(其中包括李四的姓名,性別,年齡等等),需不需要李四的同意?很多學者認為,在社交媒體上,隱私不再是一個個人的決定,而已經演變成一個網路共同的決定。但在當時,收集用戶好友的基本信息是合乎Facebook規定的。不僅僅Kogan的小程序這麼干,其他數十萬個Facebook小程序都這麼干。比如糖果傳奇(Candy Crush)這樣的小遊戲,就靠好友的網路效應進行病毒式傳播。一旦張三裝了糖果傳奇,遊戲就可以通知李四:你的好友張三玩的很嗨,你要不要也試試?2015年,Facebook調整了隱私設置,用戶不再能夠輕易地和小程序「分享」自己的好友信息。這一改變還遭到許多Facebook 小程序開發者的詬病。

6

到了這裡,整件事情都還是合理合法的。下一步則不然。

Kogan本人也是心理學家,他設計這個小程序時聲稱要研究社交媒體和心理健康。Facebook也是基於這個研究目的,才同意了他收集了五千萬用戶的數據。但不久以後,Kogan就通過自己開的公司GSR,把這個龐大的數據集轉手給了劍橋分析,其用途已經不屬於學術研究。這一轉手違背了Facebook的安全協議,也違背了小程序本身和用戶之間的協議,是整個事件違法的部分。

但也有人說,這時的數據集屬於」二手數據「(secondary data),在數據的監管上屬於灰色區域。Kogan當時和Facebook的用戶簽訂協議時,明確指出收集數據是供研究使用,並且他也的確做了研究,那麼數據完成了它的使命之後,是否應該直接刪檔(這是Facebook對Kogan的要求)?這時的數據到底歸誰所有?(歐美多數的大學和研究機構在做人類相關研究時(human subjects),都會專門設立一個委員會(Institutional Review Board,IRB)來監管類似的倫理問題。就筆者個人的經驗,IRB對二手數據一般都網開一面。至少在學術界,因為A而收集的數據後來用作B用途並不少見。很多數據集都是開放下載的,比如斯坦福的SNAP, Data verse等等。前文提到的myPersonality數據集,也對學術界全盤開放。)

之後的故事大家都知道了。

劍橋分析運用這個數據量超過五千萬的超大規模的用戶數據建立模型,其目的就是找出符合某種特定心理畫像的選民(低開放心性,高情緒不穩定性)。在美國「贏者通吃」的大選制度下,絕大部分的選票對選舉結果都沒有影響(比如說深紅州和深藍州的選票)。還有一部分選票,無法被廣告左右(比如民主黨或者共和黨的死忠粉)。能左右選舉結果,且可以被廣告影響的選票數量微乎其微。但是一旦有了一個特定的心理畫像,劍橋分析就可以在茫茫人海中找出他們要的這一小部分選民,然後集中精力給這一小部分選民施加影響就可以了。他們買了大量Facebook廣告對這些人進行狂轟濫炸,進行所謂的「信息戰爭」(information warfare),以達到操縱大選的目的。

7

那麼,這五千萬數據和模型,真的如劍橋分析所說,操縱了2016年美國大選,影響了英國脫歐嗎?對於這個問題,我們可能永遠也不會知道答案。不管媒體如何渲染報道,科學上的因果推定有嚴格的標準。當因變數X存在時,我們觀察到了結果Y,無法做出X導致Y的推斷。就像一個小朋友愛吃冰激淋,後來發現了蛀牙,很難說冰激淋直接導致了蛀牙(可能這個小朋友同時愛吃糖,不刷牙,或者其他原因導致蛀牙)。只有當我們能直接對照兩個一模一樣的平行宇宙,在一個宇宙里這個小朋友愛吃冰激淋,另一個宇宙里不吃,然後比較結果,才能得出最令人信服的因果推斷。

可惜,這樣的平行宇宙並不存在。所以,劍橋分析究竟有沒有影響大選結果,影響有多大,也只能永遠存疑了,這就是整個證據鏈里最為薄弱的一環。就連Kogan本人,也對此不置可否。一位教授直接發信去問Kogan,劍橋分析所用的模型究竟有多精準。Kogan的回答是,根據Facebook大數據建模預測出來的選民性格和選民的實際性格(根據心理學量表)僅有30%的相關性,而這個準確率比之前Kosinski和Stillwell的模型所給出的準確率還要低。

不管Kogan的回答是否可信,即使他的模型有效,能找出符合特定心理畫像的選民。但是用假信息廣告轟炸符合這個心理畫像(低開放性,高情緒不穩定性)的選民究竟有沒有作用?是不是真的讓他們選擇了特朗普?永遠都只是一個未知數。

8

事件發生以後,Facebook的股價大跌,市值蒸發超過700億美元。另有很多人發起了刪除Facebook賬號的行動。但是這一切現象都只是表面,並不需要當真。因為刪除Facebook賬號並不會從根本上解決今天我們所面臨的隱私危機,原因如下:

第一,Facebook有超過20億活躍賬號。也許Facebook已經不是年輕一代最愛用的app了,但它依然是全球最為廣泛使用的社交媒體平台,擁有全球最多最廣最全的行為數據集。

第二,刪除了Facebook,我們還有Google,Twitter,Snapchat,Netflix,微博,微信,淘寶,今日頭條等各種互聯網接入商……我們的數據不給Facebook,也會給別的網路平台。當用戶數據變成所有平台核心競爭力的今天,劍橋分析所導致的事件只不過是眾多類似事件中的冰山一角罷了。

筆者給學生上社交媒體課的時候,都要問一問大家:怎樣操作才能保證自己的裸照不被泄露?正確答案是,不要拍裸照。只可惜,這個答案在今天已經不現實了。我們在互聯網上做任何事情都會留下電子足跡。買東西,叫外賣,看劇,打車,乘坐高鐵和飛機,上各種社交平台……當一切都電子化,所有的信息都有電子存檔,我們的足跡也一覽無遺。大數據結合人工智慧,可以根據這些海量足跡建模型,賣給我們東西,灌輸給我們思想,改變我們的行為,這一切早已發生,並不會因為一個劍橋分析的爆料就有任何改變。

從前意義上的「隱私」早已死去。如今我們尚能做的,也許就是更好管理自己的隱私,呼籲監管,要求各平台對數據的存儲,建模和買賣,更加透明。再大膽預測一下,也許某一天,「數據煙幕」公司會出現,為客戶建虛假賬號,留下虛假電子足跡,也許這才是保護隱私的新方法。

製版編輯:黃玉瑩 |

本頁刊發內容未經書面許可禁止轉載及使用

公眾號、報刊等轉載請聯繫授權

知識分子為更好的智趣生活 ID:The-Intellectual


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 知識分子 的精彩文章:

36個月:人生的第一句話怎樣說出來
年定價超11萬美元,抗HIV新葯獲FDA批准

TAG:知識分子 |