當前位置:
首頁 > 最新 > 一文詳解「數據門」,劍橋分析如何「暗箱操控」總統選舉

一文詳解「數據門」,劍橋分析如何「暗箱操控」總統選舉

【獵雲網(微信號:ilieyun)】5月7日報道(編譯:福爾摩望)

從Facebook竊取的8700萬用戶數據是如何成為幫助選舉的廣告活動的?收集的大量數據實際上涉及了什麼?那些數據告訴了我們什麼?

劍橋分析醜聞引發了一個接一個問題,但對許多人來說,該公司的技術專利仍然是一個謎。

8700萬被竊取信息的用戶可能想要知道自己的數據到底被用來做了什麼,所以我又重新採訪了劍橋分析前僱員Christopher Wylie,正是他向媒體曝光了公司的運作問題。根據Wylie的說法,你所需要知道的只是關於數據科學、無聊的富裕女性以及一些有關人類心理學的內容。

他說:「當你構建一個演算法時,你首先需要創建一個訓練集。」也就是說,無論你想要使用奇特的數據科學來發現什麼,你首先需要以老派的方式進行收集。 在使用Facebook點贊情況預測一個人的心理狀況之前,你需要讓幾十萬人來做個性測驗。

所謂的訓練集,就是指Facebook點贊數據集、個性測試以及其他你想要了解的整個數據。最重要的是,它需要包含你的「功能集」,即你想要進行預測的基礎數據。Wylie說:「在這個例子下,它是Facebook數據,但它也可以是文本或者點擊流數據。這些都是你想要用於預測的所有功能。」

另一方面,你需要你的「目標變數」,用Wylie的話來說,就是你試圖預測的東西。所以在這一例子下,是你擁有的個性特徵或政治傾向。

如果你試圖用一件事來預測另一件事,那麼你最好同時考慮這兩者。Wylie說:「如果你想知道功能集中的Facebook點贊情況與個性特徵之間的關係,並把之作為你的目標變數,那麼你需要同時考慮這兩者。」

當Wylie最初於2014年在這一領域開展工作時,Facebook數據就已經成為數據科學領域內相當豐富的資源。個性特徵難以掌握:雖然BuzzFeed測驗可能會有所增加,但是要說服一個人填寫一份120道題的調查問卷,需要相當多的時間。

然而,「相當多」只是相對的。「對於一些人來說,參加調查的動機是財務問題。如果你是學生,或者正在找工作,或者只想賺5美元,那這就是動機。」Wylie表示,實際交付的報酬從2美元到4美元不等。較高的報酬可以獲得難以接觸的團體。非裔美國人是最不喜歡接受調查問卷,但收益最多的人群。「其他人可能只是覺得有趣,或者感到無聊。所以我們總是會過度抽樣富裕的白人女性。因為如果你住在漢普頓,下午又無事可做,那麼你可以填寫消費者調查問卷。」

個性調查使用這120個問題來按照「五因素」模型來描繪受調查者,這五個因素包括:經驗型、自覺型、外向型、爽快型和神經質型。

這種模型將個性特徵聚合為跨文化和跨時代的差異。舉例來說,那些自稱為「大聲」的人可能也會將自己形容為「合群」。如果他們今年同意這種說法,那麼可能明年也會一樣。這種聚合可能會在每種語言的回復中顯現出來。如果一個人對此產生了負面反應,那麼他們和那些產生積極反應的人之間會有顯著的差異。

Wylie表示,這種模型的特點對於分析個人來說是非常有用的,但與一些主流的心理學模型,比如Myers-Briggs系統正好相反。在調查的測試階段,Facebook幾乎沒有參與進來。調查會提供在商業數據研究網站上,首先是亞馬遜的Mechanical Turk平台,然後是一家名為Qualtrics的專業運營商。

Facebook只在調查的最後階段才會發揮作用。為了獲得相應的調查報酬,用戶需要登錄該網站,並授權給劍橋大學學者Aleksandr Kogan開發的調查應用,正是這一應用給Robert Mercer資助的劍橋分析公司提供了完美進入這一領域的方式。(Kogan堅持表示,劍橋分析公司向他保證他們會合適的使用數據,並認為自己是Facebook和劍橋分析公司的替罪羊。)

對於調查用戶來說,這個過程很快:「你點擊該應用,繼續,然後它會給你支付代碼。」但是在這幾秒鐘內發生了兩件非常重要的事情。第一,由於用戶剛剛登陸了該網站,這一應用收集了儘可能多的數據。如果心理狀況是目標變數,那麼Facebook數據就是「功能集」:數據科學家需要使用這些信息來準確預測他們真正想知道的特徵。

它還提供了真實姓名,位置和聯繫方式等個人身份信息,這些信息在調查網站上是無法看到的。「這意味著你可以拿著這份清單,將之與選舉登記冊的自然人聯繫起來。」

第二,該應用對安裝用戶的所有朋友做了相同的事情。原本參與調查的只有數十萬人,但突然間,人數就擴大到了百萬人。

這就是最終轉型的最終目標。你如何將幾十萬個人資料轉化為幾百萬?通過大量的計算能力,以及巨大的可能性矩陣。Wylie說:「即使你的樣本量是30萬人,但實際上,你的功能集會超過1億人。」數據集中的每一個點贊都會成為這一巨大矩陣中的每一欄。「即使整個集合中只有一個實例,它仍然是一個功能。」

「然後所有的數據被放入一個整體模型中,」Wylie說。「現在,你可以對不同的家庭使用不同的機器學習方法,因為他們每個人都會有各自的長處和短處。然後他們進行投票,然後合併結果並得出結論。「這就是數據科學變成數據藝術的地方:每種方法對整體模型的確切輸入並不是一成不變的,並沒有所謂的正確方式。在學術界,它有時被稱為「由研究生訓練」,唯一要做的就是通過艱苦的嘗試和錯誤向前邁進。顯然,它運行的還不錯,最後Wylie說:「我們構建了253個演算法,這意味著每個配置文件記錄有253個預測。」目標實現了:這種模型可以有效地獲取Facebook點贊的主題,然後填入電子表格的其他欄目,以預測他們的個性、政治偏好等等。

截至2014年8月底,Wylie首次取得了成功:來自美國11個州的210萬份檔案記錄,這些記錄將被用於溝通和完善Mercer與Steve Bannon資助的共和黨競選活動。「這個數字代表的是不僅是那些匹配Facebook數據、選民數據和消費者數據的人,而且還有額外的253個預測。」

這253種預測是劍橋分析公司聲稱它可以為其客戶提供的「秘訣」。通過Facebook,廣告客戶只能進行廣泛的人口統計,以及較窄的由演算法決定的類別,比如你是否喜歡爵士樂,你喜歡的球隊是什麼。但是擁有了這253種進一步的預測,劍橋分析公司能夠獲得別人所沒有的信息:一個神經質的、外向的、爽快的民主黨人,可能會被投放更為激進的信息。這些信息都是為了壓制他們的投票意圖,即使是相同的信息,也會產生相反的效果。

Wylie舉了一個有關候選人是否支持就業的例子。經濟中就業是一個很好的例子,因為這是毫無意義的信息。每個人都會在經濟中就業。因此,從從這個意義上說,只用『我支持經濟就業』或者『我有一個計劃來解決就業問題』,你是無法將自己與對手區別開來的。

「但我們發現的一個事實是,不同的人會在這一問題上附上與自己傾向相關的不同動機和價值觀。」

也就是說,同一件事可以不同的語言,包裝成不同的意思,從而讓候選人在感情側面上產生與選民的聯繫。「如果你正在與一個有良心的人交談,那麼你可以談論成功的機會和工作帶給你的責任。如果是一個開放的人,那麼你可以談論成長的機會。與神經質的人交談,你需要強調它基於我家人的安全感。」

由於現代競選活動的網路化特徵,理論上這些信息可以同時傳遞給不同的群體。這些信息甚至可以實現自動化,通過演算法在詞庫中找到完美組合的辭彙來贏得不同人群的支持。

當然,這並不全是好事。一個用於提振右翼投票率的消息攻擊了同性婚姻。「這很有趣,因為這是恐同症的體現,但創造它的卻是一個同性戀團體,」Wylie說。「這條消息是針對有良知的人,上面印有一個字典,並寫著『捍衛婚姻』。對於一個有良知的人來說,這條消息是非常引人注目的:字典是秩序的源泉,有良心的人更願意遵循秩序。」

在這個時刻,心理定位進入了狗哨運動的領域。例如,在圍繞移民的競選活動中,牆的圖像被證明是非常有效的。「有良知的人喜歡秩序,所以對他們來說,解決移民問題應該是有條不紊的,而一面牆則體現了這一點。你可以創建對一些人沒有意義,但對其他人有很大意義的消息。如果你展示這樣的形象,有些人不會明白那是關於移民的問題,而其他人會立即想到這個。」對Wylie來說,實際問題只不過是政治中的「白色吐司」,等待著真正的味道。「沒有人想要普通的白麵包。」他認為數據工作就是了解特定的味道或香料,讓食物變得吸引人。

雖然這是一個非常複雜的瞄準機器,但人們對劍橋分析的心理測量模型仍然存在著疑問。當Kogan在4月份向議會提供證據時,他表示,將個性測量分數應用到個人身上,是幾乎沒有好的結果。也許這一點足以說明問題。即使個人被正確地標記了五個因素,但基於此投放的廣告,真的是利用了一個人對秩序的偏好,還是對其他事物的恐懼?

顯然這裡面還有其他成分。比如2012年申請的專利《通過社交網路系統通信確定用戶個性特徵》。「存儲的個性特徵可能被用作廣告商的定位標準,以增加用戶與投放廣告積極互動的可能性,」該專利上寫道。這份專利的作者是?正是Facebook自己。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 獵雲網 的精彩文章:

愛音樂的李文超:能力要配得上財富
「中國單車團滅案」正在美國重演,融資過億美元的Bird能否殺出重圍?

TAG:獵雲網 |