「數據挖掘演算法助川普大選獲勝」的真相！

知識 03-20

最新消息，AI可能在特朗普競選中功不可沒。這個周末，一個源自Facebook的官方「封殺」決定，內情迅速震驚了整個美利堅。

3月17日，Facebook宣布暫時封殺兩家裙帶機構。一個叫Strategic Communication Laboratories（SCL），主要為全球官方機構提供數據分析和戰略決策。另一個是Cambridge Analytica，直譯為劍橋分析公司，該組織以其服務對象知名。作為特朗普的數據運營團隊，他們在2016年成功助力特朗普上任。FB史上最大規模數據「泄露」.

美東時間2018/3/18凌晨00：46在臉書網站看到的有關聲明內容截圖

在Facebook對外公布的封殺說明中，稱SCL和劍橋分析公司通過關聯FB登陸的第三方應用，竊取了27萬Facebook用戶的個人信息，並稱這些信息被違規轉手使用。

據估算，由於應用程序下載者還被收集了好友信息，導致泄露的資料庫中擁有5000萬人規模。這是Facebook史上最大規模的數據「泄露」。在衛報報道中，這個資料庫中包含11個州的200萬個匹配文件，所謂匹配，就是個人信息與選舉登記簿匹配。而整體5000萬的數據檔案，佔據Facebook北美活躍用戶的1/3，其中差不多1/4都可能是美國大選中的選民。

圖：CA公司CEO Nix

作為一名有多年專業工作經驗的統計學博士，我不懷疑CA在川普勝選中起到了作用。但我一直認為，川普勝在統計學方法先進的說法經不起推敲。因為統計方法再神奇，也不能離開數據無中生有。有意義的結論只有在擁有相當數量的原始數據時方才可能。結論越細緻，所要求的數據量就越大。先進的統計方法只有和足夠大量的數據結合才能展現出威力，否則就是巧婦難為無米之炊。而一旦有了海量數據，經常並不需要什麼格外時髦的統計學工具，也很容易發現有關結論。

所以，如果CA的數據研究真的對川普勝利起到相當的作用，那不太可能是因為他們有了什麼神奇的統計方法，而多半是因為他們擁有了別人沒有的大量數據。問題只在於，這些數據是如何獲得的？

今天美國紐約時報與英國衛報同時發表的兩篇長篇調查報告初步揭示了真相：CA公司的數據，來自於對共計五千萬美國臉書用戶信息的非法盜取。這次數據盜取由川普團隊和俄國政府勾結完成，而這一事件之所以能夠發生、並直到今天才被揭露，則源於臉書公司對用戶數據安全管理高度不負責任所造成的重大疏忽——以及事情發生後的竭力隱瞞。

根據紐約時報和衛報，為川普團隊競選服務的CA數據公司(「劍橋分析」)用於建模所使用的五千萬臉書用戶詳細資料均屬盜取。其中，又有三千萬人的資料詳細到可以與其他公共資料如選民登記表建立對應（例如包括用戶的詳細地址）。而在這五千萬用戶中，真正同意有關方面進行臉書數據搜集的僅有27萬人，而且所同意的只是將數據用於「學術目的」。

圖：支持CA公司的川普金主，華爾街大佬Mercer及其女。其女為CA公司董事會成員。

五千萬（或三千萬）是個極高的數字。在2016年大選中，總投票人數約為1.3億人。川普獲得的總票數其實比希拉里還少三百萬，但只是因為在幾個人口較多的關鍵州以極其微弱優勢險勝才勉強上位。例如，川普在佛羅里達比希拉里多約10萬票（或總票數1%），在賓夕法尼亞多5萬票（或總票數0.7%），在威斯康星多2萬票（或總票數0.8%），在密歇根多一萬票（或總票數0.2%），可見差距之接近。完全有理由認為，如果川普團隊沒有拿到這批海量信息，大選的結果就會改寫。

按照衛報和紐約時報的報道，這一數據盜取的具體做法是：先廣泛發布廣告，以「有償心理學研究」為名，用少量金錢為獎勵，誘導美國用戶下載應用軟體在亞馬遜旗下網站「Mechanical Turk」和「Qualtrics」上參加問卷調查。在問卷調查末尾，再請求用戶同意該軟體查看其臉書資料。但這些用戶不知道的是，他們點擊「同意」之後，這一應用軟體不但搜集了他們本人信息，還進一步順藤摸瓜搜集了從他們臉書頁面能看到的其所有臉書好友信息。而這些人的臉書好友則對其信息被搜集毫不知情。利用這種方法，27萬名參與「問卷調查」的「種子用戶」變成了特洛伊木馬，導致了五千萬用戶信息泄露。

這種做法之所以能夠得逞，來自於臉書本身的技術和管理漏洞。臉書僅僅規定，應用軟體要抓取某位用戶的臉書內容需要取得該用戶本人的同意。但一旦獲得同意，則有關軟體立即可以看到該用戶臉書頁面上所有內容，而這些內容又包括了該用戶所有好友的詳細個人信息，以及他們在臉書上發帖，閱讀，點贊的所有情況。看起來，臉書並未在知情同意條款上區分某位臉書用戶自己發布的信息，和並非他本人發布，但是從其頁面上能看到的他人所發布信息這二者的巨大不同。這一漏洞導致了海量用戶信息在自己不知情的情況下泄露。

俄國政府參與這一事件可以說鐵證如山。實際上，真正執行臉書數據抓取操作的是一位名叫Kogan的劍橋大學心理學系高級研究員。Kogan博士在劍橋的同事們所不知道的是，Kogan同時又是俄國彼得堡大學副教授，並從俄國政府領取項目經費，以研究「社交網路中的壓力與心理健康」項目。CA公司後來用於大選的「心理學建模」方法，正是此人在劍橋大學所參與的課題組所發明。該課題組掌握有對facebook用戶信息抓取並進行建模的技術。所以川普金主、華爾街大佬Mercer所支持CA公司一開始派人（所派之人正是後來對衛報爆料的Wylie）與這一課題組聯繫並試圖建立合作關係。但該課題組負責人拒絕了這一要求。

圖：俄國彼得堡大學副教授，英國劍橋大學高級研究員Kogan。

在此之後，了解有關技術的Kogan博士單獨與CA接洽達成合作意向。Kogan成立了名為GSR的公司，共投入來自CA的八百萬美元資金，以「學術研究」為名義開始挖掘臉書用戶數據。

與俄國的聯繫還遠遠不止於此。衛報報道，在2014年7月，正在大肆挖掘臉書用戶數據的CA公司開始了與俄國石油寡頭公司Lukoil一系列看似莫名其妙的聯絡。Lukoil要求CA向他們介紹利用數據對選民進行「微觀定位」的助選方法與石油業消費者的關係。並提出，有關信息會由該公司CEO本人過目。而該CEO正是與普京聯繫密切的Vagit Alekperov。

看看衛報拿到的CA應要求在2014年夏天發給Lukoil的一份報告就會恍然大悟。在這份報告中完全沒有提及「石油業消費者」，而全部在描述從臉書抓取的有關數據特點、建模方法、以及最重要的——如何利用這批數據干擾選舉。這份報告的第一頁講的就是CA公司在所參與的2007年奈及利亞大選中進行「謠言競選」的經驗——例如廣泛散布「選舉存在舞弊」的謠言。而報告最後一頁，則正是關於「針對選民心理分類投放信息」的內容。

在這一系列事件中，臉書公司扮演了極不光彩的角色。

首先，他們很早就知道了這一大規模數據搜集行為。爆料人Wylie告訴衛報，Kogan的應用軟體一開始下載海量用戶數據，臉書的內部安全監控程序就已發現。但Kogan向臉書解釋說這一切都是為了「學術用途」，臉書就沒有再進行任何追究。

正常人容易想到，哪怕臉書無力進行追查，也應該及時向公眾和美國政府告知這一大規模數據泄露事件。公眾一旦知情，總有人會反省自己在臉書上所看到的世界，是否為有人盜取了自己信息後、為某種特定目的所特意構造而成。

原文：https://weibo.com/ttarticle/p/show?id=2309404218901671052061

－馬上學習挑戰百萬年薪－

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 AI講堂 的精彩文章:

※再見「黑盒」：研究人員教AI解釋自己！
※DeepMind提出「SACX」學習範式，訓練機器人解決稀疏獎勵任務

TAG:AI講堂 |