特朗普「逆襲」取勝，為什麼所有預測機構都出錯了？

知識 11-11

題圖來源：Yestone.com 版權圖片庫

知友｜Yiqin Fu

微軟的 PredictWise、《紐約時報》的 The Upshot、普林斯頓的 Sam Wang 在選舉當天早上給出的特朗普獲勝概率都在 10% 上下。

唯一一個不同聲音來自 FiveThirtyEight。該網站主編 Nate Silver 給出的概率是 29%，這也差不多是博彩市場開出的賠率。

有意思的是，選舉前 29% 這個數字引發了巨大爭議，許多政治評論員和其他做預測的分析師都認為 Silver 的模型高估了特朗普。

現在看來，無論哪一家預測機構都不同程度上「出錯」了。Silver 過去兩屆大選對 100 個州的預測只錯了一個（2008 年印第安納），而這一屆錯了六個 **。

民調錯誤導致預測錯誤：被「低估」的中西部工人階級

為什麼所有的預測都錯了？這得怪預測模型依賴的民調。在複雜的模型背後，其實就是每天新聞里播報的民調結果，不同預測機構只是採用不同方法把民調結果加權綜合。所以如果民調出大錯，預測也一定跟著錯。

下圖可以看出，民調在許多州偏差了四個百分點以上，偏差最大的分別是俄亥俄、威斯康星、愛荷華、賓夕法尼亞、明尼蘇達、北卡、密歇根。

打開地圖，我們發現問題顯而易見。這六個州，有五個都位於中西部銹帶（Rust Belt）。

所謂「銹帶」，是美國上世紀因工業繁榮起來的地區，如今它們因為全球貿易的發達而輝煌不再。這裡有大量對全球化持負面態度的工人階級。

今年民主黨初選，堅決反對貿易協定的桑德斯也在密歇根州意外獲勝，儘管此前民調一直顯示希拉里領先。

民調機構出錯，在於他們的取樣或投票率（turnout）模擬出了問題。

雖然好的民調機構都會從已登記選民中隨機取樣，但他們在拿到原始數據以後還是要對不同族群的投票率做一個估計，即到底有多少人確實會去投票。

假設 30 歲以下選民在原始的調查樣本里占 10%，但根據上一屆選舉的結果，調查機構可能會認為 30 歲以下選民只會佔這次選舉的 5%，那麼機構就會減少這類人在調查中的權重。

但究竟應該參考哪些因素來估計投票率，沒有誰能給出完美答案，所以各家機構發布的民調其實都有各家自己的假設（assumptions）。

這次的 2016 年大選中，中西部的民調一定是估計錯了某個 / 些族群的投票率，或在調查中沒有接觸到某類人群，而這類族群又更有可能支持特朗普。

根據目前的粗略數據，這類族群有可能是白人、沒有大學教育的人、藍領。

威斯康星是一個非常典型的例子。選舉前兩周，沒有一家民調顯示特朗普領先。

也就是說再厲害的預測模型也不會預測出特朗普獲勝（預測模型完全來自民調）。

下圖的九個預測機構，投票日當天全部顯示希拉里有很大可能贏下威斯康星。

但最終結果是特朗普以一個百分點的優勢獲勝。

這種民調錯誤導致的預測錯誤是毀滅性的，因為美國大選制度是「贏家通吃」——即不管特朗普贏過希拉里一票還是一百萬票，該州的選舉人票全歸特朗普——所以預測「希拉里（以五個百分點優勢）贏下威斯康星」和「特朗普（以一個百分點優勢）贏下威斯康星」的差別是非常大的。

為什麼出口民調（exit polls）不靠譜

在閱讀分析大選的文章時請警惕對出口民調的過度解讀。出口民調是投票當天在投票站外對選民的調查，很多分析文章（錯誤地）認為出口民調數據可以很好反應整個大選的情況，例如出口民調顯示特朗普的西語裔得票率超過羅姆尼 2012 年的得票率，因此文章認為整個大選的情況必然也是這樣。

但出口民調本身有非常多的問題，並不可信。這次最早公布的出口民調顯示希拉里在搖擺州大幅領先，最終結果完全相反。

出口民調不靠譜的原因前人已經總結得很詳細，這裡不再贅述。簡單說還是預估投票率的問題。你不知道真正的選民中有多少是 60 歲白人女性，所以當你採訪到一個 60 歲白人女性的時候，你該如何給她答案加權？加權的多少一定包含了很多假設（assumptions）。

那究竟應該如何分析大選呢？一種方法是找每個郡投票數據和人口普查數據的相關性，這個在投票當天就可以做。

另一種是等到若干年月以後，拿更詳細的選民信息做更細緻的族群分析（有多少亞裔投了票、有多少 65 歲以上老年人投給了特朗普）。

樣本小，預測未來總是很難

預測美國大選或其他社會事件的最大難題在於樣本太小。實驗可以重複多次，但社會事件不常發生。現在普遍運用的預測模型完全依賴民調，而美國大選民調從 2000 年以後才開始比較靠譜，所以樣本大小是四。

如果把條件放寬，最多可以找到 1972 年的數據，樣本是 11，且這裡又多了很多假設（assumptions）。

人們為什麼支持特朗普？怎樣鼓勵支持者出門投票？一些假設的推翻

網上許多從事相關行業的人都在說，這次大選對政治學的震撼就像 2008 年對經濟學的震撼一樣。此前政治學界的許多主流理論在現在看來似乎並不適用。

例如在「人們如何決定投給誰」這個問題上，主流理論包括「選民追隨黨內精英的信號投票」、「選民根據意識形態投票」等等，但似乎這次選舉，「體制外 / 體制內」是選民重要的投票依據。

民主黨初選時，許多分析師對桑德斯的評價是他的意識形態太激進，脫離美國主流觀念，如果拿到民主黨提名進入十一月的大選，一定會輸。不過現在想想，說不定他「體制外」的形象可以足夠讓選民忽略他非常激進的政策提議。

再例如「怎樣讓更多支持者去投票」（GOTV）這個問題，先前的研究發現電視廣告、郵寄選民信件的效果微乎其微，甚至多數時候是「虧本」買賣，但是地面部隊挨家挨戶敲門相對有效。

希拉里團隊花了大量精力和資源組建地面部隊，且繼承了幫助奧巴馬兩次當選、被媒體宣傳的神乎其神的團隊。而特朗普除了利用現有的共和黨網路，並沒有大規模組建自己的隊伍。

臨近大選日，媒體經常講到希拉里團隊組織少數族裔、年輕人積極投票，各地提早投票的數量遠超往屆，但最終，沒有組建自己地面部隊的特朗普反而在中西部意外讓很多支持者走出家門。

希拉里整個競選周期的花費是特朗普的很多很多倍。

再講到社會分歧（social cleavage），傳統理論說階級投票（class voting）在很多發達國家已經連續下降很多年了，但這次的美國大選，階級是最好的預測指標，即如果知道一個人是藍領，可以很好地預測他是否支持特朗普。

另一個社會分歧性別（gender），反而在這次大選中沒有預期的明顯，儘管這次大選雙方是美國歷史上第一個女性候選人和一個被曝出不雅言論的男性候選人。

#什麼都沒用 #NothingMatters

出人意料的事件發生後，整天看民調、看預測的人們（應該只有我...）很容易產生「什麼都沒用」的想法。

好像希拉里花了這麼多錢、雇了這麼多人去敲門並沒有什麼用？民調機構做這麼多調查、預測機構建複雜模型並沒有什麼用？

對這種疑問，一種回復是「我們永遠不知道如果希拉里沒花這些錢會怎樣」，也就是說「說不定她輸得更多」。

另一種回復是，每一次投票、每一次民調錯誤和預測錯誤，都是珍貴的樣本，可以幫助我們在未來更接近真相。

接下來看什麼：絕對票數（popular vote）vs. 選舉人票數（electoral college）

雖然希拉里已經承認敗選，但大選還是有很多可以看。最有意思的應該就是希拉里是否能贏下絕對票數，目前各預測機構還是看好她在絕度票數上超過特朗普。

因為民主黨選民很多集中在幾個州（加州、紐約），所以如果希拉里在加州把奧巴馬 2012 年的優勢提高一個百分點，那麼絕對票數就會比對手多幾萬。

但因為加州一直是民主黨拿下，所以希拉里在那裡拉大優勢並沒有用，反而是特朗普在賓夕法尼亞等州超出以往共和黨水平的表現給他帶來了關鍵的選舉人票。

如果最終希拉里真的贏下絕對票數，那麼最近五屆美國大選將有兩屆的絕對票數獲勝者最終落敗。

點擊「閱讀原文」下載知乎日報 App

TAG: |

您可能感興趣

※精準預測出你的運勢不可錯過這次機會
※特朗普贏了，美國媒體的預測全錯了，現在世界是什麼反應？
※為什麼總覺得星座預測性格特別准？
※暗物質到底是什麼？超級計算機首次做出預測
※特朗普時間不多了？超出全世界的神預測：他還能當幾年總統？
※希特勒對德國的結果早有預測，可惜他再也沒有了其他的退路
※戰爭的勝敗可以預測嗎？看完就知道了
※精準預測：你一生的運勢如何，什麼時候有姻緣
※美軍可以預測未來？仗還沒打，就判定勝負，這以後還用真打仗嗎？
※地震為什麼不能預測？這回全都知道了！
※為什麼算命在有些情況下可以準確預測或判斷某些信息？
※馬雲又要搞事情了？預測五年讓手機消失，你還離的開嗎？
※這幾種草普通可見，卻有能預測地震的奇特本領
※一款預測罪犯評估軟體竟然存在「機器偏見」，誰該負責？
※總決賽預測誰會贏馬健道出玄機這種情況勇士必勝
※所有票房預測都沒提到它，但這才是本檔期最令人意外的黑馬
※霍金到底是誰？他憑什麼可以預測宇宙，預測未來？
※塔羅預測：是什麼讓你會愛錯了人？
※為什麼有人相信自己能預測未來？